找回密码
 加入我们
搜索
      
查看: 12822|回复: 126

[软件] Po哦t播放器250909增加了whisper AI实时生成字幕的功能,超级好用

  [复制链接]
发表于 2025-9-18 19:52 | 显示全部楼层 |阅读模式
本帖最后由 jaycty 于 2025-9-19 13:04 编辑

更新250909版本之后,在播放窗口点右键,选择subtitles -> create subtitles from audio(real time),选一个model,等他自动下载即可。

模型文件目录:%userprofile%\AppData\Roaming\Po哦tPlayerMini64\Model


我随便下了几个
ggml-tiny.bin 74MB
ggml-tiny.en.bin 74.1MB
ggml-base.bin 141MB
ggml-large-v3.bin 2.88GB

经网友提示,模型可以直接去HF下载,网址是这个https://huggingface.co/ggerganov/whisper.cpp/tree/main
大家找我上面列出的同名/类似名字的文件下载即可,然后放在模型文件目录即可

目前在使用最大的模型,我是RTX5070显卡

初步体验结论:效果一流。他会预读取音频来进行翻译,所以只要你的视频不是0秒起手就开始有人讲话的话,那么当你播放到讲话的时间帧,字幕就已经生成完了。目前试了中英文视频都没啥问题。甚至电视直播都可以翻译

我真爱AI

不过字幕实时翻译功能似乎还只能接入各个服务商的API啊,啥时候也能像这个听音写字幕功能一样跑本地模型就好了。到时候,各大字幕组终于可以杀青了

**Mini64_5msH6a1UzJ.jpg

**Mini64_O0tzsU5Evi.jpg

 楼主| 发表于 2025-9-18 20:07 | 显示全部楼层


支持,英文视频和中文视频我全试了,特别厉害。语言保持默认的AUTO即可
 楼主| 发表于 2025-9-18 20:25 | 显示全部楼层
皇冠3.0L 发表于 2025-9-18 20:23
模型下载到本地硬盘后,生成字幕还依赖网络吗?
能不能断网离线生成


核心功能应该是不依赖网络的,不像那个翻译,需要网络API
 楼主| 发表于 2025-9-18 20:39 | 显示全部楼层
本帖最后由 jaycty 于 2025-9-18 20:41 编辑
aozorahishi 发表于 2025-9-18 20:34
翻译也本地化可以本地跑一个模型,在播放器里通过鸡皮提的翻译插件走api翻译
https://github.com/Felix3322 ...


去年我对接过deepseek的模型,不是太好用,跑起来比较慢,思考过程也都显示出来了,我不太会调。
这项目看起来又更新了,回头我试试看看是不是变得好用了。其实最好还是POT官方自己做一个本地功能比较好,省事,适合我这种懒人
 楼主| 发表于 2025-9-18 21:12 | 显示全部楼层
ndswj 发表于 2025-9-18 20:46
试了一下,生成中文好像是繁体字

可能跟说话口音有关系,我也遇到过繁体字。但只要字正腔圆的标准发音视频都是简体字
 楼主| 发表于 2025-9-19 00:11 | 显示全部楼层
BloodRaining 发表于 2025-9-18 23:35
用我的5090试了试 最大模型ggml-large-v3-turbo,体验强悍无比,代价是5090直接占用10G显存,机箱风扇转速 ...

这个模型是最大的吗?才1.5GB大小啊。我这里只吃2G多显存,没有ggml-large-v3.bin吃得多
 楼主| 发表于 2025-9-19 00:11 | 显示全部楼层
powerduke 发表于 2025-9-18 23:41
https://www.koc.com.tw/archives/595714

网上的方法试了下,pot可以本地llm翻译,效果可用,测试了下,开 ...

我回头试试看
 楼主| 发表于 2025-9-19 00:40 | 显示全部楼层
powerduke 发表于 2025-9-19 00:33
1080P的无字幕版Dracula A Love Tale (2025)mp4测试,

字幕生成 + 自动翻译,5070ti已经接近100%占用率了 ...

生成字幕其实不咋吃GPU,主要是那个翻译吃GPU,毕竟需要使用一个足够强大的LLM作为基础,不然翻出来的字句都没法看
 楼主| 发表于 2025-9-19 00:44 | 显示全部楼层
allensakura 发表于 2025-9-19 00:19
字幕跑了几段之后直接消失,看转换引擎还在启用,很正常
不知道怎解决.... ...

显卡性能不足
 楼主| 发表于 2025-9-19 02:06 | 显示全部楼层
wm1128 发表于 2025-9-19 01:30
最近有项目用到whisper和微软的speech text,感觉质量离生产力还是有不小的差距的 ...

目前我用过的语音识别率最强的是豆包。
 楼主| 发表于 2025-9-19 12:02 | 显示全部楼层
BloodRaining 发表于 2025-9-19 11:50
v3最大,turbo不大我理解错误。看有个turbo以为更强

turbo应该是加速的意思,缩减了一些


chrome_yeOWt7cmio.jpg
 楼主| 发表于 2025-9-19 12:02 | 显示全部楼层
graz_chell 发表于 2025-9-19 11:51
请问下,AMD显卡能用吗?看回复基本都是N卡,是只能N卡么。。

应该是可以的,我用i5 8265u都可以,但是非常慢,完全不可用。
 楼主| 发表于 2025-9-19 12:04 | 显示全部楼层
allensakura 发表于 2025-9-19 11:25
翻译效果最好的是qwen3-30b-A3B,但是恐怕要24G才能跟上实时翻译的需求,特别是large-v3语音识别还要吃2. ...

翻译还是等几年再说吧,或者哪个网络AI服务商大发慈悲给大家随便接入就好了。
 楼主| 发表于 2025-9-19 15:28 | 显示全部楼层
megaslx 发表于 2025-9-19 15:24
很多电视剧或者电影其实是由英语字幕的,到不一定非要语音转文字才能翻译,不知道能不能直接从内嵌字幕着手 ...


这AI功能肯定更好,但是更加高级了,目前还不能普及到PC无脑使用吧,过几年吧。目前仅仅是AI直接读取A语言文本翻译成B语言,就已经很吃硬件配置了。绝大部分PC硬件都跑不快,延迟大
 楼主| 发表于 2025-9-19 21:54 | 显示全部楼层
netjunegg 发表于 2025-9-19 21:26
确实有这需求,不一定实时。如果有个独立工具,可以根据视频文件生成字幕文件也很好。 字幕生成后,再用播 ...


这个功能这次v250909更新其实也有的。你可以试试

而且如果字幕可以提取出来的话,把文件后缀改成txt然后丢给豆包跟他说这个是字幕文件让他帮忙翻译一下就行了,很快就搞定。速度贼快
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-11-5 04:06 , Processed in 0.010314 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表