jaycty 发表于 2025-9-18 19:52

某播放器250909增加了whisper AI实时生成字幕的功能,超级好用

本帖最后由 jaycty 于 2025-9-19 00:43 编辑

更新250909版本之后,在播放窗口点右键,选择subtitles -> create subtitles from audio(real time),选一个model,等他自动下载即可。

模型文件在%userprofile%\AppData\Roaming\**Mini64\Model

我随便下了几个
ggml-tiny.bin 74MB
ggml-tiny.en.bin 74.1MB
ggml-base.bin 141MB
ggml-large-v3.bin 2.88GB

目前在使用最大的模型,我是RTX5070显卡

初步体验结论:效果一流。他会预读取音频来进行翻译,所以只要你的视频不是0秒起手就开始有人讲话的话,那么当你播放到讲话的时间帧,字幕就已经生成完了。目前试了中英文视频都没啥问题。甚至电视直播都可以翻译

我真爱AI

不过字幕实时翻译功能似乎还只能接入各个服务商的API啊,啥时候也能像这个听音写字幕功能一样跑本地模型就好了。到时候,各大字幕组终于可以杀青了





crystone 发表于 2025-9-18 19:53

啥播放器?pot?

逃学生 发表于 2025-9-18 19:53

Mark一下,回去试试

皇冠3.0L 发表于 2025-9-18 20:06

支持普通话吗?

jaycty 发表于 2025-9-18 20:07

皇冠3.0L 发表于 2025-9-18 20:06
支持普通话吗?

支持,英文视频和中文视频我全试了,特别厉害。语言保持默认的AUTO即可

皇冠3.0L 发表于 2025-9-18 20:23

jaycty 发表于 2025-9-18 20:07
支持,英文视频和中文视频我全试了,特别厉害。语言保持默认的AUTO即可 ...

模型下载到本地硬盘后,生成字幕还依赖网络吗?
能不能断网离线生成

jaycty 发表于 2025-9-18 20:25

皇冠3.0L 发表于 2025-9-18 20:23
模型下载到本地硬盘后,生成字幕还依赖网络吗?
能不能断网离线生成

核心功能应该是不依赖网络的,不像那个翻译,需要网络API

aozorahishi 发表于 2025-9-18 20:34

翻译也本地化可以本地跑一个模型,在播放器里通过鸡皮提的翻译插件走api翻译
https://github.com/Felix3322/

绿茵豪门 发表于 2025-9-18 20:35

有时间试试~~~

jaycty 发表于 2025-9-18 20:39

本帖最后由 jaycty 于 2025-9-18 20:41 编辑

aozorahishi 发表于 2025-9-18 20:34
翻译也本地化可以本地跑一个模型,在播放器里通过鸡皮提的翻译插件走api翻译
https://github.com/Felix3322 ...

去年我对接过deepseek的模型,不是太好用,跑起来比较慢,思考过程也都显示出来了,我不太会调。
这项目看起来又更新了,回头我试试看看是不是变得好用了。其实最好还是POT官方自己做一个本地功能比较好,省事,适合我这种懒人

dgpwin 发表于 2025-9-18 20:40

某播放器?

aozorahishi 发表于 2025-9-18 20:42

jaycty 发表于 2025-9-18 20:39
去年我对接过deepseek的模型,不是太好用,跑起来比较慢,思考过程也都显示出来了,我不太会调。 ...

我直接用qwen-turbo体验还过得去,本地5050也跑不了啥模型不如用在线的api

ndswj 发表于 2025-9-18 20:46

试了一下,生成中文好像是繁体字

af_x_if 发表于 2025-9-18 20:58

我是mpv派的

皇冠3.0L 发表于 2025-9-18 20:59

ndswj 发表于 2025-9-18 20:46
试了一下,生成中文好像是繁体字

你下载的视频,是不是台湾腔[偷笑]

jaycty 发表于 2025-9-18 21:12

ndswj 发表于 2025-9-18 20:46
试了一下,生成中文好像是繁体字

可能跟说话口音有关系,我也遇到过繁体字。但只要字正腔圆的标准发音视频都是简体字

jifenghas 发表于 2025-9-18 21:17

B站也有了 今天我同事看一个UP 播游戏 里面就有AI翻译

zibing 发表于 2025-9-18 21:25

麻烦大佬私个直播源,感谢感谢!

萌猪哥哥 发表于 2025-9-18 21:34

B站搞了个直接语音翻译的大模型,看了下效果还挺不错

邪恶的光B 发表于 2025-9-18 21:35

这功能挺好的,等会试试三上悠亚、桃乃木香奈的电影[偷笑][偷笑][偷笑]

kanshuderen 发表于 2025-9-18 21:36

更新的时候也看到了这个更新内容,不过还没试。。。。

rikechen 发表于 2025-9-18 22:09

谢谢楼主,我也搞定了,学到知识了

sun1a2b3c4d 发表于 2025-9-18 22:12

本帖最后由 sun1a2b3c4d 于 2025-9-18 22:19 编辑

请问large的v3性能最好吧?Vulkan和CUDA用哪个好呢?

hallo2014 发表于 2025-9-18 22:32

已经用了一段时间,电影、电视只能说能看个基本情况,和机翻效果差不多,与字幕组的翻译还有一定差距,包括各位老师们的片子。

hallo2014 发表于 2025-9-18 22:43

有些场景,啥说话音都翻译,还是机翻,很影响观感[偷笑],现阶段看片还是得找字幕组的

loughlion 发表于 2025-9-18 22:48

什么播放器?**?

流氓海 发表于 2025-9-18 22:52

有没有下载好的模型啊,自己下载太久了

YsHaNg 发表于 2025-9-18 23:15

jaycty 发表于 2025-9-18 12:39
去年我对接过deepseek的模型,不是太好用,跑起来比较慢,思考过程也都显示出来了,我不太会调。
这项目 ...

本地起个ollama和openai api一样的 url用127.0.0.1:11434就能访问了 用instruct模型或者qwen3系列 prompt /no_think

BloodRaining 发表于 2025-9-18 23:35

用我的5090试了试 最大模型ggml-large-v3-turbo,体验强悍无比,代价是5090直接占用10G显存,机箱风扇转速起飞,牛逼,

powerduke 发表于 2025-9-18 23:41

https://www.koc.com.tw/archives/595714

网上的方法试了下,pot可以本地llm翻译,效果可用,测试了下,开英文字幕的自动翻译,字幕内容没问题,就是看视频需要占不少显存跑模型[傻笑]

结合openai的Whisper工具,pot是越来越方便了,就是太费算力,以后看个国外视频不整个n卡都不行了。

页: [1] 2
查看完整版本: 某播放器250909增加了whisper AI实时生成字幕的功能,超级好用