某播放器250909增加了whisper AI实时生成字幕的功能，超级好用

jaycty 发表于 2025-9-18 19:52

本帖最后由 jaycty 于 2025-9-19 00:43 编辑

更新250909版本之后，在播放窗口点右键，选择subtitles -> create subtitles from audio(real time)，选一个model，等他自动下载即可。

模型文件在%userprofile%\AppData\Roaming\**Mini64\Model

我随便下了几个
ggml-tiny.bin 74MB
ggml-tiny.en.bin 74.1MB
ggml-base.bin 141MB
ggml-large-v3.bin 2.88GB

目前在使用最大的模型，我是RTX5070显卡

初步体验结论：效果一流。他会预读取音频来进行翻译，所以只要你的视频不是0秒起手就开始有人讲话的话，那么当你播放到讲话的时间帧，字幕就已经生成完了。目前试了中英文视频都没啥问题。甚至电视直播都可以翻译

我真爱AI

不过字幕实时翻译功能似乎还只能接入各个服务商的API啊，啥时候也能像这个听音写字幕功能一样跑本地模型就好了。到时候，各大字幕组终于可以杀青了

crystone 发表于 2025-9-18 19:53

啥播放器？pot？

逃学生 发表于 2025-9-18 19:53

Mark一下，回去试试

皇冠3.0L 发表于 2025-9-18 20:06

支持普通话吗？

jaycty 发表于 2025-9-18 20:07

皇冠3.0L 发表于 2025-9-18 20:06
支持普通话吗？

支持，英文视频和中文视频我全试了，特别厉害。语言保持默认的AUTO即可

皇冠3.0L 发表于 2025-9-18 20:23

jaycty 发表于 2025-9-18 20:07
支持，英文视频和中文视频我全试了，特别厉害。语言保持默认的AUTO即可 ...

模型下载到本地硬盘后，生成字幕还依赖网络吗？
能不能断网离线生成

jaycty 发表于 2025-9-18 20:25

皇冠3.0L 发表于 2025-9-18 20:23
模型下载到本地硬盘后，生成字幕还依赖网络吗？
能不能断网离线生成

核心功能应该是不依赖网络的，不像那个翻译，需要网络API

aozorahishi 发表于 2025-9-18 20:34

翻译也本地化可以本地跑一个模型，在播放器里通过鸡皮提的翻译插件走api翻译
https://github.com/Felix3322/

绿茵豪门 发表于 2025-9-18 20:35

有时间试试~~~

jaycty 发表于 2025-9-18 20:39

本帖最后由 jaycty 于 2025-9-18 20:41 编辑

aozorahishi 发表于 2025-9-18 20:34
翻译也本地化可以本地跑一个模型，在播放器里通过鸡皮提的翻译插件走api翻译
https://github.com/Felix3322 ...

去年我对接过deepseek的模型，不是太好用，跑起来比较慢，思考过程也都显示出来了，我不太会调。
这项目看起来又更新了，回头我试试看看是不是变得好用了。其实最好还是POT官方自己做一个本地功能比较好，省事，适合我这种懒人

dgpwin 发表于 2025-9-18 20:40

某播放器?

aozorahishi 发表于 2025-9-18 20:42

jaycty 发表于 2025-9-18 20:39
去年我对接过deepseek的模型，不是太好用，跑起来比较慢，思考过程也都显示出来了，我不太会调。 ...

我直接用qwen-turbo体验还过得去，本地5050也跑不了啥模型不如用在线的api

ndswj 发表于 2025-9-18 20:46

试了一下，生成中文好像是繁体字

af_x_if 发表于 2025-9-18 20:58

我是mpv派的

皇冠3.0L 发表于 2025-9-18 20:59

ndswj 发表于 2025-9-18 20:46
试了一下，生成中文好像是繁体字

你下载的视频，是不是台湾腔[偷笑]

jaycty 发表于 2025-9-18 21:12

ndswj 发表于 2025-9-18 20:46
试了一下，生成中文好像是繁体字

可能跟说话口音有关系，我也遇到过繁体字。但只要字正腔圆的标准发音视频都是简体字

jifenghas 发表于 2025-9-18 21:17

B站也有了今天我同事看一个UP 播游戏里面就有AI翻译

zibing 发表于 2025-9-18 21:25

麻烦大佬私个直播源，感谢感谢！

萌猪哥哥 发表于 2025-9-18 21:34

B站搞了个直接语音翻译的大模型，看了下效果还挺不错

邪恶的光B 发表于 2025-9-18 21:35

这功能挺好的，等会试试三上悠亚、桃乃木香奈的电影[偷笑][偷笑][偷笑]

kanshuderen 发表于 2025-9-18 21:36

更新的时候也看到了这个更新内容，不过还没试。。。。

rikechen 发表于 2025-9-18 22:09

谢谢楼主，我也搞定了，学到知识了

sun1a2b3c4d 发表于 2025-9-18 22:12

本帖最后由 sun1a2b3c4d 于 2025-9-18 22:19 编辑

请问large的v3性能最好吧？Vulkan和CUDA用哪个好呢？

hallo2014 发表于 2025-9-18 22:32

已经用了一段时间，电影、电视只能说能看个基本情况，和机翻效果差不多，与字幕组的翻译还有一定差距，包括各位老师们的片子。

hallo2014 发表于 2025-9-18 22:43

有些场景，啥说话音都翻译，还是机翻，很影响观感[偷笑]，现阶段看片还是得找字幕组的

loughlion 发表于 2025-9-18 22:48

什么播放器？**？

流氓海 发表于 2025-9-18 22:52

有没有下载好的模型啊，自己下载太久了

YsHaNg 发表于 2025-9-18 23:15

jaycty 发表于 2025-9-18 12:39
去年我对接过deepseek的模型，不是太好用，跑起来比较慢，思考过程也都显示出来了，我不太会调。
这项目 ...

本地起个ollama和openai api一样的 url用127.0.0.1:11434就能访问了用instruct模型或者qwen3系列 prompt /no_think

BloodRaining 发表于 2025-9-18 23:35

用我的5090试了试最大模型ggml-large-v3-turbo，体验强悍无比，代价是5090直接占用10G显存，机箱风扇转速起飞，牛逼，

powerduke 发表于 2025-9-18 23:41

https://www.koc.com.tw/archives/595714

网上的方法试了下，pot可以本地llm翻译，效果可用，测试了下，开英文字幕的自动翻译，字幕内容没问题，就是看视频需要占不少显存跑模型[傻笑]

结合openai的Whisper工具，pot是越来越方便了，就是太费算力，以后看个国外视频不整个n卡都不行了。

页: [1] 2

Chiphell - 分享与交流用户体验's Archiver

某播放器250909增加了whisper AI实时生成字幕的功能，超级好用