某播放器250909增加了whisper AI实时生成字幕的功能,超级好用
本帖最后由 jaycty 于 2025-9-19 00:43 编辑更新250909版本之后,在播放窗口点右键,选择subtitles -> create subtitles from audio(real time),选一个model,等他自动下载即可。
模型文件在%userprofile%\AppData\Roaming\**Mini64\Model
我随便下了几个
ggml-tiny.bin 74MB
ggml-tiny.en.bin 74.1MB
ggml-base.bin 141MB
ggml-large-v3.bin 2.88GB
目前在使用最大的模型,我是RTX5070显卡
初步体验结论:效果一流。他会预读取音频来进行翻译,所以只要你的视频不是0秒起手就开始有人讲话的话,那么当你播放到讲话的时间帧,字幕就已经生成完了。目前试了中英文视频都没啥问题。甚至电视直播都可以翻译
我真爱AI
不过字幕实时翻译功能似乎还只能接入各个服务商的API啊,啥时候也能像这个听音写字幕功能一样跑本地模型就好了。到时候,各大字幕组终于可以杀青了
啥播放器?pot? Mark一下,回去试试 支持普通话吗? 皇冠3.0L 发表于 2025-9-18 20:06
支持普通话吗?
支持,英文视频和中文视频我全试了,特别厉害。语言保持默认的AUTO即可 jaycty 发表于 2025-9-18 20:07
支持,英文视频和中文视频我全试了,特别厉害。语言保持默认的AUTO即可 ...
模型下载到本地硬盘后,生成字幕还依赖网络吗?
能不能断网离线生成 皇冠3.0L 发表于 2025-9-18 20:23
模型下载到本地硬盘后,生成字幕还依赖网络吗?
能不能断网离线生成
核心功能应该是不依赖网络的,不像那个翻译,需要网络API 翻译也本地化可以本地跑一个模型,在播放器里通过鸡皮提的翻译插件走api翻译
https://github.com/Felix3322/ 有时间试试~~~ 本帖最后由 jaycty 于 2025-9-18 20:41 编辑
aozorahishi 发表于 2025-9-18 20:34
翻译也本地化可以本地跑一个模型,在播放器里通过鸡皮提的翻译插件走api翻译
https://github.com/Felix3322 ...
去年我对接过deepseek的模型,不是太好用,跑起来比较慢,思考过程也都显示出来了,我不太会调。
这项目看起来又更新了,回头我试试看看是不是变得好用了。其实最好还是POT官方自己做一个本地功能比较好,省事,适合我这种懒人 某播放器? jaycty 发表于 2025-9-18 20:39
去年我对接过deepseek的模型,不是太好用,跑起来比较慢,思考过程也都显示出来了,我不太会调。 ...
我直接用qwen-turbo体验还过得去,本地5050也跑不了啥模型不如用在线的api 试了一下,生成中文好像是繁体字 我是mpv派的 ndswj 发表于 2025-9-18 20:46
试了一下,生成中文好像是繁体字
你下载的视频,是不是台湾腔[偷笑] ndswj 发表于 2025-9-18 20:46
试了一下,生成中文好像是繁体字
可能跟说话口音有关系,我也遇到过繁体字。但只要字正腔圆的标准发音视频都是简体字 B站也有了 今天我同事看一个UP 播游戏 里面就有AI翻译 麻烦大佬私个直播源,感谢感谢! B站搞了个直接语音翻译的大模型,看了下效果还挺不错 这功能挺好的,等会试试三上悠亚、桃乃木香奈的电影[偷笑][偷笑][偷笑] 更新的时候也看到了这个更新内容,不过还没试。。。。 谢谢楼主,我也搞定了,学到知识了 本帖最后由 sun1a2b3c4d 于 2025-9-18 22:19 编辑
请问large的v3性能最好吧?Vulkan和CUDA用哪个好呢? 已经用了一段时间,电影、电视只能说能看个基本情况,和机翻效果差不多,与字幕组的翻译还有一定差距,包括各位老师们的片子。 有些场景,啥说话音都翻译,还是机翻,很影响观感[偷笑],现阶段看片还是得找字幕组的 什么播放器?**? 有没有下载好的模型啊,自己下载太久了 jaycty 发表于 2025-9-18 12:39
去年我对接过deepseek的模型,不是太好用,跑起来比较慢,思考过程也都显示出来了,我不太会调。
这项目 ...
本地起个ollama和openai api一样的 url用127.0.0.1:11434就能访问了 用instruct模型或者qwen3系列 prompt /no_think 用我的5090试了试 最大模型ggml-large-v3-turbo,体验强悍无比,代价是5090直接占用10G显存,机箱风扇转速起飞,牛逼, https://www.koc.com.tw/archives/595714
网上的方法试了下,pot可以本地llm翻译,效果可用,测试了下,开英文字幕的自动翻译,字幕内容没问题,就是看视频需要占不少显存跑模型[傻笑]
结合openai的Whisper工具,pot是越来越方便了,就是太费算力,以后看个国外视频不整个n卡都不行了。
页:
[1]
2