找回密码
 加入我们
搜索
      
楼主: jaycty

[软件] 某播放器250909增加了whisper AI实时生成字幕的功能,超级好用

[复制链接]
 楼主| 发表于 2025-9-19 00:11 | 显示全部楼层
BloodRaining 发表于 2025-9-18 23:35
用我的5090试了试 最大模型ggml-large-v3-turbo,体验强悍无比,代价是5090直接占用10G显存,机箱风扇转速 ...

这个模型是最大的吗?才1.5GB大小啊。我这里只吃2G多显存,没有ggml-large-v3.bin吃得多
 楼主| 发表于 2025-9-19 00:11 | 显示全部楼层
powerduke 发表于 2025-9-18 23:41
https://www.koc.com.tw/archives/595714

网上的方法试了下,pot可以本地llm翻译,效果可用,测试了下,开 ...

我回头试试看
发表于 2025-9-19 00:19 | 显示全部楼层
字幕跑了几段之后直接消失,看转换引擎还在启用,很正常
不知道怎解决....
发表于 2025-9-19 00:33 | 显示全部楼层
1080P的无字幕版Dracula A Love Tale (2025)mp4测试,

字幕生成 + 自动翻译,5070ti已经接近100%占用率了,这还没算madvr算力部分已经放在了核显上跑(占用率60%)

缺点是需要设置+gpu满载,优点是任何视频都可以自动翻译中文了,a3b翻译结果完全接受,甚至怀疑是不是这个模型训练时候素材里有xx动作片的日中对照字幕文本  

SNAG-0007 - 副本.jpg
 楼主| 发表于 2025-9-19 00:40 | 显示全部楼层
powerduke 发表于 2025-9-19 00:33
1080P的无字幕版Dracula A Love Tale (2025)mp4测试,

字幕生成 + 自动翻译,5070ti已经接近100%占用率了 ...

生成字幕其实不咋吃GPU,主要是那个翻译吃GPU,毕竟需要使用一个足够强大的LLM作为基础,不然翻出来的字句都没法看
 楼主| 发表于 2025-9-19 00:44 | 显示全部楼层
allensakura 发表于 2025-9-19 00:19
字幕跑了几段之后直接消失,看转换引擎还在启用,很正常
不知道怎解决.... ...

显卡性能不足
发表于 2025-9-19 01:08 | 显示全部楼层
sun1a2b3c4d 发表于 2025-9-18 22:12
请问large的v3性能最好吧?Vulkan和CUDA用哪个好呢?

非实时用的vulcan,他推荐的那个一直下载不下来。

实时选的vlucan(客户端推荐),不需要额外下载引擎文件,模型选最大的ggml-large-v3,显卡5080OC,仅供参考。
发表于 2025-9-19 01:11 | 显示全部楼层
本帖最后由 sun1a2b3c4d 于 2025-9-19 01:15 编辑
BloodRaining 发表于 2025-9-18 23:35
用我的5090试了试 最大模型ggml-large-v3-turbo,体验强悍无比,代价是5090直接占用10G显存,机箱风扇转速 ...


turbo是给偏好更快推理速度的用户用的,如果你想更准确应该用v3。
发表于 2025-9-19 01:17 | 显示全部楼层
Wang_Yves 发表于 2025-9-19 01:08
非实时用的vulcan,他推荐的那个一直下载不下来。

实时选的vlucan(客户端推荐),不需要额外下载引擎文 ...

多谢,我的设定和你一样,但是Auto模式下有时会出现语种识别错误的情况,最好还是手动选择。
发表于 2025-9-19 01:20 | 显示全部楼层
sun1a2b3c4d 发表于 2025-9-19 01:17
多谢,我的设定和你一样,但是Auto模式下有时会出现语种识别错误的情况,最好还是手动选择。 ...

那就是选Chinese呗
发表于 2025-9-19 01:22 | 显示全部楼层
本帖最后由 allensakura 于 2025-9-19 03:18 编辑


7800X3D 4080
开启生成有声字幕,运行显示正常,不断识别出字幕
但是影片本身就是没有

---------------------
知道了,要选字幕,有声字幕即时
发表于 2025-9-19 01:30 | 显示全部楼层
最近有项目用到whisper和微软的speech text,感觉质量离生产力还是有不小的差距的
 楼主| 发表于 2025-9-19 02:06 | 显示全部楼层
wm1128 发表于 2025-9-19 01:30
最近有项目用到whisper和微软的speech text,感觉质量离生产力还是有不小的差距的 ...

目前我用过的语音识别率最强的是豆包。
发表于 2025-9-19 02:33 | 显示全部楼层
麻烦LZ私个直播源+1,感谢
发表于 2025-9-19 03:16 | 显示全部楼层
sun1a2b3c4d 发表于 2025-9-19 01:17
多谢,我的设定和你一样,但是Auto模式下有时会出现语种识别错误的情况,最好还是手动选择。 ...

源语言自动或者手选,展示字幕用源语言auto,感觉它自动的翻译不太行。
想看中文,手动装个翻译插件,我用的小牛。
发表于 2025-9-19 05:01 | 显示全部楼层
用Ohllma可以+ Qwen 3.2b模型  可以翻译...日文和英文都可以....

勉强能看...不怎么吃算力...3070正在用
发表于 2025-9-19 07:43 来自手机 | 显示全部楼层
支持哪些国家语言 有日语不 ,看番就方便了。
发表于 2025-9-19 08:13 | 显示全部楼层
人类,留给你们的时间不多了
发表于 2025-9-19 08:23 | 显示全部楼层
有模型跑本地翻译,我已经看了几部SONE的中文电影
发表于 2025-9-19 08:47 | 显示全部楼层
这个需要安装python cuda驱动那些吗

还是只要下个模型就可以了
发表于 2025-9-19 10:09 | 显示全部楼层
日语效果如何
发表于 2025-9-19 10:38 | 显示全部楼层
可以离线输出字幕吗?实时跑我怕性能不够···
发表于 2025-9-19 10:46 | 显示全部楼层
注意按hf上写的,只有large系列支持多语言,其他好像只支持英文。
下载不了的可以手动去hf下,不过要**。下载地址
下载后缀.bin的,名字和播放器中名字一致。
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-9-19 11:03 , Processed in 0.009597 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表