Po哦t播放器250909增加了whisper AI实时生成字幕的功能，超级好用

jaycty · 发表于 2025-9-19 00:11

BloodRaining 发表于 2025-9-18 23:35
用我的5090试了试最大模型ggml-large-v3-turbo，体验强悍无比，代价是5090直接占用10G显存，机箱风扇转速 ...

这个模型是最大的吗？才1.5GB大小啊。我这里只吃2G多显存，没有ggml-large-v3.bin吃得多

jaycty · 发表于 2025-9-19 00:11

powerduke 发表于 2025-9-18 23:41
https://www.koc.com.tw/archives/595714

网上的方法试了下，pot可以本地llm翻译，效果可用，测试了下，开 ...

我回头试试看

allensakura · 发表于 2025-9-19 00:19

字幕跑了几段之后直接消失，看转换引擎还在启用，很正常
不知道怎解决....

powerduke · 发表于 2025-9-19 00:33

1080P的无字幕版Dracula A Love Tale (2025)mp4测试，

字幕生成 + 自动翻译，5070ti已经接近100%占用率了，这还没算madvr算力部分已经放在了核显上跑（占用率60%）

缺点是需要设置+gpu满载，优点是任何视频都可以自动翻译中文了，a3b翻译结果完全接受，甚至怀疑是不是这个模型训练时候素材里有xx动作片的日中对照字幕文本

jaycty · 发表于 2025-9-19 00:40

powerduke 发表于 2025-9-19 00:33
1080P的无字幕版Dracula A Love Tale (2025)mp4测试，

字幕生成 + 自动翻译，5070ti已经接近100%占用率了 ...

生成字幕其实不咋吃GPU，主要是那个翻译吃GPU，毕竟需要使用一个足够强大的LLM作为基础，不然翻出来的字句都没法看

jaycty · 发表于 2025-9-19 00:44

allensakura 发表于 2025-9-19 00:19
字幕跑了几段之后直接消失，看转换引擎还在启用，很正常
不知道怎解决.... ...

显卡性能不足

Wang_Yves · 发表于 2025-9-19 01:08

sun1a2b3c4d 发表于 2025-9-18 22:12
请问large的v3性能最好吧？Vulkan和CUDA用哪个好呢？

非实时用的vulcan，他推荐的那个一直下载不下来。

实时选的vlucan（客户端推荐），不需要额外下载引擎文件，模型选最大的ggml-large-v3，显卡5080OC，仅供参考。

sun1a2b3c4d · 发表于 2025-9-19 01:11

本帖最后由 sun1a2b3c4d 于 2025-9-19 01:15 编辑

BloodRaining 发表于 2025-9-18 23:35
用我的5090试了试最大模型ggml-large-v3-turbo，体验强悍无比，代价是5090直接占用10G显存，机箱风扇转速 ...

turbo是给偏好更快推理速度的用户用的，如果你想更准确应该用v3。

sun1a2b3c4d · 发表于 2025-9-19 01:17

Wang_Yves 发表于 2025-9-19 01:08
非实时用的vulcan，他推荐的那个一直下载不下来。

实时选的vlucan（客户端推荐），不需要额外下载引擎文 ...

多谢，我的设定和你一样，但是Auto模式下有时会出现语种识别错误的情况，最好还是手动选择。

Wang_Yves · 发表于 2025-9-19 01:20

sun1a2b3c4d 发表于 2025-9-19 01:17
多谢，我的设定和你一样，但是Auto模式下有时会出现语种识别错误的情况，最好还是手动选择。 ...

那就是选Chinese呗

allensakura · 发表于 2025-9-19 01:22

本帖最后由 allensakura 于 2025-9-19 03:18 编辑

jaycty 发表于 2025-9-19 00:44
显卡性能不足

7800X3D 4080
开启生成有声字幕，运行显示正常，不断识别出字幕
但是影片本身就是没有

---------------------
知道了，要选字幕，有声字幕即时

wm1128 · 发表于 2025-9-19 01:30

最近有项目用到whisper和微软的speech text，感觉质量离生产力还是有不小的差距的

jaycty · 发表于 2025-9-19 02:06

wm1128 发表于 2025-9-19 01:30
最近有项目用到whisper和微软的speech text，感觉质量离生产力还是有不小的差距的 ...

目前我用过的语音识别率最强的是豆包。

enolc · 发表于 2025-9-19 02:33

麻烦LZ私个直播源+1，感谢

Wang_Yves · 发表于 2025-9-19 03:16

sun1a2b3c4d 发表于 2025-9-19 01:17
多谢，我的设定和你一样，但是Auto模式下有时会出现语种识别错误的情况，最好还是手动选择。 ...

源语言自动或者手选，展示字幕用源语言auto，感觉它自动的翻译不太行。
想看中文，手动装个翻译插件，我用的小牛。

pdokdy · 发表于 2025-9-19 05:01

用Ohllma可以+ Qwen 3.2b模型可以翻译...日文和英文都可以....

勉强能看...不怎么吃算力...3070正在用

iamyangyi · 发表于 2025-9-19 07:43

支持哪些国家语言有日语不，看番就方便了。

ternatcn · 发表于 2025-9-19 08:13

人类，留给你们的时间不多了

大名琴 · 发表于 2025-9-19 08:23

有模型跑本地翻译，我已经看了几部SONE的中文电影

popgame · 发表于 2025-9-19 08:47

这个需要安装python cuda驱动那些吗

还是只要下个模型就可以了

mcy9569 · 发表于 2025-9-19 10:09

日语效果如何

红色惊雷 · 发表于 2025-9-19 10:38

可以离线输出字幕吗？实时跑我怕性能不够···

创世神493 · 发表于 2025-9-19 10:46

注意按hf上写的，只有large系列支持多语言，其他好像只支持英文。
下载不了的可以手动去hf下，不过要**。下载地址
下载后缀.bin的，名字和播放器中名字一致。

allensakura · 发表于 2025-9-19 11:25

本帖最后由 allensakura 于 2025-9-19 11:39 编辑

红色惊雷发表于 2025-9-19 10:38
可以离线输出字幕吗？实时跑我怕性能不够···

翻译效果最好的是qwen3-30b-A3B，但是恐怕要24G才能跟上实时翻译的需求，特别是large-v3语音识别还要吃2.5G的情况下

lumiere · 发表于 2025-9-19 11:38

是不是科学上网才能下的到？

BloodRaining · 发表于 2025-9-19 11:49

sun1a2b3c4d 发表于 2025-9-19 01:11
turbo是给偏好更快推理速度的用户用的，如果你想更准确应该用v3。

多谢分享

BloodRaining · 发表于 2025-9-19 11:50

jaycty 发表于 2025-9-19 00:11
这个模型是最大的吗？才1.5GB大小啊。我这里只吃2G多显存，没有ggml-large-v3.bin吃得多 ...

v3最大，turbo不大我理解错误。看有个turbo以为更强

graz_chell · 发表于 2025-9-19 11:51

请问下，AMD显卡能用吗？看回复基本都是N卡，是只能N卡么。。

jaycty · 发表于 2025-9-19 12:02

BloodRaining 发表于 2025-9-19 11:50
v3最大，turbo不大我理解错误。看有个turbo以为更强

turbo应该是加速的意思，缩减了一些

jaycty · 发表于 2025-9-19 12:02

graz_chell 发表于 2025-9-19 11:51
请问下，AMD显卡能用吗？看回复基本都是N卡，是只能N卡么。。

应该是可以的，我用i5 8265u都可以，但是非常慢，完全不可用。

账号		自动登录	找回密码
密码			加入我们

[软件] Po哦t播放器250909增加了whisper AI实时生成字幕的功能，超级好用

浏览过的版块