找回密码
 加入我们
搜索
      
楼主: jaycty

[软件] Po哦t播放器250909增加了whisper AI实时生成字幕的功能,超级好用

  [复制链接]
发表于 2025-9-19 21:39 来自手机 | 显示全部楼层
还记得原来要先计算一遍 现在都实时了 还是有进步啊
1000009428.jpg
 楼主| 发表于 2025-9-19 21:54 | 显示全部楼层
netjunegg 发表于 2025-9-19 21:26
确实有这需求,不一定实时。如果有个独立工具,可以根据视频文件生成字幕文件也很好。 字幕生成后,再用播 ...


这个功能这次v250909更新其实也有的。你可以试试

而且如果字幕可以提取出来的话,把文件后缀改成txt然后丢给豆包跟他说这个是字幕文件让他帮忙翻译一下就行了,很快就搞定。速度贼快
发表于 2025-9-19 23:00 | 显示全部楼层
唱歌这种会改变汉字音调的,他也识别不准
发表于 2025-9-19 23:25 | 显示全部楼层
qqqqqqqq.png
勉强能用,感觉不是很智能。
发表于 2025-9-20 01:01 | 显示全部楼层
流氓海 发表于 2025-9-18 22:52
有没有下载好的模型啊,自己下载太久了

openai的whisper有下载地址的,微软自己的服务器下载速度很快啊。

模型地址,2.88G很快就下完了。
_MODELS = {
    "tiny.en": "https://openaipublic.azureedge.net/main/whisper/models/d3dd57d32accea0b295c96e26691aa14d8822fac7d9d27d5dc00b4ca2826dd03/tiny.en.pt",
    "tiny": "https://openaipublic.azureedge.net/main/whisper/models/65147644a518d12f04e32d6f3b26facc3f8dd46e5390956a9424a650c0ce22b9/tiny.pt",
    "base.en": "https://openaipublic.azureedge.net/main/whisper/models/25a8566e1d0c1e2231d1c762132cd20e0f96a85d16145c3a00adf5d1ac670ead/base.en.pt",
    "base": "https://openaipublic.azureedge.net/main/whisper/models/ed3a0b6b1c0edf879ad9b11b1af5a0e6ab5db9205f891f668f8b0e6c6326e34e/base.pt",
    "small.en": "https://openaipublic.azureedge.net/main/whisper/models/f953ad0fd29cacd07d5a9eda5624af0f6bcf2258be67c92b79389873d91e0872/small.en.pt",
    "small": "https://openaipublic.azureedge.net/main/whisper/models/9ecf779972d90ba49c06d968637d720dd632c55bbf19d441fb42bf17a411e794/small.pt",
    "medium.en": "https://openaipublic.azureedge.net/main/whisper/models/d7440d1dc186f76616474e0ff0b3b6b879abc9d1a4926b7adfa41db2d497ab4f/medium.en.pt",
    "medium": "https://openaipublic.azureedge.net/main/whisper/models/345ae4da62f9b3d59415adc60127b97c714f32e89e936602e85993674d08dcb1/medium.pt",
    "large-v1": "https://openaipublic.azureedge.net/main/whisper/models/e4b87e7e0bf463eb8e6956e646f1e277e901512310def2c24bf0e11bd3c28e9a/large-v1.pt",
    "large-v2": "https://openaipublic.azureedge.net/main/whisper/models/81f7c96c852ee8fc832187b0132e569d6c3065a3252ed18e56effd0b6a73e524/large-v2.pt",
    "large-v3": "https://openaipublic.azureedge.net/main/whisper/models/e5b1a55b89c1367dacf97e3e19bfd829a01529dbfdeefa8caeb59b3f1b81dadb/large-v3.pt",
    "large": "https://openaipublic.azureedge.net/main/whisper/models/e5b1a55b89c1367dacf97e3e19bfd829a01529dbfdeefa8caeb59b3f1b81dadb/large-v3.pt",
    "large-v3-turbo": "https://openaipublic.azureedge.net/main/whisper/models/aff26ae408abcba5fbf8813c21e62b0941638c5f6eebfb145be0c9839262a19a/large-v3-turbo.pt",
    "turbo": "https://openaipublic.azureedge.net/main/whisper/models/aff26ae408abcba5fbf8813c21e62b0941638c5f6eebfb145be0c9839262a19a/large-v3-turbo.pt",
}
发表于 2025-9-20 02:06 | 显示全部楼层
本地部属个人有几个选项
qwen3-30b-a3b-2507,17G,大小最大速度最慢,效果也最好
sakura-galtransl-14b-v3.8,8G,QWEN2.5的底子,针对“那方面”特别训练过,大小中等
hunyuan-mt-7b,4G,专针对翻译训练,这应该是这个大小目前翻译能力最好的模型了,再更小都是胡言乱语级别
发表于 2025-9-20 02:13 | 显示全部楼层

老师们的电影效果如何
发表于 2025-9-20 04:13 | 显示全部楼层
是不是只能支持WMV格式啊?!
发表于 2025-9-20 06:06 | 显示全部楼层
xiao88 发表于 2025-9-20 04:13
是不是只能支持WMV格式啊?!

没有特定视频的格式吧,因为是从音轨识别音频的
发表于 2025-9-20 10:43 | 显示全部楼层
日文可以吗
发表于 2025-9-20 11:04 | 显示全部楼层


可以用,但是为了避免出现语种识别问题,建议手动改为日文而不是用Auto。
发表于 2025-9-20 11:13 | 显示全部楼层
兄弟,能不能把那几个模型文件上传到百度网盘或者其它网盘啊?那个链接打不开,应该需要科学吧
发表于 2025-9-20 12:09 | 显示全部楼层
已经好久没更新过这个pot了
发表于 2025-9-20 14:55 | 显示全部楼层
毛毛叉 发表于 2025-9-20 11:13
兄弟,能不能把那几个模型文件上传到百度网盘或者其它网盘啊?那个链接打不开,应该需要科学吧 ...

s/1ZysokcNH3x1RBberjR_t2Q?pwd=wxqb

tiny到v3 turbo,看显存和硬体能力选
只识别en的版本大家应该没兴趣
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-9-21 04:09 , Processed in 0.009527 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表