|
本帖最后由 yaojingzhe 于 21-4-29 17:31 编辑
菜鸟教菜鸟之
语音转字幕之用vidio-srt调用阿里云免费语音识别详细教程
一直关注国语视界,有幸注今年1月册进来。真的是大爱国语视界,高手如云,大家都积极分享。
在此,代表论坛的"各级军官和列兵":
特别感谢@cnlang 提供国语视界这平台,感谢各位版主,辛苦地管理论坛
已经发布了下面几个贴子。
SubtitleEdit 3.6 把SUP转SRT 及百度翻译插件等实用插件
https://cnlang.org/thread-84159-1-1.html
Aegisub安装Aegisub-motion v1.0.9等84个自动化脚本教程
https://cnlang.org/thread-84318-1-1.html
听录和转字幕用到的人声分离工具之一Spleeter详细教程
https://cnlang.org/thread-84080-1-1.html
语音转字幕教程之基于python3开源代码autosub3详细教程
https://cnlang.org/thread-84774-1-1.html
语音转字幕之用autosub-alpha调用百度云免费语音识别详细教程
https://cnlang.org/thread-84853-1-1.html
不管是用Autosub3还是pyTranscriber,都是调用Google-Speech-v2的语音识别接口,普通话的识别率不算高,语音识别率高的还是国内云巨头,比如百度云、阿里云、讯飞云、腾讯云等。但对于我们普通的使用者,不知道用什么软件工具、如何调用这些云的接口。
本篇详细讲述阿里云的语音识别接口长期免费额度调用,实现语音转字幕。
阿里云语音识别率惊人的高,我把完美星球前2分钟转出字幕,达到90%左右
而用autosub3调用谷歌云的识别率有60-80%左右,如下:
第一节、提取纯人声
(不是必须,但剔除背景音,提高转字幕的正确率,并且时间轴也在语音附近,减少校核文字和调整时间轴的工作量)
请用我上面帖子“听录和转字幕用到的人声分离工具之一Spleeter详细教程”里的方法,用SpleeterGUI把音轨的纯人声提取出来。
重要说明:由于语音识别技术仍不能完全准确,因此结果的准确度可能会有所不同,这取决于许多因素,主要是音频的质量/清晰度。理想情况下,音频输入不应有背景噪音、声音效果或音乐。如果只有一个说话者,而他说话的速度又清晰又慢,那么识别的准确性就高得多。有时,在理想/幸运的条件下,有可能获得接近95%的准确度结果。
第二节、安装软件和配置接口
写得累死我了,估计你们看得也快累死了
我同时还在研究由百度硅谷AI实验室与美国合作开发deepspeech离线语音识别技术
我用离线英文语言包成功转出英文字幕,但用中文语言包,转出的字幕驴唇不对马嘴。作者指导我修改源代码,现在还没有成功,有结果了就分享给大家 |
评分
-
查看全部评分
|