国语视界

 找回密码
 立即注册
查看: 45158|回复: 202

[音频技术] 听录_语音转字幕_重混国语音轨,纯人声分离工具之一Spleeter详细教程

  [复制链接]

77

主题

2021

帖子

3117

积分

团长

大洋
87522
阅读权限
60
发表于 21-4-16 12:19 | 显示全部楼层 |阅读模式
本帖最后由 yaojingzhe 于 21-4-29 17:27 编辑

菜鸟教菜鸟之
适合听录、语音转字幕、重混国语高质量音轨,纯人声分离技术之Spleeter(基于Python3)







我在语音转字幕,发现字幕正确率只有60%左右。现在用纯人声进行语音转字幕,正确率达到90%,时间轴也在语音附件。

我发布这贴子和已经发布的

SubtitleEdit 3.6 把SUP转SRT 及百度翻译插件等实用插件
https://cnlang.org/thread-84159-1-1.html
Aegisub安装Aegisub-motion v1.0.9等84个自动化脚本教程
https://cnlang.org/thread-84318-1-1.html
语音转字幕教程之基于python3开源代码autosub3详细教程
https://cnlang.org/thread-84774-1-1.html
语音转字幕之用vidio-srt调用阿里云免费语音识别详细教程
https://cnlang.org/thread-84580-1-1.html
语音转字幕之用autosub-alpha调用百度云免费语音识别详细教程
https://cnlang.org/thread-84853-1-1.html


实测对国配音轨转字幕非常有帮助

因为语音转字幕,需要用这贴子的方法:
一、提取纯的人声
二、语音转字幕(正在编辑教程)
三、用SubtitleEdit 3.6.0听录校对文字和调整时间轴
四、用Aegisub的Aegisub-motion v1.0.9 制作特效字幕。


分离人声,也可以重混高质量国语音轨
把质量低的或者2.0的国语纯人声提取出来,把英语ac3或dts的c音轨背景声音也提取出来,混合成新的c音轨,封装到英语ac3或dts里




基础篇:安装和配置Python  ffmpeg
(熟练的人,请跳过)

1. python下载和安装

下载python3.8.8,官网地址https://www.python.org/getit/



python-3.8.8-amd64.exe安装,我喜欢把python安装在c:\python\python388里


一路“next”完成安装。

检查python安装和环境变量配置情况:
按win+r 输入cmd,进入dos界面(以下简称为“CMD”),输入python --version,显示python版本。




2. 下载和配置ffmpeg

下载ffmpeg,地址: www.gyan.dev

解压“ffmpeg-git-full.7z”
把解压的文件夹,复制到你习惯保存的位置,我是放在c:\python文件夹里
把包含3个文件的c:\python\ffmpeg\bin复制



打开环境变量,把刚才复制的c:\python\\ffmpeg\bin添加到环境变量里,确认保存。



CMD命令行中输入“ffmpeg –version”,配置成功如下图




3. 微软常用运行库集合



主题篇,人声与背景音乐分离技术之Spleeter
这是基于Python3.7及以上但不支持Python3.9x(截止2021年4月1日)

游客,如果您要查看本帖隐藏内容请回复

评分

参与人数 8威望 +120 大洋 +3070 收起 理由
dakekou + 10 很给力!
马儿快点跑 + 10 很给力!
开心兔 + 20 + 200 厉害了我的神!
LINMENGABC + 100 厉害了我的神!
why1812 + 50 + 600 厉害了我的神!
ggggongbing + 50 厉害了我的神!
ronlandzuo + 100 厉害了我的神!
bobo + 50 + 2000 厉害了我的神!

查看全部评分

24

主题

1803

帖子

1032

积分

营长

大洋
412
阅读权限
50
发表于 21-4-16 16:02 | 显示全部楼层
技术大佬,感谢分享!
回复 支持 0 反对 1

使用道具 举报

77

主题

2021

帖子

3117

积分

团长

大洋
87522
阅读权限
60
 楼主| 发表于 21-4-16 12:19 | 显示全部楼层
本帖最后由 yaojingzhe 于 21-4-16 13:31 编辑

断断续续编写了有一个月,反复测试

尤其到后来,字数不能超过10000字,又反复调整和精简。


人声分离,对听录和国语音轨转字幕,非常有帮助。

对与重混国语音轨,我没有测试过,这是思路,效果如何,要试试才知道,分离出来的人声还是相当干净的

把国语纯人声(缺少背景音),与英语AC3的c声道的背景声音(剔除英语人声)混合成新的c声道,再与英语ac3的其它声道,重混成ac3。但需要把英语与国语的音轨时间精确对齐。

再次说明,发布这教程,主要是为了听录和国语转字幕。欢迎探讨!

点评

真的挺好的 ,按照你的教程,安装好了,还转了一首曲子,  发表于 22-4-18 09:43
回复 支持 反对

使用道具 举报

1

主题

1991

帖子

1005

积分

营长

大洋
12711
阅读权限
50
发表于 21-4-16 12:26 | 显示全部楼层
谢谢大神,有人写过Spleeter Gui,一键安装,不用配置这么多,不过一般是用来分离歌曲人声的,用来分离1-2小时的电影的话估计很耗时间
回复 支持 反对

使用道具 举报

453

主题

4086

帖子

1万

积分

版主

大洋
1094490
阅读权限
140

王者至尊富甲天下帅哥宣传达人最佳新人优秀版主突出贡献版主音轨组热心会员

发表于 21-4-16 12:30 | 显示全部楼层
听说过人声与背景音乐分离,实在不敢相信影视的对白或背景音乐能够无损提取?背景音和人声混杂一起的软件可以处理好?感觉处理歌曲类的可能尚可,或者有使用过的大神谈谈效果。
还是感谢楼主分享。
回复 支持 反对

使用道具 举报

73

主题

1235

帖子

4853

积分

养老族

大洋
394655
阅读权限
110

帅哥优秀版主突出贡献皇马褂版主音轨组

发表于 21-4-16 12:40 | 显示全部楼层
这么好的教程,必须赞一个,分离人声确实能应用到的场景非常多。
回复 支持 反对

使用道具 举报

26

主题

2758

帖子

7406

积分

旅长

大洋
119174
阅读权限
70
发表于 21-4-16 12:55 | 显示全部楼层
电影人声的背景声比较复杂,无损分离很难,并且国语音轨中也不能缺少背景声。就算能无损分离出人声,没有电影原声背景声素材也无法合成国语音轨。所以无论怎么搞,都是坑啊。如果楼主能够搞成功的话,那就解决了一个大问题了。
回复 支持 反对

使用道具 举报

77

主题

2021

帖子

3117

积分

团长

大洋
87522
阅读权限
60
 楼主| 发表于 21-4-16 13:02 | 显示全部楼层
whzlwd 发表于 21-4-16 12:55
电影人声的背景声比较复杂,无损分离很难,并且国语音轨中也不能缺少背景声。就算能无损分离出人声,没有电 ...

我的思路是,把国语纯人声(缺少背景音),与英语AC3的c声道的背景声音(剔除英语人声)混合成新的c声道,再与英语ac3的其它声道,重混成ac3。但需要把英语与国语的音轨时间精确对齐
回复 支持 反对

使用道具 举报

26

主题

2758

帖子

7406

积分

旅长

大洋
119174
阅读权限
70
发表于 21-4-16 13:20 | 显示全部楼层
思路是没问题的。难点就在无损的分离复杂的电影背景声。因为没有试过楼主的方法,只是感觉建立无损分离电影背景声的模型库和算法非常难,如果达不到无损标准,那就意义不大。
回复 支持 反对

使用道具 举报

72

主题

5274

帖子

1369

积分

营长

大洋
60924
阅读权限
50
发表于 21-4-16 13:20 | 显示全部楼层
严重关注此贴
回复 支持 反对

使用道具 举报

26

主题

2758

帖子

7406

积分

旅长

大洋
119174
阅读权限
70
发表于 21-4-16 13:22 | 显示全部楼层
当然,如果这个东西能搞成,那就非常令人期盼了。
回复 支持 反对

使用道具 举报

16

主题

2030

帖子

566

积分

连长

大洋
21904
阅读权限
40
发表于 21-4-16 13:27 | 显示全部楼层
英语与国语的音轨配音时间有些不能对齐,主要是指说话人不在画面内,或者旁白时的对入点不一样,这点调试过音轨的人都清楚的,呵呵!
回复 支持 反对

使用道具 举报

2849

主题

4993

帖子

3486

积分

团长

大洋
29581
阅读权限
60
发表于 21-4-16 14:54 | 显示全部楼层
感谢大佬提供这么使用的教程。谢谢楼主
回复 支持 反对

使用道具 举报

73

主题

1235

帖子

4853

积分

养老族

大洋
394655
阅读权限
110

帅哥优秀版主突出贡献皇马褂版主音轨组

发表于 21-4-16 15:20 | 显示全部楼层
请问一下,如果不安装Python3.7会有什么影响,是安装不了spleeter,或是可以安装spleeter,但是功能受限或者提取音轨时有问题?还是运行时有其他的缺陷呢?谢谢
回复 支持 反对

使用道具 举报

99

主题

2149

帖子

1166

积分

养老族

大洋
122216
阅读权限
110

版主

发表于 21-4-16 15:26 | 显示全部楼层
看看教程
回复

使用道具 举报

77

主题

2021

帖子

3117

积分

团长

大洋
87522
阅读权限
60
 楼主| 发表于 21-4-16 15:40 | 显示全部楼层
搜影 发表于 21-4-16 15:20
请问一下,如果不安装Python3.7会有什么影响,是安装不了spleeter,或是可以安装spleeter,但是功能受限或 ...

没有影响,我是用python3.8.8安装slpeeter的。如果你安装spleeterGUI,你不用考虑python,它自带了python(功能不全,是嵌入式的版本,不是独立版本)
回复 支持 反对

使用道具 举报

73

主题

1235

帖子

4853

积分

养老族

大洋
394655
阅读权限
110

帅哥优秀版主突出贡献皇马褂版主音轨组

发表于 21-4-16 15:47 | 显示全部楼层
本帖最后由 搜影 于 21-4-16 15:54 编辑
yaojingzhe 发表于 21-4-16 15:40
没有影响,我是用python3.8.8安装slpeeter的。如果你安装spleeterGUI,你不用考虑python,它自带了python ...


感谢解答,多谢。我只安装了spleeterGUI,试着分离了一个电影片段,人声效果提取的很好,但是背景音乐不理想,这个是软件的自身问题,还是因为没有安装python导致的功能缺陷?

点评

这个是基于机器学习的,跟python无关,python只提供运行环境,效果不好是因为训练不够  发表于 21-4-17 21:34
回复 支持 反对

使用道具 举报

3

主题

399

帖子

53

积分

列兵

大洋
654
阅读权限
10
发表于 21-4-16 15:50 | 显示全部楼层
我正好在做一个背景杂音很大的字幕,感谢楼主
回复 支持 反对

使用道具 举报

33

主题

8735

帖子

3501

积分

团长

大洋
74296
阅读权限
60
发表于 21-4-16 15:55 | 显示全部楼层
教程非常好,谢谢分享
回复 支持 反对

使用道具 举报

45

主题

3255

帖子

1006

积分

营长

大洋
88261
阅读权限
50
发表于 21-4-16 16:01 | 显示全部楼层
这个教程非常实用,谢谢楼主分享
回复 支持 反对

使用道具 举报

48

主题

1469

帖子

8197

积分

旅长

大洋
196565
阅读权限
70
发表于 21-4-16 16:18 | 显示全部楼层
简直就是听打福星啊
回复 支持 反对

使用道具 举报

48

主题

1469

帖子

8197

积分

旅长

大洋
196565
阅读权限
70
发表于 21-4-16 16:23 | 显示全部楼层
whzlwd 发表于 21-4-16 13:20
思路是没问题的。难点就在无损的分离复杂的电影背景声。因为没有试过楼主的方法,只是感觉建立无损分离电影 ...

个人觉得您有点太执着,楼主说了这是用来听打和声轨转字幕的,主要作用并不是用来重混声轨,所以有损无损没有比较纠结
回复 支持 反对

使用道具 举报

77

主题

2021

帖子

3117

积分

团长

大洋
87522
阅读权限
60
 楼主| 发表于 21-4-16 16:32 | 显示全部楼层
你们试试提取出来的人声音效果,我测试了几次,把一段音轨分离,单独听了听人声和背景声音,再用Audition混合在回去,与原来的音轨对比,效果一样,说明分离没有损失。
回复 支持 反对

使用道具 举报

3

主题

497

帖子

1080

积分

营长

大洋
2863
阅读权限
50
发表于 21-4-16 16:46 | 显示全部楼层
抱着学习的心态认真阅读中,谢谢大佬分享
回复 支持 反对

使用道具 举报

45

主题

4046

帖子

1361

积分

营长

大洋
52434
阅读权限
50
发表于 21-4-16 16:47 | 显示全部楼层
高手,让人膜拜
回复 支持 反对

使用道具 举报

32

主题

3744

帖子

2672

积分

营长

大洋
50513
阅读权限
50

热心会员

QQ
发表于 21-4-16 17:36 | 显示全部楼层
专业级别的就是不一样啊
回复 支持 反对

使用道具 举报

85

主题

2971

帖子

4000

积分

团长

大洋
173206
阅读权限
60

富甲天下灌水之王

发表于 21-4-16 17:58 | 显示全部楼层
楼主真是非常用心了!真的能够实际应用的话那以后做字幕可就轻松多了!!!
回复 支持 反对

使用道具 举报

77

主题

2021

帖子

3117

积分

团长

大洋
87522
阅读权限
60
 楼主| 发表于 21-4-16 18:19 | 显示全部楼层
合金弹头2016 发表于 21-4-16 17:58
楼主真是非常用心了!真的能够实际应用的话那以后做字幕可就轻松多了!!! ...


我一直在用语音转字幕,从来没有听录打字,听一句打一排字,工作量太大。为了提高语音转字幕的正确率,才找到人声分离软件。
回复 支持 反对

使用道具 举报

3

主题

2616

帖子

7052

积分

旅长

大洋
9710
阅读权限
70

灌水之王论坛元老悍匪之王热心会员

发表于 21-4-16 18:21 | 显示全部楼层
又来了,太讲究了,必须支持个,谢谢分享。
回复 支持 反对

使用道具 举报

7

主题

621

帖子

140

积分

班长

大洋
3426
阅读权限
20
发表于 21-4-16 18:38 | 显示全部楼层
术业有专攻,厉害啊。
回复 支持 反对

使用道具 举报

374

主题

1459

帖子

9019

积分

养老族

大洋
258399
阅读权限
110
发表于 21-4-16 18:41 | 显示全部楼层
看看,感谢楼主分享
回复 支持 反对

使用道具 举报

7

主题

138

帖子

123

积分

班长

大洋
5334
阅读权限
20
发表于 21-4-16 18:53 | 显示全部楼层
谢谢大神,正好需要这种教程
回复 支持 反对

使用道具 举报

140

主题

3449

帖子

7893

积分

旅长

大洋
156971
阅读权限
70

灌水之王热心会员论坛元老富甲天下悍匪之王爱心大使

发表于 21-4-16 19:06 | 显示全部楼层
高端技术贴
回复 支持 反对

使用道具 举报

62

主题

571

帖子

3008

积分

团长

大洋
22263
阅读权限
60
发表于 21-4-16 19:19 | 显示全部楼层
厉害了楼主的教程,感谢分享
如打不开蓝凑云链接,请自行百度“蓝奏云链接无法打开”
回复 支持 反对

使用道具 举报

62

主题

571

帖子

3008

积分

团长

大洋
22263
阅读权限
60
发表于 21-4-16 19:25 | 显示全部楼层
yaojingzhe 发表于 21-4-16 12:19
断断续续编写了有一个月,反复测试

尤其到后来,字数不能超过10000字,又反复调整和精简。

兄弟为啥没有语音转字幕的教程
如打不开蓝凑云链接,请自行百度“蓝奏云链接无法打开”
回复 支持 反对

使用道具 举报

11

主题

4873

帖子

687

积分

连长

大洋
56323
阅读权限
40
发表于 21-4-16 20:11 | 显示全部楼层
教程不错 适合很多场景 不单单是听录
回复 支持 反对

使用道具 举报

4

主题

495

帖子

109

积分

班长

大洋
6505
阅读权限
20
发表于 21-4-16 20:28 | 显示全部楼层
感谢分享,教程非常实用
回复 支持 反对

使用道具 举报

0

主题

863

帖子

337

积分

排长

大洋
54274
阅读权限
30
发表于 21-4-16 21:07 | 显示全部楼层
这么好的技术帖,必须要支持
回复 支持 反对

使用道具 举报

77

主题

2021

帖子

3117

积分

团长

大洋
87522
阅读权限
60
 楼主| 发表于 21-4-16 22:09 | 显示全部楼层
cyh198731 发表于 21-4-16 19:19
厉害了楼主的教程,感谢分享

会发布的,正在编辑,另外,语音转字幕中有些问题,还在解决,在github上与作者沟通,尽快在5月初发布,希望以后有人就不用听一句打字一句,只需要校正一些同音的文字错误,调整时间轴。
回复 支持 反对

使用道具 举报

274

主题

4866

帖子

6万

积分

炊事员

大洋
315285
阅读权限
120

灌水之王热心会员论坛元老王者至尊

发表于 21-4-16 22:48 | 显示全部楼层
辛苦,是这个吧https://github.com/deezer/spleeter
回复 支持 反对

使用道具 举报

13

主题

1316

帖子

256

积分

排长

大洋
9840
阅读权限
30
发表于 21-4-16 22:52 | 显示全部楼层
我最想有个英语音轨转中文字幕、有了这个就无需找字幕了、也不用打轴了
回复 支持 反对

使用道具 举报

5

主题

1395

帖子

961

积分

连长

大洋
29072
阅读权限
40
发表于 21-4-16 22:59 | 显示全部楼层
感谢大神分享技术
回复 支持 反对

使用道具 举报

77

主题

2021

帖子

3117

积分

团长

大洋
87522
阅读权限
60
 楼主| 发表于 21-4-16 23:01 | 显示全部楼层
sky9213 发表于 21-4-16 22:52
我最想有个英语音轨转中文字幕、有了这个就无需找字幕了、也不用打轴了 ...


有,实际执行顺序是,英语音轨转英语字幕,在同步翻译成中文字幕,你收到的是中文字幕。但更复杂,我主要精力是研究音轨(中文、英文、日文、韩文等都可以)转字幕,转出来的字幕是对应原音轨的语言,你可以再用我发布的SubtitleEdit 3.6.0带翻译脚本的软件,再把外文翻译成中文。
回复 支持 反对

使用道具 举报

34

主题

3757

帖子

3373

积分

工作组

大洋
295327
阅读权限
135

王者至尊富甲天下帅哥宣传达人突出贡献皇马褂灌水之王热心会员音轨组

QQ
发表于 21-4-16 23:03 | 显示全部楼层
关注后续教程,这个技术大大加快国语制作速度,音轨技术也能有所突破了!
回复 支持 反对

使用道具 举报

1

主题

156

帖子

24

积分

列兵

大洋
782
阅读权限
10
发表于 21-4-16 23:06 | 显示全部楼层
厉害了我的神!最近太多适合新手的教程了,有爱
回复 支持 反对

使用道具 举报

5

主题

1395

帖子

961

积分

连长

大洋
29072
阅读权限
40
发表于 21-4-16 23:11 | 显示全部楼层
楼主,标准模型和高质量模型哪个效果比较好?
回复 支持 反对

使用道具 举报

8

主题

998

帖子

3042

积分

团长

大洋
59569
阅读权限
60
发表于 21-4-16 23:14 | 显示全部楼层
厉害了 ,来看看            
回复 支持 反对

使用道具 举报

77

主题

2021

帖子

3117

积分

团长

大洋
87522
阅读权限
60
 楼主| 发表于 21-4-16 23:33 | 显示全部楼层
x496838015 发表于 21-4-16 23:11
楼主,标准模型和高质量模型哪个效果比较好?

肯定是高质量模型更好,但我的耳朵没有听出差别,可能遇到更复杂的音乐时有区别,只是我没有遇到这样的音乐
回复 支持 反对

使用道具 举报

7

主题

1706

帖子

262

积分

排长

大洋
903
阅读权限
30
发表于 21-4-16 23:52 | 显示全部楼层
这个教程很不错,对重混国语音轨非常有用。
回复 支持 反对

使用道具 举报

0

主题

2810

帖子

1117

积分

营长

大洋
157056
阅读权限
50
发表于 21-4-17 00:06 | 显示全部楼层
这个要支持,不知道准确度如何
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表