歌声分离：Singing_Voice_Separation_RN

作者: 峭风梳骨寒 | 来源:发表于2020-01-08 19:40 被阅读0次

<section class="xmteditor" style="display:none;" data-tools="新媒体管家" data-label="powered by xmt.cn"></section><section style="text-indent: 2em;">写此文的目的是记录自己的学习过程，一些经过，遇到问题以及解决问题的方法，存放在这里，方便自己以后复习以及自己的一些总结，如果此文对你有帮助，请随时联系我微信：wangzhixiong1533 </section><section style="text-indent: 2em;">自从2019年9月5号找老师换了方向之后，整个人都好多了，没有以前那种做不动的感觉，现在做的课题方向是用深度学习做语音分离，我开始不停的扒csdn上的博客，还有GitHub上的项目，在同学的帮助下，找到一个可以运行的，在调试整个代码过程中也是蛮心酸的。</section> 先发github链接，感兴趣的可以下载来看看，https://github.com/speechdnn/Singing_Voice_Separation_RNN每次放了链接之后，字体的要调节，也是蛮心累的。 在跑整个代码过程中，先训练代码，训练代码需要数据集，先放数据集链接，数据集链接 http://mirlab.org/dataset/public/MIR-1K.rar<img class="rich_pages" data-backh="169" data-backw="430" data-before-oversubscription-url="https://mmbiz.qpic.cn/mmbiz_jpg/2wBbSkC1aMKtbl4G0KFd3xjNhiaj0TibC4FAhuFZvBbDsoyAl8H66u1uLA01OdEicNmdn66ztd43rbUv4icibMKV2dQ/?wx_fmt=jpeg" data-croporisrc="https://mmbiz.qlogo.cn/mmbiz_png/2wBbSkC1aMKtbl4G0KFd3xjNhiaj0TibC4SAJKkMmUcYwxVJS7cibIOT3IocASn51iaSBa3aBvMyEWJsnh2VYMRW4Q/0?wx_fmt=png" data-cropx1="0" data-cropx2="605.1567944250871" data-cropy1="0" data-cropy2="238.57142857142858" data-oversubscription-url="http://mmbiz.qpic.cn/mmbiz_jpg/2wBbSkC1aMKtbl4G0KFd3xjNhiaj0TibC4xbmicUm9WqwYFa8ialtaxKRsLNicnGa18Jsu22dxAwvsn0a6e5RGZPG8g/0?wx_fmt=jpeg" data-ratio="0.3933884297520661" data-s="300,640" src="https://img.haomeiwen.com/i3104601/037176f05ab392a5" data-type="jpeg" data-w="605" style="border-radius: 16px;width: 100%;height: auto;">这个过程是从网上下载下来数据集，我尝试了很多遍，每次提示错误是size大小是0，打开download看到下载的文件夹里面的压缩包文件大小是0，尝试多种方法无果，直接自己用其他方法下载下来，放在download里面，发现此方法可行，读取文件大小正确，这一步解决了。 接下来是遇到难题了，无法解压，上网查阅资料，显示，python自带zip解压，但是不带rar解压，rar解压问题是一个难题，尝试多种方法无果，这个问题我会在下一篇文档中讲清楚，因为这个过程比较漫长。 在解压文件完成之后，可以开始训练了吗，太天真了，显示缺小文件夹，他的提示也不完整，自己摸索怎么解决，一步一步尝试，发现自己建立一个文件夹data\MIR1K\MIR-1K\UndivedeWavfile。可以解决无法开始训练的问题，我们需要给他一个数据集，原本的文是没有的。我给他训练集之后，他自己开始训练，并且生成3个文本文档，一个是训练集，一个是验证集，一个测试集，这样我们的模型开始训练了，原本文档给我的是这样的。<img class="rich_pages" data-ratio="0.7588495575221239" data-s="300,640" src="https://img.haomeiwen.com/i3104601/ef6ed4496a2fb6f6" data-type="png" data-w="904" style="border-radius: 8px;box-shadow: rgb(170, 170, 170) 0px 0px 14px 0px;">别人原本是在NVIDIA GTXT TITAN X图形卡上训练，我实验室很穷，并没有做深度学习的显卡，无奈只能求助和自己关系好的老师，在老师额帮助下，可以用一个1050的显卡训练，也是不幸中的万幸了，在配置好环境之后，用1050开始训练，调用gpu版本的，因为傅老师给的那个服务器，里面有两个显卡，一个是内存只有1G的，我第一次训练就用了他，没有用1050，1050有2G的内存，前面发现很慢，上网查询资料，着手解决问题。<img class="rich_pages" data-ratio="0.32653061224489793" data-s="300,640" src="https://img.haomeiwen.com/i3104601/59b0f8d5b6745d7e" data-type="png" data-w="980" style="">我的电脑配置是这样的， <img class="rich_pages" data-ratio="0.6452095808383234" data-s="300,640" src="https://img.haomeiwen.com/i3104601/149de6a10b177bce" data-type="png" data-w="668" style="border-radius: 8px;">我看完这些资料之后，自己在代码上这两行 import os os.environ['CUDA_VISIBLE_DEVICES'] = '0'这样可以调用1050的显卡进行训练，勉强能用，条件实在艰苦。训练终于快了一点。 接下来开始评估模型 ，<img class="rich_pages" data-ratio="0.4469525959367946" data-s="300,640" src="https://img.haomeiwen.com/i3104601/2f9372314040bdd8" data-type="png" data-w="886" style="border-radius: 8px;"> 我用1050跑出来的结果基本上是一样的，下面放我跑出来的结果，<img class="rich_pages" data-ratio="0.6452095808383234" data-s="300,640" src="https://img.haomeiwen.com/i3104601/a65115bb06cd1f40" data-type="png" data-w="668" style="border-radius: 8px;">结果基本上一致，我的操作应该没有问题。 最后是直接来测试，<img class="rich_pages" data-ratio="0.47619047619047616" data-s="300,640" src="https://img.haomeiwen.com/i3104601/f29c4df2e072724c" data-type="png" data-w="945" style="border-radius: 8px;"> 测试我是直接按照原文作者的思路来的，没有问题。可以分离，实现歌声里面背景音乐和人声的分离。我自己听得效果就是分离的背景音乐还可以，人声的效果不是那么好，还有待改进。 我按照这个思路过来基本没有错误。此方法可行，关于解压rar的问题，我会在下一篇文档中说明白。下面放我朋友帮我跑的代码过程。我放上视屏，方便学习观看，我朋友是在unbantu系统上跑的，对理解整个过程很有帮助的。<img class="rich_pages" data-ratio="1" data-s="300,640" src="https://img.haomeiwen.com/i3104601/4e7ac5875293098e" data-type="jpeg" data-w="258" style="">人间值得你来

网友评论

本文标题：歌声分离：Singing_Voice_Separation_RN

本文链接：https://www.haomeiwen.com/subject/qsosactx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

歌声分离：Singing_Voice_Separation_RN

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读