美文网首页
朝夕日历课程语音批量导出

朝夕日历课程语音批量导出

作者: 晨耕暮习 | 来源:发表于2016-07-10 19:57 被阅读4069次

    2016-07-10 19:54:00 突然发现到八点了,总结还没有写,笔记也还没有做。写这个走偏的太远。
    2016-07-11 22:25:05 导出了《印象笔记留给你的空间——Evernote伴你成长》感觉还是自己补0好排序一点,改了一下源,补为5位。两次都是一百多个音频,上万个应该够用了。
    2016-07-16 06:46:16 前天晚上导出时发现在音频的网站从阿里云的域名换了成sortime的。改一下正则表达示规则,昨天学了一下编译成exe,形成了zhaoximpe.exe.添加了0.简化操作
    2016-08-02 08:20:32 合并软件改为,MP3剪切合并大师
    2016-08-04 23:49:44 加入了演示动态图,百度云共享中加入视频演示
    2016-08-05 12:36:41加入360云盘链接
    2016-08-11 07:19:20 云盘里面视频补录声音完成

    演示动态图,请放大查看

    0.简化操作

    1. 打开百度云链接下载zhaoximp3.exe文件。链接: http://pan.baidu.com/s/1c82JGM 密码: fin3
      360云盘链接 https://yunpan.cn/c6kHA8CDxRbSW 访问密码 e94e
    2. 参考1.2节把网页另存为test.html放到与zhaoximp3.exe同目录下。
    3. 双击zhaoximp3.exe等待即完成批量下载。

    1.获取网页源码

    https://www.sortime.com/v/wx/activity/feeds/***
    找相应网页测试
    《印象笔记留给你的空间——Evernote伴你成长》实例地址 https://www.sortime.com/v/wx/activity/feeds/8bbe1a4c-906a-456d-8211-7a10ad9dea85?

    1.1找到语音的信息。

    进入后为在最后的位置,按home键一直到开始处。按F12然后按“放大镜”找到语音与源代码关系。

    语音与源代码关系
    主要下载这样的语音文件。
    https://sortime.oss.aliyuncs.com/b3BwS0JqZ0U4a2RPS2hrVkRneUFqTlBnamdOOA==/cMAnv9u2efWnjglUzSBQWyr3IAVbyIWevl11lBSn1468067458/14680674571241839064.mp3

    1.2保存完整源码

    在Chrome用按F12看到源码,在html标签处右键复制出来成文件。注:用ctrl+u查看到源码没有mp3的信息。


    chrome复制出来

    将粘贴保存为文件。


    保存为文件

    2.python脚本批量下载语音文件

    #coding:utf-8
    import os, sys
    import re
    import urllib2
    
    def getLocal(fileName):
        '从本地文件中读取文件名,filename为本地源码文件'
        f = file(fileName,'r')
        htmlstr=''
        while True:
            line = f.readline()
            if len(line) == 0:
                break
            # print line,
            htmlstr = htmlstr + line
        f.close()
        # print(htmlstr)
        return htmlstr
        
    def getUrlname(html):
        '解析网络地址,html为网页源代码'
        #正则表达式保存音频
        # reg=r'src="((https://sortime.oss.aliyuncs.com/).+?\.mp3)"'
        reg=r'src="((http://oss.sortime.com/).+?\.mp3)"'    #音频地址已经修改
        mp3re=re.compile(reg)                   #编译要匹配的部分
        mp3list=re.findall(mp3re, html)         #找到所有匹配的内容
        return mp3list
    
    def saveMp3(url, title):
        '保存mp3文件,url为mp3的网络地址,title'
        # DstDir="E:\\drudy\\"  #指定存放位置
        print "Store Image:".decode('utf-8')+title+"\n"
        try:
            # with open(DstDir+title,"wb") as jpg:
            with open(title,"wb") as jpg:
                jpg.write(urllib2.urlopen(url).read())
                print title + '下载成功\n'
                return
        except IOError, msg:
             print '\n有部分下载失败了:', msg,url,title
             return
    
        
    if __name__=="__main__":
        myhtml=getLocal('test.html')
        myurlstr=getUrlname(myhtml)
        # print(myurlstr)
        j=1
        for i in myurlstr:
            z = str(j) .zfill(5)
            saveMp3(i[0],str(z)+'.mp3')
            j+=1
            print i[0]
    

    保存的mp3文件名为00001.mp3,00002.mp3

    3合并所有mp3文件

    限于格式工厂只能合并50个文件,而且格式支持不正常,于是用的MP3Toolkit(MP3工具集合) v1.0 破解版
    使用mp3 Merger合成。
    还是MP3剪切合并大师好用点.

    已经解决:合成时文件名的排序有问题,没有时间写批量改文件名,用totalCommand选中所有要修改的音频文件,ctrl+M批量修改,重命名为[N01-3]即可。

    totalCommand重命名
    重命名后的语音
    125个的语音片断合成为一个mp3文件共1小时11分钟。做笔记时方便暂停回放。
    合并后的文件

    相关文章

      网友评论

          本文标题:朝夕日历课程语音批量导出

          本文链接:https://www.haomeiwen.com/subject/hcvdjttx.html