美文网首页
Google数据集audio set 使用教程

Google数据集audio set 使用教程

作者: 盲狙小堡垒 | 来源:发表于2017-03-14 20:05 被阅读1618次

    Audioset 官网

    前言

    注意这个数据集是依托于youtube的,不是一键下载文件全都有的。
    所以使用起来略有一些繁琐。不过放心,我这里已经找到了很多工具,可以方便使用。

    下载数据集索引

    进入 https://research.google.com/audioset/download.html
    下载 Unbalanced train
    这是一个csv格式
    打开后会发现
    形如这样
    Aclv9drugo0, 50.000, 60.000, "/m/03q5_w,/m/09x0r"
    从左到后是youtube视频id,音频开始时间,结束时间,最后就是label了。

    label 的索引

    进入这里
    https://github.com/audioset/ontology
    打开ontology.json文件,这里有label的编码和对应的实际意义。
    例如我想要所有包含piano声音的片段
    搜索Piano,得到对应 id 是 /m/05r5c

    piano.png
    如此便可从csv文件中筛选出需要的视频id.

    下载音频/视频

    这段代码会帮你根据id分析出视频的下载地址,mp4,flv等格式
    https://github.com/zarkiel/Youtube
    最后提取对应时间的音频片段即可。

    相关文章

      网友评论

          本文标题:Google数据集audio set 使用教程

          本文链接:https://www.haomeiwen.com/subject/nwtknttx.html