美文网首页MIR和音频算法
Paper Note|10.1109/MSP.2018.2869

Paper Note|10.1109/MSP.2018.2869

作者: shanyi15 | 来源:发表于2021-10-25 03:43 被阅读0次

    Intro

    Automatic Music Transcription: An Overview
    乐谱转录的综述

    Note

    • 音乐转录的几个子领域或者说子过程

      • perception (analyzing complex auditory scenes) 感知:分析复杂的听觉场景
      • cognition (recognizing musical objects) 认知:识别音乐对象(Q:啥是音乐对象?)
      • knowledge representation (forming musical structures) 知识呈现:形成音乐结构
      • inference (testing alternative hypotheses) 预测/推理:测试相应的假设?
    • Auto Music Transcription (AMT) 的定义
      the design of computational algorithms to convert acoustic music signals into some form of music notation

    • AMT的几个子模块

      • multi-pitch estimation (MPE):多音高预测
      • onset and offset detection:这里理解为音“产生”和“消失”的检测
      • instrument recognition:乐器音色识别
      • beat and rhythm tracking:节拍和节奏识别
      • interpretation of expressive timing and dynamics:时间和动态的表达(这里暂时理解为是音的强度和持续时间的获取和谱面表达)
      • score typesetting:谱排版
    • AMT的困难和挑战

      • 多“源”:多乐器多音色,和同乐器多音(复调)

      often contain several sound sources (e.g., musical instruments and voice) that produce one or more concurrent sound events (e.g., notes and percussive sounds) that are meant to be highly correlated over both time and frequency

    • AMT的一般流程

      • input: audio waveform


        image.png
      • computes a time-frequency representation


        image.png
    • outputs a representation of pitches over time, also called a piano-roll representation, a typeset music score


      image.png
    • AMT的应用领域

      • 音乐教育
      • 音乐创作:口述即兴音乐创意
      • 音乐制作
      • 音乐搜索:基于旋律、低音、节奏或和弦的搜索
      • 音乐学
    • AMT和其他的音乐信号处理任务的关联

      • audio source seperation: 音频源分离,也就是说从一个混合的音乐中推断源信号
      • high level tasks in music information retrieval: 得先确定音符才能完成后面的工作
        • structure:
        • cover-song detection
        • accessment of music similarity: 评价音乐相似性
          所以作者认为,AMT扮演了关联音乐信号处理和符号化的音乐处理(也就是乐谱处理和音乐语言建模)的角色。
    • 一些AMT的商业应用

      • Melodyne
      • AudioScore
      • ScoreCloud
      • Transcribe!
    • AMT在其他领域的类比

      • 等同于语音识别领域的 automatic speech recognition(ASR) 自动语音识别,共同点是:声学信号-->符号序列
      • 复调音乐和Sound Event Detection可以类比
      • 图像处理以及computer vision有关,复调音乐中各音符互相干扰,如同计算机视觉中的遮挡(occlusion)问题
    • AMC 的关键挑战
      • 事件相同,会有来自不同源(包括人声、乐器、节奏)的不同响度、不同音色、不同音高的声音,这些所构成的混合信号很难处理
      • 重叠声音一旦形成和声关系,会让他们的泛音在频率上重叠,这样声音的分离更加困难,比如说CEG三个音放在一起的时候,它们彼此重叠谐波是60%,而如果和其他音放在一起,它们各自和对方重叠都不到50%
      • 因为音乐本身就关注每个和声出来的同步性,导致无法达成源之间统计独立的共同假设(没太懂)
      • 人工转录复调音乐本身就很麻烦,所以相应数据集也少,限制机器学习方面的尝试,而如果要用数据的话,只能在某些特定的领域,比如有些钢琴可以直接导出演奏的数据。另外乐谱本身和音乐信号在时间上也不完全一致,另外即使是同一首曲子,也有不同的演奏版本,所以作者认为 “score本身是个弱标签”
      • 还有一些别的错误:八度错误、半音错误、漏音、额外音符等等。

    AMT的具体实现

    目标:AMT追求达到某个中间目标,而不是直接输出最终的音符。

    AMT方法

    • Frame level: 帧级别

      • Frame level transcription (MPE) 是对每个时间帧中同时出现的音符数量和音高的估计。尽管在后处理阶段的过滤帧级别的音预测也可以得到一些上下文的信息。通过MPE,一般得到下图在时域上的结果


        image.png
      • MPE的算法多种多样,但各有优劣,例如
      • traditional signal processing methods are simple and fast and generalize better to different instruments
      • deep NN methods generally achieve higher accuracy on specific instruments (e.g., piano)
      • Bayesian approaches provide comprehensive modeling of the sound generation process, but the models can be very complex and slow
      • 更多的研究和文章可以参考这个网站
    • Note level: 音符级别

      • Note level通常是基于MPE的结果来做的。但也有一些研究直接从音频信号出发。
      • 一般使用的方法:median filtering, hidden Markov models, and NNs
      • 后处理有一些缺陷会导致spurious or missing notes
      • 为了考虑音符间的interacton,也会用到谱似然模型和music language model(MLM)。
      • 过程:一些方法先检测onset,然后再在每个interonset间隔预测pitch,另一些方法在同一个框架下预测pitch, onset, offset.
    • stream level: 流级别

      • 也叫做multipitch streaming(MPS), 目标是把pitch或者note分组到stream里,然后每个stream对应一种乐器或者是人声,这样就完成了source seperation。MPS的输出结果中,可以直接体现不同的乐器。
      • 从输出的效果上来看,每个线拖的太长,把音符之外的时间也包含在内了,所以效果上可能没有MPE那么好。
      • 另外在MPE和note level里都没有timbre(音色/音质)相关的探索,但MPS里有。同一个stream里的音,其音色是更相近的。所以MPS在其他文献里也叫做timbre tracking or instrument tracking
      • MPS的相关研究还比较少


        image.png
    • MPS/MPE/notelevel的cons
      • 横轴仍然是时间,不是节奏
      • 音高仍然通过MIDI来表示而不是音的名称
      • 节奏、小节、节奏型、调性、和弦和流动仍然是缺失的

    SOTA

    AMT在近十年一直由NMF(non- negative matrix factorization, refer to here)和NN主导,这两种算法适合在音符级别对音乐进行录音和建模。

    TBD

    未来展望

    TBD

    相关文章

      网友评论

        本文标题:Paper Note|10.1109/MSP.2018.2869

        本文链接:https://www.haomeiwen.com/subject/ylfjaltx.html