美文网首页
全唐诗清洗语料(简体、繁体)

全唐诗清洗语料(简体、繁体)

作者: Emerson_G | 来源:发表于2018-01-28 22:17 被阅读0次

    2018年1月28日

    Emerson_G

    《全唐诗》是唐代诗歌全面的收录,全书包括四万多首诗词,两千多位作者,非常好地覆盖了唐朝知名的诗歌。

    这里整理了一份全唐诗的结构化的语料,包括简体版本和繁体版本的一一对照。

    全唐诗总计900卷,每首诗的结构包括标题、作者、诗三部分。其中“卷七百九十五”和“卷七百九十六”是辑录的“佚句”,只是零散的句子,没有作者或独立成篇。所以,处理的时候,这两卷没做处理。

    附语料地址:https://github.com/dream-catcher/learning_blogs/tree/master/Quantangshi_Corpus

    结构化格式

    整理的结构化JSON信息格式如下:

    [

             "index",   #索引id

             "volume_num",#原书的“卷名”

             "simplified_author", #简体版作者

             "simplified_title",  #简体版标题

             "simplified_poem",  #简体版诗正文

             "simplified_poem_orig",#简体版诗原始正文

             "tradtional_author", #繁体版作者

             "tradtional_title",  #繁体版标题

             "tradtional_poem", #繁体版诗

             "tradtional_poem_orig"  #繁体版诗原始正文

    ]

    默认情况下,simplified_poem_orig及tradtional_poem_orig两个字段为null。

    如果原始的诗正文中包含说明文字,如括号内的说明或破折号说明联句的作者这类情况,已经对这类句子进行了清洗,把清洗后的诗正文放在simplified_poem及tradtional_poem两个位置,而原始正文放在simplified_poem_orig及tradtional_poem_orig位置。

    简单统计

    整理的唐诗总计41560首,2317位诗人,简单的统计如下:

    白居易:2620

    杜甫:1144

    李白:847

    齐己:779

    无名氏:765

    刘禹锡:694

    元稹:588

    贯休:546

    韦应物:543

    李商隐:530

    陆龟蒙:518

    许浑:507

    刘长卿:502

    皎然:492

    杜牧:490

    罗隐:468

    姚合:455

    张籍:445

    钱起:429

    贾岛:401

    孟郊:391

    岑参:386

    王建:379

    韩愈:368

    张祜:360

    皮日休:353

    王维:345

    温庭筠:343

    权德舆:338

    方干:336

    相关文章

      网友评论

          本文标题:全唐诗清洗语料(简体、繁体)

          本文链接:https://www.haomeiwen.com/subject/whqtzxtx.html