中文人名语料库(Chinese-Names-Corpus)
包含120万常见中文人名;25万古代中文人名;1万日本常见人名;2万英文常见姓或名;1千个中文姓氏;5千称呼词根,18万中文称呼;48万翻译人名。
可以用作分词字典,或人名识别训练语料。
GitHub地址:wainshine/Chinese-Names-Corpus
中文人名语料库(Chinese-Names-Corpus)
包含120万常见中文人名;25万古代中文人名;1万日本常见人名;2万英文常见姓或名;1千个中文姓氏;5千称呼词根,18万中文称呼;48万翻译人名。
可以用作分词字典,或人名识别训练语料。
GitHub地址:wainshine/Chinese-Names-Corpus
本文标题:百万级中文人名语料库
本文链接:https://www.haomeiwen.com/subject/gixmcqtx.html
网友评论