NLP 文本预处理utils

作者: lzhenboy | 来源:发表于2020-09-22 15:05 被阅读0次

NLP 文本预处理utils
NLP 预处理总结
动手学深度学习-Task02
NLP入门：文本预处理（一）停用词
NLP入门：文本预处理（二）数据清洗
2019-05-29 文本预处理
NLP预处理
01. NLP定义及歧义性
动手学深度学习(八) NLP 文本预处理
pytorch之文本预处理,语言模型,循环神经网络基础

1、中文标点

zh_punc = "！？｡＂＃＄％＆＇（）＊＋，－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､、〃》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏."

2、strip() 的正则表达式版本

def re_strip(text, param=' '):
    pattern = re.compile(r'^([' + str(param) + r']*)(.*?)([' + str(param) + ']*)$')
    rst = pattern.search(text)
    return rst.group(2) if result else None

示例：
去除字符串首尾的中文标点

text = '；我爱中国'
cleaned_text = re_strip(text, zh_punc)
print(cleaned_text)

`cleaned text:  我爱中国`

参考文献

https://blog.csdn.net/dongyu1703/article/details/81782081

网友评论

本文标题：NLP 文本预处理utils

本文链接：https://www.haomeiwen.com/subject/goywyktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

NLP 文本预处理utils

1、中文标点

2、strip() 的正则表达式版本

参考文献

相关文章

NLP 文本预处理utils

NLP 预处理总结

动手学深度学习-Task02

NLP入门：文本预处理（一）停用词

NLP入门：文本预处理（二）数据清洗

2019-05-29 文本预处理

NLP预处理

01. NLP定义及歧义性

动手学深度学习(八) NLP 文本预处理

pytorch之文本预处理,语言模型,循环神经网络基础

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读