美文网首页
文本预处理总结

文本预处理总结

作者: 亨舆亨行 | 来源:发表于2018-07-18 18:58 被阅读0次
由于工作需要对大量文本进行预处理,需要一套的预处理流程,现对相关知识做笔记:

python正则测试:
最常用的是去掉http之类的url,下面这个很好用

line = re.sub('(https?|ftp|file)://[-A-Za-z0-9+&@#/%?=~_|!:,.;]+[-A-Za-z0-9+&@#/%=~_|]','',line)

正则知识补充:

表达式 意义
\d=[0-9] 匹配任意数字
\D=[^0-9] 匹配非数字
\s=[\f\n\r\t\v] 匹配空白字符
\w=[A-Za-z0-9_] 匹配包含下划线的任意单词

遗留问题待解决:

  • 怎么匹配两个在一起的字符串
str1 = 'httpfshttpshttphttpwe'
#目的:匹配httpfs或者http,并不能使用http(fs)?
  • 现在查找是使用findall,替换是使用sub,其他的方法都在什么情景下使用,match或者find或者group之类的
  • 断言怎么使用
    目前总结的预处理的正则表达式如下

相关文章

  • 文本预处理总结

    由于工作需要对大量文本进行预处理,需要一套的预处理流程,现对相关知识做笔记: python正则测试:最常用的是去掉...

  • 2019-05-29 文本预处理

    文本预处理链接

  • 动手学深度学习(八) NLP 文本预处理

    文本预处理 文本是一类序列数据,一篇文章可以看作是字符或单词的序列,本节将介绍文本数据的常见预处理步骤,预处理通常...

  • pytorch之文本预处理,语言模型,循环神经网络基础

    文本预处理 文本是一类序列数据,一篇文章可以看作是字符或单词的序列,本节将介绍文本数据的常见预处理步骤,预处理通常...

  • 第一次打卡 Task02

    一、文本预处理 文本是一类序列数据,一篇文章可以看作是字符或单词的序列,本节将介绍文本数据的常见预处理步骤,预处理...

  • 第二天-文本预处理,语言模型,循环神经网络

    文本预处理 文本是一类序列数据,一篇文章可以看作是字符或单词的序列,本节将介绍文本数据的常见预处理步骤,预处理通常...

  • 第二次打卡

    文本预处理文本是一类序列数据,一篇文章可以看作是字符或单词的序列,本节将介绍文本数据的常见预处理步骤,预处理通常包...

  • 二. 文本预处理,语言模型,RNN

    1.文本预处理 文本是一类序列数据,一篇文章可以看作是字符或单词的序列,本节将介绍文本数据的常见预处理步骤,预处理...

  • Python数据处理总结

    Python可以很好地完成预处理任务,本文对python常用的numpy & pandas做一些总结。 1. 文本...

  • 使用word2vec训练中文词向量

    一、文本处理流程 通常我们文本处理流程如下: 1 对文本数据进行预处理:数据预处理,包括简繁体转换,去除xml符...

网友评论

      本文标题:文本预处理总结

      本文链接:https://www.haomeiwen.com/subject/saaopftx.html