美文网首页
使用Python进行文本特征抽取

使用Python进行文本特征抽取

作者: 松鼠的读书笔记 | 来源:发表于2019-02-02 22:08 被阅读84次

    今天分享一篇来自Analytics Vidhya的热文:Ultimate guide to deal with Text Data (using Python) – for Data Scientists & Engineers 。

    这篇文章针对文本数据,介绍了不同的特征抽取方式,包括基本的方法到一些比较先进的NLP技术,同时还介绍了文本数据的预处理,以帮助我们抽取到更好的特征。

    文章以twitter sentiment dataset为例,使用Python进行特征抽取,主要内容如下所示,具体内容请戳文章链接,我就不一一搬运了。


    目录

    1. Basic feature extraction using text data

    \circ  Number of words

    \circ  Number of characters

    \circ  Average word length

    \circ  Number of stopwords

    \circ  Number of special characters

    \circ  Number of numerics

    \circ  Number of uppercase words

    2. Basic Text Pre-processing of text data

    \circ  Lower casing

    \circ  Punctuation removal

    \circ  Stopwords removal

    \circ  Frequent words removal

    \circ  Rare words removal

    \circ  Spelling correction

    \circ  Tokenization

    \circ  Stemming

    \circ  Lemmatization

    3. Advance Text Processing

    \circ  N-grams

    \circ  Term Frequency

    \circ  Inverse Document Frequency

    \circ  Term Frequency-Inverse Document Frequency (TF-IDF)

    \circ  Bag of Words

    \circ  Sentiment Analysis

    \circ  Word Embedding


    相关文章

      网友评论

          本文标题:使用Python进行文本特征抽取

          本文链接:https://www.haomeiwen.com/subject/jldssqtx.html