课程简介:
本节提供了自然语言文本分析的实用方法,通过深度学习、分类、回归简单的组合,利用博客文章准确地预测博主的性别、年龄。具体来讲,就是利用 Gensim库中的Word2Vec深度学习模型创建文本特征,进而用 GraphLab Create中的机器学习工具进行分类和回归分析。
本节分为以下几个部分:
- 设置
- 准备数据集
- 训练Word2Vec模型
- 创建&评估分类器
每一部分都可以独立执行,所以可以按兴趣挑选并执行操作。
课程目标
- 了解 Word2Vec 并学会使用 Gensim 相关包训练 Word2Vec 模型
- 利用 Word2Vec 实现文本分类及相关回归预测分析
相关准备
所需要的Python包:
- BeautifulSoup - 用于解析原始博客文章。
- NLTK (包括下载stopwords and punkt ) - 用于文本预处理。
- Gensim - 用于 Word2Vec 深度学习。
- GraphLab Create - 用于分类、回归、数据工程和评估。
数析学院:http://datacademy.io/
我们致力于打造更加精要的课程,如果小伙伴们在工作和学习中遇到什么问题,可以给我们留言。
网友评论