数据挖掘与应用(week-12)
把知识分解,成为自己的代码银行。成为分解者和生产者。
方法一:
第一步 逐行读取
读为列表,
第二步,jieba的提取主题词
jieba.analyse.extract_tags 提取主题词
![](https://img.haomeiwen.com/i4322967/dbdfff607f00b799.png)
第三步,extend(),不用自己解嵌套了。
第四步,词频处理
![](https://img.haomeiwen.com/i4322967/20869ac782bcadfb.png)
方法二:
![](https://img.haomeiwen.com/i4322967/78843026d0204be5.png)
方法三:
不依赖python库
![](https://img.haomeiwen.com/i4322967/893b5fc1763927ca.png)
取集合就可以去重,循环集合,然后数这个词在整个列表中的出现次数
mycount = [(i,(word_list.count(i))) for i in set(word_list)]
pd.DataFrame(mycount,columns = ['高频词','频次']).sort_values(by="频次" , ascending=False)
方法四
![](https://img.haomeiwen.com/i4322967/23162090b61af50f.png)
方法比较
![](https://img.haomeiwen.com/i4322967/c10b0cbf104d4568.png)
![](https://img.haomeiwen.com/i4322967/2885ec09304ebb7f.png)
所以,先读取列表就比较快,先读取字符串再分词为列表就比较慢
新的内容
模型权重
![](https://img.haomeiwen.com/i4322967/be48ea8b41fe92c8.png)
分词
![](https://img.haomeiwen.com/i4322967/c011da3c48a7c101.png)
删除,使用正则表达式
![](https://img.haomeiwen.com/i4322967/38dfc33cef075338.png)
![](https://img.haomeiwen.com/i4322967/e8155eb0d71fb27a.png)
删除单字词
![](https://img.haomeiwen.com/i4322967/514c26ee34e75e25.png)
![](https://img.haomeiwen.com/i4322967/77b2076767cf22dd.png)
extend的作用
![](https://img.haomeiwen.com/i4322967/e5070c31a2b74b6f.png)
实际案例一
方法一:
![](https://img.haomeiwen.com/i4322967/1d7f7d8c938111dd.png)
第一步,数据读取
![](https://img.haomeiwen.com/i4322967/e9306a0bf7e9c074.png)
第二步,字符串转为含字典的列表
![](https://img.haomeiwen.com/i4322967/a62be41d37089381.png)
数据抓取都有法律风险,外面的都不敢接了,所以才找到学校做舆情月报周报这样。大家要明确自己的东西属于那一类,不要去炫耀,要低调。
方法二:
转为字符串,去掉逗号
![](https://img.haomeiwen.com/i4322967/55ede2092a1697db.png)
再转为嵌套列表
![](https://img.haomeiwen.com/i4322967/65e5e007d39145db.png)
嵌套后解套就可以了
![](https://img.haomeiwen.com/i4322967/b298c423a48854df.png)
实际案例二
纯txt案例
![](https://img.haomeiwen.com/i4322967/3254cc1975246efd.png)
数据构思
![](https://img.haomeiwen.com/i4322967/3545d357e4ba1441.png)
![](https://img.haomeiwen.com/i4322967/5c65b086f23a4886.png)
dataframe 读取嵌套字典
![](https://img.haomeiwen.com/i4322967/db0deef44b5ec908.png)
分词要点:不要先删除标点后分词
![](https://img.haomeiwen.com/i4322967/ae9b66aa6acf5444.png)
![](https://img.haomeiwen.com/i4322967/b562f9758387a2ce.png)
网友评论