美文网首页
2020-05-21-数据挖掘与应用

2020-05-21-数据挖掘与应用

作者: 天堑星曦 | 来源:发表于2020-05-20 23:27 被阅读0次

    数据挖掘与应用(week-12)

    把知识分解,成为自己的代码银行。成为分解者和生产者。

    方法一:

    第一步 逐行读取

    读为列表,

    第二步,jieba的提取主题词

    jieba.analyse.extract_tags 提取主题词

    image-20200522081505153

    第三步,extend(),不用自己解嵌套了。

    第四步,词频处理

    image-20200522082119555

    方法二:

    image-20200522082157423

    方法三:

    不依赖python库

    image-20200522082340829

    取集合就可以去重,循环集合,然后数这个词在整个列表中的出现次数

    mycount = [(i,(word_list.count(i))) for i in set(word_list)]
    
    pd.DataFrame(mycount,columns = ['高频词','频次']).sort_values(by="频次" , ascending=False)
    

    方法四

    image-20200522082717143

    方法比较

    image-20200522083608783 image-20200522083359502

    所以,先读取列表就比较快,先读取字符串再分词为列表就比较慢

    新的内容

    模型权重

    image-20200522083703496

    分词

    image-20200522083720352

    删除,使用正则表达式

    image-20200522083733216 image-20200522083820827

    删除单字词

    image-20200522083853441 image-20200522084043314

    extend的作用

    image-20200522084105696

    实际案例一

    方法一:

    image-20200522084410028
    第一步,数据读取
    image-20200522084754320
    第二步,字符串转为含字典的列表
    image-20200522085057579

    数据抓取都有法律风险,外面的都不敢接了,所以才找到学校做舆情月报周报这样。大家要明确自己的东西属于那一类,不要去炫耀,要低调。

    方法二:

    转为字符串,去掉逗号
    image-20200522085211334
    再转为嵌套列表
    image-20200522085248522
    嵌套后解套就可以了
    image-20200522085336158

    实际案例二

    纯txt案例
    image-20200522085530943
    数据构思
    image-20200522085818139 image-20200522090006972
    dataframe 读取嵌套字典
    image-20200522090159416

    分词要点:不要先删除标点后分词

    image-20200522094256157 image-20200522094328902

    相关文章

      网友评论

          本文标题:2020-05-21-数据挖掘与应用

          本文链接:https://www.haomeiwen.com/subject/ooxaohtx.html