美文网首页
学习笔记-网络数据采集

学习笔记-网络数据采集

作者: 活点地图的守护神 | 来源:发表于2019-12-26 01:34 被阅读0次

    网络数据采集

    马尔可夫模型文字链原理手绘

    今天速读了一下Python网络数据采集,第一次用泛读速读的方法阅读学习材料。这里记上一些一天之后的收获,思路由目录回忆,粗略的片段,并不保证准确,随着日后的学习会补充。

    1. 关于BeautifulSoup 这玩意是干啥的? 负责把网页中的信息转换成python能够读取得懂的信息 有俩函数很厉害find()findAll(),用于过滤html页面

    2.关于正则表达式 给出两个学习正则表达式的链接 python中的正则表达式模块 正则表达式30分钟入门教程

    3.储存数据 使用Mysql储存文件 关于Mysql安装:一会儿写一下 [to-do] pymysql可以实现python和mysql的连接

    4. 文档编码 简单来说unicode最全面,但是iso还是弥补了很多 对于拉丁文来说ascii比unicode简介很多,不过对于中文来说就是unicode了

    5. 数据清洗 引入了n-gram模型,把一个文本中,连续出现的n个词组成一个组合,并返回词频,而n-gram模型作出的统计是当前置词出现之后,后续词出现的条件概率统计。

    6. 马尔可夫模型 举例了马尔可夫模型的天气预测解释 从而引入马尔可夫文字生成器,图如下

    马尔可夫模型

    7. Requests库 通过requests库可以提交简单的表单 通过requests库可以提交弹窗那种HTTP基本接入认证 通过requests库可以解决登陆和cookie的检测

    相关文章

      网友评论

          本文标题:学习笔记-网络数据采集

          本文链接:https://www.haomeiwen.com/subject/liahoctx.html