1.python的基本知识
(1)模块:request/bs4
(2)库:BeautifulSoup
(3)装饰器
(4)函数:
def:定义
get:获取
return:返回
(5)语法
2.网络爬虫常用的包
(1)urllib:提供了一系列用于操作url的功能,即利用程序去执行各种http请求,可以以GET和POST来发送请求
(2)bs4/BeautifulSoup
pip:通用的python包的管理工具,用于对python包的查找、下载、安装、卸载
request:获取
lxml:用于解析XML和html文件,解析XML文件的代码为lxml.etree.XML(XML字符串)
encoding = 'utf-8' 解析为“utf-8”这种统一编码格式
chardet:用于检测编码,示例代码为 chardet.detect("Hello, world!"),'confidence':1.0则表示检测概率为100%(使用情境:对于未知编码的bytes,要把它转换成str,需要先“猜测”编码。猜测的方式是先收集各种编码的特征字符,根据特征字符判断,就能有很大概率“猜对”。)
3.python的使用-首先需要声明编码格式
在python的源码的头文件中要设置统一编码格式,具体代码为
# coding=utf-8
4.利用python做数据分析
https://www.jianshu.com/p/a499fc070c5c
5.python所包含的包
https://www.lfd.uci.edu/~gohlke/pythonlibs/
网友评论