网络爬虫(Web Spider -又被称为网页蜘蛛。网络机器人,又称为网页追逐者),是一种依照一定的规则,自己主动的抓取万维网信息的程序或者脚本
1.获取网页信息
urllib、urllib3、requests
2.解析网页信息
beautifulsoup4(bs4)、re、xpath、lxml
用户代理, 使得服务器能够识别请求是通过浏览器请求过来的,其中包含浏览器的名称/版本等信息
User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36
pip install lxml -i https://pypi.douban.com/simple
关系型数据库
开源数据库
mysql community enterprise
mysql -uroot -p 123456
Posteresql = pgsql
todo: 安装
todo:domain name icp
商用
microsoft sql server
oracle
ibm db2
网友评论