spider

作者: 丫丫姑娘_b55e | 来源:发表于2018-10-11 19:38 被阅读0次

    网络爬虫(Web Spider -又被称为网页蜘蛛。网络机器人,又称为网页追逐者),是一种依照一定的规则,自己主动的抓取万维网信息的程序或者脚本
    1.获取网页信息
    urllib、urllib3、requests
    2.解析网页信息
    beautifulsoup4(bs4)、re、xpath、lxml

    用户代理, 使得服务器能够识别请求是通过浏览器请求过来的,其中包含浏览器的名称/版本等信息

    User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36

    pip install lxml -i https://pypi.douban.com/simple
    关系型数据库
    开源数据库
    mysql community enterprise

    mysql -uroot -p 123456
    Posteresql = pgsql
    todo: 安装
    todo:domain name icp
    商用
    microsoft sql server
    oracle
    ibm db2

    相关文章

      网友评论

          本文标题:spider

          本文链接:https://www.haomeiwen.com/subject/kfliaftx.html