美文网首页
2020-01-07培训

2020-01-07培训

作者: Cipolee | 来源:发表于2020-01-07 22:57 被阅读0次

    安装包换源

    again and over again

    pip install -i https://pypi.tuna.tsinghua.edu.cn/simple some-package #要安装的包(清华镜像)
    

    datetime与字符串的相互转换

    str->datetime
    datetme.strptime(str,'%Y-%M-%D')
    浏览器和web的练习


    cookie的作用机制

    爬虫文件划分:
    某些代码作为轮子or板子,例如spider爬取的函数,存储(txt,html,csv)函数,lxml解析函数,正则表达式(特定情况下有套路,如细节处理,豆瓣网站处理,)
    new knowledge:较昨天configparse配置,numpy

    1. primary_data文件:存储原始爬取的数据(txt,html)
    2. handled_data文件:存储已经解析分析完成的数据
    3. spider文件:
      3.1my_spider:爬虫爬取文件
      3.2job_line:数据解析文件
    4. utils文件:
      4.1file_tools文件:负责读写的文件操作
      4.2producter文件:读写以外的函数,例如月薪最小最大值函数,获得所有的url的函数
    5. run文件 模块化后对客户来说可以理解的执行文件,可直接或间接调用所有文件

    spider文件

      //文件树根寻找,使用lxml.etree处理xml文件
    

    etree具有parse('配置文件')#配置文件不需要路径名
    可以将读取url的爬虫函数嵌套在读取cfg配置文件的函数,先通过cfg获得必要的参数,形成url,然后在该函数调用网络爬虫

    相关文章

      网友评论

          本文标题:2020-01-07培训

          本文链接:https://www.haomeiwen.com/subject/lqfractx.html