2020-01-07培训

作者: Cipolee | 来源:发表于2020-01-07 22:57 被阅读0次

安装包换源

again and over again

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple some-package #要安装的包（清华镜像）

str->datetime
datetme.strptime(str,'%Y-%M-%D')
浏览器和web的练习

cookie的作用机制

爬虫文件划分：
某些代码作为轮子or板子，例如spider爬取的函数，存储（txt,html,csv）函数，lxml解析函数，正则表达式（特定情况下有套路，如细节处理，豆瓣网站处理，）
new knowledge：较昨天configparse配置，numpy

primary_data文件：存储原始爬取的数据（txt,html）
handled_data文件：存储已经解析分析完成的数据
spider文件：
3.1my_spider：爬虫爬取文件
3.2job_line：数据解析文件
utils文件：
4.1file_tools文件：负责读写的文件操作
4.2producter文件：读写以外的函数，例如月薪最小最大值函数，获得所有的url的函数
run文件模块化后对客户来说可以理解的执行文件，可直接或间接调用所有文件

spider文件

  //文件树根寻找，使用lxml.etree处理xml文件

etree具有parse('配置文件')#配置文件不需要路径名
可以将读取url的爬虫函数嵌套在读取cfg配置文件的函数，先通过cfg获得必要的参数，形成url，然后在该函数调用网络爬虫

本文标题：2020-01-07培训

本文链接：https://www.haomeiwen.com/subject/lqfractx.html