1、初级的爬虫:
网络基础:cookie,session,https,headers常用的字段,代理使用等等
python基础:这个网上搜到的面经都得会,加上异步,多进程,多线程等等
爬虫:xpath,requests如何处理https,常见的反爬措施,举例说一个最难的爬虫过程,scrapy使用中的细节,例如代理,cookie,传参等等。
数据库:数据库操作,并表之类的。
2、if __name__ == "__main__":这段代码的作用是保证在这个py文件被import的时候不会被运行,只有主动执行它的时候才会运行。
参考:
2、爬取拉钩上海Python职位信息并存入MongoDB数据库
3、
网友评论