美文网首页
2.scrapy注意事项

2.scrapy注意事项

作者: starrymusic | 来源:发表于2019-04-01 13:35 被阅读0次

    scrapy的安装就不多说了,直接pip就可以,实在不行就用豆瓣源,需要注意的一点是Twisted的安装到(https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted)这里下载对应的文件,放到anaconda安装目录,如果是单纯python,放到scripts文件夹。弄好后再安装一次就OK了。

    1.scrapy创建项目文件时,域名就是域名,不要带着http,或者www,不然,本来多页爬取的策略,会变成单页爬取;

    2.爬虫的log文件设置,在settings里面,要写规范的(LOG_FILE="名字.log",LOG_LEVEL="DEBUG"),不然不会生效;

    requests.get(url).content.decode("utf-8")

    urllib.request.urlopen(url).read()

    一个是<class 'str'>, 一个是<class 'bytes'>,两者经过lxml.etree.HTML解析后是相同类型,都是

    <class 'lxml.etree._Element'> <class 'lxml.etree._Element'>

    3.设置断点,直接用鼠标在想要设置断点的行点一下即可,看到红色的圆点即表示设置了断点,然后就可以在start.py文件中执行debug操作了

    4.extract_first()函数的好处是对于一个list如果用extract()[0]经常会出现out of range报错,而extract_first()不需要担心,如果超出列表范围,它的返回值是none,当然也可设定默认返回值比如这样写extract_first(""),异常出现会返回空值,无异常返回正常值

    scrapy安装后新建项目报错:

    这个报错很具有代表性,以后只要是dll报错大部分原因都可以参考这篇的解决方法。

    各个版本Microsoft Visual C++运行库下载(https://blog.csdn.net/weixin_42831477/article/details/81429004

    下载后放到想要放的文件夹下,安装。

    OpenSSL的下载(https://slproweb.com/products/Win32OpenSSL.html

    下载后放到想放的文件夹下安装,不要更改默认的路径,将路径加到系统环境变量里,

    1)将openssl安装路径下的bin文件夹内的ssleay32.dll和libeay32.dll两个文件复制到C:\system32文件夹下,覆盖原有的文件;

    2)在系统的环境变量中增加openssl下bin文件夹路径,类似这样:C:\OpenSSL-Win64\bin。

    都弄好后,就可以到cmd.exe下见证奇迹了。

    参考文章(https://blog.csdn.net/Doctor_LY/article/details/79581017

    相关文章

      网友评论

          本文标题:2.scrapy注意事项

          本文链接:https://www.haomeiwen.com/subject/ksqvbqtx.html