Python 3 爬虫学习笔记 6 StringIO， Dict

作者: 懒大 | 来源:发表于2017-02-13 04:32 被阅读0次

此学习笔记整理于 Ryan Mitchell Web Scraping with Python- Collecting Data from the Modern Web (2015) Chapter 6 reading documents

CSV file

作者提供了处理网路csvfile的一个方法，不存储，直接处理。用到了StringIO，然后直接处理。

主要还是两个步骤，一个是把urlopen得到的文件用stringio 来处理一下。得到一个stringio文件，然后直接用csv.reader 来读取一下。读取后就可以进行操作了，读取后可以进行迭代操作。

也可以将csv数据处理成字典

只是将第8句换掉就好了

第八句换成csv.DictReader。第九句只是用来检验得到的字段。

二，pdf

说实话，我没看懂，也没查到中英文的资料。

作者上面的代码少了一句 from urllib.request import urlopen.不过书中的正确代码都可以在网上找到。

作者说这个代码对处理全是text且layout比较可以的pdf效果较好。

三，word

也不懂，就把代码贴这里吧。

P.S.：没能上车的小伙伴欢迎留言，如果我会我直接回答你！如果不会，我谷歌后回答你！如果要加我微信，不行。

网友评论

本文标题：Python 3 爬虫学习笔记 6 StringIO， Dict

本文链接：https://www.haomeiwen.com/subject/fmrjittx.html

Python 3 爬虫学习笔记 6 StringIO， Dict