美文网首页我的Python自学之路
Python 3 爬虫学习笔记 6 StringIO, Dict

Python 3 爬虫学习笔记 6 StringIO, Dict

作者: 懒大 | 来源:发表于2017-02-13 04:32 被阅读0次

    此学习笔记整理于 Ryan Mitchell Web Scraping with Python- Collecting Data from the Modern Web (2015) Chapter 6 reading documents

    CSV file

    作者提供了处理网路csvfile的一个方法,不存储,直接处理。用到了StringIO,然后直接处理。

    主要还是两个步骤,一个是把urlopen得到的文件用stringio 来处理一下。得到一个stringio文件,然后直接用csv.reader 来读取一下。读取后就可以进行操作了,读取后可以进行迭代操作。

    也可以将csv数据处理成字典

    只是将第8句换掉就好了

    第八句换成csv.DictReader。第九句只是用来检验得到的字段。

    二,pdf

    说实话,我没看懂,也没查到中英文的资料。

    作者上面的代码少了一句 from urllib.request import urlopen.不过书中的正确代码都可以在网上找到。

    作者说这个代码对处理全是text且layout比较可以的pdf效果较好。

    三,word

    也不懂,就把代码贴这里吧。

    P.S.:没能上车的小伙伴欢迎留言,如果我会我直接回答你!如果不会,我谷歌后回答你!如果要加我微信,不行。

    相关文章

      网友评论

        本文标题:Python 3 爬虫学习笔记 6 StringIO, Dict

        本文链接:https://www.haomeiwen.com/subject/fmrjittx.html