简单介绍下自己,本菜鸟是财务背景妹子一枚,没有编程基础自学pyhon数月,半只脚入门,但是不够系统,准备立贴记下自己每天python成长路上的足迹,起到监督和相互学习的作用。目前主攻python自然语言,也会涉及数据分析,简单了解爬虫但不能熟练操作。准备跟着python自然语言处理这本书走,把每天自己实际操作遇到的问题和收获放置于此。
一、对一些概念不熟悉,百度查询
url:统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。也就是说是网页地址。
Html:超级文本标记语言(英文缩写:HTML)是为“网页创建和其它可在网页浏览器中看到的信息”设计的一种标记语言。
二、直接上代码附图
1.Python urllib模块(一不小心入了爬虫的坑,整个学习实操结束知道爬虫会涉及这一步)
运行报错,未导入request模块,改为:
Python 3的urllib模块是一堆可以处理URL的组件集合
urllib包括下面几部分:
urllib.request:用来打开和获取URL的。
urllib.error
urllib.parse:用来拆分和组合URL字符串的标准接口。
urllib.rebotparser:是由一个单独的类RobotFileParser构成的。这个类会回答诸如一个特定的用户代理是否获取已经设置了robot.txt的网站的URL。robot.txt文件会告诉网络爬虫或者机器人当前网站的哪些部分是不允许被访问的。
实际操作中raw类型为bytes会报错,多了一步str转化。
引用一段话,“网络上的文本大部分是HTML文件的形式。你可以使用网络浏览器将网页作为文本保存为本地文件,然后按照后面关于文件的小节描述的那样来访问它。不过,如果你要经常这样做,最简单的办法是直接让Python来做这份工作。第一步是像以前一样使用urlopen。”
报错,运行不支持python3版本不支持clean_html()和clean_url()这两个函数,进行修正:
调整后可以正常运行。(据说会了这几步操作的人都有潜力成为高手,此处偷笑~)
网友评论