美文网首页
Python 网络爬虫(一)

Python 网络爬虫(一)

作者: 狗子渣渣 | 来源:发表于2016-01-01 20:59 被阅读605次

 网络爬虫的基本介绍

学习爬虫,我想主要从以下几个方面来切入

-爬虫的原理?

-爬虫的作用?

-爬虫的实现?

-爬虫的工具?

爬虫的原理

爬虫就是一种自动获取网页内容,提取有价值的数据的技术。把互联网比喻成一个蜘蛛网,把你想象成一只蜘蛛,如果要你浏览全部网页,你会如何进行?从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。网络爬虫的基本操作是抓取网页。

 爬虫的作用

方便获取互联网数据,为我所用。假如你是一个科幻迷,想要获取豆瓣上关于科幻电影的信息,你就可以通过写一个简单的脚本,去抓取关于科幻电影的信息。又或者朋友向你推荐一部好看的动漫,你想要下载整部动漫时,你也可以写个爬虫程序,去获取下载链接。

 爬虫的实现

爬虫实现的过程中主要包括了抓取网页、存储、网页分析、展示预期结果。

爬虫的工具

刚开始学习爬虫,我们需要掌握以下几个库的使用。

1.打开网页,下载文件:urllib、urllib2

2.解析网页:BeautifulSoup,熟悉JQuery的可以用Pyquery

3.使用Requests来提交各种类型的请求,支持重定向,cookies等。

4.使用Selenium,模拟浏览器提交类似用户的操作,处理js动态产生的网页

相关文章

网友评论

      本文标题:Python 网络爬虫(一)

      本文链接:https://www.haomeiwen.com/subject/pcpncttx.html