4.Python3爬虫入门

作者: KaelQ | 来源:发表于2016-07-25 15:52 被阅读942次

4.Python3爬虫入门
3分钟带你了解世界第一语言Python 入门上手也这么简单！
爬虫入门系列（六）：正则表达式完全指南（下）
Python爬虫入门
Python爬虫总结和资源
Python网络爬虫（八） - 利用有道词典实现一个简单翻译程序
Python网络爬虫（七）- 深度爬虫CrawlSpider
Python网络爬虫（二）- urllib爬虫案例
Python网络爬虫（一）- 入门基础
Python网络爬虫（四）- XPath

1.爬虫概述

应用场景：当需要抓取网页上一些有价值的、大量的、重复有规律的信息时，需要使用爬虫，类似一种人工脚本。这里就先不讲一些比较高深的比如：伪装报头，更改ip等。来先原原本本的讲一讲最基本的原理吧。

1.1 抓取网页

使用urllib.request.urlopen(url).read()方法进行对网页代码的读取。

import urllib.request
url="http://www.baidu.com"
page=urllib.request.urlopen(url).read()
print(page)

urllib.request.urlopen(url) 用来打开网页
read() 用来读取网页
输出的结果是网页代码。

1.2 书写需要抓取信息的正则表达式

通过 re.findall('正则表达式',文本)找到所需的信息。

import urllib.request
import re
url="http://www.baidu.com"
page=urllib.request.urlopen(url).read()
page=page.decode('utf8') #转码
title=re.findall('<title>(.*?)</title>',page,re.S)#re.S表示.可以代表\n
print(title)

输出为：

['百度一下，你就知道']

1.3 总结表

爬虫是很简单的原理，我们来做一个实践吧~

方法	所需库	作用
urllib.request.urlopen()	urllib.request	打开网页
read()	urllib.request	读取网页代码
re.findall('正则表达式',文本)	re	使用正则表达式找所需信息

下面是个例子_{也是我写的}
我是例子

4.Python3爬虫入门
1.爬虫概述应用场景：当需要抓取网页上一些有价值的、大量的、重复有规律的信息时，需要使用爬虫，类似一种人工脚本。...
3分钟带你了解世界第一语言Python 入门上手也这么简单！
一、Python入门 1. Python爬虫入门一之综述 Python爬虫入门二之爬虫基础了解 Python爬虫入...
爬虫入门系列（六）：正则表达式完全指南（下）
爬虫入门系列目录：爬虫入门系列（一）：快速理解HTTP协议爬虫入门系列（二）：优雅的HTTP库requests...
Python爬虫入门
注：采转归档，自己学习查询使用 Python爬虫入门（1）：综述Python爬虫入门（2）：爬虫基础了解Pytho...
Python爬虫总结和资源
全局指导：Python爬虫如何入门Python入门网络爬虫之精华版http://www.lining0806.co...
Python网络爬虫（八） - 利用有道词典实现一个简单翻译程序
目录： Python网络爬虫（一）- 入门基础Python网络爬虫（二）- urllib爬虫案例Python网络爬...
Python网络爬虫（七）- 深度爬虫CrawlSpider
目录： Python网络爬虫（一）- 入门基础Python网络爬虫（二）- urllib爬虫案例Python网络爬...
Python网络爬虫（二）- urllib爬虫案例
目录： Python网络爬虫（一）- 入门基础Python网络爬虫（二）- urllib爬虫案例Python网络爬...
Python网络爬虫（一）- 入门基础
目录： Python网络爬虫（一）- 入门基础Python网络爬虫（二）- urllib爬虫案例Python网络爬...
Python网络爬虫（四）- XPath
目录： Python网络爬虫（一）- 入门基础Python网络爬虫（二）- urllib爬虫案例Python网络爬...