第一次接触python,觉得爬虫很好玩,爬虫就是抓取网页信息,至于要爬下来什么就是你来定咯
爬虫前部分还是不难的
其实个人觉得爬虫初步入门的时候就是处理字符串啊,然后正则表达式是个大坑,这两天硬是硬着头皮看下去感觉终于算是懂了正则表达式的基本用法,
先来解释下我们大家浏览网页的过程,当我们输入网址的时候,会传一个域名给DNS服务器,然后会给我们返回一个ip,通过这个ip可以找到服务器,向服务器发送一个请求,服务器经过解析后发送HTML,JS,CSS等文件给我们的浏览器,经过浏览器解析就是我们看到的花花绿绿的网页.爬虫小测试(。ò ∀ ó。)
URL即统一资源定位符,也就是我们大家说的网址,它是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,互联网上每个文件都有唯一的一个URL,它包含的信息指出文件的位置及浏览器应该如何处理它。
正则表达式大佬登场:
爬虫小测试(。ò ∀ ó。)发个小爬虫:
# -*- coding: utf-8 -*-
"""
Created on Wed Oct 18 15:13:50 2017
@author: zrx
"""
import urllib
import re
response = urllib.urlopen("https://www.duba.com/?f=favorites11")
response1= response.read()
pattern=re.compile(r'"(/static/images/.*?)"')
urls=re.findall(pattern,response1)
print urls
x=0
t_url='https://www.duba.com'
for url in urls:
urllib.urlretrieve(t_url+url,'%s.jpg'%x)
x+=1
这个正则表达式纠结了好久,因为这个网站有很多种图片格式,有jpg,png还有gif,后面加上想要的jpg和png呢要是碰上gif就开始加上gif的一段了,最后终于在前面动手脚算是把它搞定了,看到爬出来图片还是很开心的,里面有不少妹子的图23333,如下:
爬虫小测试(。ò ∀ ó。)越来越觉得爬虫好玩了,后面还有关于登录爬取的继续学习,(。ò ∀ ó。)爬啊爬~
网友评论