【Python爬虫】正则爬取CSDN链接

作者: 倔强的潇洒小姐 | 来源:发表于2017-09-14 22:14 被阅读109次

【Python爬虫】正则爬取CSDN链接
Python爬虫简谱网-简谱
各类链接
Python学习
Python爬虫入门(一)-爬取CSDN热门博文
python爬虫：用selenium控制浏览器，爬取蛋壳公寓租房
Python爬虫实战之爬取链家广州房价_03存储
Python爬虫-豆瓣电影Top250-各项信息爬取及xls保存
python爬虫实战——爬取股票个股信息
用python网络爬虫爬取英雄联盟英雄图片

实验目的：获取“http://blog.csdn.net/”网页上的所有链接

思路

1）确定好要爬取的入口链接
2）根据需求构建好链接要提取的正则表达式
3）模拟成浏览器并爬取对应网页
4）根据步骤2中的正则表达式提取出该网页中包含的链接
5）过滤掉重复的链接
6）后续操作，比如屏幕上输出这些链接

源代码：

# -*- coding: utf-8 -*-
# __author__ = 'Carina'    

import re    # 导入正则表达式
import urllib.request


def getlink(csdnurl):
    # 模拟成浏览器
    headers = ("User-Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:55.0) Gecko/20100101 Firefox/55.0")
    opener = urllib.request.build_opener()    # 修改表头信息
    opener.addheaders = [headers]
    # 将opener安装为全局
    urllib.request.install_opener(opener)
    file = urllib.request.urlopen(csdnurl)
    data = str(file.read())
    # print(data)
    # 根据需求构建好链接表达式
    pat = '(https?:// [^\s)";]+\.(\w|/)*)'
    link = re.compile(pat).findall(data)
    print(link)
    # 去除重复数据
    link = list(set(link))
    return link
# 要爬取的网页链接
csdnurl = "http://blog.csdn.net/"
# 获取对应网页中包含的链接地址
linklist = getlink(csdnurl)
# 通过for 循环分别遍历输出获取到的链接地址到屏幕上
for link in linklist:
    print(link[0])