2017/06/06 第一次爬取数据

作者: starCoder | 来源:发表于2017-06-06 13:11 被阅读98次

2017/06/06 第一次爬取数据
Python 学习笔记 094
scrapy中间件实现增量爬虫
使用TensorFlow-Slim进行自己图像数据集分类
爬虫实战3——道客巴巴文档免费下载（使用puppeteer获取c
春夏秋冬的你
9: Harry Potter
关注圈和影响圈
我的山西七天跟团游之一 - 五台山（2017-06-10～201
时间轴

简单爬取松花江新闻网新闻[http://www.shjnet.cn/ms/msxw/]

1、先分析网页的源码查看要爬取的内容在什么位置
2、分析html取到想要的内容

1、查看源码

image.png

发现我们要的数据在<h4 标签下

2、通过编码通过requests获取网页源码

html = requests.get(url).content

然后通过BeautifulSoup找到我们想要的标签

links = soup.find_all('h4', class_='blank')

这样就爬取到新闻列表的数据

3、接下来通过列表爬取到的url去获取详情的内容，方法同上面一样

直接贴源码：

#!/usr/bin/env python
# coding:utf8
import sys

import requests
from bs4 import BeautifulSoup

reload(sys)
sys.setdefaultencoding("utf8")

url = 'http://www.shjnet.cn/ms/msxw/index.html'


def getNewsList(url, page=0):
    if (page != 0):
        url = 'http://www.shjnet.cn/ms/msxw/index_%s.html' % page
    html = requests.get(url).content
    soup = BeautifulSoup(html, 'lxml')
    links = soup.find_all('h4', class_='blank')
    for link in links:
        detailUrl = "http://www.shjnet.cn/ms/msxw/" + link.a.get('href').replace('./', '')
        print "-------------------------"
        print "新闻标题:" + link.a.get_text() + "  详情地址:" + detailUrl
        getNewsDetail(detailUrl)
    page = int(page) + 1
    print soup.select('#pagenav_%s' % page)
    if (soup.select('#pagenav_%s' % page)):
        print u'开始抓取下一页'
        print 'the %s page' % page
        getNewsList(url, page)


def getNewsDetail(detailUrl):
    html = requests.get(detailUrl).content
    soup = BeautifulSoup(html, 'lxml')
    links = soup.find_all('div', class_='col-md-9')
    for link in links:
        # print link.span.get_text()
        # print link.h2.get_text()
        # print link.find('div', class_='cas_content').get_text()
        if (link.find('div', class_='col-md-10').select('img')):
            imgs = link.find('div', class_='col-md-10').find_all('img')
            for img in imgs:
                print "图片:" + detailUrl[:detailUrl.rfind('/')] + "/" + img.get('src').replace('./', '')


if __name__ == '__main__':
    getNewsList(url)

效果：

image.png

本文使用的python为2.7

爬取中遇见的问题

打印 html = requests.get(url).text乱码
咨询了小分队群里的同学们，得到解答。
.text返回的是Unicode型数据。
.content 返回的是bytes型也就是二进制的数据
然后把html = requests.get(url).content解决乱码问题
拼接详情url时，去掉./ 多余的字符串
link.a.get('href').replace('./', '')
获取详情内容时报错

image.png
原因是需要添加http://开头

第一次使用BeautifulSoup 查看了向右老大的简书了解使用方法

find_all("tag") 搜索当前所有的tag标签的集合。

find("tag") 返回的是一个tag标签。（这个方法用得少）

select("") 可以按标签名查找，用得多的是按标签逐层查找筛选元素。

获取 `>内容<` 内容使用`.get_text()`

获取<href 内容 > 内容使用`.get('href')`

目前暂时在控制台打印内容 ☺

网友评论

Python爬虫作业

本文标题：2017/06/06 第一次爬取数据

本文链接：https://www.haomeiwen.com/subject/oymgfxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

2017/06/06 第一次爬取数据

简单爬取松花江新闻网新闻[http://www.shjnet.cn/ms/msxw/]

发现我们要的数据在<h4 标签下

本文使用的python为2.7

爬取中遇见的问题

find_all("tag") 搜索当前所有的tag标签的集合。

find("tag") 返回的是一个tag标签。（这个方法用得少）

select("") 可以按标签名查找，用得多的是按标签逐层查找筛选元素。

获取 `>内容<` 内容使用`.get_text()`

获取<href 内容 > 内容使用`.get('href')`

目前暂时在控制台打印内容 ☺

相关文章

2017/06/06 第一次爬取数据

Python 学习笔记 094

scrapy中间件实现增量爬虫

使用TensorFlow-Slim进行自己图像数据集分类

爬虫实战3——道客巴巴文档免费下载（使用puppeteer获取c

春夏秋冬的你

9: Harry Potter

关注圈和影响圈

我的山西七天跟团游之一 - 五台山（2017-06-10～201

时间轴

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Python爬虫作业

2017/06/06 第一次爬取数据

简单爬取松花江新闻网新闻[http://www.shjnet.cn/ms/msxw/]

发现我们要的数据在<h4 标签下

本文使用的python为2.7

爬取中遇见的问题

find_all("tag") 搜索当前所有的tag标签的集合。

find("tag") 返回的是一个tag标签。（这个方法用得少）

select("") 可以按标签名查找，用得多的是按标签逐层查找筛选元素。

获取 >内容< 内容使用.get_text()

获取<href 内容 > 内容使用.get('href')

目前暂时在控制台打印内容 ☺

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

获取 `>内容<` 内容使用`.get_text()`

获取<href 内容 > 内容使用`.get('href')`