记第一次爬虫

作者: 宇文黎琴 | 来源:发表于2016-06-10 20:44 被阅读242次

爬上海证券网的大标题和top-topic。使用的是beautifulsoup。

过程中遇到的问题

网页结构不难,我希望能得到网页中所有的大标题--》就是<h1/>标签中的标题和top-toptic中所有的标题。

1.beautifulsoup中findAll函数不支持交集的查找。

findAll函数中的参数只支持并集的查找,比如:

 print(bsObj.findAll("div","h1","a"))

会把所有div,h1,a标签的内容全部提取出来,而不是div中h1,h1中a的标签的内容。如果需要这样查找,也可以用children函数来实现。但是用位置定位你需要的内容太麻烦了。
所以我的解决办法是,分别查找然后去重。然后就遇到第二个问题

2.如何对中文进行比较

在beautifulsoup里中文编码是Unicode。但是python中比较字符串是否一致的函数。在上证网中top-list含在一个class属性值为top-area 的div里面,当我对这个div进行提取文字,是提取了这个段落里面的所有的文字。这些文字是被当做连续的内容整体处理的。也就是说里面的文字的内容可能是来自<h1/>标题,也可能是来自<h2/>标题等。所以可以用找子串的函数来处理。如果查找<h1/>标题在<div/>标签里面出现,就删除。

index = Obj_toplist.get_text().find(obj_h1.get_text())

删除函数是

Objs_h1.remove(remove_list)
3.去除重复的标签

对于list可以用remove去除list中第一个匹配成功的元素。但是remove会让list的长度减1.所以如果有俩个连续的位置需要去除。不能识别一个去除一个。这样会漏掉俩个连续位置的中的第二个元素。做法是对于遇到的重复的标签,先储存,然后一次性全部去除。

for remove_list in removes_list:
             Objs_h1.remove(remove_list)

以下是源代码

from urllib.request import urlopen
from bs4 import BeautifulSoup
import re


html  = urlopen("http://www.cnstock.com")
bsObj = BeautifulSoup(html,"html.parser")

Objs_h1      = bsObj.findAll("h1")
Objs_toplist = bsObj.findAll("div",{"class":"top-area"})
removes_list = []

#去除重复的文字【重要新闻处理】
for Obj_toplist in Objs_toplist:
    for obj_h1 in Objs_h1:
    index = Obj_toplist.get_text().find(obj_h1.get_text())
    if index !=-1 :
        removes_list.append(obj_h1)

for remove_list in removes_list:
Objs_h1.remove(remove_list)


print("重要新闻")
for Obj_h1 in Objs_h1:
    print(Obj_h1.get_text())
for Obj_toplist in Objs_toplist:
    print(Obj_toplist.get_text())

相关文章

  • 记第一次爬虫

    爬上海证券网的大标题和top-topic。使用的是beautifulsoup。 过程中遇到的问题 网页结构不难,我...

  • Python【记第一次爬虫】

    1.首先导入一些相关模块 import requests from lxml import etree from ...

  • 爬虫小测试(。ò ∀ ó。)

    第一次接触python,觉得爬虫很好玩,爬虫就是抓取网页信息,至于要爬下来什么就是你来定咯 爬虫前部分还是不难的 ...

  • 记初次爬虫

    前天在简书看到爬虫系列http://www.jianshu.com/p/dcd6438ce4c7#,感觉很有意思,...

  • 反爬虫记

    没有反爬    各大新闻网站如http://mil.news.sina.com.cn/roll/index.d....

  • 优化爬虫初级篇

    优化爬虫初级篇 前记:之所以说是初级篇,是我现在用的爬虫最多也就是十万级数据,数据量还是不大,所以以下内容还是我实...

  • 11.20-11.26

    本周目标 爬虫 爬虫 爬虫 爬虫

  • 最精简的爬虫 --仅需4行代码(python)

    最精简的爬虫 --仅需4行代码(python) 我该有多疯狂 刚刚整理了下爬虫系列,于是乎就开始了第一次的技术分享...

  • Scrapy爬虫(1)-知乎

    Scrapy爬虫(1)-知乎 我的博客第一次用Scrap创建的爬虫,详细记录下完整代码请访问这里,不过代码可能有所...

  • 爬虫入门基础

    Day01 一、爬虫介绍 什么是爬虫 Python爬虫的优势 Python爬虫需要掌握什么 爬虫与反爬虫与反反爬虫...

网友评论

    本文标题:记第一次爬虫

    本文链接:https://www.haomeiwen.com/subject/znusdttx.html