Python学习

作者: 逛逛_堆栈 | 来源:发表于2021-04-21 21:18 被阅读0次

python学习笔记目录
python学习笔记
Python学习之模块
Python学习之面向对象高级编程
Python学习之正则
Python学习之常用模块
Python学习之进程和线程
Python学习之面向对象编程
Python学习之IO编程
如何学习python？python该怎么学？如何高效率学习pyt

第二十八天

爬虫学习(三)

今天我们来小试一下手脚，爬取一下百度百科python首页词条相关的页面数据。想要抓取数据，其实只需要四步走：
1、确定目标
2、分析目标
3、编写代码
4、执行爬虫

1、分析目标

既然要爬取数据，我们要从爬取目标的三个方面来分析，分别是url格式、数据格式、网页编码。
url格式：我们进入百度百科python首页:
https://baike.baidu.com/item/Python/407313
右键检查元素：
url格式 :

/item/XXX

标题格式:

<dd class="lemmaWgt-lemmaTitle-title"><h1>***</h1></dd>

简介格式:

<div class="lemma-summary">***</div>

编码集：utf-8

2、编写代码

2.1、URL管理器

1、将新搜寻到的url加入到新url的set( )数据结构中。
2、将已搜寻的url加入到旧url的set( )数据结构中。
3、实现了对url的一系列控制，保证不会有重复的url地址或者不会来回几个地址重复搜寻。
代码如下：

#### Url管理器
class UrlManager():
    def __init__(self):
        self.new_urls = set() # 要爬取的地址
        self.old_urls = set() # 爬取过的地址
    # url管理器添加url
    def add_new_url(self,url):
        if url is None:
            return
        if url not in self.new_urls and url not in self.old_urls:
            self.new_urls.add(url)
    # url管理器添加多条url
    def add_new_urls(self,urls):
        if urls is None or len(urls) == 0:
            return
        for url in urls:
            self.add_new_url(url)
    # 判断管理器中是否有新的在爬取的url
    def has_new_url(self):
        return  len(self.new_urls) != 0

    # url管理器获取一个新的在爬取的url
    def get_new_url(self):
        new_url = self.new_urls.pop()
        self.old_urls.add(new_url)
        return  new_url

2.2、网页下载器

网页下载器目的就是获得爬取到数据的内容的。常用技术有两种:
1 urllib2 —Python官网基础模块
2 requests —第三方包更强大

import  urllib.request as urllib2

class HtmlDownloader():

    def download(self,url):
        if url is None:
            return None
        response = urllib2.urlopen(url)
        if response.getcode() != 200:
            return None
        return response.read()

2.3、网页解析器

网页解析器，简单的说就是用来解析html网页的工具，准确的说：它是一个HTML网页信息提取工具，就是从html网页中解析提取出“我们需要的有价值的数据”或者“新的URL链接”的工具。这里我们使用BeautifulSoup第三方模块。

from bs4 import  BeautifulSoup
import re
from urllib import  parse
class HtmlParser():

    def parse(self,page_url,html_content):
        if page_url is None or html_content is None:
            return
        soup = BeautifulSoup(html_content,'html_parser',from_encoding=utf-8)
        new_urls = self._get_new_urls(page_url,soup)
        new_data = self._get_new_data(page_url,soup)
        return new_urls

    def _get_new_urls(self, page_url, soup):
        # 得到所有的词条url
        links = soup.find_all('a', href=re.compile(r"/item/.*"))
        new_urls = set()
        for link in links:
            new_url = link['href']
            # parse.urlparse 字符串组合
            new_full_url = parse.urlparse.urljoin(page_url, new_url) #全路径
            new_urls.add(new_full_url)
        return new_urls

    def _get_new_data(self, page_url, soup):
        res_data = {} #存放数据 存放标题与简介
        # url
        res_data['url'] = page_url
        # <dd class="lemmaWgt-lemmaTitle-title">
        # <h1>Python</h1>
        title_node = soup.find('dd', class_='lemmaWgt-lemmaTitle-title').find("h1")
        res_data['title'] = title_node.get_text()
        # <div class="lemma-summary" label-module="lemmaSummary">
        summary_node = soup.find('div', class_="lemma-summary")
        res_data['summary'] = summary_node.get_text()
        return res_data

2.4、页面输出器

页面输出器，其实就是定义输出的内容格式。

# 网页输出器
class HtmlOutput():

    def __init__(self):
        self.datas = []

    def collect_data(self,data):
        if data is None:
            return
        self.datas.append(data)

    # 定义输出格式
    def output_html(self):
        fout = open('output.html','w')
        fout.write('<html>')
        fout.write('<body>')
        fout.write("<table>")
        for data in self.datas:
            fout.write("<tr>")
            fout.write("<td>%s</td>" % data['url'])
            fout.write("<td>%s</td>" % data['title'].encode('utf-8'))
            fout.write("<td>%s</td>" % data['summary'].encode('utf-8'))
            fout.write("</tr>")
        fout.write("/table")
        fout.write('</body>')
        fout.write('</html>')

2.5、主入口文件

前期工作已经准备完毕，我们将爬虫程序的各个组成部分已经完成，最后一步代码工作们就是在入口文件中组合完成爬虫代码工作。

class SpiderMain():

    # 构造函数
    def __init__(self):
        # url管理器
        self.urls = url_manager.UrlManager()
        # 下载器
        self.downloader = html_downloader.HtmlDownloader()
        # 解析器
        self.parser = html_parser.HtmlParser()
        # 输出控制器
        self.outputer = html_outputer.HtmlOutput()
        # 爬取数据
    def craw(self, root_url):
        # 记录当前爬取的是第几个url
        count = 1
        self.urls.add_new_url(root_url)
        # 如果有待爬取的url就继续while循环
        while self.urls.has_new_url():
            new_url = self.urls.get_new_url()
            print
            'craw %d : %s' % (count, new_url)
            # 下载url页面
            html_cont = self.downloader.download(new_url)
            # print html_cont
            # 进行url解析并获取url的数据
            new_urls, new_data = self.parser.parse(new_url, html_cont)
            # url解析及数据搜集
            self.urls.add_new_urls(new_urls)
            self.outputer.collect_data(new_data)

            if count >= 10:
                break
            count = count + 1

        # 输出到指定页面
        self.outputer.output_html()

# 入口文件
if __name__ == '__main__':
   root_url = 'https://baike.baidu.com/item/Python/407313'
   obj_spider = SpiderMain()
   obj_spider.craw(root_url)

3、代码执行查看效果

网友评论

本文标题：Python学习

本文链接：https://www.haomeiwen.com/subject/gisvlltx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Python学习

第二十八天

爬虫学习(三)

1、分析目标

2、编写代码

2.1、URL管理器

2.2、网页下载器

2.3、网页解析器

2.4、页面输出器

2.5、主入口文件

3、代码执行查看效果

相关文章

python学习笔记目录

python学习笔记

Python学习之模块

Python学习之面向对象高级编程

Python学习之正则

Python学习之常用模块

Python学习之进程和线程

Python学习之面向对象编程

Python学习之IO编程

如何学习python？python该怎么学？如何高效率学习pyt

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读