美文网首页scrapy爬虫学习笔记
scrapy学习笔记(五)

scrapy学习笔记(五)

作者: ATangYaaaa | 来源:发表于2018-06-04 19:12 被阅读0次

面对实际问题中的问题,用智慧解决。

这篇讲一个python调用scrapy执行爬虫,并用正则表达式方法提取JS信息的实际任务。

A任务:定时爬取panda.tv的某个房间数据并输出文本出结果

分析网页目标:要提取的num信息存在于JS中因此无法用xpath提取到有效内容,这里用正则表达式完成任务

省去之前熟悉的建工程步骤

首先编写爬虫将网页整篇保存下来:

import scrapy

class PandaSpiderSpider(scrapy.Spider):

    name = 'panda_spider'

    start_urls = ['https://www.panda.tv/555888']

    def parse(self, response):

        print(response)

        f = open("out.txt","w")

        print >> f, "%s" % (response.body)

        f.close()

然后写python运行scarpy程序并从out.txt中正则提取信息:

import time

import os

import re

totaltime = 0

for deltaT in range(10): #重复爬十次

    os.system("scrapy crawl panda_spider")

    # 提取单个网页文件字段信息,保存到out.txt中

    f = open('out.txt','r')

    s=f.read()

    f.close()

    w=re.search('\'roominfo\'.+',s).group()  #提取包含信息的整行

    x=re.search('"person_num":"\d+","classification"',w).group() #提取包含信息的字段

    x=re.search('\d+',x).group() #提取所需信息

    print(x) #x就是我们需要提取的信息

    time.sleep(30)

    #将时间-数据写入文件data.txt

    g = open('data.txt','a+')

    print >> g,"%s %s" % (totaltime,x)

    g.close()

    totaltime += 30

print('finished!')

运行py程序即可开始爬取,这里重点学习python正则表达式的用法。

注意写文件的参数'a+'表示追加,如没有文件则新建。

该例子中爬虫间隔时间为30秒,一共爬10次。

相关文章

  • scrapy学习笔记(有示例版)

    scrapy学习笔记(有示例版) 我的博客 scrapy学习笔记1.使用scrapy1.1创建工程1.2创建爬虫模...

  • scrapy学习笔记(五)

    面对实际问题中的问题,用智慧解决。 这篇讲一个python调用scrapy执行爬虫,并用正则表达式方法提取JS信息...

  • 分布式爬虫笔记(一)- 非框架实现的Crawlspider

    不久前写过一篇使用Scrapy框架写的Crawlspider爬虫笔记(五)- 关于Scrapy 全站遍历Crawl...

  • 2018-08-12

    Scrapy学习 《精通Scrapy网络爬虫》第八章--仅作为本人学习笔记,如有侵权,请私信我删除 1、项目需求 ...

  • Scrapy笔记

    Scrapy笔记 安装scrapy框架: 安装scrapy:通过pip install scrapy即可安装。 如...

  • scrapy笔记

    1 scrapy的运行原理 参考:Learning Scrapy笔记(三)- Scrapy基础Scrapy爬虫入门...

  • 使用scrapy-deltafetch实现增量爬取

    Scrapy学习笔记-使用scrapy-deltafetch实现增量爬取 前言 在之前的文章中我们都是对目标站点进...

  • scrapy笔记(4) - 跟踪调试scrapy

    学习要点 学习如何跟踪调试scrapy框架 oh..距离上次写scrapy笔记3已经有一个多月了,跳票这么久,除了...

  • Scrapy笔记

    Scrapy笔记 pip 指定源安装模块 创建Scrapy项目 创建Scrapy爬虫程序 启动Scrapy爬虫 在...

  • scrapy学习笔记(〇)

    人若无名,便可潜心练剑。 本篇补冲基础知识:scrapy架构安装和shell用法。 安装顺序: 1. Python...

网友评论

    本文标题:scrapy学习笔记(五)

    本文链接:https://www.haomeiwen.com/subject/yiiysftx.html