美文网首页
2022-09-19 爬虫日记

2022-09-19 爬虫日记

作者: 会爬虫的小蟒蛇 | 来源:发表于2022-09-18 15:45 被阅读0次

今天工作了一天,也没有学到啥新知识,感觉自己血亏哦。那就水一篇博客压压惊吧!!!

这是一个适合刚入门爬虫的“童鞋”尝试的网站(不能说有点简单,只能说毫无难度)

黑龙江省发展和改革委员会 行政许可 (hlj.gov.cn)

由于太简单了,没啥好讲的,直接上代码吧

import scrapy


class HeilongjiangfazhanhegaigeweiyuanhuiSpider(scrapy.Spider):
    name = 'HeiLongJiangFaZhanHeGaiGeWeiYuanHui'

    def start_requests(self):
        yield scrapy.Request(
            url='http://hlj.tzxm.gov.cn/xzxk/xzxk_list',
        )


    def parse(self, response):
        trs = response.css("#list-content>tr")

        for tr in trs:
            item = {
                "title_name": tr.css(".info a::text").extract_first(),
                "title_url": "http://hlj.tzxm.gov.cn/xzxk/xzxk_page?APPROVAL_DOC_ID=" + tr.css(".info a::attr(onclick)").extract_first()[9:-2],
                "title_date": tr.css("td:nth-child(4)::text").extract_first(),
                # "content_html": response.css(".deatilContent").extract_first(),
            }
            yield scrapy.Request(
                url=item["title_url"],
                callback=self.context_parse,
                meta={
                    "item": item
                }
            )

        sqlprint = response.xpath('//*[@name="sqlprint"]/@value').extract_first()
        page = response.css("#page::attr(value)").extract_first()
        yield scrapy.FormRequest(
            url="http://hlj.tzxm.gov.cn/xzxk/xzxk_list",
            formdata={
                'pagecount': '10',
                'page': page,
                'action': 'nextPage',
                'sqlprint': sqlprint,
                'totalPage': str(int(page)+1)
            },
            callback=self.parse,
        )

    def context_parse(self, response):
        item = response.meta["item"]
        item["content_html"] = response.text
        yield item

有些地方写的不够优美,大佬勿喷!

相关文章

  • 【觉察日记】2022-09-19

    周六下午组织的《捕捉儿童敏感期》共读分享活动上,嘉宾作了一段静心,最初没感觉,后来深入交流下,大家都感觉很不错。 ...

  • 写日记的好处

    2022-09-19 晴热 周一 “猪爸,老师布置的作文,我没有思路,咋办?”周六的时候,宝贝一脸愁容...

  • 杂言·菊花酒

    菊花酒 (杂言) 2022-09-19 道旁遍菊科,时人已不宝。 尘垢常污叶,独花顾盼姿色仍娟好。 蜜香自有蜂蝶酿...

  • 11.20-11.26

    本周目标 爬虫 爬虫 爬虫 爬虫

  • walter 爬虫日记

    获取首页的分类 https://www.walter-tools.com/zh-cn/_vti_bin/tibp/...

  • sandvik 爬虫日记

    [TODO] 请求分析 https://www.sandvik.coromant.com/zh-cn/_vti_b...

  • 2022-09-19 晨间日记

    今天是什么日子起床:6:30就寝:10:30天气:晴心情:一般纪念日:无 总目标:学习网盘课程,阅读电子书籍 日常...

  • 2022-09-19 晨间日记

    起床:7:00 昨日就寝:23:30 昨日目标复盘:3个都已完成✌️ 今日三只青蛙: 1.写一篇晨间日记 2.写一...

  • 2022-09-19秋的日记

    一棵沙枣树站在老龙河边上,它抬眼便能看见波纹荡漾的天山水,日复一日,彼此守望着各自变迀的模样。 阳光随风散了一地的...

  • 高粱和鲜花

    2022-09-19 21:08浙江 你们说是种高粱好呢,还是种鲜花好呢?事情是这样的:曾经有一个最美乡村,村子中...

网友评论

      本文标题:2022-09-19 爬虫日记

      本文链接:https://www.haomeiwen.com/subject/avyportx.html