爬虫作业一

作者: 刘伟_大数据学习者 | 来源:发表于2017-07-03 23:06 被阅读0次

一、要爬取的数据类型
北京二手房市场的成交记录

二、对应的数据源网站
北京链家二手房板块
https://bj.lianjia.com/chengjiao/

三、爬取数据的URL
具体的成交信息内容,如https://bj.lianjia.com/chengjiao/101101524497.html

四、数据筛选规则
抓取页面中的标题信息(包括户型、面积、成交时间、成交中介),并抓取房租的基本属性(建筑面积、建成年代、所在楼层等)、交易属性(挂牌时间、房屋用途等)、房源特色(是否为满五唯一、地铁房、税费等信息)等。

相关文章

  • 爬虫作业一

    一、要爬取的数据类型北京二手房市场的成交记录 二、对应的数据源网站北京链家二手房板块https://bj.lian...

  • 爬虫作业一

    自己想转行进互联网医疗行业的公司,心里有两个大的疑问,让人忐忑不安,其一是这些公司招聘哪些数据相关的职位? 其二为...

  • python猫眼电影爬虫+Django+Echarts图表

    一.爬虫作业:抓取猫眼电影网站数据 二.Django+echarts图表 三.爬虫和django代码 猫眼爬虫gi...

  • 反爬虫策略

    最近在做爬虫相关的作业, 发现一些网站有反爬虫策略。 反爬虫策略说白了就是要检测你是不是机器人。 那问题来了, 如...

  • 【Python爬虫】- 阳光电影网国内电影资源抓取

    目录 一、 爬虫的逻辑二、XPath 爬取网站的数据三、函数封装四、运行结果 一、 爬虫的逻辑 作业内容是抓取阳光...

  • 爬虫04作业

    本次作业 爬取大数据专题所有文章列表,并输出到文本中保存。 每篇文章需要爬取的数据:作者、标题、文章地址、摘要、缩...

  • 爬虫作业2

    分析要爬取目标的网页的网页结构与元素标签位置信息 任务回顾 1.爬取网页:看准网 http://www.kanzh...

  • 爬虫作业3

    前情回顾 上一节课的作业中,爬取的页面网址与主要的元素基本已确定好。 然而,在做这节课的作业时,发现了一个问题:主...

  • 爬虫04作业

    这次参照老师上课给的代码,以及查阅资料,完成的作业。 最后得到的结果中,存在了大量的转义字符。 存在问题:最后老师...

  • 爬虫作业3

    课程作业 选择第二次课程作业中选中的网址 爬取该页面中的所有可以爬取的元素,至少要求爬取文章主体内容 可以尝试用l...

网友评论

    本文标题:爬虫作业一

    本文链接:https://www.haomeiwen.com/subject/fzzzcxtx.html