美文网首页
2019-02-27 买房历程之 - 房价大数据分析

2019-02-27 买房历程之 - 房价大数据分析

作者: 无人像妳i | 来源:发表于2019-02-27 11:31 被阅读17次

需求分析

1、今年准备买房了,但是现在房价摇摇晃晃,也不知道是准备涨还是跌,杭州是买不起了,只能买老家或者杭州周边了。

2、价格趋势直接影响我们这群刚需穷diao丝,‘上车’时间段,本着损失最小化,利益最大化的想法想看下一个月内开封市平均房价信息趋势图。

3、由此,意味着需要一批数据做支撑,所以准备下手爬一下58相关数据信息,存储并分析。

废话不多说,直接上代码

  • 以下是代码主干 --- index.js
const request = require("request");
const cheerio = require("cheerio");
const fs = require("fs");
const { TrimP } = require("./utils/index");

// 初始化动作,获取body文件
function main() {
  request(
    {
      url:
        "https://kaifeng.58.com/ershoufang/?PGTID=0d200001-0092-6b5b-d3cf-6fd57db6b3bd&ClickID=1", // 请求的URL
      method: "GET", // 请求方法
      headers: {
        // 指定请求头
        "Accept-Language": "zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7", // 指定 Accept-Language
        origin: "https://webim.58.com",
        referer: "https://webim.58.com/index?p=rb&_=1551190773530",
        cookie:
          'f=n; commontopbar_new_city_info=2342%7C%E5%BC%80%E5%B0%81%7Ckaifeng; id58=c5/nn1txnQEyv+oqC40uAg==; 58tj_uuid=7aaf9781-0bc1-4aa4-9dab-817a04d9ac3b; als=0; xxzl_deviceid=pZsF6d2lSYYoQrVWJJkxCSLcIWytKCP1GPGw6M44nAGrCOawzyMHhozlMkHHLMEl; 58home=hz; city=hz; new_uv=2; utm_source=; spm=; init_refer=https%253A%252F%252Fwww.baidu.com%252Flink%253Furl%253D9rDqbxp4DhjhO9fDBX8UAAeXSqUMXLbrswRlUAnFTEa%2526wd%253D%2526eqid%253Df4cf93ab00042296000000045c75499c; new_session=0; wmda_uuid=7f36d05168fb6c4731a847f3a813257a; wmda_new_uuid=1; wmda_session_id_2385390625025=1551190438353-ef3a6470-a5f9-3c1d; f=n; commontopbar_new_city_info=2342%7C%E5%BC%80%E5%B0%81%7Ckaifeng; commontopbar_ipcity=hz%7C%E6%9D%AD%E5%B7%9E%7C0; PPU="UID=24899567899910&UN=%E5%B1%8C%E4%B8%9D%E4%B8%B6%E5%8F%88%E4%BD%95%E5%A6%A8&TT=2a574c8d078ab406f80f03a6795218b4&PBODY=MpWfvfPz3ufgpDyuig72oZmXdI1iYpF6J6wbcd8ai1-lsuku-Y6ATJink3n-oFqDQaCO7g0o-1rbiYmzqQYztCk6dqsXQcBrem1a3DV-7krhMldDJ-hd_N2JrOwH3J-NZQukIuMDxpZyD-Q3We0GBoSCoN-t4xmhy8MNFD2lcVo&VER=1"; www58com="UserID=24899567899910&UserName=%E5%B1%8C%E4%B8%9D%E4%B8%B6%E5%8F%88%E4%BD%95%E5%A6%A8"; 58cooper="userid=24899567899910&username=%E5%B1%8C%E4%B8%9D%E4%B8%B6%E5%8F%88%E4%BD%95%E5%A6%A8"; 58uname=%E5%B1%8C%E4%B8%9D%E4%B8%B6%E5%8F%88%E4%BD%95%E5%A6%A8; xxzl_smartid=a2f7e6b6064824a72e589cfc912c3c9f; wmda_session_id_6333604277682=1551190508131-7039d311-a21b-c724; wmda_visited_projects=%3B2385390625025%3B6333604277682; xzfzqtoken=oOpuwTGU3jpciHzKPCVeWq%2BdDxSvgiZmqSiDP6n0HHiC9kLGIiOaceyoTElOksqBin35brBb%2F%2FeSODvMgkQULA%3D%3D; JSESSIONID=67C607E3AD1E14B61936A75678F6DF52; ppStore_fingerprint=EA5DE777C86780BC1CB53EA88D0074C48472205CEAB7B285%EF%BC%BF1551190659172'
      }
    },
    function(error, response, body) {
      if (!error && response.statusCode == 200) {
        // console.log(body) // 输出网页内容
        console.log("--- start ----");
        dataArrangement(body).then(res => {
          // console.log(res)
          readyFiles(res);
        });
      }
    }
  );
}

// 收集处理DOM结构
function dataArrangement(body) {
  return new Promise((resolve, reject) => {
    let list = [];
    const $ = cheerio.load(body);
    let lis = $(".house-list-wrap").children("li");
    let max = lis.length;
    if (max) {
      for (let i = 0; i < max; i++) {
        const title = $(lis[i])
          .find(".title")
          .find("a")
          .text();

        const baseinfo = TrimP(
          $(lis[i])
            .find("p.baseinfo")
            .first()
            .text()
        );

        const baseinfoAddress = TrimP(
          $(lis[i])
            .find("p.baseinfo")
            .last()
            .text()
        );

        const price = $(lis[i])
          .find(".price")
          .find(".sum")
          .text();

        const unit = $(lis[i])
          .find(".unit")
          .text();

        let obj = {
          title,
          baseinfo,
          baseinfoAddress,
          price,
          unit
        };
        list.push(obj);
        if (i === max - 1) {
          console.log("--------- 打印输出结果 -----------");
          resolve(list);
        }
      }
    }
  });
}

function readyFiles(data) {
  fs.readdir("./staticData", function(err, files) {
    if (err) {
      // 创建 staticData 目录
      fs.mkdir("./staticData", function(err) {
        if (err) {
          throw err;
        }
        openData(data);
        console.log("make dir success.");
      });
      // throw err;
    }
    // files是一个数组
    // 每个元素是此目录下的文件或文件夹的名称
    openData(data);
  });
}

function openData(data) {
  // 打开文件
  fs.open("./staticData/Data.json", `w`, function(err, fd) {
    if (err) {
      throw err;
    }
    // 读取文件
    fs.write(fd, JSON.stringify(data), 0, 6, 0, function(
      err,
      bytesWritten,
      buffer
    ) {
      if (err) {
        throw err;
      }

      console.log("write success.");
      // 打印出buffer中存入的数据
      console.log(bytesWritten, buffer.slice(0, bytesWritten).toString());

      // 关闭文件
      fs.close(fd);
    });
  });
}

function getTime() {
  return new Promise((resolve, reject) => {
    let time = new Date();
    let getFullYear = time.getFullYear(); //年
    let getMonth = time.getMonth() + 1; // 月
    let getDate = time.getDate(); // 日
    let getHours = time.getHours(); // 小时
    let getMinutes = time.getMinutes(); // 分钟
    let getSeconds = time.getSeconds(); // 秒
    resolve({
      getFullYear,
      getMonth,
      getDate,
      getHours,
      getMinutes,
      getSeconds
    });
    console.log(
      `->->->->->->->->->->-> ${getFullYear}/${getMonth}/${getDate} ${getHours}:${getMinutes}:${getSeconds} <-<-<-<-<-<-<-<-<-<-<-`
    );
  });
}

setInterval(() => {
  getTime().then(res => {
    const { getHours, getMinutes, getSeconds } = res;
    if (!getHours && !getMinutes && !getSeconds) {
      //当时间为00:00:00 凌晨半夜时,自动爬取58房价信息并存储(未做去重,后续改进)
      main();
    }
  });
}, 500);

具体想法就是:
当系统时间为00:00:00(半夜凌晨) 时,自动爬取一次58开封地区房价信息,利用定时器每隔500ms轮训一次,间隔设置500ms而非1000ms是为了防止错过00:00:00 时间点,因为判断节点为时分秒全部符合才会触发,相对苛刻一点,所以时间间隔缩小一半,保证轮训成功率。

迭代计划

因为第一版,所以略显粗糙,个人也知道缺很多内容。
1、过滤重复数据的注入
2、数据爬取量仅第一页,后续应该爬取全部页码
3、采用更高级方案规避该网站的反爬虫机制(动态ip)
4、后续数据的实时显示(折线图)

以上顺序就是后续准备解决的问题,小弟也是新人,如果有更好的解决方案,或者说其他想法,欢迎交流,技术至上!

github 地址,可直接点击 ====> github 地址

后续这套代码放到服务器上跑,肯定会继续维护升级,如果感兴趣请点个关注,谢谢!

相关文章

网友评论

      本文标题:2019-02-27 买房历程之 - 房价大数据分析

      本文链接:https://www.haomeiwen.com/subject/wsuxuqtx.html