美文网首页
工作中遇到的一些数据采集问题

工作中遇到的一些数据采集问题

作者: 向暖而生 | 来源:发表于2023-02-06 23:07 被阅读0次

ps: 因为一些原因,最近需要从某个网站采集一些信息,最后汇总展示.(作类似运维大屏的东西).但是过程很不顺利.这里特别整理了下这些想吐槽的东西.

遇到的问题:

  • 只能在windows server 2003 上执行程序, 试过了python2.7,python3.3, 嗯,基础的环境其实,也有些跑不起来,进入python命令行就开始报错..服务器不可以更改东西..因为不是自己的.
  • 要采集的网站是前后端分离的,而且有登录认证.
  • 幸运的是,登录认证做的不复杂,很容易就登录进去了,并且非常容易的找到了对应的API.
  • API返回的数据有些像JSON,不过,并不是规范的json. 里面有很多注释. 而且,开发人员用eval函数,执行了这个返回的json..嗯,有些不知道该叫它什么了.原谅我的前端知识非常不全面.
  • 返回的数据,有些像字典. 但是,页面上并不是直接展示这些值的.其中遇到的变化有:
    • 套用某个写在js里的函数进行二次计算
    • 十进制转十六进制在对应码表拼接出字段,有的码表在返回的数据里,有的写入了JS.
    • 计算公式能看到明显的打补丁.最早有2013年的注释.某个计算公式变化后,是写入一个类似判断的东西,嵌套了下,更新在了前端页面中.
    • 码表是分散在很多js里的. 也许这就是"组件化"吧.
    • 一个表格里的数据,是多个API汇总后再加上公式加工得到的.

有时候,也感觉很无奈.以前一个同事和我讲了一个种树的故事:
三个人去种树,计划是一个人挖坑,一个人放树苗,另外一个人填坑;不幸的是放树苗的人有事情来不了了.于是,有人发现,他们一个人在前挖矿,后面一个人在后面填坑.
这个故事,告诉我们,开发中,大家应该多承担点责任.
唔,好像也不错吧...
然后,自己也遇到过类似的事情.
不过,某一天自己遇上这样的东西时,好像很无奈啊.

为啥前端要把业务逻辑都写到js里? 直接查询展示不好吗? 一个前端,整理那些服务器参数计算公式不头疼吗? 后来人怎么维护这样的东西??..........

工作中,提前没有规划好,逮着谁能解决问题,就随意四处打补丁.遗留下的问题,太可怕了.

相关文章

  • 180606StartCrawl

    记录项目数据采集工作中遇到的问题,改进的过程。 django==1.1.16 python==3.5.3 数据来源...

  • Charles 使用笔记

    工作中会需要对一些有价值的网页、应用进行数据采集,那么采集前我们会对数据结构进行解析,因最近想采集一款APP的数据...

  • 企业数据采集系统建设思考要点

    大范围的数据采集可能会遇到的问题 数据类别多 设计平台组件多 采集周期长,接入新的数据类型周期长,需要经过需求评审...

  • 用数据驱动产品和运营 之 数据处理流程

    数据处理流程: 数据金字塔:数据采集——数据建模——数据分析 (一)数据采集 数据采集问题:不准确、不完备、不细致...

  • 【数据采集】关于接口中遇到的问题

    一、连接SQL Server数据库 连接sql Server数据库需要导入sqljdbc.jar包。 使用com....

  • 电商淘宝数据定制采集来袭

    在电商数据收集过程中,您是否遇到过这样的问题,下载了注册了很多采集工具,摸索了半天采集回来的数据却不是自己需要的?...

  • HIVE控制导出数据的大小和数量

    工作中碰到个需求,需要我去SFTP服务器采集HIVE导出的数据,由于这个大数据平台设计问题,很多东西没考虑到,他们...

  • PM必懂的数据指标小结

    “本文总结工作中用到的数据指标,它们代表的意义,以及怎么正确地统计” 工作中可能遇到这些问题:数据不准、数据没帮助...

  • pyppeteer 弹出页面造成阻塞

    一、问题场景 最近在使用pyppeteer采集数据的时候遇到一个新问题,在调用 page.goto()函数时,页面...

  • Mysql数据导入大SQL文件问题

    0.前言 最近工作中经常遇到mysql数据库导入大SQL文件的问题,动辄几个G的SQL文件导入,一些常见的数据库管...

网友评论

      本文标题:工作中遇到的一些数据采集问题

      本文链接:https://www.haomeiwen.com/subject/vnkxkdtx.html