- 尽量爬移动版站点
- 寻找隐藏在 JavaScript 文件里的信息
- 网页标题信息也许可以从网页的 URL 链接里获取
- 找找其他数据源。有没有其他网站也显示了同样的数据?
API与爬虫
爬虫往往比API更可取:
- 要从中提取数据的网站不提供API。
- 提供的API不是免费的(而网站是)。
- 提供的API是速率限制
- API不会公开您希望获得的所有数据(而网站会公开)。
谁在使用爬虫?
在网络上访问和收集数据有许多实际应用,其中许多都属于数据科学领域。以下列表概述了一些有趣的实例:
-
谷歌的许多产品受益于谷歌爬虫。例如,谷歌翻译利用网络上存储的文字来训练和改进自己。
-
人力资源和员工分析。总部位于旧金山的hiQ创业公司专门通过收集和检查公共资料信息(比如LinkedIn)来进行员工分析。参考
-
数字市场营销人员和数字艺术家经常使用网络上的数据进行各种有趣和有创意的项目。例如,乔纳森·哈里斯(Jonathan Harris)和塞姆·卡姆瓦尔(Sep Kamvar)的“We Feel Fine”,在各种博客网站搜集了以“I feel”开头的短语,可以直观地展示整个世界的感受。
-
来自Twitter,博客和其他社交媒体的信息可构成数据集,用于建立预测模型,以识别抑郁症和自杀念头的模式。对于援助提供者而言,能是非常宝贵的工具。
-
Emmanuel Sales也抓住Twitter用于理解社交圈和时间线(见https://emsal.me/blog/4)。
-
题为“The Billion Prices Project: Using Online Prices for Measurement and Research”的论文中(见http://www.nber.org/papers/w22111),爬虫用于收集在线价格信息的数据集,用于为多个国家构建强大的每日价格指数。
-
银行和其他金融机构正在使用网络抓取进行竞争对手分析。例如,银行经常爬取网站,以了解分支机构的开设或关闭地点,或跟踪提供的贷款利率 - 所有这些都是可以纳入其内部模型和预测的有趣信息。例如,投资公司也经常使用网络抓取来跟踪有关其投资组合中资产的新闻文章。
-
社会政治科学家正在搜索社交网站,以追踪人口情绪和政治倾向。一篇名为Dissecting Trump’s Most Rabid Online Following”的着名文章(https://fivethirtyeight.com/features/dissecting-trumps-most-rabid-online-following/)使用语义分析分析用户Reddit的讨论,以描述唐纳德特朗普的在线粉丝和粉丝。
-
研究人员能够根据来自Tinder和Instagram的图像以及他们的“喜欢”来训练深度学习模型,预测图像是否会被“有吸引力”(见http://karpathy.github.io/2015/10/25/selfie/)。智能手机制造商已经在他们的照片应用程序中加入了这些模型,以帮助您刷新图片。
-
在“he Girl with the Brick Earring”中,卢卡斯·沃尔特曼开始从https://www.bricklink.com上抓取乐高积木信息,以确定乐高积木的最佳选择(参见http://lucaswoltmann.de/art'n'images/2017/04/08/the-girl-with-the-brick-earring.html)。
-
在“用Python分析1000多种希腊葡萄酒”中,Florents Tselai从希腊葡萄酒商店中搜集了一千种葡萄酒品种的信息(参见https://tselai.com/greek-wines-analysis.html)分析它们的起源,等级,类型和强度。
-
Lyst是一家总部位于伦敦的在线时尚市场,它利用网络抓取时尚产品的半成品信息,然后应用机器学习,从一个中央网站为消费者提供干净,优雅的信息。其他数据科学家也做了类似的项目来集中类似的时尚产品(参见http://talks.lystit.com/dsl-scraping-presentation/)。
-
使用爬虫从工作现场提取信息,以了解工作场所中不同数据科学和分析相关工具的流行程度。
-
监控新闻媒体和网络论坛,以跟踪公众对比特币的看法。
网友评论