Python Webscraping

Python Webscraping

作者: sleepyjoker | 来源:发表于2016-12-17 22:30 被阅读31次

Python Webscraping
七. 模拟登陆webscraping.com网站
新手向——简单维基表格数据抓取与可视化
文章不再同步这里，请关注微信公众号【Python猫】
人工智能学习线路图
基础知识
Python教程导航
Introduction to Python
The Zen Of Python
Python 介绍

Python作为强大的脚本语言，非常适合编写网络爬虫。
在实际开始编写爬虫获取某一个网站数据的时候，应当对某一个网站有着充分的了解，方便后续程序的编写。

通过Google大致了解网站的大小
Google作为强大的搜索工具，本质上也是一个爬虫。通过在网址前添加site关键字，可以先利用Google来大致了解网站的大小，并且支持/来过滤结果。不过这种这种方法只能用来大致估算，并且对于一些大型网站，这种估算不是很准确。
- site:www.bbc.com
  site:www.bbc.com
site:www.zhihu.com/topic

site:www.zhihu.com/topic
通过robots.txt文件了解网站
目前虽然对于爬虫还没有一个正式的法规或协议来约束，但是大多数网站都会有一个robots.txt文件。文件中包含了一些建议，但并不会强制执行，它可以让我们以最快速度的了解到网站对于爬虫的限制，从而将来降低爬虫被封禁的风险。

www.zhihu.com/robots.txt

（知乎的robot.txt真是简单粗暴。。）
User-agent定义了使用的用户代理，*表示对于所有的用户代理；
Crawl-delay规定了两次抓取间的延时应为10s；
Disallow表示不允许爬取的页面。

识别建站技术
一个网站如何构建将对我们的爬取方式产生影响，我们可以使用Python的builtwith模块来帮助我们完成这一任务。可以通过pip install builtwith命令很方便的安装这一模块。
以网站的URL作为参数来进行解析。
import builtwith
print builtwith.parse("http://bbc.com")
寻找网站的所有者
因为不同的所有者对于爬虫的态度不尽相同，所以提前了解一个网站的所有者也是很有必要的。Python中提供了whois模块来完成这一任务。可以通过pip install python-whois命令来很方便的安装这一模块。

whois

可以看到域名归属于godaddy。

相关文章

Python Webscraping
Python作为强大的脚本语言，非常适合编写网络爬虫。在实际开始编写爬虫获取某一个网站数据的时候，应当对某一个网站...
七. 模拟登陆webscraping.com网站
爬取网址：http://example.webscraping.com 1.观察登陆时的信息登陆后可以看到右上方...
新手向——简单维基表格数据抓取与可视化
英文原文：Webscraping and beyond 目标：欧洲国家的医疗保健排名可视化（从维基百科上抓取表格数...
文章不再同步这里，请关注微信公众号【Python猫】
Python猫Python猫Python猫 Python猫 Python猫 Python猫
人工智能学习线路图
Python教程 Python 教程Python 简介Python 环境搭建Python 中文编码Python 基...
基础知识
python 了解Python Python的应用领域 Python的版本 Python介绍 Python是时下最...
Python教程导航
Python 教程 Python 简介 Python 环境搭建 Python 中文编码 Python 基础语法 ...
Introduction to Python
Introduction to Python @(Python入门) [TOC] Python简介 Python的...
The Zen Of Python
The Zen Of Python被译为Python之禅，Python箴言，Python之道等，是Python中的...
Python 介绍
章节 Python 介绍Python 开发环境搭建Python 语法Python 变量Python 数值类型Pyt...

网友评论

本文标题：Python Webscraping

本文链接：https://www.haomeiwen.com/subject/tdlamttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|Python Webscraping|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！