爬虫实战：爬取国外慈善基金会数据

爬虫实战：爬取国外慈善基金会数据

作者: 王阿根 | 来源:发表于2018-12-24 14:33 被阅读14次

爬虫实战：爬取国外慈善基金会数据
Python爬虫实战之爬取链家广州房价_03存储
实战2：使用selenium爬取淘宝数据，保存在mongodb
爬虫实战七、使用Scrapyd部署Scrapy爬虫到远程服务器
2017-12-31
爬虫
第一周实战作业：爬取一页商品数据
Python 3爬虫、数据清洗与可视化实
python-爬虫学习（文字、图片、视频）
python爬虫学习（文字、图片、视频）

数据地址

基金会列表url:https://www.charitywatch.org/top-rated-charities

第一家基金会url:https://www.charitywatch.org/ratings-and-metrics/naacp-legal-defense-and-educational-fund/18

该篇文章是跟着视频教程边学边做的，所有代码都可以运行得通，只不过后面for循环的地方太慢了。

爬虫准备

HTML内容

该网页的HTML信息都存储到了soup变量中，下面解释一下HTML里的一些内容：

比如说，“<td><a href="ratings-and-metrics/national-urban-league-national-office/19">National Urban League(National Office)</a></td>”

1. 其中‘href’ 是标签‘a’ 的属性，参数‘href’ 给出的是与将要跳转的网页地址的相关信息，也就是该家基金会的详细信息网页，在“ratings-and-metrics/national-urban-league-national-office/19”前面加上“https://www.charitywatch.org/”。

2.<a ***>National Urban League(National Office)</a> 这个段落包含的是该基金会的名称，也是重要信息。

爬虫思路

1.先通过基金会列表页面，取一家基金会为样例，爬取其详细网页信息与该基金会名称

2.根据获取的基金会详细信息网页地址，进入这个网页，抓取需要的具体expenses信息

从基金会列表页面搜集详细信息页资料：

我们看到，HTML对应的基金会列表代码，是在一个<div class="small-12 medium-8 column" id="results">的结构中，div是这个结构的标签，class， id是它的属性。

那么该怎样定位呢？

我们可以沿着层次树桩结构，比如head->body->div->.，也可以根据标签的一些特性，直接定位，比如div标签中的参数id内容是results，这一页只有一个id='results'，的标签，那么参数id就可以直接定位了。

beautifulsoup中 find_all既可以直接定位标签（find_all(div)）,也可以搜索满足参数条件的内容来定位比如，id = 'results’，这里的id参数内容是results。

或者采用下面这个方法取出所有的a标签：

通过拼接，获取某一家基金会的链接地址

爬取该基金会详情页的信息：

找到我们要定位的信息位置：

代码部分

将基金会名车和花费做成dict赋值给results：数据一直在爬，这里只显示了7个

将结果results保存成CSV格式：

整个爬虫就完成了！

相关文章

爬虫实战：爬取国外慈善基金会数据
数据地址基金会列表url:https://www.charitywatch.org/top-rated-char...
Python爬虫实战之爬取链家广州房价_03存储
问题引入系列目录： Python爬虫实战之爬取链家广州房价_01简单的单页爬虫 Python爬虫实战之爬取链家广...
实战2：使用selenium爬取淘宝数据，保存在mongodb
实战2：使用selenium爬取淘宝数据，保存在mongodb 配置文件爬虫文件
爬虫实战七、使用Scrapyd部署Scrapy爬虫到远程服务器
一、准备好爬虫程序爬虫程序代码参考爬虫实战四、PyCharm+Scrapy爬取数据并存入MySQL 二、修改项目...
2017-12-31
python爬虫实战：爬取全站小说排行榜 ...
爬虫
复习什么是爬虫？爬虫是用来做什么的？怎么使用爬虫爬取数据？数据的重要性数据的来源爬取数据的规则【通用爬虫 ...
第一周实战作业：爬取一页商品数据
爬虫实战第三天任务爬取北京58同城二手平板交易页面的数据详情，包括标题，价格，地区等。成果共爬取1750个...
Python 3爬虫、数据清洗与可视化实
《Python 3爬虫、数据清洗与可视化实战》本书是一本通过实战教初学者学习爬取数据、清洗和组织数据进行分析和可视...
python-爬虫学习（文字、图片、视频）
爬虫-文字爬取爬虫-图片爬取爬虫-视频爬取
python爬虫学习（文字、图片、视频）
爬虫-文字爬取爬虫-图片爬取爬虫-视频爬取

网友评论

数据蛙数据分析每周作业

本文标题：爬虫实战：爬取国外慈善基金会数据

本文链接：https://www.haomeiwen.com/subject/kdvakqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

数据蛙数据分析每周作业

热点阅读

数据蛙数据分析每周作业

关于我们|服务条款|联系我们|爬虫实战：爬取国外慈善基金会数据|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！