我们计划抓取的数据:杭州的天气信息
实现数据抓取的逻辑:使用python 请求 URL,会返回对应的 HTML 信息,我们解析 html,获得自己需要的数据。(很简单的逻辑)
第一步:创建 Python 文件
data:image/s3,"s3://crabby-images/6cd31/6cd3171fc69a6705eeb6f69388f166451308c0ac" alt=""
写第一段Python代码
data:image/s3,"s3://crabby-images/ee1f4/ee1f4d2ec254891142432f1067980b9bef3b784d" alt=""
这段代码类似于 Java 中的 Main 方法。可以直接鼠标右键,选择 Run。
data:image/s3,"s3://crabby-images/207bf/207bf3e1107570183de3656d71eee1c792143a19" alt=""
第二步:请求RUL
python 的强大之处就在于它有大量的模块(类似于Java 的 jar 包)可以直接拿来使用。
我们需要安装一个 request 模块: File - Setting - Product - Product Interpreter
data:image/s3,"s3://crabby-images/cfedb/cfedbb73935ab9e9590493a2079ff8a84b977c08" alt=""
data:image/s3,"s3://crabby-images/0994d/0994d045e583d747e349e6b0a086e99d9d9db1ab" alt=""
点击如上图的 + 号,就可以安装 Python 模块了。搜索 requests 模块(有 s 噢),点击 Install。
data:image/s3,"s3://crabby-images/941a8/941a8857027bf00efa43f64b06ef76c38da87735" alt=""
我们顺便再安装一个beautifulSoup4 和 pymysql模块,beautifulSoup4 模块是用来解析 html 的,可以对象化 HTML 字符串。pymysql 模块是用来连接 mysql 数据库使用的。
data:image/s3,"s3://crabby-images/d7a6a/d7a6a6e8bf46e458eb4f4badad306b1b18021525" alt=""
data:image/s3,"s3://crabby-images/52eb9/52eb9edebab331469207cd421e4918dd35c3634d" alt=""
相关的模块都安装之后,就可以开心的敲代码了。
定义一个 getContent 方法:
data:image/s3,"s3://crabby-images/60a77/60a77d9dac7004dd870ddbfa3748d6a21df5e796" alt=""
在 main 方法中调用:
data:image/s3,"s3://crabby-images/60ead/60ead217ba628b9128d28892ff95f25f507a99c8" alt=""
第三步:分析页面数据
定义一个 getData 方法:
data:image/s3,"s3://crabby-images/a961c/a961c304af982df22f2886a35b901b61b1ae3098" alt=""
上面的解析其实就是按照 HTML 的规则解析的。可以打开杭州天气在开发者模式中(F12),看一下页面的元素分布。
data:image/s3,"s3://crabby-images/b873c/b873cd8f921688e396b8d30d9d8822b969840aa4" alt=""
在 main 方法中调用:
data:image/s3,"s3://crabby-images/9c633/9c633aefdea7b73b0b48d107d4c3b96e6373995d" alt=""
数据写入excel
现在我们已经在 Python 中拿到了想要的数据,对于这些数据我们可以先存放起来,比如把数据写入 csv 中。
定义一个 writeDate 方法:
data:image/s3,"s3://crabby-images/51d8b/51d8bd8a859333eec8f184c0ae44d370385a702f" alt=""
在 main 方法中调用:
data:image/s3,"s3://crabby-images/d1371/d13710b7200816fcc1e2b3f68254150c98ba6185" alt=""
执行之后呢,再指定路径下就会多出一个 weather.csv文件,可以打开看一下内容。
data:image/s3,"s3://crabby-images/422c2/422c2e9f997945bb4652707ff2793395a9e20385" alt=""
data:image/s3,"s3://crabby-images/f0b63/f0b631fddfcf9df6ccca4ab1f1c152a771f5e832" alt=""
到这里最简单的数据抓取--储存就完成了。
网友评论