已经这么多天没有更新了吗!时间跑的可真快;闲来无事,研究下如何用python爬东西,感觉很明显这是个很坑的东西,不过了解下也没啥问题
爬虫基本原理(我理解的):
通过python包把网页内容扒下来,然后进行解析并为爬取者所用的过程
1.爬谁
想好这个问题的关键是:爬虫本身不违法,爬什么有可能违法,毕竟我刚兴致勃勃的看完一篇入门文章后,贴心的cdsn马上在文章底部推送了下面这个文章
劝退型推送
至于说到底爬什么违法,这个问下学法律的同学就知道了。
2.用啥爬
作为纯小白,基本只是照抄了下某文章(点击传送),附我抄写的代码:
import requests #导入requests包
import re
import lxml
from bs4 import BeautifulSoup #解析器
url = 'https://bj.ke.com/ershoufang'
#headers={'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.70 Safari/537.36'}
strhtml = requests.get(url) #Get方式获取网页数据
soup=BeautifulSoup(strhtml.text,'lxml') #这里有个坑,文件格式不加引号(也可能这里是个方法,不是文件)
k1=('#beike > div.sellListPage > div.content > div.leftContent > div:nth-child(4) > ul > li > div > div.title > a').replace(' ',"")
data=soup.select(k1)
print(data)
rs_1=[]
for item in data:
result={
'title':item.get_text(),
'link':item.get('href')
}
rs_1.append(result)
import pandas as pd
import matplotlib.pyplot as plt
rs_2=pd.DataFrame(rs_1)
rs_2.rename(columns={'title':'标题','link':'超链接'},inplace=True)
rs_2.style
基本思路
-
查看网页数据:google浏览器右键使用:
- 知识点:可以在需要获取的内容右击-检查,可以看到此内容对应的源码
- 使用requests 加载网页内容
- 使用soupbeautiful 解析网页内容
+坑点:需要加载lxml模块才能正常解析,可能你需要这个文章帮忙python3.7安装lxml - 然后我就没继续看了.....
网友评论