python笔记12.06

作者: 皮皮鲁耍大刀 | 来源:发表于2019-12-06 18:30 被阅读0次

python笔记12.06
肝移植
（Linux）上课笔记 12.06
2017-12-08
一个月
12.06
12.06
12.06
12.06
12.06

已经这么多天没有更新了吗！时间跑的可真快；闲来无事，研究下如何用python爬东西，感觉很明显这是个很坑的东西，不过了解下也没啥问题

爬虫基本原理（我理解的）：

通过python包把网页内容扒下来，然后进行解析并为爬取者所用的过程

1.爬谁

想好这个问题的关键是：爬虫本身不违法，爬什么有可能违法，毕竟我刚兴致勃勃的看完一篇入门文章后，贴心的cdsn马上在文章底部推送了下面这个文章

劝退型推送

至于说到底爬什么违法，这个问下学法律的同学就知道了。

2.用啥爬

作为纯小白，基本只是照抄了下某文章(点击传送)，附我抄写的代码：

import requests        #导入requests包
import re
import lxml
from bs4 import BeautifulSoup #解析器
url = 'https://bj.ke.com/ershoufang'
#headers={'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.70 Safari/537.36'}
strhtml = requests.get(url)        #Get方式获取网页数据
soup=BeautifulSoup(strhtml.text,'lxml')   #这里有个坑，文件格式不加引号（也可能这里是个方法，不是文件）
k1=('#beike > div.sellListPage > div.content > div.leftContent > div:nth-child(4) > ul > li > div > div.title > a').replace(' ',"")
data=soup.select(k1)
print(data)
rs_1=[]
for item in data:
    result={
        'title':item.get_text(),
        'link':item.get('href')
    }
    rs_1.append(result)
import pandas as pd
import matplotlib.pyplot as plt
rs_2=pd.DataFrame(rs_1)
rs_2.rename(columns={'title':'标题','link':'超链接'},inplace=True)
rs_2.style

基本思路