任务
- 爬取豆瓣上 小王子 短评
- 以csv格式输出
代码
import requests
r = requests.get('https://book.douban.com/subject/1084336/comments/').text
from bs4 import BeautifulSoup
soup = BeautifulSoup(r,'lxml')
pattern = soup.find_all('p','comment-content')
for item in pattern:
print(item.string)
import pandas
comments = []
for item in pattern:
comments.append(item.string)
df = pandas.DataFrame(comments)
df.to_csv('comments.csv',encoding = 'utf-8-sig') #结果encoding参数解决了乱码问题。
思路
用了3个 第三方库
- 用 requests 库 来获取网页数据
- 用 BeautifulSoup库 来解析数据
- 用 pandas库 来储存数据
输出
comments.csv
网友评论