美文网首页
1-3 使用 Requests 爬取豆瓣短评

1-3 使用 Requests 爬取豆瓣短评

作者: pnjoe | 来源:发表于2018-06-10 17:58 被阅读28次

任务

  • 爬取豆瓣上 小王子 短评
  • 以csv格式输出

代码

import requests  
r = requests.get('https://book.douban.com/subject/1084336/comments/').text

from bs4 import BeautifulSoup
soup = BeautifulSoup(r,'lxml')
pattern = soup.find_all('p','comment-content')
for item in pattern:
    print(item.string)
    
import pandas
comments = []
for item in pattern:
    comments.append(item.string)
df = pandas.DataFrame(comments) 
df.to_csv('comments.csv',encoding = 'utf-8-sig')  #结果encoding参数解决了乱码问题。

思路

用了3个 第三方库

  • requests 库 来获取网页数据
  • BeautifulSoup库 来解析数据
  • pandas库 来储存数据

输出

comments.csv

相关文章

网友评论

      本文标题:1-3 使用 Requests 爬取豆瓣短评

      本文链接:https://www.haomeiwen.com/subject/esqqeftx.html