美文网首页
1-3 使用 Requests 爬取豆瓣短评

1-3 使用 Requests 爬取豆瓣短评

作者: pnjoe | 来源:发表于2018-06-10 17:58 被阅读28次

    任务

    • 爬取豆瓣上 小王子 短评
    • 以csv格式输出

    代码

    import requests  
    r = requests.get('https://book.douban.com/subject/1084336/comments/').text
    
    from bs4 import BeautifulSoup
    soup = BeautifulSoup(r,'lxml')
    pattern = soup.find_all('p','comment-content')
    for item in pattern:
        print(item.string)
        
    import pandas
    comments = []
    for item in pattern:
        comments.append(item.string)
    df = pandas.DataFrame(comments) 
    df.to_csv('comments.csv',encoding = 'utf-8-sig')  #结果encoding参数解决了乱码问题。
    

    思路

    用了3个 第三方库

    • requests 库 来获取网页数据
    • BeautifulSoup库 来解析数据
    • pandas库 来储存数据

    输出

    comments.csv

    相关文章

      网友评论

          本文标题:1-3 使用 Requests 爬取豆瓣短评

          本文链接:https://www.haomeiwen.com/subject/esqqeftx.html