美文网首页
Python爬虫系列19-采集B站视频弹幕数据

Python爬虫系列19-采集B站视频弹幕数据

作者: Tony_Pm | 来源:发表于2022-08-25 16:05 被阅读0次

    序言

    种一棵树最好的时间是十年前,其次是现在。
    不管自己想做一件什么样的事情,要么全力以赴,要么果断放弃,明确对生活的态度会让一切变得更好简单。
    当我们同时做很多件事情的时候,很有可能一件事情都做不好,倒不如专注的做好一件事,来的更好。

    实战

    image.png

    代码源文件

    import requests
    from bs4 import BeautifulSoup
    import pandas as pd
    import re
     
    # 弹幕保存文件
    file_name = '冷笑话.csv'
    # 获取页面
    cid = 161896483
    url = "https://comment.bilibili.com/" + str(cid) + ".xml"
    headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'
        }
    request = requests.get(url=url, headers=headers)
    request.encoding = 'utf-8'
    
    # 提取弹幕
    soup = BeautifulSoup(request.text, 'lxml')
    results = soup.find_all('d')
    
    # 数据处理
    data = [data.text for data in results]
    # 正则去掉多余的空格和换行 
    for i in data: 
        i = re.sub('\s+', '', i)
    
    # 查看数量
    print("弹幕数量为:{}".format(len(data)))
     
    # 输出到文件 
    df = pd.DataFrame(data) 
    df.to_csv(file_name, index=False, header=None, encoding="utf_8_sig")
    print("写入文件成功")
    
    image.png

    如果本文对你学习有所帮助-可以点赞👍+ 关注!将持续更新更多新的文章。

    相关文章

      网友评论

          本文标题:Python爬虫系列19-采集B站视频弹幕数据

          本文链接:https://www.haomeiwen.com/subject/zakogrtx.html