美文网首页
python爬虫豆瓣250top电影作业

python爬虫豆瓣250top电影作业

作者: VivaVida | 来源:发表于2022-05-04 12:30 被阅读0次

    from bs4 import BeautifulSoup
    import re
    import os
    import urllib.request, urllib.error
    import urllib.parse  # 解析器
    import xlwt
    import sqlite3
    
    #主函数
    def main():
        baseurl="https://movie.douban.com/top250?start="
        #1.爬取网页
        datalist = getData(baseurl)
        #savepath=".\\data.xls" #excel保存方法
        dbpath="movie.db"
        #3.保存数据
        #saveData(datalist,savepath)
        save2dbPath=(datalist,dbpath)
    #定义全局变量:用于筛选的几种规则
    #re.compile-创建正则表达式对象,表示字符串格式(规则)
    #链接格式是 <a href= “这里是链接有各种字符” >;  ()一个组;   .表示一个字符;  *表示0个或多个字符;   ?表示0次或1次
    #‘’表示字符串
    findLink = re.compile(r'<a href="(.*?)">')
    findImgSrc=re.compile(r'<img.*src="(.*?)"',re.S) # .*表示有若干字符;re.S 让换行符包含在字符中
    findTitles = re.compile(r'<span class="title">(.*)</span>')
    findRating = re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')
    findJudge = re.compile(r'<span>(\d*)人评价</span>')#\d 表示数字
    findInq = re.compile(r'<span class="inq">(.*)</span>')
    findBd=re.compile(r'<p class="">(.*?)</p>',re.S)
    
    
    
    #爬取网页
    def getData(baseurl):
    
        datalist=[]
        for i in range(0,10): #调用获取页面信息的函数
            url=baseurl+str(i*25)
            html = askURL(url) #保存获取的网页源码
    
            #2.逐一解析数据
            soup= BeautifulSoup(html,"html.parser")#用html.parser这个html解析器来解析html
            for item in soup.find_all('div',class_='item'):
            #查找所需内容形成列表,注意class_是避免class类别报错
            #查找div 里面属性class的内容是”docsum-content“
                data=[] #保存一部电影所有信息
                item=str(item)
    
                #影片详情的连接
                # 用正则表达式查找指定字符串
                link=re.findall(findLink,item)[0] #用findLink模式从item里面找符合的内容,获取第一个[0]
                data.append(link) #添加连接
                imgSrc =re.findall(findImgSrc,item)[0]
                data.append(imgSrc)#添加图片
                titles = re.findall(findTitles, item)
                # 可能有中英文名
                if (len(titles)==2):
                    Ctitle=titles[0]
                    data.append(Ctitle)
                    Ftitle=titles[1].replace("/","")#去斜杠
                    data.append(Ftitle)
                else:
                    data.append(titles[0])
                    data.append(' ') #注意留空
                rates = re.findall(findRating, item)[0]
                data.append(rates)
                judge = re.findall(findJudge, item)[0]
                data.append(judge)
                inq = re.findall(findInq, item) #有可能没有概述
                if len(inq)!=0:
                    inq=inq[0].replace("。","")#去掉句号
                    data.append(inq)
                else:
                    data.append(" ")  #留空
    
                bd = re.findall(findBd, item)[0]
                bd=re.sub('<br(\s+)?/>(\s+)?',' ',bd)#替换不需要的成分<br/>
                bd = re.sub('/', ' ', bd) #替换/
                data.append(bd.strip())#去掉前后空格
    
                datalist.append(data) #把处理好一部电影的信息放入datalist
    
        # print(datalist)
        return datalist
    
    
    #得到指定一个URL的网页内容,askURL函数调用可以时多个url被调用
    def askURL(url):
        head={ #模拟浏览器头部信息,向服务器发送消息
             "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_5) AppleWebKit 537.36 (KHTML, like Gecko) Chrome6 Edg/89.0.774.63"
        }
        #用户代理,表示告诉豆瓣服务器,我们是什么类型的机器,浏览器(本质是告诉浏览器,我们可以接受什么水平的文件内容)
    
        request=urllib.request.Request(url,headers=head) #库.对象.封装(url,头部信息),携带头部信息访问url
    
        html = ""#用字符串 存储访问
        try:
            response=urllib.request.urlopen(request) #发出信息后返回一个对象response包含所有网页信息
            html=response.read().decode("utf-8") #.read 方式读取
            # print(html)
        except urllib.error.URLError as e: #可能会遇到404,500等访问异常
            if hasattr(e,"code"):#hasattr(e,"code")判断e这个对象里面是否包含了code这个属性
                print(e.code)#打印错误变量
            if hasattr(e,"reason"):
                print(e.reason)#打印错误原因
        return html
    
    
    #保存数据
    def saveData(datalist,savepath):
        print("save...")
        workspace=xlwt.Workbook(encoding="utf-8") #创建excel
        worksheet=workspace.add_sheet("豆瓣电影250",cell_overwrite_ok=True) #创建工作表,可以覆盖输入
        col=("链接","图片链接","影片中文名","影片英文名","影片评分","影片评分人数","一句话介绍","详情")
        for i in range(0,8):
            worksheet.write(0,i,col[i]) #在第1行,沿着i列写入列名
        for j in range(0,250):
            print("第%d行"%j)
            data= datalist[j]#读取datalist 第j行
            for i in range(0,8):
                worksheet.write(j+1,i,data[i])#从第2行开始,写入i列数据
        workspace.save(savepath)# 保存
    
    
    #创建数据库
    #初始化数据库
    def init_db(dbpath):
        #sql="" #创建数据表
        sql='''
            create table movie250 
            (
            id integer primary key autoincrement,
            info_link text,
            pic_link text,
            cname varchar,
            ename varchar,
            score numeric ,
            rated numeric ,
            instroduction text,
            info text
            )
        '''
        #create table 表格名(
        # 变量名 integer整数型 primary key主键 autoincrement自增长,
        # 变量名 text文本格式,
        # 变量名 varchar,
        # 变量名 numeric数值(可小数)
        # )
        conn=sqlite3.connect(dbpath)
        cursor=conn.cursor()#创建游标 进行操作
        cursor.execute(sql)#用cursor调用执行的sql语句
        conn.commit()#提交
        conn.close()#关闭数据库
    
    
    
    
    #保存到数据库
    def save2db(datalist,dbpath):
        print("....")
    
    
    
    
    
    #函数入口
    if __name__=="__main__": #当主函数执行时
        #__name__表明当前执行的程序的名字
        #如果执行的程序名name=main
        # main()#调用函数
        init_db('movie250.db')
        print("爬取完毕!")
    

    相关文章

      网友评论

          本文标题:python爬虫豆瓣250top电影作业

          本文链接:https://www.haomeiwen.com/subject/ckzmyrtx.html