抓取豆瓣网电影的例子

作者: 丽雁解 | 来源:发表于2018-01-14 00:18 被阅读0次

抓取豆瓣网电影的例子
使用Mantle来Model化来自豆瓣的电影数据
Rxjava+Okhttp+Retrofit最简单案例
python 抓取豆瓣电影
python抓取豆瓣电影Top250数据并写入Excel
【Python爬虫】- 阳光电影网国内电影资源抓取
python抓取豆瓣热门电影
利用Power BI轻松爬取豆瓣电影数据
Python自定义豆瓣电影种类，排行，点评的爬取与存储（高阶上）
python3.6爬虫之豆瓣电影Top200详解（三）

from bs4 import BeautifulSoup
import requests

def main(base_url):
    # base_url='https://movie.douban.com/top250?start={}&filter='.format(start_name)
    # print(base_url)
    req=requests.get(base_url)
    soup=BeautifulSoup(req.text,'lxml')
    ol=soup.find("ol",class_="grid_view")
    print(type(soup),type(ol))
    li_list=ol.find_all('li')
    for li in li_list:
        img=li.find('img')
        img_src=img['src']

        title=li.find('span',class_="title").text.strip()
        actor=li.find('div',class_="bd").p.get_text().strip()
        star_info_all=li.find('div',class_='star').find_all('span')
        mv_score=star_info_all[1].text.strip()
        comment_num=star_info_all[2].text.strip()
        print(title)
        print(img_src)
        print(actor)
        print(mv_score)
        print(comment_num)
        print('-' * 50)

    next_span=soup.find('span',class_='next')
    next_a=next_span.find('a')
    next_url=None #
    if next_a:
        next_url=next_a['href']
    return 'https://movie.douban.com/top250'+next_url

if __name__=='__main__':
    n_url=main('https://movie.douban.com/top250?start=0')
    #page down
    while n_url:
        main(n_url)