Python获取豆瓣Top250电影

作者: 力气强 | 来源:发表于2014-12-20 17:01 被阅读1247次

Python学习
Python获取豆瓣Top250电影
python day09 获取豆瓣电影top25集合
Python学习
豆瓣爬虫实践-python版
爬取豆瓣电影top250提取电影分类进行数据分析
python 爬取一些数据，存入数据库并生成简单图表
用23行代码爬取豆瓣音乐top250
正则表达式Python案例（2）-爬取豆瓣电影Top250
Python 学习 -0·豆瓣电影Top250

豆瓣已经列出了评分排行前250的电影，我需要做的，只是用Python编写一个非常简单的程序，获得这些电影对应的「链接」和「标题」，然后打印出来即可。

运行结果

运行结果.jpg

编码思路

用爬虫爬取给定初始链接的信息，然后用正则表达式筛选自己需要的信息就好了。主要是编写需要重复调用的函数，然后再重复调用即可。

源码

#coding:utf-8
#--------------------------------------------------
#   程序：获取豆瓣top250电影
#   作者：lazyboy
#   博客：http://blog.lazyboy.co/
#   日期：2014-12-20
#   语言：Python 2.7
#--------------------------------------------------
import requests,re
# 初始链接
url = 'http://movie.douban.com/top250'
# 函数，获得电影链接和标题
def getlists(u):
    links = []
    titles = []
    r = requests.get(u)
    if r.status_code == 200:
        t = r.content
        p = re.compile('(?<=<ol\sclass="grid_view">)(.|\n)+?(?=</ol>)')
        m = p.search(t)
        if m:
            alllists = m.group()
            p2 = re.compile('(?<=</li>)\n.+?(?=<li>)')
            m2 = p2.split(alllists)
            p3 = re.compile('(?<=href=").+?(?=")')
            p4 = re.compile('(?<=class="title">).+?(?=</span>)')
            for i in range(0,len(m2)):
                m3 = p3.search(m2[i])
                m4 = p4.search(m2[i])
                if m3 and m4:
                    links.append(m3.group())
                    titles.append(m4.group())
            return (links,titles)
# 函数，获得下一页网页链接
def nexturl(u):
    r = requests.get(u)
    if r.status_code == 200:
        t = r.content
        p = re.compile('(?<=rel="next"\shref=").+?(?=")')
        m = p.search(t)
        if m:
            return 'http://movie.douban.com/top250' + m.group()
l,t = getlists(url)
# 当存在下一页链接时，运行
while nexturl(url):
    url = nexturl(url)
    a,b = getlists(url)
    l,t = l+a,t+b
# 最终链接保存在数组l，标题保存在数组t

# 按照给定格式打印出来
for i in range(0,len(l)):
    print '%s. [%s](%s)' % (str(i+1),t[i].decode('utf-8').encode('gbk'),l[i])

知识点拓展

Python学习
python爬虫(五) python爬虫爬取豆瓣电影Top250数据利用python爬取豆瓣电影TOP250页面...
Python获取豆瓣Top250电影
豆瓣已经列出了评分排行前250的电影，我需要做的，只是用Python编写一个非常简单的程序，获得这些电影对应的「链...
python day09 获取豆瓣电影top25集合
进阶,获取豆瓣top250的电影.评分,简评运行结果源代码
Python学习
python爬虫(四) python爬虫爬取豆瓣电影数据今天我们爬取一下豆瓣电影TOP250页面电影的数据，依然...
豆瓣爬虫实践-python版
豆瓣登录，无验证码版：豆瓣TOP250电影爬虫 python，生活因你而精彩！
爬取豆瓣电影top250提取电影分类进行数据分析
标签（空格分隔）：python爬虫一、爬取网页，获取需要内容我们今天要爬取的是豆瓣电影top250页面如下所示...
python 爬取一些数据，存入数据库并生成简单图表
前言爬取豆瓣的 top250 电影榜环境请自行安装python 需要的包BeautifulSoupMySQ...
用23行代码爬取豆瓣音乐top250
网上有各种爬取豆瓣电影top250的教程，虽然豆瓣音乐top250和豆瓣电影top250的爬取十分类似，但是我大致...
正则表达式Python案例（2）-爬取豆瓣电影Top250
通过Python代码实现爬取豆瓣电影Top250的电影列表，包括序号、电影名称、评分以及评论人数，并保存到文件...
Python 学习 -0·豆瓣电影Top250
Python爬取豆瓣电影Top250 想学Python了，花了一下午的时间把Python基础点学了下，发现什么都不...

网友评论

力气强:@XiaoluD 好像不这样会出错吧，具体原因我也不是很清楚诶

XiaoluD:print '%s. [%s](%s)' % (str(i+1),t[i].decode('utf-8').encode('gbk'),l[i])
为什么最后要用gbk的方式打出来呢？

力气强:@青南试验了一下，真的可以啊，谢谢你啊

青南:@lazyboy re.compile这一句是没有必要写的。因为在search，findall,split等等方法中，已经自带了compile的功能了。例如re.search函数：
def search(pattern, string, flags=0):
"""Scan through string looking for a match to the pattern, returning
a match object, or None if no match was found."""
return _compile(pattern, flags).search(string)

你把re.py库文件打开看看就明白了。

力气强:@一只冷布丁是的，Python有好多对应的库呢，我现在做的只是皮毛哦

一只冷布丁:Python处理网络数据时好像很好用

力气强:@青南那大哥你什么时候可以指导我一下咯😃

青南:我在半年前也干过类似的事情。

力气强:@Secant 理论上可以的

Secant:我最近特别想把我的豆瓣里面看过的电影和想看的电影整理出来成一个列表，包括标题、url和评分，不知道用这个能不能做到？

力气强:@XiaoluD 好像不这样会出错吧，具体原因我也不是很清楚诶
XiaoluD:print '%s. [%s](%s)' % (str(i+1),t[i].decode('utf-8').encode('gbk'),l[i])
为什么最后要用gbk的方式打出来呢？
力气强:@青南试验了一下，真的可以啊，谢谢你啊
青南:@lazyboy re.compile这一句是没有必要写的。因为在search，findall,split等等方法中，已经自带了compile的功能了。例如re.search函数：
def search(pattern, string, flags=0):
"""Scan through string looking for a match to the pattern, returning
a match object, or None if no match was found."""
return _compile(pattern, flags).search(string)

你把re.py库文件打开看看就明白了。
力气强:@一只冷布丁是的，Python有好多对应的库呢，我现在做的只是皮毛哦
一只冷布丁:Python处理网络数据时好像很好用
力气强:@青南那大哥你什么时候可以指导我一下咯😃
青南:我在半年前也干过类似的事情。
力气强:@Secant 理论上可以的
Secant:我最近特别想把我的豆瓣里面看过的电影和想看的电影整理出来成一个列表，包括标题、url和评分，不知道用这个能不能做到？

Python获取豆瓣Top250电影

运行结果

编码思路

源码

知识点拓展

相关文章

Python学习