Python数据分析之猫眼电影TOP100

作者: 罗罗攀 | 来源:发表于2018-12-14 09:22 被阅读81次

Python爬虫小练习——正则表达式爬取猫眼电影Top100榜单
爬虫学习(一)：利用requests爬取猫眼电影top100
Python数据分析之猫眼电影TOP100
2018-03-06
Requests+正则表达式爬取猫眼电影
50行Python爬取猫眼电影TOP100榜单信息
Python爬虫猫眼电影TOP100
Python爬虫-猫眼电影排行
不和女朋友大【看】一场，圣诞节就算白过了
Python爬虫：Scrapy框架采集猫眼TOP100电影数据（

前言

如果大家经常阅读Python爬虫相关的公众号，都会是以爬虫+数据分析的形式展现的，这样很有趣，图表也很不错，今天了，我就来分享上一次在培训中的一个作品：猫眼电影爬虫及分析。
通过猫眼电影TOP100榜的爬虫，然后进行可视化，让学员体会到，小数据爬虫也能玩出这样的花样来。

爬虫

爬虫分析

这里是获取的是top100的电影数据，进行了跨页爬虫，获取的字段：电影名，主演，上映时间，评分，电影类型和时长。最后保存在csv文件中。

爬虫代码

import requests
from lxml import etree
import csv


headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'
}

def get_url(url):
    res = requests.get(url,headers=headers)
    html = etree.HTML(res.text)
    infos = html.xpath('//dl[@class="board-wrapper"]/dd')
    for info in infos:
        name = info.xpath('div/div/div[1]/p[1]/a/text()')[0]
        info_url = 'http://maoyan.com' + info.xpath('div/div/div[1]/p[1]/a/@href')[0]
        star = info.xpath('div/div/div[1]/p[2]/text()')[0].strip()
        release_time = info.xpath('div/div/div[1]/p[3]/text()')[0].strip()
        score_1 = info.xpath('div/div/div[2]/p/i[1]/text()')[0]
        score_2 = info.xpath('div/div/div[2]/p/i[2]/text()')[0]
        score = score_1 + score_2
        # print(name,star,release_time,score,info_url)
        get_info(info_url,name,star,release_time,score)

def get_info(url,name,star,time,score):
    res = requests.get(url, headers=headers)
    html = etree.HTML(res.text)
    style = html.xpath('/html/body/div[3]/div/div[2]/div[1]/ul/li[1]/text()')[0]
    long_time = html.xpath('/html/body/div[3]/div/div[2]/div[1]/ul/li[2]/text()')[0].split('/')[1].strip()
    print(name,star,time,score,style,long_time)
    writer.writerow([name,star,time,score,style,long_time])

if __name__ == '__main__':
    fp = open('maoyan_2.csv','w',encoding='utf-8',newline='')
    writer = csv.writer(fp)
    writer.writerow(['name','star','time','score','style','long_time'])
    urls = ['http://maoyan.com/board/4?offset={}'.format(str(i)) for i in range(0, 100, 10)]
    for url in urls:
        get_url(url)

数据分析

数据分析我做成了PPT的样子，大家可以看看~

总体情况

100部电影，平均得分9.0，平均电影时长128.63。

电影年份趋势

电影年份趋势不大，规律不太明显。

电影月份

大家看电影都知道，电影基本在假期上映更有热度，这里统计出来，发现下半年的电影比上半年电影好很多~

地区

中国和美国还是占了很多的，韩国和日本电影也很不错~

电影类型

电影大部分都是剧情的，爱情才是真谛啊。

演员

小哥和星爷承载了我们的清楚呀~

总结

别看这小小的100条数据，是不是也可以玩出不一样的花样来。关注公众号：罗罗攀，回复（猫眼电影），即可获取爬虫+数据分析代码。

Python爬虫小练习——正则表达式爬取猫眼电影Top100榜单
简介目标：利用python爬虫，获取猫眼电影Top100榜单数据（排名、电影名、演员、上映时间及国家、评分），并...
爬虫学习(一)：利用requests爬取猫眼电影top100
爬取猫眼电影Top100 最近学习爬虫环境 Python3.6 requests re 目标网站猫眼电影top...
Python数据分析之猫眼电影TOP100
前言如果大家经常阅读Python爬虫相关的公众号，都会是以爬虫+数据分析的形式展现的，这样很有趣，图表也很不错，...
2018-03-06
python3爬取猫眼top100电影信息 import requests from requests.excep...
Requests+正则表达式爬取猫眼电影
猫眼电影-Top100榜参考资料 requests,正则表达式抓取猫眼电影TOP100
50行Python爬取猫眼电影TOP100榜单信息
今天，手把手教你入门 Python 爬虫，爬取猫眼电影 TOP100 榜信息。对于 Python 初学者来说，爬...
Python爬虫猫眼电影TOP100
爬虫练习, 使用几种不同的方式爬取猫眼电影TOP100 猫眼电影TOP100的页面结构比较简单, 电影的信息都存储...
Python爬虫-猫眼电影排行
爬虫的目标爬取猫眼电影TOP100的电影名称，时间，评分，图片等信息猫眼TOP100网站:http://maoy...
不和女朋友大【看】一场，圣诞节就算白过了
圣诞节要到了，想好晚上要和ta要去看什么电影吗？我们就用python爬虫去猫眼电影看看Top100都有哪些电影~...
Python爬虫：Scrapy框架采集猫眼TOP100电影数据（
概述：本文采用scrapy爬虫框架对猫眼电影中的TOP100电影数据进行采集，过程采用了JavaScript逆向和...

Python数据分析之猫眼电影TOP100

前言

爬虫

爬虫分析

爬虫代码

数据分析

总体情况

电影年份趋势

电影月份

地区

电影类型

演员

总结

相关文章

Python爬虫小练习——正则表达式爬取猫眼电影Top100榜单

爬虫学习(一)：利用requests爬取猫眼电影top100

Python数据分析之猫眼电影TOP100

2018-03-06

Requests+正则表达式爬取猫眼电影

50行Python爬取猫眼电影TOP100榜单信息

Python爬虫猫眼电影TOP100

Python爬虫-猫眼电影排行

不和女朋友大【看】一场，圣诞节就算白过了

Python爬虫：Scrapy框架采集猫眼TOP100电影数据（

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

爬虫专题

@IT·互联网

大数据爬虫Python AI Sql

机器学习与数据挖掘

程序员

项目合集