慕课网免费教程爬虫

作者: dpkBat | 来源:发表于2017-05-23 14:00 被阅读0次

慕课网免费教程爬虫
慕课网大数据分析（1）
Python 爬虫学习笔记（一）
14《Python 原生爬虫教程》开发小案例-综合运用
MySQL图形操作--MySQL workbench
JS实现二叉排序树
知识天堂
github upload本地代码库时出现error: src
自选好用的在线学习资源汇总
超实干货分享，45个PS学习的网站

1. 爬虫背景

刚开始学Python的时候，在慕课网上看到了好多Python的教程，有视频的，有文档的。当时网上有一个Java版的教程下载器，有一个缺点，只能下载视频，不能下载文档类的视频。文档类的教程一个一个复制下来粘贴到word上面保存很痛苦的。后来自己想了一下，干嘛不自己写一个爬虫爬取慕课网呢，然后就写了这个爬虫。

2. 前期准备

安装pdfkit
安装wkhtmltopdf
验证安装是否成功

正确显示版本号，说明安装成功

3. 使用的工具

Chrome的F12
Anaconda
Visual Studio Code
运行环境Deepin15.4

4. 爬虫代码

from bs4 import BeautifulSoup

from urllib.request import urlopen

import urllib.request

from urllib.error import URLError, HTTPError

import json

import re

import requests

import os


import pdfkit


def get_url_content(url):
    # 获取url的内容
    content = requests.get(url)
    return content.text


# 获取课程列表
# i=1
print('增强版慕课网教程爬虫，支持下载非视频类的教程，保存称PDF文件')
print('输入课程编号，如http://www.imooc.com/learn/177，输入177即可')
while True:
    # 获取课程的内容
    chapter_address = input('输入课程地址(输入exit退出)：')
    if(chapter_address == 'exit'):
        break
    course_url = "http://www.imooc.com/learn/" + chapter_address.strip()
    try:
        soup = BeautifulSoup(get_url_content(course_url), "html.parser")
        video_count = 0
        item_count = 0
        # 获取课程名称
        course_name = soup.find('div', class_="hd clearfix")
        print(course_name.get_text())
        # 根据课程名称建立一个文件夹
        video_path = os.path.abspath(
            '.') + '/' + course_name.get_text().strip() + '/'
        if not os.path.isdir(video_path):
            os.mkdir(video_path)

        file_name = course_name.get_text().strip()
        # 简单处理一下保存文件的文件名，文件名不能有\/?<>""
        # 所有先将这些字符替换掉，否则保存成文件的时候会出错
        if '/' in file_name:
            file_name = course_name.get_text().strip().replace('/', '&')
        if '\"' in file_name:
            file_name = course_name.get_text().strip().replace('\"', '“')
        # 将课程的名称及学习地址保存程一个文件
        output_file = open(video_path + file_name + '.txt', 'w')
        chapter_names = soup.find_all('div', class_="chapter")
        for chapter_name in chapter_names:
            output_file.write(chapter_name.find('strong').get_text().split()[
                              0] + ' ' + chapter_name.find('strong').get_text().split()[1] + '\r\n')
            class_links = chapter_name.find_all(
                'a', href=re.compile(r"\d"), class_="J-media-item")
            for class_link in class_links:
                # 使用split()函数分割字符串，默认使用空格、换行符、制表符分割，并返回一个列表（列表最后一个元素不需要）
                output_file.write(' '.join(class_link.get_text().strip().split()[0:len(class_link.get_text().strip(
                ).split()) - 1]) + '>' + 'http://www.imooc.com' + class_link['href'] + '\r\n')  # join()函数将列表转换成String
                if "video" in class_link['href']:
                    # 用于统计课程有几个视频
                    video_count = video_count + 1
                # 用于统计课程有几个学习内容（有的课程不是视频教程）
                item_count = item_count + 1
        print('共' + str(video_count) + '个视频')
        print('共' + str(item_count) + '个学习内容', '\r\n\r\n')
        output_file.close()
        video_info_file = open(video_path + file_name + '.txt', 'r')
        info_data = video_info_file.readlines()
        for temp in info_data:
            # 保存文档教程，生成pdf
            if 'code' in temp:
                file_name = temp.split('>')[0].replace(':', '：')
                code_link = temp.split('>')[1]
                code_content = BeautifulSoup(urllib.request.urlopen(
                    code_link).read().decode('utf-8'), "html.parser")
                code_content.find('div', class_="code-panel")
                options = {
                    # 定义编码类型，防止中文出现乱码
                    'encoding': "UTF-8"
                }
                # windows环境下制定wkhtmltopdf的路径
                # config = pdfkit.configuration(
                # wkhtmltopdf=r'C:\Program Files (x86)\wkhtmltopdf\bin\wkhtmltopdf.exe')
                # pdfkit.from_string(
                # str(code_content.find('div',class_="code-panel")), file_name
                # +'.pdf', options=options, configuration=config)
                print(file_name, '下载中...')
                # pdfkit生成PDF文档保存
                pdfkit.from_string(
                    str(code_content.find('div', class_="code-panel")), video_path + file_name + '.pdf', options=options)
            elif 'video' in temp:
                # 简单的文件名的合法性检查
                video_name = temp.split('>')[0].replace(':', '：')
                video_link = temp.split('>')[1]
                video_id = video_link.split(
                    '/')[len(video_link.split('/')) - 1]
                # 获取视频下载地址，返回一个json数据
                url = "http://www.imooc.com/course/ajaxmediainfo/?mid={}&mode=flash".format(
                    video_id.strip())
                # 返回的是一个json字符串
                video_info = get_url_content(url)
                # print('video_info', video_info)
                video_link = json.loads(video_info)
                '''Json数据格式
                    {
                        "result": 0,
                        "data": {
                            "result": {
                                "mid": 3510,
                                "mpath": [
                                    "http://v2.mukewang.com/d51dbce1-b075-4558-b1b3-bfb4fcc5ee0a/L.mp4?auth_key=1480781145-0-0-32089e0973914437dc19596d2cc552c8",
                                    "http://v2.mukewang.com/d51dbce1-b075-4558-b1b3-bfb4fcc5ee0a/M.mp4?auth_key=1480781145-0-0-4d0a14128facb64e0f94bba9419ce7a4",
                                    "http://v2.mukewang.com/d51dbce1-b075-4558-b1b3-bfb4fcc5ee0a/H.mp4?auth_key=1480781145-0-0-68c1c5dbdd7540020065c030842843d8"
                                ],
                                "cpid": "918",
                                "name": "WAMPServer集成环境下载和安装",
                                "time": 0,
                                "practise": []
                            }
                        },
                        "msg": "成功"
                    }
                    '''
                print(video_link['data']['result']['name'], '下载中...')
                # 下载视频，默认下载高清视频
                urllib.request.urlretrieve(video_link['data']['result']['mpath'][-1],
                                           video_path + video_name.split()[0] + ' ' + video_link['data']['result']['name'] + '.mp4')  
                # input_file.close()
            else:
                pass
    except HTTPError as e:
        print('没有这个课程，请输入正确的编号···')

5. 项目说明

项目地址：慕课网免费教程下载器
后续任务：代码比较乱，后面准备用Scrapy重新写一次，实现输入要爬取的关键字，自动爬取跟关键字相关的教程，包括分页爬取。

6. 爬取的教程分享

因为看到（1组）学习视频推荐--编程语言基础文章里面有这两个教程，所以就直接爬取了这两个课程上传到百度云盘，方便有需要的人下载。

慕课网免费教程爬虫
1. 爬虫背景刚开始学Python的时候，在慕课网上看到了好多Python的教程，有视频的，有文档的。当时网上有...
慕课网大数据分析（1）
慕课网介绍慕课网——www.imooc.com，是垂直的互联网IT技能免费学习网站。以独家视频教程、在线编程工具...
Python 爬虫学习笔记（一）
视频教程：慕课网 Python开发简单爬虫 1.简单爬虫架构 2.爬虫架构的运行流程 3.URL管理器 4.UR...
14《Python 原生爬虫教程》开发小案例-综合运用
学习了这么多知识，这节课我们来实践一下，我们在这节课会设计一个小爬虫来爬取慕课网所有的免费课信息。当然，爬取慕课网...
MySQL图形操作--MySQL workbench
MySQL图形化管理工具使用教程慕课网PHPMyAdmin慕课网Navicat慕课网MySQL workbench
JS实现二叉排序树
来自慕课网免费教程：https://www.imooc.com/video/15751做做笔记。最近才发现原来这...
知识天堂
1.慕课网 http://www.imooc.com/免费课程免费学软件开发 2.菜鸟教程http://www.r...
github upload本地代码库时出现error: src
- 问题来由在慕课网学完Python爬虫教程之后，自己保留下课程开发的爬虫代码。由于想把代码push到自己的Gi...
自选好用的在线学习资源汇总
一、慕课网程序员的集聚地，看到这些是不是觉得很棒咧。慕课网是垂直的互联网IT技能免费学习网站。以独家视频教程、在...
超实干货分享，45个PS学习的网站
一、基础篇教程（排名不分先后） 1.慕课网祁连山《PS大神通关教程-慕课网》祁连山《PS入门基础-魔幻调色-慕...