时代光华课程数据分析

作者: hua_allen | 来源:发表于2018-03-02 23:49 被阅读47次

时代光华课程数据分析
Python 金融数据分析：数据类型和结构（一）丨数析学院
【收藏】数据分析与洞察
共享小灶能力派商业数据分析训练营课程
Python数据分析课程介绍
数据分析是什么？如何从零开始学习数据分析？
数据分析课程
豆瓣读书数据分析-python
Python 学习笔记 100
Markdown

概述
课程词频分析
2.1 平台课程词频分析
2.2 学员已学课程词频分析
2.3 本人选课课程词频分析
学员学分分析
3.1 学分基本情况
3.2 按部门分析
3.3 按性别分析
3.4 按学历分析
其他
4.1 课程视频下载
4.2 时代光华官网课程词频分析
结语

1. 概述

本文简要分析了时代光华的一些课程数据和泓人学员学习数据。数据截止日期为2018年2月28日。分析过程主要运用如下工具：

浏览器调试：google的postman插件
编程语言：python语言，jieba库，wordcloud库
前端框架：bootstrap-table框架，bootstrap-table-export插件
数据可视化：Echarts
文章编辑：markdown语法

2. 课程词频分析

2.1 平台课程词频分析

第一步：在浏览器中对网页地址进行分析，得到全部课程的json文件
第二步：编写页面程序展示全部课程，可以筛选课程和选课。

全部课程 第三步：利用export插件将课程名称列导出至txt文件

课程名称 第四步：在python中利用jieba库分词，再用wordcloud库制作词云图，选取了出现频率最高的60个词。

import jieba
from scipy.misc import imread  # 这是一个处理图像的函数
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator
import matplotlib.pyplot as plt
from jieba.analyse import extract_tags
import numpy as npy

# 添加自己的词库分词
# jieba.add_word('十九大')
# 向jiabe库添加本地词库
jieba.load_userdict("newdict.txt")

# 分词函数
def jieba_words(texts):
    words_list = []
    word_generator = jieba.cut(texts, cut_all=True)
    # 打开屏蔽词的文本文件
    stopwords = open('stopwords.txt').read()
    for word in word_generator:
        if word.strip() not in stopwords:
            words_list.append(word)
    return ' '.join(words_list)  # 注意是空格

# 打开词源的文本文件
text = open('title.txt').read()
donewords = jieba_words(text)

# 计算词频
tags = jieba.analyse.extract_tags(sentence=donewords, topK=60)
words = [word for word in jieba.cut(text, cut_all=True)]
word_frequence_list = {}
for tag in tags:
    word_frequence_list[tag] = words.count(tag)

# 词云图设置
back_color = imread('map.jpg')  # 解析该图片
# 基于彩色图像生成相应彩色
image_colors = ImageColorGenerator(back_color)
wc = WordCloud(
    background_color='white',  # 背景颜色
    # max_words=80,  # 最大词数80
    mask=back_color,  # 以该参数值作图绘制词云，这个参数不为空时，width和height会被忽略
    max_font_size=60,  # 显示字体的最大值
    min_font_size=8,  # 显示字体的最小值
    # stopwords=STOPWORDS.add('new'),  # 使用内置的屏蔽词，再添加'苟利国'
    font_path="C:/Windows/Fonts/STZHONGS.TTF",  # 解决显示口字型乱码问题，可进入C:/Windows/Fonts/目录更换字体
    random_state=42,  # 为每个词返回一个PIL颜色
    width=576,  # 图片的宽
    height=576  # 图片的长
)

# 根据词频生成云图
wc.fit_words(word_frequence_list)
plt.imshow(wc.recolor(color_func=image_colors))
# 保存图片
wc.to_file('title.png')

4128门课程最后生成的词云效果图如下：

平台4128课程的关键词云图还可以绘制课程关键词词频图：

课程关键词词频核心python代码如下：

import wordcloud as wc
import matplotlib.pyplot as plt
import jieba
from PIL import Image
from numpy import array
from jieba.analyse import extract_tags
import numpy as npy
# 导入绘图库
from numpy import arange
import matplotlib

jieba.load_userdict("newdict.txt")
# 分词函数
def jieba_words(text):
    words_list = []
    word_generator = jieba.cut(text, cut_all=True)
    # 打开屏蔽词的文本文件
    stopwords = open('stopwords.txt').read()
    for word in word_generator:
        if word.strip() not in stopwords:
            words_list.append(word)
    return ','.join(words_list)  # 注意是空格


text = open('title.txt').read() #title
donewords = jieba_words(text)
tags = jieba.analyse.extract_tags(sentence=donewords, topK=20)
words = [word for word in jieba.cut(text, cut_all=True)]

words_freq = {}
for tag in tags:
    freq = words.count(tag)
    words_freq[tag] = freq
usedata = sorted(words_freq.items(), key=lambda d:d[1])
tmp = npy.array(usedata).T
# print(tmp)
word = tmp[0]
num = [int(item) for item in tmp[1]]

# 画布大小
fig,ax = plt.subplots(figsize=(15, 10))
#输出中文字体
myfont = matplotlib.font_manager.FontProperties(fname="C:/Windows/Fonts/STZHONGS.TTF")
#图表标题设置，想要标题居中可以去掉x，y的设置
plt.title(u'词频统计', fontproperties=myfont, fontsize=20, x=0.001, y=1.02)
#图表x轴设置
ax.set_xlabel(u'出现次数', fontproperties=myfont, fontsize=20, x=0.06, y=1.02, color="gray")
#边框线设置，去除上方右方的框线，左下框线置灰融入背景
ax.spines['bottom'].set_color('grey')
ax.spines['left'].set_color('grey')
ax.spines['top'].set_color('white')
ax.spines['right'].set_color('white')
#传入词语，y轴显示20个标记位置，设置字体大小，颜色为灰色
tick_positions = range(1,21)
ax.set_yticks(tick_positions)
ax.set_yticklabels(word, fontproperties=myfont, fontsize=18, color="gray")
#设置数据条的间隔
bar_positions = arange(20) + 0.75
#导入数据并做图展示
ax.barh(bar_positions, num, 0.5, align="edge")
plt.savefig("title.jpg")
plt.show()

2.2 学员已学课程词频分析

在导出的课程excel表中筛选出有学员学过的课程，利用上文介绍的方法做词频分析，结果如下：

学员已选课程词云图

最受泓人学员欢迎的课程的关键词

对比平台课程及学员所学课程，“管理”与“企业”是课程热门词，也是学员学习的热门。另外，平台课程关键词前10位中有3个并没有出现在学员课程关键词中，分别是“销售”、“生产”、“沟通”，而“安全”和“技术”两个词虽然平台上词频不高，却较受泓人学员欢迎。
个人认为，集团公司是大型制造型企业，还是应当重视有关“生产制造”的学习和培训。

2.3 本人选课课程词频分析

第一步：在浏览器中对网页地址进行分析，得到本人所学课程的json文件
第二步：编写页面程序展示我的课程，我设置了查看课程详细列表和学习的链接，此外还给出了查看总学分排名的链接>>>>学分排名

我的课程 第三步：同前文一样，利用export插件将课程名称导出至txt文件。
第四步：利用python的jieba分词和wordcloud生成词云图。

我的课程

我的课程词频

3. 学员学分分析

3.1 学分基本情况

我通过分析URL提取了全部学员的学员积分情况。截止2月28日，58名学员最高分795.2，最低分0.5，平均分235.5，中位分171.6。学分最高的前10人，有7人来自法 * * 集团，3人来自光 * 集团。

学分区段人数分布

学分整体呈现左偏态分布，因此中位分比平均分更有代表意义。

3.2 按部门分析

从分部门统计看，表现最好的应该是投 * * * 部，平均分达到333.5，平均分超过300分的还有法 * * 集团和光 * 集团；平均分低于100分的是博 * * 工作站和科 * 中心。

按部门统计学分

3.3 按性别分析

从分性别统计看，女生平均分252.5，中位分200.5；男生平均分225.2，中位分160.5。女生表现要好于男生，女生分差波动也小于男生。

按性别统计学分

3.4 按学历分析

从分学历统计看，本科、大专和硕士表现相当，本科略胜出；博士(后)表现较差。

按学历统计学分.PNG

4. 其他

4.1 课程视频下载

本人在看其他平台教学视频的时候通常都是1.5 - 2倍速度播放。时代光华平台上的视频无法加速播放和快进，这是服务器上做了限制，即使安装诸如video speed controller这种google chrome插件也没法解决。考虑到平台上有些课程视频既想学，但又嫌播放慢，这里我基于网页代码分析提供一种方法。首先要获取三个参数，分别是elsSign，courseId，scoId，分别代表登录用户的session id，课程名称id，以及具体视频的id。session id可以登录平台后在cookie中找到。

5555.PNG 而courseId可以在我前面抓取的平台课程json文件中得到，scoId可以通过courseId间接得到，地址为

http://www.jyjxw.21tb.com/els/html/courseStudyItemcourseStudyItem.loadCourseItemTree.do?courseId=b4cc0cf32745fb617e9b4d79746b5302&courseType=NEW_COURSE_CENTER

，会返回包含该课程下所有视频scoId的html代码。得到这三个参数后，就可以通过下列url获取视频的原始地址：

http://www.jyjxw.21tb.com/els/html/courseStudyItem/courseStudyItem.selectResource.do?scoId=c9a6bf7ba3a3420f9a6998a9c1844904&courseId=14bbbbd29383c2679933a8f40bb86544&elsSign=elnSessionId.132eb9b0f4c14f239d72d095454c11a1

。由于平台服务器要求必须是post请求才返回结果，加上服务器做了跨域限制，只好通过postman工具获取结果，黄色标记的就是视频原始地址，在浏览器中打开会直接提示下载视频，然后就可以用本地播放器播放视频。

postman运用

4.2 时代光华官网课程词频分析

在学习网络平台课程的时候，我感觉课程内容有些陈旧，比如感兴趣的项目管理、数据分析、互联网技术类课程很少。为此，我特意访问了时代光华官网，然后爬了一些官网的课程来做对比。结果如下：

时代光华官网课程

时代光华官网课程词频可以注意到官网课程高频词中出现了“互联网”、“十九大”等近期热门的词汇，说明官网的课程质量要高一些。当然，官网课程大部分是收费视频，质量肯定要高点了。

5. 结语

由于自己不是课程管理员，数据来源有限，另外自己的数据分析水平还较初级，对课程的数据分析和解读暂时就这么多了。

时代光华课程数据分析
目录概述课程词频分析2.1 平台课程词频分析2.2 学员已学课程词频分析2.3 本人选课课程词频分析学员学分...
Python 金融数据分析：数据类型和结构（一）丨数析学院
Python 金融数据分析：数据类型和结构（一）丨数析学院课程简介本节为 Python 金融数据分析基础课程，...
【收藏】数据分析与洞察
（课程笔记）做人力资源，数据分析和洞察洞见非常重要，最近听了学堂的课程，感觉很通透！课程感悟：数据分析重要的...
共享小灶能力派商业数据分析训练营课程
本人购买了课程学习完后，课程还有剩余时间，适合想转行数据分析并且找入门课程学习同学，课程以数据分析案例进行讲课，绝...
Python数据分析课程介绍
课程编程环境数据分析概述
数据分析是什么？如何从零开始学习数据分析？
数据分析课程是科多大数据课程里面，核心的课程方向之一！数据分析目前在各个行业各个企业的应用和需求越来越大，受制于人...
数据分析课程
课程安排（参照使用，具体见课表安排）第一阶段 Excel数据分析 Excel数据处理技巧和高效方法 Excel数...
豆瓣读书数据分析-python
豆瓣读书数据分析-python （思路来自课程老师绿树）刚刚学完python数据分析的课程，决定做一个有关pyth...
Python 学习笔记 100
数据分析课程 01 1.使用jupyter notebook进行数据分析2.jupyter matplotlib&...
Markdown
数据帮（Data Camp）专注于引进国外优质数据分析课程。

时代光华课程数据分析

目录

1. 概述

2. 课程词频分析

2.1 平台课程词频分析

2.2 学员已学课程词频分析

2.3 本人选课课程词频分析

3. 学员学分分析

3.1 学分基本情况

3.2 按部门分析

3.3 按性别分析

3.4 按学历分析

4. 其他

4.1 课程视频下载

4.2 时代光华官网课程词频分析

5. 结语

相关文章

时代光华课程数据分析

Python 金融数据分析：数据类型和结构（一）丨数析学院

【收藏】数据分析与洞察

共享小灶能力派商业数据分析训练营课程

Python数据分析课程介绍

数据分析是什么？如何从零开始学习数据分析？

数据分析课程

豆瓣读书数据分析-python

Python 学习笔记 100

Markdown

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

企业培训

数据可视化

我爱编程