美文网首页经典收藏
高校大数据专业教学实训平台建设

高校大数据专业教学实训平台建设

作者: 00d34451b19b | 来源:发表于2020-03-31 09:24 被阅读0次

    第一章 大数据发展背景

    1.1 国家政策

     2017年1月

    工业和信息化部正式发布了《大数据产业发展规划(2016-2020年)》,明确了“十三五”时期大数据产业的发展思路、原则和目标,将引导大数据产业持续健康发展,有力支撑制造强国和网络强国建设。

     2018年9月

    工信部公示“2018年大数据产业发展试点示范项目名单”,公布了包括大数据存储管理、大数据分析挖掘、大数据安全保障、产业创新大数据应用、跨行业大数据融合应用、民生服务大数据应用、大数据测试评估、大数据重点标准研制及应用、政务数据共享开放平台及公共数据共享开放平台等10个方向200个项目。

     2019年11月

    为进一步落实《国务院关于印发促进大数据发展行动纲要的通知》和《大数据产业发展规划(2016~2020年)》,推进实施国家大数据战略,务实推动大数据技术、产业创新发展,我国工业和信息化部将组织开展2020年大数据产业发展试点示范项目申报工作。

    1.2 行业现状

    据相关资料显示,随着互联网、移动互联网、物联网等信息通信技术及产业的不断发展,全球数据量呈爆发式增长态势。至此,IDC研究报告指出,根据ZDNET的统计预计到2020年,中国产生的数据总量将超过8.5ZB,是2013年的10倍。

    此外,值得一提的是,大数据市场空间巨大的同时,其产业规模也有望迎来快速增长。据前瞻产业研究院发布的《中国大数据产业发展前景与投资战略规划分析报告》统计数据显示,2015年我国大数据产业规模已达2800亿元,截止至2017年我国大数据产业规模增长至4700亿元,规模增速进一步提高至30.6%,初步测算2018年我国大数据产业规模将达6200亿元左右,同比增长31.9%。并预测在2020年我国大数据产业规模增长突破万亿元,达到了10100亿元,同比增长26.3%。

    2015-2020年我国大数据产业规模统计及增长情况预测

    数据来源:前瞻产业研究院整理

    由此可知,随着来自政策、技术以及市场等各方面的力量推进之下,大数据产业的发展潜力绝不能小觑。对此,业内人士还预期称,我国大数据产业正在从起步阶段步入黄金期,2020年中国有望成世界第一数据资源大国。

    1.3 专业背景

    大数据及相关专业是以计算机为基础,以挖掘、分析为主,以搭建、工具使用为辅,紧密面向行业应用的一门综合性学科。其方向有数据科学与大数据技术、概率论与数理统计、数据挖掘与数据分析、数据运维与开发、算法与数据结构、计算机网络、并行计算等多个专业方向。目前全国各类院校已陆续开始围绕大数据专业建设展开研究并申报大数据专业。

    2016年,教育部批准北京大学、对外经贸大学、中南大学率先开设“数据科学与大数据技术”专业;2017年,教育部批准包括中国人民大学、北京邮电大学、复旦大学在内的共计32所高校获批“数据科学与大数据技术专业”;2018年3月,教育部发布《2017年度普通高等学校本科专业备案和审批结果》,共计255所高校获批开设“数据科学与大数据技术专业”及“大数据管理与应用专业”;2019年3月,教育部发布《2018年度普通高等学校本科专业备案和审批结果》,共计228所高校获批开设“数据科学与大数据技术专业” 及“大数据管理与应用专业”。

    “大数据技术与应用”专业是2016年教育部公布的新增专业。2017年共有62所职业院校获批“大数据技术与应用”专业,2018年共有148所职业院校获批“大数据技术与应用”专业,2019年度新增195所高职院校获批“大数据技术与应用”专业。截止目前,总计405所高职院校成功申请该专业。

    第二章 教学平台

    红亚大数据教学平台基于高校的教学场景,运用云计算技术,集课程实验、算法实战、数据科研、考试于一体的实训平台,平台课程共计800多个任务。学生可通过浏览器访问使用,可在学校任何一个网络可达的场所进行学习。

    系统课程学习模式包括实验平台、项目路径和职业路径,满足不同场景的教学需求。在教学管理方面,平台自带人工智能课程推荐功能,可为学生提供个性化课程推荐及AI课程助手,助力学生定向就业。还可以通过大数据分析,自动生成学业报告,为学生就业提供桥梁,并作为教师教学的得力助手,为高校的学生能力培养及教师的工作提供强有力的支持。

    2.1 学习模式

    2.1.1 实验平台

    该模式以知识体系为核心,将大数据内容按照不同类型的知识模块进行分类。如大数据基础体系下包含了:Linux基础、编程基础、数学基础、数据库基础等课程;大数据进阶体系包含了:Hadoop、Spark数据处理、R语言、Python数据处理、SAS数据分析等课程;该模式围绕一个内容展开了多方面知识的学习,与现在教育方式一致,保留了师生们传统的学习授课方法。不仅如此,为满足学校的已有的课程教学资源,老师可以自定义实验内容及实验镜像,将文本类、实操类、视频类课件上传到教学平台上满足教学需求。

    2.1.2 职业路径

    该模式以职业岗位需求为核心,综合分析国内众多企业的大数据相关人才岗位需求,如大数据运维工程师、大数据研发工程师、大数据架构工程师,经过采集、筛选、对比、定模等一系列的流程,将岗位技能需求落实到具体的知识点,围绕一个岗位展开多方面相关技术的学习。

    教师在后台可以将实验按照所需知识点的难易程度设计成一套流程体系。学生按照流程开始实验,将每一模块的技能牢牢掌握后,到最后具备胜任该职业的能力,可为自身职业发展提供有效帮助。

    2.1.3 项目路径

    项目路径学习模式是以还原企业的真实项目完成过程为设计思路,将大数据技能知识点与实际项目案例相结合,让学生能够真实的体会到每个知识点在实际项目中的具体作用。

    将一个项目拆分成多个实验,多个实验间共同使用同一实验环境,以实现项目的连贯性和真实性。项目提供整套的实验环境及配套工具,用户在切换实验时对应的实验环境不会改变,在下一个实验会继续使用上一实验的实验环境,并最终完成该项目。具体项目案例包括大数据集群运维项目、图书馆管理系统的设计与实现、IBM离职率分析等。

    2.2 练习算法

    2.2.1 算法集

    算法集提供了一个环境,用户可以在里面写代码、运行代码、查看结果,并在其中可视化数据,并与平台中的数据集功能进行交互式使用,可直接调用平台当中的数据集用于算法在实际数据中的实践测试。鉴于这些优点,它能帮助他们便捷地执行各种端到端任务,如数据清洗、统计建模、构建/训练机器学习模型等。

    算法集的一个特色是允许把代码写入独立的cell中,然后单独执行。这样做意味着用户可以在测试项目时单独测试特定代码块,无需从头开始执行代码。虽然其他的IDE环境(如RStudio)也提供了这种功能,但就个人使用情况来看,算法集的单元结构是设计的最好的。

    算法集的优势还体现在灵活性和交互性上,除了最基础的Python,它还允许用户在上面运行R语言。由于它比IDE平台更具交互性,教师也更乐于在各种教程中用它来展示代码。

    2.2.2 数据集

    数据集功能提供数量众多的大数据数据集,包括互联网、零售、电商、医疗等相关数据集,数据集中的数据可直接与算法集中的算法进行交互使用,为算法提供所需数据的调用支撑。

    教师可根据数据集的内容、格式、数量等为学生设定开放式课题,使用真实的数据集进行大数据项目案例处理分析,深度理解掌握大数据技术是如何处理这些数据的,例如,教师给定一份数据让学生进行预测实验,学生需设计算法进行清洗与预测等。

    平台提供开放式上传功能,支持用户将自己的数据上传至平台当中,并可设定是否与他人共用,可帮助用户解决数据存放管理问题,实现用户数据的开放式共享。

    2.3 在线考试

    2.3.1 理论考核

    理论考核采用在线考核模式,将单选题、多选题、判断题、填空题、简答题添加在试卷上,每一道题的题目、正选、分值等内容可由管理员自行设置,简答题题采用关键词进行自动判分,同时也可以由教师手动判分。

    2.3.2 实践测评

    实践测评考核模式是以实验操作过程为考核点,也称之为实操题考核模式,由教师在管理端设置考核步骤、分值权重,平台提供配套的实验考试环境。学生在实际操作过程中遇到的考核点,需要根据实际结果去填写,到最后统一汇总分数。该模式突破了传统的考核模式,通过实操的方式来加深印象,巩固大数据知识。

    2.4 智能教务

    2.4.1 教学进度分析

    课程实验具有核全局开关功能,打开全局考核后,进行所有实验时都必须完成实验当中设定的每一步考核才能查看下一步。接着,系统不仅自动检测到正在进行实验,也可以手动设定实验状态分析(也可以手动设置分析目标)。查看分析结果时可查看每个班级的学生在进行每个实验时完成度,查看每个实验的每个步骤的通过率、完成率、完成进度、实验总结信息等。

    教学进度分析功能可通过智能化的手段,有效帮助教师分析并掌握整个班级的学习情况,根据学生完成实验的进度过程进行授课,选择重点难点部分进行针对性讲解,有效降低教师授课压力,高效完成授课任务。

    2.4.2 教学计划管理

    管理员在后台可以一次性布置全部的教学计划,规定上课时间与学习课程,随后学生通过在前端查看,即可了解到每一天的课程安排。

    2.4.3 实验报告管理

    教师通过此功能查看学生的实验报告,支持预览和批阅等功能,后台自动统计学生学习数据,展示出每个步骤的学习通过时间、成绩正确率、班级排名等信息,并将实验数据与学生的实验报告有机结合,形成完成的实验报告。此功能相较于传统的实验报告,增加了学生的学习数据统计功能,可大大的减轻教师的负担,同时为教师了解班级整体的学习状况提供的有力的支持。

    2.5 平台管理

    2.5.1 用户管理

    为满足教师方便的管理班级学院,平台提供用户组织管理功能。其中用户管理显示平台用户的信息列表,管理端可对平台用户信息进行编辑与删除,根据信息进行用户模糊筛选,便于管理平台用户;角色管理显示平台现有角色,用户可编辑新的角色并赋予角色权限;组织结构管理显示平台现有的组织机构,管理端可以也可根据层级分步添加组织、学院、系别、专业、班级,对同级别下的机构进行排序。

    2.5.2 资源管理

    用户可以在此查看版本信息、用户数量、实验数量,资源监控及用户虚拟机监控。同时后台资源监控中心可查看平台的用户数量、实验数量、职业路径数量、项目路径数量、算法集数量、数据集数量、用户分布、活跃用户等数据;实时的CPU、内存、硬盘、实例的使用情况和该时刻学生实验进行的状态;可对虚拟机进行监控所处状态。该功能的实现可便捷精准的反应出学生的问题所在,可对实验平台进行实时状态的查看,又同时提高了老师的教学质量和效率。

    第三章 教学课程库

    3.1 实验体系

    大数据实验体系按照大数据基础、大数据采集、大数据存储、数据处理、数据分析、数据挖掘、数据可视化、深度学习、机器学习和大数据案例组成。

    3.1.1 大数据基础

    3.1.1.1 Linux基础

    Linux系统是开源软件,其可靠性得到肯定,是当今举世瞩目、发展最快、应用最广的主流软件之一。在服务器平台、嵌入式系统和云计算系统所运行的操作系统中,Linux占很大比重。大数据主流框架Hadoop、Spark都架设在Linux系统上,所以现在学习和应用Linux成为众多用户和学生的首选。

    Linux基础32 Linux基础32 Linux系统概述3 Linux简介

    Linux应用领域

    Linux优势

    字符操作环境2 使用Shell

    字符编辑器VI

    Linux文件系统3 Linux文件

    ext3文件系统

    安装和卸载文件系统

    进程管理2 Linux进程概述

    进程控制命令

    常用命令介绍5 目录操作

    文件操作

    磁盘操作

    文本编辑

    帮助命令

    用户管理4 Linux用户账户概述

    管理用户和群组

    命令行配置

    用户管理器配置

    系统监控与备份4 显示系统进程

    查看硬件信息

    查看日志文件

    数据备份与恢复

    软件包管理4 RPM概述

    RPM包的命令介绍

    查看软件包(检查软件包签名)

    软件包管理工具

    管理网络服务4 守护进程服务

    配置FTP服务

    配置邮件服务器

    Apache服务器

    3.1.1.2 编程基础

    编程基础包含Python基础、R语言基础、Scala基础和Java基础四大模块共计81个实验项目。针对每一个所讲解的知识点都进行了深入分析,并使用生动形象的情境化举例,将原本复杂的、难于理解的知识点和问题进行简化,针对每个知识点,精心设计了相应的问题,让学习者不但能掌握和理解这些知识点,并且还可以清楚地知道在实际工作中如何去运用。

    编程基础81 Python基础38 Python基础38 Python介绍

    Python开发环境搭建

    Python基本数据类型

    Python变量

    Python基本输入输出

    Python模块

    Python运算符与表达式

    Python选择与循环结构

    Python序列操作

    Python列表常用方法

    Python元组

    Python列表解析式与生成器表达式

    Python字符编码

    Python字符串基本操作

    Python字符串格式化

    Python字符串方法

    Python正则表达式与re模块

    Python字典创建与使用

    Python字典方法

    Python集合创建与使用

    Python集合常用运算

    Python文件基本概念

    Python打开与关闭文件

    Python文件对象基本方法

    Python数据序列化与反序列化

    Python文件与文件夹基本操作

    Python函数的定义和调用

    Python函数参数

    Python变量作用域

    Python函数返回值

    Python函数嵌套定义、闭包、装饰器

    Python类的定义和使用

    Python构造方法与析构方法

    Python成员访问权限

    Python继承

    Python异常概念与常见表现形式

    Python常见异常处理结构

    Python的raise语句

    R语言基础14 R语言基础14 R语言开发环境搭建

    R语言对象与属性

    R语言向量

    R语言矩阵和数组

    R语言列表

    R语言数据框

    R语言构建子集

    lapply函数

    apply函数

    mapply函数

    split函数

    tapply函数

    R语言重复值处理

    R语言排序

    Scala基础16 Scala基础16 Scala开发环境搭建

    Scala控制结构和函数

    Scala数组相关操作

    Scala映射与元组

    Scala类与对象

    Scala包管理

    Scala继承

    Scala文件和正则表达式

    Scala特质

    Scala运算符(原本为scala操作符)

    Scala高阶函数

    Scala集合

    Scala模式匹配和样例类

    Scala类型参数

    Scala高级类型

    Scala隐式转换和隐式参数

    Java基础15 Java基础15 Java开发环境搭建

    Java的类和对象

    Java标识符、关键字与运算符

    Java基本数据类型

    Java流程控制

    Java继承与多态

    Java抽象类与接口

    Java内部类

    Java异常处理

    Java集合类

    Java基础类库

    Java泛型

    Java的输入与输出

    Java数据库操作

    3.1.1.3 数学基础

    数字在数学体系中稳固的位置,而大数据技术也和数学紧紧地结合在一起。数学基础共计信息论、线性代数、概率论与数理统计、数值计算和最优化方法五大模块30个实验项目。大数据技术本身是一门交叉性学科,统计方法为核心,所以学习数学基础就显得尤为重要。

    数学基础30 信息论6 信息论6 熵

    联合熵

    条件熵

    相对熵

    互信息

    最大熵模型

    线性代数7 线性代数7 标量

    向量

    张量

    范数

    矩阵

    特征分解

    几种常用距离计算

    概率论与数理统计8 概率论与数理统计8 随机变量

    概率分布

    贝叶斯公式

    期望

    方差

    协方差

    常见分布函数

    最大似然估计

    数值计算3 数值计算3 数值计算概述

    上溢和下溢

    计算复杂性与NP问题

    最优化方法6 最优化方法6 最优化理论概述

    最优化问题的数学描述

    凸集与凸集分离方法

    梯度下降算法

    启发式优化方法

    牛顿法和拟牛顿法

    3.1.1.4 数据库基础

    数据库已是当今信息社会须臾不可脱离的重要工具,数据库的教学也就成为计算机科学与技术专业的一门必修课程。在大数据技术中,数据库种类繁多,包括了Exce、MySql、Oracle等等,学习数据库基础是为大数据的存储做准备。

    数据库基础54 excel6 Excle6 Excel函数与公式

    Excel数据统计与汇总

    VBA程序基础

    VBA数据类型

    VBA流程控制

    VBA综合应用

    mysql11 Mysql11 MySQL简介与安装

    MySQL创建连接

    MySQL操作数据库

    MySQL操作数据表

    MySQL操作数据

    MySQL条件限定与正则表达式

    MySQL表的连接

    MySQL排序、分组与过滤

    MySQL结果合并

    MySQL函数

    MySQL导入与导出

    oracle8 Oracle8 Oracle安装与卸载

    Oracle数据类型(文本)

    表的创建与管理

    简单查询

    单行函数

    分组统计查询

    多表查询

    Sybase PowerDesigner设计工具

    mongodb8 MongoDB8 MongoDB简介与安装

    MongoDB创建连接

    MongoDB操作数据库

    MongoDB操作集合

    MongoDB操作文档

    MongoDB条件操作符与正则表达式

    MongoDB之Limit与Skip方法

    MongoDB排序与聚合

    redis+memcache11 Redis10 Redis简介、安装与配置

    Redis命令(包括Redis键)

    Redis数据类型

    Redis基数统计

    Redis服务器与连接

    memcached简介与安装

    memcached连接

    memcached存储

    memcached查找

    memcached统计

    SQLite(10) SQLite10 SQLite简介与安装

    SQLite操作数据库

    SQLite操作数据表

    SQLite操作数据

    SQLite条件限定与通配符

    SQLite表的连接

    SQLite排序、分组与过滤

    SQLite结果合并

    SQLite之Explain细节描述

    SQLite函数

    3.1.2 大数据采集

    3.1.2.1 Python爬虫

    Python爬虫是一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息,可使用Python爬虫对数据进行采集。

    Python基础知识41 Python基础简介4 Python语言概述

    为何学习Python语言

    Python主要应用领域

    Python开发环境搭建

    初识Python7 Python基本数据类型

    Python变量

    Python基本输入输出

    Python模块

    Python运算符与表达式

    Python选择与循环结构

    Python猜数字游戏

    列表与元组4 Python序列操作

    Python列表常用方法

    Python元组

    Python列表解析式与生成器表达式

    字符串与正则表达式5 Python字符编码

    Python字符串基本操作

    Python字符串格式化

    Python字符串方法

    Python正则表达式与re模块

    字典2 Python字典创建与使用

    Python字典方法

    集合2 Python集合创建与使用

    Python集合常用运算

    文件操作5 Python文件基本概念

    Python打开与关闭文件

    Python文件对象基本方法

    Python数据序列化与反序列化

    Python文件与文件夹基本操作

    函数5 Python函数的定义和调用

    Python函数参数

    Python变量作用域

    Python函数返回值

    Python函数嵌套定义、闭包、装饰器

    面向对象4 Python类的定义和使用

    Python构造方法与析构方法

    Python成员访问权限

    Python继承

    异常处理结构3 Python异常概念与常见表现形式

    Python常见异常处理结构

    Python的raise语句

    Python 爬虫19 爬虫初识3 爬虫简介

    爬虫应用场景

    爬虫基本工作原理

    网络请求基础6 TCP/IP协议

    HTTP请求格式

    HTTP常用请求头

    响应状态码

    浏览器发送HTTP请求的过程

    cookie和session

    使用Python发送网络请求5 Requests模块介绍

    使用Requests发送post请求

    使用Requests发送get请求

    使用Requests发送带Header请求

    使用Requests发送带参数请求

    Python爬虫实战5 XPATH介绍及节点选择

    LXML介绍及使用

    对抗反爬虫措施

    网站数据爬取实验

    IP代理数据爬取

    3.1.2.2 Flume数据抽取

    Flume 是一个分布式,可靠且可用的系统,用于有效地从许多不同的源收集、聚合和移动大量日志数据到一个集中式的数据存储区。Flume是在数据采集中有比不可少的一个环节。

    Flume7 Flume简介

    Flume架构与工作原理

    Flume安装与配置

    案例:Avro

    案例:Spool

    案例:Exec

    案例:Syslogtcp

    3.1.2.3 Kafka+zookeeper

    Kafka它提供了类似于JMS的特性,但是在设计实现上完全不同,此外它并不是JMS规范的实现。kafka对消息保存时根据Topic进行归类,发送消息者成为Producer,消息接受者成为Consumer,此外kafka集群有多个kafka实例组成,每个实例(server)成为broker。无论是kafka集群,还是producer和consumer都依赖于zookeeper来保证系统可用性集群保存一些meta信息。Kakfa也是数据采集的中一个重要环节。

    ZooKeeper7 ZooKeeper7 Zookeeper简介

    Zookeeper工作原理

    Zookeeper安装与配置

    Zookeeper基本操作实例

    集群管理

    共享锁

    队列管理

    Kafka4 Kafka简介

    Kafka工作原理

    Kafka安装与配置

    生产者消费者实例

    Kafka案例

    3.1.2.4 ELK

    ELK为数据的收集、传输、存储、分析和警告提供了一整套解决方案,并且都是开源软件,之间互相配合使用,完美衔接,高效的满足了很多场合的应用。目前主流的一种日志系统。

    ELK10 ELK10 ELK简介

    安装与配置Elasticsearch

    安装与配置Logstash

    安装与配置Kibana

    处理JSON格式Nginx日志

    处理Nginx日志

    处理Apache日志

    处理Twitterdingyue

    纽约交通事故数据分析

    美国联邦选举委员竞选捐款数据分析

    3.1.3 大数据存储

    3.1.3.1 HDFS存储

    HDFS 主要是为了应对海量数据的存储,由于数据量非常大,因此一台服务器是解决不能够应付的,需要一个集群来存储这些数据。在这个集群中,存在一个 NameNode 节点,该节点用于管理元数据,即用户上传的文件位于哪个服务器上,都多少个副本等信息。此外,还有多个 DataNode 节点,这些节点就是文件存储位置。

    Hadoop基础4 Hadoop初识简介4 Hadoop介绍

    Hadoop体系架构

    Hadoop软件安装及配置

    单节点伪分布式安装

    分布式存储HDFS5 分布式存储HDFS5 HDFS安装

    HDFS的相关概念

    HDFS的文件存储机制

    HDFS的数据存储管理

    HDFS的数据的读写过程

    3.1.3.2 HBase存储

    HBase是一种NoSQL数据库,这意味着它不像传统的RDBMS数据库那样支持SQL作为查询语言。HBase是一种分布式存储的数据库,技术上来讲,它更像是分布式存储而不是分布式数据库,它缺少很多RDBMS系统的特性,比如列类型,辅助索引,触发器,和高级查询语言等待。

    HBase6 HBase6 HBase简介

    HBase的shell应用v2.0

    使用Hive操作HBase

    HBase的JavaAPI应用

    HBase学生选课案例

    HBase微博案例

    3.1.4 数据处理

    3.1.4.1 Pandas数据处理

    Pandas是基于NumPy的一种工具,该工具是为了解决数据分析任务而创建的。Pandas纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。Pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

    使用pandas进行数据处理13 基础概念4 Series和DataFrame简介

    DataFrame常用属性方法

    数据访问

    文件读取(原读写文件)

    数据清洗3 pandas缺失值处理

    pandas重复值处理

    pandas异常值处理

    数据集成2 使用键参数的DataFrame合并

    轴向连接

    数据变换4 利用函数或映射进行数据转换

    替换值

    重命名轴索引

    离散化和面元

    3.1.4.2 R语言数据处理

    R语言在处理数据的过程中,经常需要根据需求从完整的实验设计和数据中筛选、整理出可以直接使用的部分,这就涉及到数据整理和变换工作。常用的数据整理和变换主要包括以下几类:选取特定分析变量、筛选满足条件的数据、按照某个变量排序、对数据进行分组和汇总。

    R语言数据处理17 R语言数据处理12 R语言数据导入

    R语言数据导出

    R语言重复值处理

    R语言缺失值处理

    R语言空格值处理和字段抽取

    R语言记录抽取和随机抽样

    R语言记录合并

    R语言字段匹配

    R语言数据标准化

    数据分组

    日期格式处理与日期抽取

    虚拟变量

    3.1.4.3 SAS数据处理

    SAS数据处理系统主要完成以数据为中心的四大任务:数据访问、数据管理、数据呈现、数据分析四个步骤,一下实验可以满足这个四个大任务的使用。

    SAS数据分析(34) SAS基础简介4 SAS基础简介4 SAS概述

    SAS的特点及模块组成

    SAS软件基本介绍-SAS_Studio安装过程

    SAS数据导入导出4 SAS数据导入导出4 读数据和生成数据集

    写数据

    导入数据

    导出数据

    条件判断和循环语句3 条件判断和循环语句3 SAS语句的基本组成

    条件判断语句

    循环语句

    SAS数据分析综合应用5 SAS数据分析综合应用5 建立营销响应模型

    预测股票价格

    建立信用评分模型

    预测门店销售额

    人口教育情况分析

    3.1.4.4 Spark数据处理

    Spark是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。所以使用Spark进行数据分析比Hadoop的MR快很多。

    Spark数据处理(82) Spark基础19 Spark简介5 Spark介绍

    Spark体系架构

    Spark安装与配置

    Spark运行模式

    Spark生态系统BDAS

    Spark核心概念4 RDD弹性分布式数据集

    RDD的依赖关系

    RDD共享变量

    Spark优化

    RDD编程10 创建RDD

    转化操作

    行动操作

    惰性求值

    传递参数

    持久化

    Pair_RDD的创建

    Pair_RDD的转化操作

    Pair_RDD的行动操作

    数据分区

    数据读取与存储13 文件系统2 Amazon_S3的读取与存储

    HDFS中的读取与存储

    数据库4 Cassandra

    Elasticsearch

    HBase

    Java_JDBC连接

    文件格式7 文本文件的读取与存储

    JSON文件的读取与存储

    CSV与TSV文件的读取与存储

    序列文件的读取与存储

    对象文件的读取与存储

    Hadoop的输入输出读写

    压缩文件的读取与存储

    Spark程序结构4 Spark程序结构4 Spark架构设计

    Spark算子分类

    Spark核心组件

    Spark程序执行基本流程

    Spark流式计算6 Spark流式计算6 Spark_Streaming介绍

    Spark_Streaming架构

    Spark_Streaming部署

    Spark_Streaming编程

    Spark_Streaming性能调优

    Flume、Kafka与Spark Streamng结合使用

    Spark SQL9 Spark SQL9 Spark_SQL介绍

    Spark_SQL架构

    DataFrame

    Spark_SQL的Shell

    Spark_SQL的UDF使用

    JDBC操作MySQL

    Spark_SQL性能调优

    网站日志分析实例

    Spark与机器学习13 Spark Mllib13 特征提取和转化

    降维操作

    协同过滤算法原理及使用

    FP-growth算法及使用

    Spark机器学习的优势和潜力

    Spark_MLlib的数据类型

    线性回归算法原理与使用

    逻辑回归算法的原理及使用

    支持向量机算法原理与使用

    朴素贝叶斯算法原理与使用

    决策树算法原理与使用

    随机森林算法原理与使用

    K-Means算法原理与使用

    GraphX7 GraphX7 GraphX简介

    Graphx常用数据结构

    GraphX图算法

    GraphX属性图

    GraphX图操作符

    GraphX-Pregel-API

    PageRank算法实战

    案例分析11 案例分析11 网络日志分析

    电商广告案例

    实时路况案例

    黑名单案例

    性别预测案例

    年龄预测案例

    垃圾邮件案例

    图片分类案例

    电影推荐案例

    推荐系统案例

    金融数据分析案例

    3.1.4.5 Impala与Storm

    Impala它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,Impala的最大特点也是最大卖点就是它的快速。

    Impala3 Impala3 impala简介

    数据库语句

    impala table操作

    Storm5 Storm5 Storm简介

    Storm架构与运行原理

    Storm安装与配置

    Storm入门实例

    Storm日志分析实战

    3.1.4.6 MapReduce

    MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)“和"Reduce(归约)”,是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。

    MapReduce编程模型7 MapReduce编程模型7 MapReduce简介

    MapReduce架构

    MapReduce接口类

    MapReduce代码编程

    MapReduce经典案例—WordCount

    分布式资源调度系统YARN的安装

    MapReduce和YARN命令

    3.1.5 数据分析

    3.1.5.1 Hive数据分析

    Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

    数据仓库Hive6 Hadoop数据仓库Hive6 Hive简介

    Hive-DDL

    Hive-DML

    Hive UDFV

    Hive数据清洗项目

    Hive统计UV项目

    3.1.5.2 Python数据分析

    Python数据处理需要完成数据获取、数据清洗、数据探索、数据呈现、数据规模化和自动化的过程。主要内容包括:Python基础知识,如何从CSV、Excel、XML、JSON和PDF文件中提取数据,如何获取与存储数据,各种数据清洗与分析技术,数据可视化方法,如何从网站和API中提取数据等技能。

    Python相关算法23 分类与预测6 决策树

    K近邻分类算法

    支持向量机

    Python随机森林

    Logistic回归分析

    人工智能网络

    常用聚类分析算法3 K-Means聚类算法

    系统聚类算法

    DBSCAN聚类算法

    关联规则算法2 Apriori算法简介

    Apriori算法应用

    协同过滤算法2 基于用户的协同过滤算法

    基于物品的协同过滤算法

    时间序列数据分析4 时间序列预处理

    平稳时间序列分析

    非平稳时间序列分析

    Python主要时序模式算法

    离群点检测方法4 离群点检测概述

    基于密度的离群点检测方法

    基于聚类的离群点检测方法

    基于距离的离群点检测方法

    数据降维2 数据降维概述

    常用降维方法-1.机器学习简介

    常用降维方法-2.机器学习数学预备知识

    常用降维方法-3.常用降维方法的目的

    常用降维方法-4.常用降维方法解读

    模型调优与实战8 模型评估与调优3 模型评估和调优的意义

    评估指标

    模型调优建议与注意事项

    数据分析与挖掘实战5 电子商务的智能推荐

    财政收入分析

    电商产品评价分析

    电力窃漏识别分析

    电器使用情况分析

    3.1.5.3 Pig数据分析

    Pig是一种数据流语言和运行环境,用于检索非常大的数据集。为大型数据集的处理提供了一个更高层次的抽象。Pig包括两部分:一是用于描述数据流的语言,称为Pig Latin;二是用于运行Pig Latin程序的执行环境。

    Pig语言7 Pig简介

    Pig的安装与运行

    命令行交互工具Grunt

    Pig数据模型

    Pig Latin基础知识

    Pig Latin关系操作

    Pig Latin高级应用

    3.1.5.4 R语言数据分析

    R语言提供数据分析功能,主要课程包括了R语言的基础进阶部分、R语言数据分析部分以及R语言案例。

    R语言基础18 R语言简介3 R语言概述与应用领域

    为何学习R语言

    R语言开发环境搭建

    R语言数据结构6 R语言数据类型

    Array数组和factor因子

    List列表和DataFrame数据框

    R语言程序结构

    R语言向量化计算

    对象改值3 就地改值

    逻辑值取子集

    缺失信息

    R的记号体系2 值的选取

    发牌实例和洗牌实例

    S类系统4 S类系统简介与属性

    泛型函数

    S类系统方法

    类、S3与调试

    R语言数据分析11 R语言数据分析11 基本统计

    对比分析

    分组分析

    分布分析

    交叉分析

    结构分析

    相关分析

    简单线性回归分析

    多重线性回归分析

    RFM分析

    矩阵分析

    R语言数据分析综合应用10 R语言数据分析综合应用10 建立销售响应模型

    预测销售额

    水质评估

    财政收入分析预测模型

    骑车数据可视化分析

    房价指数的分析与预测

    电商评论情感分析

    航空公司价值分析

    游戏玩家付费行为预测

    用户留存分析实战

    3.1.6 数据挖掘

    3.1.6.1 SAS和R数据挖掘

    SAS和R语言可以在基础的教学和分析上进行数据的挖掘,主要课程如下。

    SAS数据挖掘6 SAS数据挖掘6 主成分分析

    因子分析

    聚类分析

    判别分析

    相关分析

    生存分析

    R语言数据挖掘11 R语言数据挖掘11 数据挖掘简介

    数据挖掘常见问题

    数据挖掘流程

    分类预测基本流程

    R语言数据预处理(一)

    R语言数据预处理(二)-转换

    R语言决策树分类方法

    R语言高级分类方法

    R语言聚类分析与关联分析

    智能推荐

    时间序列

    离群点检测

    R语言网页数据抓取3 R语言网页数据抓取3 HTML数据抓取

    JSON数据抓取

    使用Google分析网页结构

    3.1.6.2 Mahout

    Mahout是Apache Software Foundation(ASF)旗下的一个开源项目。提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。此外,通过使用Apache Hadoop库。 Mahout可以有效地扩展到云中。

    Mahout5 Mahout5 Mahout简介

    推荐算法

    聚类算法

    分类算法

    使用Mahout构建职位推荐案例

    3.1.7 数据可视化

    3.1.7.1 Matplotlib可视化

    Matplotlib可能是 Python 2D-绘图领域使用最广泛的套件。它能让使用者很轻松地将数据图形化,并且提供多样化的输出格式。下面的课程将会探索 matplotlib 的常见用法。

    可视化技术与matplotlib6 可视化与Matplotlib6 绘制折线图

    绘制散点图

    绘制饼状图

    绘制柱状图

    绘图区域分割

    结合pandas进行数据可视化

    3.1.7.2 SAS和R可视化

    R语言使用dplyr、tidyr、reshape2 等包的数据操作方法; base、lattice 和ggplot2包的图形语法进行可视化展示。SAS可视化文本分析综合运用自然语言处理、机器学习和语言规则,从非结构化数据中获取价值。该课程可解决各行业面临的业务难题,包括:管理和解释记录、评估风险和欺诈、以及通过客户反馈及早发现问题。

    SAS数据可视化7 SAS数据可视化7 图形绘制

    条形图

    饼图

    散点图

    箱型图

    R语言数可视化8 R语言数据可视化8 R语言饼图

    R语言散点图

    R语言折线图

    R语言柱形图

    R语言直方图

    R语言箱线图

    R语言树形图

    R语言地图和热力图

    3.1.7.3 可视化工具

    可视化除了编程语言之外还可已使用Echart、NodeBox、Inkscape等这样的工具进行可视化处理。

    可视化工具6 可视化工具:python

    可视化工具:Echart

    可视化工具:NodeBox

    可视化工具:Inkscape

    可视化工具:Open Layers

    可视化工具:Leaflet

    3.1.8 大数据案例

    大数据正在改变我们的世界。互联网发展以及移动通信市场和相关技术的迅速扩张也已创建大量的数据包括结构化数据和非结构化数据。数据可用性和数据应用对商业和更广泛的社会领域带来了巨大影响。有效使用大数据有助于公司更精准地对重要信息进行分析很终提高运营效率、减少成本、降低风险、加快创新、增加收入。本平台详细介绍了大数据策略的规划和执行配以不同行业里不计其数的现实案例加以阐述。

    Hadoop项目案例8 Hadoop项目案例8 QQ好友推荐算法

    PageRank算法

    Tf-Idf算法

    数据关联案例

    ETL案例

    PV UV统计案例

    用户流失和新增案例

    Hadoop总结

    大数据案例(34) 大数据案例34 数据分析生命周期概述6 数据分析概述

    发现

    数据准备

    模型规划

    模型建立

    沟通与实施

    数据采集2 数据采集的原理

    数据采集的实验步骤

    数据清洗2 数据清洗的原理

    数据清洗的实验步骤

    可视化工具6 可视化工具:python

    可视化工具:Echart

    可视化工具:NodeBox

    可视化工具:Inkscape

    可视化工具:Open Layers

    可视化工具:Leaflet

    数据建模2 数据建模的原理

    数据分析方法与过程

    模型评估与优化2 模型-数据与实验环境介绍

    模型-数据分析方法与过程

    出租车数据分析2 出租车-数据与实验环境介绍

    出租车-数据分析方法与过程

    音乐分类2 音乐-数据与实验环境介绍

    音乐-数据分析方法与过程

    知识图谱制作2 知识图谱-数据与实验环境介绍

    知识图谱-数据分析方法与过程

    电影评论情感分析2 电影-数据与实验环境介绍

    电影-数据分析方法与过程

    金融数据分析2 金融-数据与实验环境介绍

    金融-数据分析方法与过程

    大型商场销售额预测2 销售-数据与实验环境介绍

    销售-数据分析方法与过程

    NBA篮球比赛结果分析预测2 篮球-数据与实验环境介绍

    篮球-数据分析方法与过程

    3.2 教学资源

    为满足教学需求,针对红亚大数据教学平台重点实验提供配套的PPT讲义及视频讲解,从实验知识介绍、实验目的、实验原理、实验拓展、实验过程等内容展开详细的介绍。教材建设

    红亚科技与全国高校大数据专家、出版社共同出版了一套国家“高等教育十三五规划”大数据教材,包括Hadoop、Spark、R语言、SAS、大数据综合案例技术应用实践教材。本套教材与大数据实训教学平台相辅相成,形成完整的教学资源,覆盖理论、实训、实践、实战类型,可有效的解决大数据教学资源不够完善的问题。

    第四章 数据安全科研保障箱

    数据安全科研实验箱是在建立在学生具备完善的数据安全基础知识的层面上的,在学生掌握了一定的数据安全攻击防御学科知识的同时,亦可进行学科性的知识拓展研究;在一定程度上可延伸学生的学习和知识掌握能力;同时更加全面的提高了学生的综合知识能力。

    数据安全科研实验实验箱集成了四种处理器,包括A8处理器、M4处理器、Z32处理器、FPGA编程板,可通过编程实现如下科研项目:SM2密码算法与实现、12684液晶屏串行显示实验、SLE4428逻辑加密卡实验、SM3密码杂凑算法程序设计。

    相关文章

      网友评论

        本文标题:高校大数据专业教学实训平台建设

        本文链接:https://www.haomeiwen.com/subject/zdwwyhtx.html