美文网首页大数据-简书大数据,机器学习,人工智能大数据 爬虫Python AI Sql
大数据学习路线从Linux基础到大型网站高并发处理项目实战

大数据学习路线从Linux基础到大型网站高并发处理项目实战

作者: 程序员1 | 来源:发表于2020-02-17 16:39 被阅读0次

    前言

    相信大家在学习大数据的时候都不知道怎么来学习,因为知识点太多了,也太杂了,没有一个系统的路线来引导大家学习.

    为了解决大家这个困惑,小编整理了从Linux基础到大型网站高并发处理项目实战的学习路线和知识点,希望大家能够喜欢,文末还有小编整理的视频和电子书籍,也希望大家能够喜欢。

    Linux大纲

    1Linux的介绍,Linu的安装: VMware Workstation虚拟软件安装过程、CentOS虚拟机安装过程

    2了解机架服务器,采用真实机架服务器部置linux

    3.Linux的常用命令:常用命令的介绍,常用命令的使用和练习

    4.Linux系统进程管理基本原理及相关管理工具如ps. plil. top. htop等的使用;

    5.Linux启动流程,运行级别详解。chikconfig详解

    6.VI, VIM宇胡器: VI. VIM编机器的介绍,VI, VIM托使用和常用快捷健

    7.Linux用户和组账户管理:用户的管理、组管理

    8_Linux磁盘管理,lm逻辑卷,nts详解

    9.Linux系统文件权限管理:文件权限介绍、文件权限的操作

    10.Linux的RPM软件包管理: RPM包的介绍,RPM安装、卸载等操作

    11.yum命令,yum源搭建

    12.Linux网络: Linux网络的介绍,Linux网络的配置和维护

    13.Shel编程: Shell的介绍,Shell脚本的编写

    14.Linux上常见软件的安装:安装JDK安装Tomcat, 安装mysql,web项目部署

    Python机器学习+ django

    1介绍Python以及特点

    2. Python的安装

    3. Python基本操作(注释、逻辑、字符串使用等)

    4. Python数据结构(元组、列表、字典)

    5.使用Pythoni进行批量重命名小例子

    6. Python常见内建的数

    7.更多Python函数及使用常见技巧

    8.异常

    9. Python的数的参数讲解

    10. Python模块的导入

    11. Python牛的类与魅承

    12网络爬虫案例

    13. Web应用相关模块介绍

    14.数据库连接,以及pip安装模块

    15. Python器学习算法[1 python实现聚类算法/12 python实现线性回归算法/ 3. python分类算法

    docker大纲

    1基本介绍

    2. vm docker对比

    3. docker基本架构介绍

    4. unfs cgroup namespace

    5.进程虚拟化轻量级虚拟化

    6. docker安装+

    7. docker镜像制作

    8. docker常用命令

    9. docker镜像迁移

    10. docker pipework [iopenvswitch]

    11. docker weave

    mahout机器学习

    1.介绍为什么使用它,它的前景机器学习[ a)简单介绍Mahout/ b)简单介绍机器学习/c)实例演示Mahout单机推荐程序]

    2.配置安装( hadoop2x版本的)编译安装步骤说明[ a)命令行中测试运行]

    3.聚类[a)聚类概念/b)聚类步雪流程/C)聚类中的距离到度/ d)讲解K means聚类/

    e) K-means聚类算法展示/0聚类其他算法/ g)介绍TF-IDF /h)归化/0微博聚类案例]

    4.推荐系统[司)协同过滤概念/ b)计解基于用户的协同过滤/(讲解基于物品的协同过速1 d)约会推荐系统案例] net/

    5.分类[1分类概念/ 2.分类的应用及Mahout分类优势/3.分类和聚类、推荐的区别/4.分类工作原理/5.分类中概念术语/

    6.分类项目工作流/ 7.如何定义预则变量/ 8.线性分类器的介绍。及贝叶斯分类器/

    9.决策树分类器的介绍,及随机森林分类器/ 10如何使用贝叶断分类器和随机森林分类器的代码展示

    spark MLlib机器学习

    1介绍[a) Spark MUb组件介绍/ b)据本数据类型]

    2回日算法[a)广义线性模型/b)逻值回日]

    3.分类简法[a)朴素贝叶断/ b)决策树/ d路机森林]

    4.第四章推荐系统

    5.第五章聚类[ a) Kmeans / b) Sparse kmeans 1 d) Kmeans++/d Kmeans I/ e) Streaming kmeans / 0 Gaussian Mixture Model ]

    6. GraphX [a) 二分图/b)概述/0)构造图/ d)属性图/ e) PageRank ]

    scala函数式编程课程大纲

    1 scala解释器、变量常用数据类型等

    2 scala的条件表达式输入输出、循环等控制结构

    3. scala的函数、默认参数、变长参数等

    4. scala的数组,变长数组多维数组等

    5. scala的映射,元祖等操作

    6. scala的类,包括bean属性辅助构造器、主构造器等

    7. sal的对象。单你对象。伴生对像,扩展史apply方法等

    8. scala的包,引入。地承等概像

    9. scala的特质

    10 sala的操作符

    11 scala的高阶函数

    12 scala的集合

    kafka课程大纲

    1. kafka是什么

    2. kafka体系结构

    3. kafka配置详解

    4. kafka的安装

    5. kafka的存储策略

    6. kafka分区特点

    7. kafka的发布与订阅

    8. scala编程操作kafka

    云计算平台openstack

    1 openstack介绍和模块基本原理分析

    2. openstack多节点安装部珊[a采用centos6.x系统]

    3. Keystone基本原理

    4. glance

    5.Cinder http://blog. csdn.

    6. Swift

    7. Neutron

    8. Openstack api二次开发

    虚拟化xen、 kvm

    1虚拟化介绍,虚拟化适用场景等等

    2 Qemu Libvirt & KVM

    3.安装KVM, Qemu, Libvirt

    4. QEMU-KVM:安装第一个能上网的虚拟机

    5. Kvm虚拟机nat,网桥基本原理

    6. kvm虚拟机克隆

    7.kmu虚拟机配厦

    8. kvm虚拟机扩展磁盘空间

    9. Kvm快照

    10. Kvm迁移

    11 Java,python,c语言编程控制kvm

    12.构建自己的虚拟云平台

    Spark大数据处理

    1. Spark介绍: Spark应用场景、SparkFHadoop MR. Storm的比较和优势

    2. Scala编程语言快速上手(Spark是用Scala语言编写的

    3. Spark概念和编程模型: RDD、transtformation. action. lineage等

    4. Spark集群部署

    5. Spark原理:核心组件和常用RDD

    6. SparkQHadoop2x整合: Spark on Yarn原理、JobServer配置与部署

    7. Spark Streaming

    8. Spark SQL spark SQL架构,sparksql编程实战

    9. Spark编程实战:中国移动无线网络优化分析系统

    R语言机器学习大纲

    1. R语言介绍,基本函数,数据类型

    2.线性回归

    3.朴素贝叶断聚类

    4.决策树分类

    5. k均值聚类[a.离群点检测]

    6.关联规则探索

    7.神经网络

    redis缓存系统课程大纲

    1. redis特点、与其他數据库的比较

    2.如何安装redis

    3.如何使用命令行客户端

    4. redis的字符串类型

    5. redis的散列类型

    6. redis的列表类型

    7. redis8的集合类型

    8.如何使用java方问redis [a.python访i问redisscala访问redis]

    9. redis的事务ttansaction)

    10. redis的管道(pipeline)

    11 redis持久化(AOF +RDB)

    12. redis优化

    13. redis的主从复制

    14. redis的sentinel高可用

    15. twermproxy.codis实战

    16. redis3x集群安装配置

    Django课程大纲

    1框架的介绍

    2. Django中的装饰器

    3. Django中如何传参

    4.如果看起来更Pythonic

    5. Django的安装

    6.项目的创建,启动

    7.应用的创建

    8. settings py文件的讲解

    9.数据库的配置

    10. admin模块的开启

    11建立管单博客网站,随代码逐讲解以下

    12 Django的架构

    13.讲解模板templates

    14.讲解视图view [ i讲解model]

    15.讲解查询语法

    16.请求响应

    17.如果生成CSV和PDF文件

    18.讲解django shortcuts模块的使用

    19. Mongodb基础入门

    20.讲解如何连接mongodb

    21 Web项目关闭debug模式

    22.上线部署django + nginx + uwsgi

    Flume课程大纲

    1详细Flume的体系结构

    2.讲述如何书写flume的agent配置信息

    3. flume如何动态监控文件实中文件变化

    4. flurne如何把数据导入到hdfs中

    5.讲解如何通过flume动态监控日志文件变化,然后导入到hdfs中

    6. flume + kafka整合

    7. flume avor序列化传输

    8. flume1.6新特性

    实时数据处理storm

    1. Storm基础知识

    2. Storm集群的安装

    3. Storm常用组件和编程APT

    4. Storm结合消息队列Kafka

    5. Storm Tient

    6. Storm DPRCStorm on Yarn

    7. Storm开发实战:商城项目订单,销售额,省区销售实施分析,流量p,py,uv实时分析(Kafka +Storm+ Hbase),无线网络优化实时监控监控项目

    hadoop大数据处理

    1. Hadoop生态环境介绍

    2. Hdfs

    3. Mapreduce

    4. Hadoop2xyarn

    5.分布式数据库Hbase ,hbase优化

    6. Hive

    7. Pig(hadoop计算的另种框架

    8.数据迁移工具Sqoop

    9. Flume数据采集

    10.机器学习框架Mahout

    11. Cloudera .cdh

    12. Zookeeper [a. Zookeeper java api开发/ b. Zookeeper rmi高可用分布式集群开发/c.Zookeeper redis高可用监控实现]

    13. Hadoop项目实战:中国移动大数据无线网络优化系统

    14.基于Mapreduce Lucene或solrelasticsearch 文本挖据和搜索系统构建

    大型网站高并发处理

    1.第四层负载均衢

    i.Lvs负载均衢[1负载算法/2.NAT模式3.直接路由模式(DR)/4.隧道模式( TUN)]

    L.F5负载均衡器介绍

    2.第七层负载均清[a. Nginx/b. Apache]

    3. Tomcar. jrm优化提高并发量

    4.数据缓存优化

    i.缓存数据库[1.Redis/2.Memcached]

    5. Lys+nginx+tomcat+redis memcache构建二层负我均衡千万并发处理

    6. Haproxy

    7. Fastdfs小文件独立存储管理

    8. Redis缓存系统[a Redis基本使用, b. Redis sentine|高可用/C Redis好友推荐算法]

    Linux理论

    Linux入门

    Linux简介、VMWare workstation安装

    整理各大Linux发行版本的区别

    Linux系统安装+基本配置 MySQL、Python、Java等常用软件环境安装

    2.Linux常用命令通讲

    常用基本命令介绍与使用、扩展讲解常用命令的选项含义

    基于已掌握的命令实现简易版的单机WordCount

    Linux高级命令通讲 VI VIM AWK等

    Linux常用及高级命令快捷键,高效使用Linux系统

    3.Linux用户管理

    Linux用户和组账户管理介绍、Linux 用户的管理(新增、删除、修改账号等操作)

    创建系统用户、普通用户并授权相应的权限,为后期搭建大数据集群做准备

    Linux组管理实践、批量用户管理操作

    4.Linux磁盘管理

    Linux文件系统介绍、Linux文件系统常用命令

    搭建NFS服务器,并且针对不同的文件夹设置对应的权限,以实现数据的安全与共享功能

    'Linux lvm逻辑卷、NFSs详解

    Linux系统文件权限管理介绍、系统文件权限的操作

    5.Linux RPM安装包

    Linux的RPM包的介绍

    基于RPM包安装对应的MySQL、Python、Java等软件环境

    Linux RPM包安装、卸载

    6.Linux yum源

    yum介绍及简单使用、各大互联网公司提供的yum源介绍

    使用Nginx服务器搭建本地私有yum源

    配置开源的yum源、搭建私有yum源

    7.Linux网络

    Linux网络的介绍、网络类型的区分与详解

    配置已有的Linux系统的网络,能够ping通外部服务器

    Linux网络的配置与维护

    8.Linux Shell脚本

    Shell脚本的介绍及运行原理

    使用shell脚本编写简易版的MapReduce

    Shell脚本的基本语法

    Shell脚本运行的多种方式

    9.负载均衡LVS

    Lvs负载均衡介绍、Lvs负载均衡的负载算法

    搭建一套属于自己的LVS负载均衡器

    Lvs负载均衡的NAT模式、直接路由模式(DR)、隧道模式(TUN)、F5负载均衡器介绍

    第七层负载均衡-Nginx、第七层负载均衡-Apache Haproxy的介绍及Haproxy的使用

    Lvs+nginx+tomcat+redis|memcache构建二层负载均衡

    编程语言

    1.Scala环境安装及基本语法

    Scala语法介绍、数据类型

    基于已经掌握的语法实现冒泡、快速排序算法

    Scala的条件表达式、输入输出、循环等控制结构

    数组、变长数组、多维数组、set、list、元组等集合操作

    2.Scala类与面向对象

    Scala的类,包括辅助构造器、主构造器

    对冒泡、快速排序算法代码重构

    Scala的对象、单例对象、伴生对象、扩展类、apply方法

    Scala的包、引入、继承

    Scala的特质trait的定义与使用

    Scala的操作符、Scala的高阶函数、匿名函数、嵌套函数

    3.Scala并发编程(Actor)

    Actor简介及应用场景、ActorSystem的层次结构

    实现多actor之间消息传输案例

    Actor和ActorSystem介绍及基本使用

    4.Python环境安装及基本语法

    Python介绍及安装、Anaconda运行环境安装及使用

    使用Python语言实现归并排序算法

    Python数据类型、集合类型、集合高级特性、函数

    5.Python类与面向对象

    类和实例、访问限制、继承和多态、多重继承、枚举类

    重构归并排序算法

    6.IO编程

    文件读写、StringIO和BytesIO、操作文件和目录、序列化

    写程序递归查询目录下包含指定字符串的文件,并将文件的路径保存到指定文件中

    分布式存储

    1.Hadoop技术栈概念及历史

    Hadoop生态环境介绍、Hadoop在云计算中的位置和关系

    以介绍为主,无实战案例 Hadoop应用场景、成功案例介绍、Hadoop发展历史

    Hadoop生态圈的架构及重要组件介绍

    2.HDFS分布式文件系统

    HDFS介绍及分布式存储的核心思想、伪分布的详细安装步骤

    模仿百度云盘,实现一个属于自己的云盘系统,基本功能包含:文件上传、下载、移动、复制、粘贴、文件夹的创建以及修改、在线修改文本内容等功能

    采用HDFS shell的方式管理HDFS、使用WEBUI查看管理HDFS分布式存储集群

    HDFS的架构模型、存储模型、副本放置策略

    HDFS Federation机制、HDFS读写流程

    HA-HDFS介绍、HA集群搭建、HDFS-开发环境搭建及开发API讲解

    HDFS中心缓存管理介绍及缓存适用场景、HDFS CacheAdmin命令使用

    HDFS快照概念及相关命令、HDFS内部的快照管理机制、HDFS-BlockToken认证、HDFS-Sasl认证

    HDFS-DiskChecker坏盘检测服务、HDFS-DirectoryScanner目录扫描服务、HDFS-VolumeScanner磁盘目录扫描服务

    HDFS块检查命令fsck、HDFS如何检测并删除多余副本块、HDFS的流量处理、读写限流方案

    HDFS数据迁移解决方案

    分布式数据库

    1.HBase集群搭建

    关系型数据库的极限及HBase数据的必要性

    熟练搭建HBase集群、并且熟练操作HBase集群

    搭建HBase的伪分布式、搭建HBase的完全分布式

    HBase WebUI控制台、HBase操作命令及 shell的使用、HBase集群的管理

    2.HBase表设计及优化

    HBase树形表设计、一对多表设计、多对多表设计

    HBase微博数据的存储方案,rowKey设计方案及存储优化

    针对不同业务场景,rowKey设计方案、表级优化、读写数据优化

    3.Hive介绍及搭建模式

    数据仓库基础知识、Hive定义及架构的介绍

    熟练搭建Hive客户端并且熟练操作Hive数据仓库

    基于derby的本地搭建模式、基于MySQL的本地搭建模式、基于MySQL的远程搭建模式

    HQL DDL、DML与CLI客户端演示

    4.Hive数据类型、表类型、索引

    内部表、外部表、临时表、分区表、分桶表

    微博数据导入到Hive中的内部表、外部表、临时表、分区表、分桶表中

    Hive创建、重建、显示、删除索引

    5.Hive函数

    Hive内置函数、自定义UDF、UDAF、UDTF函数 使用HQL语句实现WordCount

    分布式集群协调工具

    1.Zookeeper

    集群角色、会话、数据节点、版本、watcher、ACL 权限控制

    使用

    ZooKeeper

    1.开发分布式锁

    2.服务器动态感知上下线

    3.服务器主备切换

    4.数据的发布订阅

    集群环境、单机环境、伪集群、Zookeeper内部选举算法详解

    ZooKeeper 服务的启动和停止及常见异常

    客户端对于ZooKeeper 节点的创建、查询、删除和修改

    JAVA API 完成 创建会话、创建节点、删除节点、读取数据、节点检测等操作

    ZkClient 和 Curator 的使用方法 、zkClient 的会话创建、节点创建、节点删除

    节点数据读取等、zkClient 的节点修改、权限管理等基本使用方法

    Curator 的会话创建、节点创建、节点删除和节点数据读取等基本使用方法

    Curator 的节点修改、权限管理等基本使用方法

    Zookeeper RMI高可用分布式集群开发、实现SOA高可用架构框架

    Mycat的简介和安装、Mycat架构模型、Mycat概念详解、Mycat主键自增

    2.yarn

    YARN的起源、架构、任务提交流程

    ResourceManager、NodeManager、ApplicationMaster、Container重要组件详解

    3.Oozie

    Oozie安装配置、HPDL语言学习、HPDL流程定义

    基于Oozie调度MapReduce程序

    Oozie工作流配置、Oozie元数据库定义、Oozie定时任务调度、Oozie API操作

    分布式缓存

    Redis Cluster

    Redis系统应用场景、安装Redis集群、Redis shell使用介绍

    1.Redis + Lua 实现秒杀与抢红包实例

    2.Redis 实现分布式锁与消息队列

    Redis的数据类型、Java访问Redis数据库、Redis的事务

    Redis的管道、Redis持久化(AOF+RDB)、Redis性能优化

    Redis的主从复制、Redis的Sentinel哨兵高可用架构、Redis与Twemproxy整合

    Redis与Codis整合、Redis cluster 海量数据高速缓存架构、RedisCluster去中心化系统架构

    Jedis操作Redis、RedisCluster集群事务管理器

    SpringDataRedis、Redis 企业级备份方案、Redis 缓存失效应对策略

    分布式系统中的数据一致性模型

    消息中间件

    Kafka

    Kafka架构介绍、Kafka配置详解、Kafka体系结构、存储策略、分区、发布与订阅

    使用java、scala操作kafka

    Kafka的存储策略、Kafka分区特点、Kafka的发布与订阅、

    数据融合工具

    1.Sqoop

    Sqoop的安装、将RDBMS表中的数据导入到Hive表、导入parquet、sanppy格式的数据

    将MySQL中数据导入到HDFS中,并且以parquet格式来存储

    使用query自定义导入数据

    2.Flume

    Flume部署方式、source相关配置及测试、sink相关配置及测试、selector相关配置及测试

    采集Apache服务器中的日志数据到Kafka中

    Sink Processors相关配置、Interceptors相关配置、Flume和Kafka的整合

    分布式批处理

    1.MapReduce

    分布式计算出现的背景、MapReduce分布式计算的架构

    基于MapReduce框架实现pagerank网页推荐算法

    MapReduce shuffle的流程、shuffle中Partitioner、Sort、Group、Combiner原理

    MapReduce shuffle的源码剖析、Mapper计算原理以及源码剖析、Reducer计算原理以及源码剖析 Mapreduce案例-二次排序、倒排序索引、最优路径、社交好友推荐算法

    2.SparkCore

    Spark与MapReduce的对比、运行模式之间的对比

    1、基于Spark算子实现最短路径优化算法(Dijkstra)

    2、统计页面的PV、UV、HotChannel、最活跃的用户等指标

    Spark中RDD的五大特性详解、Spark数据本地化的原理

    Standalone集群的架构介绍,集群运行原理、集群的搭建步骤、集群配置信息的详解、通过WEBUI监控管理集群 Transformation类的算子特点及使用(map、flatMap、filter、groupByKey、reduceByKey、distinct、updateStateByKey、join、union等算子)

    Action类的算子特点及使用(collect、foreach、countByKey、reduce、first、top、take、takeOrdered、saveAsTextFile、saveAsSequenceFile)

    精解Spark的任务提交流程、任务运行流程 cache持久化、persist持久化以及持久化级别、持久化的注意事项

    Client与Cluster两种提交方式的区别、两种提交方式分别适应场景

    配置Standalone集群客户端的必要性、如何配置Standalone集群的客户端

    spark-submit提交任务命令的选项详解、Spark-shell的使用方式 RDD的依赖关系

    宽依赖 窄依赖的区别、RDD宽窄依赖的作用、Stage的运行原理、Spark pipeline计算的底层揭秘 DAGScheduler、TaskScheduler(高层调度器)对象的作用

    任务调度的重试机制、Spark任务调度重试机制的注意点、控制重试机制的配置信息,以及配置信息的配置方式

    推测执行原理、判定拖后腿的task的标准、推测执行带来的问题以及解决方案

    任务调度源码分析-Master资源调度源码分析、Worker资源管理源码分析、Driver任务调度源码分析、Executor运行源码分析、Task运行源码分析、修改开源框架源码的三种方式以及三种方式优劣对比

    Spark常用的两种Shuffle-HashShuffle的原理、SortShuffle的原理、HashShuffle合并机制的原理、SortShuffle

    bypass机制的原理、shuffle过程磁盘小文件的寻址流程

    MapOutputTracker BlockManager原理、Shuffle的优化

    搭建Standalond的HA集群、集群WEBUI详解、如何通过WEBUI查找任务的性能问题

    3.SparkSQL

    什么是SparkSQL,Shark与SparkSQL的区别、DataSet与RDD的区别

    SparkSQL运行的底层原理、处理json、parquet格式的文件、RDD转成DataSet的两种方式-动态创建schema、对象反射

    自定义UDF、自定义UDAF、开窗函数的使用方式

    解决Spark数据倾斜方案-数据预处理、提高计算的并行度、双重聚合、随机前缀拆分数据

    分布式流式处理

    1.Storm

    流式处理与批处理的区别、Storm的基本概念、应用场景

    分别使用Storm、SparkStreaming、Flink实时统计当前网站的PV、UV、转换率、跳转率等网站流量统计指标

    搭建Storm集群、Storm配置文件详解、集群搭建常见问题以及注意事项

    Storm常用组件Topology、Spout、Bolt、Storm

    API编程流程、Storm分组策略、Storm事物处理 Storm消息可靠性、Storm容错原理、Storm Trident概念、Trident state原理、Trident开发实例

    Storm DRPC(分布式远程调用)介绍、实战讲解、Storm on Yarn实战、Storm+Kafka的必要性 Kafka和Storm的整合、

    2.SparkStreaming

    SparkStremaing介绍以及与Storm的区别

    SparkStremaing Application处理socket、HDFS、Flume等消息源

    SparkStreaming中Transformation类算子讲解(updateStateByKey、reduceByKeyAndWindow) SparkStreaming实现HA Driver

    SparkStreaming+kakfa Receiver整合方式的原理、Direct整合方式的原理以及代码实战

    SparkStreaming+kafka零数据丢失的方案、提高吞吐量的优化方案

    3.Flink

    Flink的基本原理及场景分析、Flink、Storm、SparkStreaming的区别

    Flink窗口操作、批处理、本地测试模式安装、Standalone模式集群的搭建

    Flink on yarn提交任务、Flink on Standalone集群HA配置、DataStream中partition的使用技巧 DataStream sink、source精讲、广播变量、Counter、WaterMark Flink生产环境配置介绍、序列化及DataType

    数据分析平台

    Hue

    Hue vs zeppelin、Hue环境需求、Hue编译安装

    熟练搭建Hue平台,基于Hue平台操作HDFS、Hive、Spark等集群

    Hue基于MySQL的metadata管理、Hue关联HDFS、HBase、MapReduce、Hive+测试

    Hue关联Spark生态圈组件+测试、Hue关联Oozie+测试、Hue配置信息介绍

    集群管理平台

    CDH

    国内外大数据平台介绍、Cloudera产品介绍、什么是CDH、

    熟练搭建CDH集群管理平台,查看集群的各项指标

    集群基础设施配置、什么是cloudera manager、cloudera manager框架原理、部署CDH、管理主机、管理集群服务、管理实例、监控资源

    什么是cloudera manager service、cloudera manager service图表使用和创建、dashboard介绍

    机器学习算法+人工智能

    机器学习

    机器学习的应用场景、机器学习的原理及思想、机器学习和人类思考的类比

    1、Spark MLlib-微博精准营销案例

    2、使用线性回归算法预测保险保费

    3、基于多模型融合的方式预测道路拥堵情况

    线性回归算法的介绍、应用场景、目标函数推导、使用优化算法(梯度下降法)来优化目标函数

    模型的欠拟合与过拟合的区别,防止过拟合问题的方案

    简单线性回归算法与多元线性回归算法的区别、使用多元线性回归算法来预测保险的费用

    Spark MLlib的LabelPoint Vector等类型的讲解、使用Spark MLlib来训练线性回归算法模型

    KMeans聚类算法的介绍,以及算法原理、KMeans算法的缺陷以及优化方式

    使用Python numpy来实现KMeans算法、使用Python scikit-learn机器学习库来做KMeans聚类 密度聚类DBScan算法原理及使用

    谱聚类算法原理及使用

    朴素贝叶斯算法、拉普拉斯估计 GBDT迭代决策树算法原理、优化

    Xgboost安装、原理、使用方式

    支持向量机SVM算法原理及使用

    PCA主成分分析算法、LDA降维优化、ALS矩阵分解算法

    逻辑回归分类算法原理、公式推导、目标函数的推导、 目标函数的求导,以及最优值的求解、使用优化算法(梯度下降法)来优化目标函数

    逻辑回归算法优化-手动设置分类阈值来规避一些不能接受的风险、设置截距来增加分类的可能性、升维的方式解决线性不可分的问题、使用L1、L2正则化来提高模型的鲁棒性、归一化训练集数据来提高模型的训练效率、调整训练集数据的正负值来提高模型的训练效率、选择不同的优化算法来优化逻辑回归算法

    ROC AUC测试模型的准确率 KNN算法原理、Python numpy实现KNN算法、KNN算法来实现数字识别 决策树算法原理、Python numpy实现决策树算法

    决策树算法的缺点-随机森林、Spark MLlib训练决策树、随机森林算法模型

    TensorFlow安装、训练线性回归算法模型、神经网络模型、TensorBoard可视化 DNN深度神经网络手写图片识别、卷积神经网络深入、AlexNet模型实现

    项目

    互联网个性实时推荐系统

    IOT流式云平台

    阿里巴巴中台实战

    大数据完整思维导图

    大数据思维导图

    怎么样?大家伙是不是觉着大数据要学习的知识点和学习路线已经在脑海中渐渐的清晰了?就缺少学习视频和书籍来配合学习了吧!小编已经给大家准备好了!

    Linux预习资料

    视频书籍

    Hadoop全解视频

    视频全集都在这里

    这些学习视频和PDF书籍获取方式都很简单,只需要转发此文关注小编之后,++++++ 维信:   ①⑧①③③⑤③②⑨⑦ 就可以获取了!!

    感谢大家的配合和信任,好的东西就是要大家一起学习,一块分享。

    感谢大家的支持!

    努力不一定会成功,但是不努力一定不会成功。

    相关文章

      网友评论

        本文标题:大数据学习路线从Linux基础到大型网站高并发处理项目实战

        本文链接:https://www.haomeiwen.com/subject/bjtifhtx.html