管理的关键是决策,决策的前提是预测。这是决策和预测之间的关系。
数据挖掘(Data Mining)的技术定义:
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的,人们事先不知道的、但又是潜在有用的信息和知识的过程。
数据挖掘的任务是从数据集中发现模式,按照功能可以分为两大类:
预测性(Predictive)模式:用历史预测未来
描述性(Descriptive) 模式:了解数据中潜在的规律
数据挖掘技术包括:
统计技术、关联规则、基于历史的分析、遗传算法、聚集检测、连接分析、决策树、神经网络、粗糙集、模糊集、回归分析、差别分析、概念描述
数据挖掘十大经典算法包括:
C4.5、The k-means algorithm (k-Means算法)、Support vector machines(支持向量机SVM)、The Apriori algorithm、最大期望(EM)算法、PageRank、AdaBoost、kNN:k-nearest neighbor classification(K最近邻分类算法)、Naive Bayes(有两种模型:决策树模型和朴素贝叶斯模型)、CART:分类与回归树
现在马上大四了,没有考研,选择先就业,但是觉得自己在本科学的知识并不多,所以进行学习数据分析的初步规划:
1.学习Python与R,需要掌握Python编程的基本部分(Python数据结够、条件语句、循环控制、模块、异常处理等)、高级部分(网络编程、多线程、正则表达式、数据库编程等)、以及一些数据挖掘常用的库(Numpy、Pandas、Scipy、Scikit-Learn等)
2.学习数据结构(天勤和王道的数据结构)
3.算法(算法导论中基础算法)
4.学习操作系统(王道操作系统和操作系统原理教材)、网络原理(王道网络原理和网络原理教材)和了解一些linux基本功能和指令
5.复习数据库原理(SQL),学习并区分MySQL,并学习非关系型数据库MongoDB.
6.补充概率,统计,线代,最优化等基本知识.
7.深刻理解以上的数据挖掘技术与经典算法,数学Weka
8.进行实战,比如Kaggle、CCF、DataCastle
9.学有余力则学Hadoop、Spark
网友评论