业务背景:电信业,银行,电商,智能产品等
思维框架:商业理解 → 数据理解 → 数据准备 → 建立模型 → 模型评估 → 模型应用
应用
- 对电子商务:
1,分析访问者哪些特征和行为会导致用户购买
2,向访问者推荐产品
3,对访问者作细分并分析各类访问者的特征
4,对访问内容作细分并分析各类访问内容 - 对智能产品
1,推荐产品
2,自动问答
3,评论挖掘
4,摘要系统
什么是商业智能
商业智能是通过对来自不同的数据源进行统一处理及管理,通过灵活的展现方式来帮助企业进行决策支持
即:数据 → 信息 → 知识 → 决策
商业智能方法论介绍:
CRISP-DM:跨行业数据挖掘标准流程
基本应用过程
1,提出一个业务问题
2,结合三方面的资源进行数据挖掘(数据,业务知识,数据挖掘软件)
3,获取有业务价值的知识或规律
4,将业务知识或规律嵌入到业务流程中,实现业务目标
- 商业理解
- 确定商业目标(背景,目标,成功标准)
- 目标评估
a. 资源需求,假设和约束
b. 风险和应急方案
c. 成本和收益 - 确定数据挖掘目标
- 项目实施计划
- 数据理解
- 数据的初步采集
- 数据描述
- 数据探索性分析
- 验证数据质量
- 数据准备
- 选择数据
数据包含/剔除的逻辑和标准 - 清洗数据
- 构建数据
新的字段(衍生变量),新的纪录 - 合并数据
- 格式化数据
- 选择数据
- 建立模型
- 选择建模技术
- 生成检验设计
- 建立模型
模型的参数设置,模型的描述 - 评价模型
- 模型评估
- 评估结果
从商业成功标准的角度进行结果评估 - 过程回顾
对数据挖掘过程进行回顾,查找疏忽和遗漏 - 确定下一步的工作内容
- 评估结果
- 结果发布
- 规划部署方案
- 规划监控和维护方案
- 生成最终报告
- 项目回顾总结
什么是web智能
是指在万维网和互联网上充分利用人工智能和高级信息技术,web智能的目标是AI和IT在新的web平台上的联合目标,即将AI和IT应用到基于web智能信息系统的设计和实现上。
web数据挖掘
包含:web内容挖掘,web结构挖掘,web使用挖掘
- web内容挖掘
从文本数据中挖掘知识,涵盖课题:- 文本分类:监督的学习方法
- 文本聚类:无监督的方法
- 信息检索:发现所有与查询相关的文档
- 信息抽取:从半结构化数据或自由文本中抽取结构化数据
- 评论挖掘:找出某个评论者对某个对象特征的态度是怎样的
输入:包含评论的文档集
输出:五元组<对象,特征,态度,评论者,评论时间>的集合
评论挖掘的表现形式:评论汇总,可视化比较
- web结构挖掘
根据文本数据中附带的链接信息发现知识
输入:文档中链接列表
输出:文档的重要性度量(中心性和权威性)的数值
中心性:文档d指向的权威文档越多,d中心性越强
权威性:指向文档d的中心文档越多,d权威性越强
重要方法:PageRank算法(google) - web使用挖掘
从网页点击流和相关数据中自动发现和分析模式
输入:服务器日志文件或用户数据
输出:各种模式(关联规则,分类模型等)
网友评论