1、二分类 因为分值相同,所以最终结果多余100个。 图中虚线表示基准值,如果实线在虚线之下,说明模型效果不如随机...[作者空间]
1、 基于网络集群识别的自动化聚类 共现关系聚类,利用社交网络分析(Social Network Analysis...[作者空间]
参考:《文本数据挖掘》 1、相似度计算 2、 聚类方法 划分聚类法:k-means聚类法、k-medoids聚类法...[作者空间]
参考:《文本数据挖掘——基于R语言》 1、基本特征提取 基本特征包括:字符的数量、句子的数量、每个词的长度,标点符...[作者空间]
参考:《文本数据挖掘——基于R语言》 1、读取数据 随便文本代替即可,包括两列,一列为文档名或编号,一列为文本内容...[作者空间]
1、关联分析 § 关联分析用于发现隐藏在大型数据集中的有意义的联系。所发现的模式通常用关联规则或频繁项集的形式表示...[作者空间]
1、支持向量机 § 优点• 支持向量机的学习问题可以表示为凸优化问题,因此可以利用已知的有效算法发现目标函数的全局...[作者空间]
1、商业数据分析简介 分析是一门使用数据构建模型的科学,这些模型可为公司、机构和个人的决策增加价值。 唯一客观的事...[作者空间]
1、安装Firefox 根据系统位数,下载对应最新版本,安装。 https://www.mozilla.org/z...[作者空间]
注意:一定要注意浏览器与对应驱动间的版本对应关系,否则会报错。 1、Firefox浏览器 Firefox与对应的g...[作者空间]
1、数据准备 2、创建任务 3、交叉验证 使用十折交叉验证评估所有的超参数配置。 4、参数调优 paradox包定...[作者空间]
1、数据准备与数据理解 其中credit_risk为结果变量,表示信用卡风险情况。查看数据集缺失值等概况。 Tab...[作者空间]
DBSCAN在输入参数的选取上比较困难,即DBSCAN对输入参数比较敏感。当给定全局参数eps和minPts时,会...[作者空间]
k-means (K均值)和 分层聚类衡量行间、及行与中心点的距离。k-Means算法比较适用于簇为球型的,对于非...[作者空间]
k-means 输出为扁平的聚类结果,分层(层次)聚类输出为树状的聚类结果,当数据为多层级结构时适用。层次聚类(h...[作者空间]
聚类:在数据中识别相似行的技术。常见聚类技术:k-means, DBSCAN, OPTICS k-means 是一...[作者空间]
LLE: Locally Linear Embedding,局部线性嵌入,属于流形学习(Manifold Lear...[作者空间]
UMAP(Uniform Manifold Approximation and Projection,统一流形逼近...[作者空间]
t-SNE:t-distributed stochastic neighbor embedding:t分布随机邻域...[作者空间]
为何要降维?方便可视化探索;减轻维度诅咒;缓解共线性。降维方法:PCA, t-SNE, UMAP, SOM, LL...[作者空间]