美文网首页
RapidMiner(二)

RapidMiner(二)

作者: EvanForEver | 来源:发表于2018-05-28 21:44 被阅读59次

六、中文网页分类

建立中文网页分类模型并采用交叉验证评估

七、中文网页聚类

对中文网页聚类并进行外部指标评估


部件说明:
  1. 部件Process Documents from Files,设置第一个参数为只能中文网页所在的路径,对应的class name可以任意填写,设置encoding为GB18030,勾选extract text only、add meta information和create word vector。注意添加的元信息字段都不是regular角色的,不会被聚类算法处理。
  2. 使用Generate Attributes部件增加一个cutname字段,使用正则表达式cut(metadata_file,0,4)生成该字段。
  3. 设置正确的label角色的字段,注意数据集中只能有一个label角色的字段。先使用Select Attributes部件,删除原来label角色的字段,即label。然后使用Set Role部件,将cutname字段改成label角色。
  4. 使用K-Means部件,注意参数k的数值要与训练集的类数目一致。
  5. 使用Map Clustering on Labels部件产生predicate(label)字段(这是一个predicate角色的字段)。
  6. 使用Performance部件,对label角色的和predicate角色的字段值进行比较和统计,算出性能评估结果,比如准确率等。


对中文网页聚类并进行内部指标评估

七、关联分析


部件说明:

  1. Apriori部件参数中find min number of itemsets模式的解释
    min number of itemsets: 挖掘的频繁项集的最小个数。
    max number of retries: 最大的尝试次数。
    Apriori部分从指定的支持度阈值min support开始,每次尝试递减支持度阈值的10%,直到找到指定个数的频繁项集或者尝试次数达到max number of retries时结束。
  2. Create Association Rules部分用到的兴趣度X→Y
    Laplace: (?(X∪Y)+1) / (?(X)+k)
    Gain: s(X∪Y) - q s(X)
    p-s: 平衡度 s(X∪Y) - s(X)s(Y)
    Lift: 提升率 s(X∪Y) / (s(X)s(Y))
    Conviction: 信任度 (s(X) - s(X)s(Y)) / (s(X) - s(X∪Y))


相关文章

  • RapidMiner(二)

    六、中文网页分类 建立中文网页分类模型并采用交叉验证评估 七、中文网页聚类 对中文网页聚类并进行外部指标评估 部件...

  • RapidMiner(一)

    RapidMiner,以前叫YALE (Yet Another Learning Environment) 。Ra...

  • 使用 RapidMiner 参加 Kaggle Titanic

    要准备 Data Mining 这门课的期中考发表,本来决定用 Python 代码来解决 Titanic 的预测,...

  • 对于RapidMiner的个人看法

    之前看了学习了一下RapidMiner 不得不说 这东西对于数据挖掘入门.确实是个好case。 但是目前都是收费版...

  • 六款强大的开源数据挖掘工具

    为您推荐六款强大的开源数据挖掘工具: 1、RapidMiner 该工具是用Java语言编写的,通过基于模板的框架提...

  • rapidminer进行关联分析、分类预测、聚类分析

    商品交叉销售关联分析 Step1:检查数据缺失值、异常值 Step2:约减数据集中属性 Step3:FP-Grow...

  • 二(二)

    发什么神经 突然就很想花钱 一边心疼 一边毫不在乎的花 啧 莫名其妙

  • 二,二

    2017.9.11教师节后的周一,第一次走进教室,刚站到讲台两个小可爱送给我两束花,原谅我那时候人还没有认全没有记...

  • 二〇二〇

    本来这篇小结打算年初写的,但是想想后边还有复试就先放一放,结果复试结束后过了两个月才想起要写这篇小结... 时过境...

  • 二金二木二火二土

    今天看完了极简中国史,这本书看了半个多月,因为是八十年前写的书,不是白话文,所以看的特别累。不过从近代前辈的角度去...

网友评论

      本文标题:RapidMiner(二)

      本文链接:https://www.haomeiwen.com/subject/xlenjftx.html