六、中文网页分类
建立中文网页分类模型并采用交叉验证评估
七、中文网页聚类
对中文网页聚类并进行外部指标评估
部件说明:
- 部件Process Documents from Files,设置第一个参数为只能中文网页所在的路径,对应的class name可以任意填写,设置encoding为GB18030,勾选extract text only、add meta information和create word vector。注意添加的元信息字段都不是regular角色的,不会被聚类算法处理。
- 使用Generate Attributes部件增加一个cutname字段,使用正则表达式cut(metadata_file,0,4)生成该字段。
- 设置正确的label角色的字段,注意数据集中只能有一个label角色的字段。先使用Select Attributes部件,删除原来label角色的字段,即label。然后使用Set Role部件,将cutname字段改成label角色。
- 使用K-Means部件,注意参数k的数值要与训练集的类数目一致。
- 使用Map Clustering on Labels部件产生predicate(label)字段(这是一个predicate角色的字段)。
-
使用Performance部件,对label角色的和predicate角色的字段值进行比较和统计,算出性能评估结果,比如准确率等。
对中文网页聚类并进行内部指标评估
七、关联分析
部件说明:
- Apriori部件参数中find min number of itemsets模式的解释
min number of itemsets: 挖掘的频繁项集的最小个数。
max number of retries: 最大的尝试次数。
Apriori部分从指定的支持度阈值min support开始,每次尝试递减支持度阈值的10%,直到找到指定个数的频繁项集或者尝试次数达到max number of retries时结束。 -
Create Association Rules部分用到的兴趣度X→Y
Laplace: (?(X∪Y)+1) / (?(X)+k)
Gain: s(X∪Y) - q s(X)
p-s: 平衡度 s(X∪Y) - s(X)s(Y)
Lift: 提升率 s(X∪Y) / (s(X)s(Y))
Conviction: 信任度 (s(X) - s(X)s(Y)) / (s(X) - s(X∪Y))
网友评论