美文网首页机器学习
基于R语言的分类、聚类研究

基于R语言的分类、聚类研究

作者: H_xu | 来源:发表于2018-11-07 14:51 被阅读13次

    1 分类

    1.1 决策树分类

    library(party) 
    set.seed(2)
    data(iris)
    #随机抽取训练集和测试集
    index<-sample(1:nrow(iris),100)
    train<-iris[index,]
    test<-iris[-index,]
    #建立C4.5决策树模型
    ctree.model <- ctree(Species ~ ., data <- train)  
    #输出决策树图
    plot(ctree.model, type <- "simple")  
    
    决策树
    #预测结果
    train_predict <- predict(ctree.model)  # 训练数据集
    test_predict <- predict(ctree.model, newdata <- test)  # 测试数据集
    #输出训练数据的分类结果和混淆矩阵
    train_predictdata <- cbind(train, predictedclass=train_predict) 
    train_confusion <- table(actual <- train$Species, predictedclass <- train_predict)
    #判对率
    sum(diag(prop.table(train_confusion)))
    #[1] 0.96
    #输出测试数据的分类结果和混淆矩阵
    test_predictdata <- cbind(test, predictedclass=test_predict)
    test_confusion <- table(actual <- test$Species, predictedclass <- test_predict)
    #判对率
    sum(diag(prop.table(test_confusion)))
    #[1] 0.96
    

    1.2 神经网络分类

    library(nnet)
    data("iris")
    set.seed(2)
    #抽取训练集和测试集
    ind = sample(2,nrow(iris),replace = TRUE,prob = c(0.7,0.3))
    trainset = iris[ind == 1,]
    testset = iris[ind == 2,]
    #预测结果
    iris.nn = nnet(Species ~ .,data = trainset,size = 2,rang = 0.1,decay = 5e-4,maxit = 200)
    summary(iris.nn)
    #输出测试数据的分类结果和混淆矩阵
    iris.predict = predict(iris.nn,testset,type = "class")
    nn.table = table(testset$Species,iris.predict)
    #判对率
    sum(diag(prop.table(nn.table)))
    #[1] 0.9347826
    

    1.3 贝叶斯分类

    data("iris")
    set.seed(123) #设置随机种子
    #抽取训练集和测试集
    ind = sample(2,nrow(iris),replace = TRUE,prob = c(0.7,0.3))
    traindata = iris[ind == 1,]
    testdata = iris[ind == 2,]
    # 使用naiveBayes函数建立朴素贝叶斯分类模型
    library(e1071)  # 加载e1071包
    naiveBayes.model <- naiveBayes(Species ~ ., data = traindata)  # 建立朴素贝叶斯分类模型
    # 预测结果
    train_predict <- predict(naiveBayes.model, newdata = traindata)  # 训练数据集
    test_predict <- predict(naiveBayes.model, newdata = testdata)  # 测试数据集
    # 输出训练数据的分类结果和混淆矩阵
    train_predictdata <- cbind(traindata, predictedclass = train_predict) 
    train_confusion <- table(actual = traindata$Species, predictedclass = train_predict)
    #判对率
    sum(diag(prop.table(train_confusion)))
    #[1] 0.9811321
    # 输出测试数据的分类结果和混淆矩阵
    test_predictdata <- cbind(testdata, predictedclass = test_predict)
    test_confusion <- table(actual = testdata$Species, predictedclass = test_predict)
    #判对率
    sum(diag(prop.table(test_confusion)))
    #[1] 0.8863636
    

    1.4 总结

    1.所有在对iris数据集分(聚)类研究中,setosa均可以完全正确分(聚)类,而另外两类则会出现不同程度的误差,这也是导致整个研究模型出现误差的原因;
    2.在使用的三种分类研究方法中,决策树模型的效果最优,因此可以使用该方法进行鸢尾花数据集的分类预测研究。

    2 聚类

    2.1 K-means

    library(cluster)
    #去除原有的factor类型的种类变量
    df<-iris[,-5]
    head(df)
    #确定最佳聚类数目
    library(factoextra)
    fviz_nbclust(df, kmeans, method = "wss") + geom_vline(xintercept = 3, linetype = 2)
    
    
    
    #设置随机数种子,保证实验的可重复进行
    set.seed(12)
    #利用k-means进行聚类
    km_result <- kmeans(df,3)
    print(km_result)
    #提取类标签并且与原始数据进行合并
    mydf <- cbind(iris, cluster = km_result$cluster)
    head(mydf)
    #查看每一类的数目
    table(mydf$cluster)
    #进行可视化展示
    fviz_cluster(km_result, data = df,
                 palette = c("#2E9FDF", "#00AFBB", "#E7B800", "#FC4E07"),
                 ellipse.type = "euclid",
                 star.plot = TRUE, 
                 repel = TRUE,
                 ggtheme = theme_minimal()
    )
    
    k-means
    table<-table(mydf$Species,mydf$cluster)
    sum(diag(prop.table(table))) #判对率
    #[1] 0.8933333
    

    2.2 K-medoids

    library(cluster)
    #去除原有的factor种类变量
    kmedf<-iris[,-5]
    head(kmedf)
    #分为三类
    fit_pam=pam(kmedf,3) 
    fit_pam[1:length(fit_pam)] 
    #分类情况
    summary(fit_pam)
    mykmedf <- cbind(iris, cluster =fit_pam$clustering)
    head(mykmedf)
    #查看每一类的数目
    table(mykmedf$cluster)
    #进行可视化展示
    fviz_cluster(fit_pam, data = mykmedf,
                 palette = c("#2E9Fdf", "#00AFBB", "#E7B800", "#FC4E07"),
                 ellipse.type = "euclid",
                 star.plot = TRUE, 
                 repel = TRUE,
                 ggtheme = theme_minimal()
    )
    
    K-medoids
    #判对率
    kmetable<-table(mykmedf$Species,mykmedf$cluster)
    sum(diag(prop.table(kmetable)))
    [1] 0.8933333
    

    2.3 层次聚类

    hirisdata<-iris[,-5]
    head(hirisdata)
    #使用自底向上的聚类方法处理数据集:
    hc = hclust(dist(hirisdata,method = "euclidean"),method = "ward.D2")
    #调用plot函数绘制聚类树图
    plot(hc,hang = -0.01,cex =0.7)
    
    层次聚类
    #定义count函数,计算分类准确率
    mycount<-function(num,min,max)
    {
      count=0
      {
        for (x in num) {
          if(x>=min&x<=max)
            count<-count+1
        }
      }
      count
    }
    num1<-hc$order[1:50]
    count1<-mycount(num1,1,50)
    num2<-hc$order[51:100]
    count2<-mycount(num2,101,150)
    num3<-hc$order[101:150]
    count3<-mycount(num3,51,100)
    #准确率
    correctrate<-(count1+count2+count3)/150
    [1] 0.8
    #验证标准化之后对聚类结果的影响
    hirisdata<-scale(hirisdata)
    #准确率
    correctrate<-(count1+count2+count3)/150
    [1] 0.52
    

    2.4 总结:

    1.在对鸢尾花数据集进行聚类时,K-means、K-medoids两种聚类方法的正确率相同,可见在数据集离群点和噪音不大的情况下,二者聚类效果基本相同,但当出现离群点和噪音时,应该考虑K-medoids聚类方法;
    2.鸢尾花数据集进行聚类分析时,划分聚类效果优于层次聚类;
    3.对于量纲不一致的数据,应进行标准化,但对于量纲一致的数据,标准化之后结果并不一定优于未标准化的数据得到的结果。

    相关文章

      网友评论

        本文标题:基于R语言的分类、聚类研究

        本文链接:https://www.haomeiwen.com/subject/ytipxqtx.html