R语言中神经网络算法的使用

作者: leengsmile | 来源:发表于2016-10-23 10:34 被阅读3237次

    神经网络

    leengsmile
    2016年9月21日

    神经网络

    本文介绍R语言中神经网络的使用,并对西瓜数据集做分类预测。

    为保证数据的可重复性,需要先设置随机数种子。

    set.seed(1071)
    

    首先读入西瓜数据集3.0

    watermelon_3.0 <- read.csv("data/watermelon_3.0.csv", header = TRUE, 
                               fileEncoding = "UTF8", row.names = "编号")
    
    head(watermelon_3.0)
    
    ##   色泽 根蒂 敲声 纹理 脐部 触感  密度 含糖率 好瓜
    ## 1 青绿 蜷缩 浊响 清晰 凹陷 硬滑 0.697  0.460   是
    ## 2 乌黑 蜷缩 沉闷 清晰 凹陷 硬滑 0.774  0.376   是
    ## 3 乌黑 蜷缩 浊响 清晰 凹陷 硬滑 0.634  0.264   是
    ## 4 青绿 蜷缩 沉闷 清晰 凹陷 硬滑 0.608  0.318   是
    ## 5 浅白 蜷缩 浊响 清晰 凹陷 硬滑 0.556  0.215   是
    ## 6 青绿 稍蜷 浊响 清晰 稍凹 软粘 0.403  0.237   是
    

    由于有categorical变量,由于后面使用的neuralnet只是别数字型变量,因此构造one hot encoding的数据,将其变成数值型编码。

    require(caret)
    require(magrittr) # %>%
    dummies <- dummyVars( ~ ., data = watermelon_3.0, levelsOnly = TRUE, fullRank = TRUE)
    watermelon <- predict(dummies, newdata = watermelon_3.0) %>% as.data.frame()
    #watermelon$好瓜 <- watermelon_3.0$好瓜
    

    构建神经网络模型

    require(neuralnet)
    
    predictors <- setdiff(names(watermelon), "好瓜")
     
    formula <- names(watermelon) %>% setdiff("是")  %>% paste(collapse = "+")
    formula <- paste("是 ~", formula, sep = "") %>% as.formula()
    nn <- neuralnet(formula = formula, data = watermelon, 
                    hidden = c(3), err.fct = "ce", 
                    linear.output = FALSE)
    

    neuralnet中的参数formula表示将要拟合的模型,data是数据集。注意,neuralnetformula不支持"y ~ ."的形式,需要写出完整的公式形式。而hidden一个向量,表示每个隐藏层的神经元个数,向量的长度即为隐含层的层数。在上面的例子中,hidden = c(3)表示只有一个隐含层,该层含三个功能神经元。linear.output表明是需要回归 linear.output = TRUE 还是需要分类 linear.output = FALSE。[5]

    训练的模型如下:

    # Do NOT run this chunk
    plot(nn)
    

    Rmarkdown中运行plot函数时,并不能成功绘制神经网络的图,出现的是一系列的warning。

    neuralnet.png

    预测结果

    require(dplyr)
    pred <- neuralnet::compute(nn, dplyr::select(watermelon, -是))
    result <- pred$net.result
    

    对结果进行预测,用的是compute函数,而不是其他包中的predict函数。对原始西瓜数据的预测结果存放于result变量中,是[0, 1]之间的实数,类似于logistic regression中的概率,可以先对其进行处理。

    predicted <- ifelse(result > 0.5, "是", "否")
    table(watermelon_3.0$好瓜, predicted, dnn = c("真实值", "预测值"))
    
    ##       预测值
    ## 真实值 否 是
    ##     否  9  0
    ##     是  0  8
    

    预测错误的情况有0。

    参考

    1. http://amunategui.github.io/dummyVar-Walkthrough/
    2. http://stackoverflow.com/questions/33911358/using-neural-networks-neuralnet-in-r-to-predict-factor-values
    3. https://beckmw.wordpress.com/2013/11/14/visualizing-neural-networks-in-r-update/
    4. https://www.reddit.com/r/MachineLearning/comments/3y16vh/how_can_i_do_simultaneous_one_hot_encoding_in_r
    5. https://www.r-bloggers.com/fitting-a-neural-network-in-r-neuralnet-package/

    相关文章

      网友评论

      本文标题:R语言中神经网络算法的使用

      本文链接:https://www.haomeiwen.com/subject/lxxkuttx.html