美文网首页
机器学习之CreateML使用(二)

机器学习之CreateML使用(二)

作者: Lin__Chuan | 来源:发表于2018-09-29 02:29 被阅读65次

    上篇文章, 我们介绍了 CreateML 制作图片分类模型, 在这篇文章里我们研究一下自然语言处理中的文本分类, 以及回归分析.

    机器学习的一般步骤:

    准备数据(数据预处理) -> 编写分类器算法 -> 训练模型 -> 评估模型表现 -> 保存模型 -> 使用模型

    文本分类

    CreateML 对于文本分类是没有专门的UI的, 但是我们可以自己写UI, 这里先直接展示文本分类的纯代码实现.
    此次我们使用的数据集是这个, 我们要做的是一个垃圾邮件检测器模型, 通过识别文本内容, 来判断该内容是 spam(垃圾邮件) 还是 ham(火腿).

    import CreateML
    import Foundation
    import NaturalLanguage
    
    // 路径不要有中文, 否则可能无法读取成功.
    let srcDir = URL(fileURLWithPath: "/Users/xx/Downloads/")
    let data = try MLDataTable(contentsOf: srcDir.appendingPathComponent("spam.json"))
    // 随机分割数据
    let (trainData, testData) = data.randomSplit(by: 0.8, seed: 5)
    
    let params = MLTextClassifier.ModelParameters(validationData: nil, algorithm: .maxEnt(revision: 1), language: .English)
    
    
    // 创建Model, 并开始训练
    let textClassifier = try MLTextClassifier(trainingData: trainData,
                                                textColumn: "text",
                                                labelColumn: "label",
                                                parameters: params
                                            )
    
    
    // 打印结果
    let trainAccuracy = (1 - textClassifier.trainingMetrics.classificationError) * 100
    let validateAccuracy = (1 - textClassifier.validationMetrics.classificationError) * 100
    
    print("trainAccuracy: \(trainAccuracy), validateAccuracy: \(validateAccuracy)")
    
    // 测试数据
    let evaluationMetrics = textClassifier.evaluation(on: testData)
    let evaluationAccuracy = (1 - evaluationMetrics.classificationError) * 100
    
    print("evaluationAccuracy: \(evaluationAccuracy)")
    
    // 保存模型
    let metadata = MLModelMetadata(author: "LC", shortDescription: "text classifier", license: nil, version: "1.0", additional: nil)
    try textClassifier.write(to: srcDir.appendingPathComponent("TextClassifier.mlmodel"),
                             metadata: metadata)
    
    

    使用模型

    image.png

    通过观察这个模型的一些参数, 发现评测模型需要一个 String 的输入参数, 指的是文本内容, 模型会输出一个 String类型的 label, 指的是 spam 或者 ham.

    let model = TextClassifier()
        
    guard let result = try? model.prediction(text: "I love you") else {
        fatalError("Prediction failed!")
    }
    print("输出:", result.label)  // ham 
    

    代码里有详细的注释, 这里不再做赘述.
    有几点比较我在意

    • 训练数据不再是依靠文件夹的名字为 label (图片分类是这样), 而是将所有数据以字典的形式写在同一个文件中, 这意味, 如果我们手头上有10000份电影评论的数据, 需要做情绪分析的话, 我们需要做数据预处理, 将所有数据写在同一个文件中再来读取.
    • 创建模型里面的参数, 目前模型的基础算法有 maxEntcrf 两种, 对于文本的处理有一个 NLLanguage, 属于 NaturalLanguage 框架.

    表格分类(回归分析)

    此次使用的数据集是这个, ;我们要做的是一个预测房价的模型.
    表格里面涉及到四个参数,

    • RM(每个住宅的平均房间数)
    • LSTAT: 人口中被认为地位较低的百分比
    • PTRATIO: 城镇学生与学生的比率
    • MEDV: 自住房屋价格的中位数

    我们通过这3个特性(RM, LSTAT, PTRATIO)来计算最终的价格(MEDV)

    import CreateML
    import Foundation
    
    let srcDir = URL(fileURLWithPath: "/Users/xx/Downloads/")
    let data = try MLDataTable(contentsOf: srcDir.appendingPathComponent("HouseData.csv"))
    // 随机分割数据
    let (trainData, testData) = data.randomSplit(by: 0.8, seed: 0)
    
    // 创建Model, 并开始训练
    let priceModel = try MLRegressor(trainingData: trainData,
                                 targetColumn:  "MEDV")
    
    
    // 保存模型
    let metadata = MLModelMetadata(author: "LC", shortDescription: "通过房子的特征预测价格", license: nil, version: "1.0", additional: nil)
    try priceModel.write(to: srcDir.appendingPathComponent("HousePricer.mlmodel"),
                             metadata: metadata)
    
    • 使用模型


      image.png

    通过观察这个模型的一些参数, 发现评测模型需要三个 Double 的输入参数, 指的是房屋房间数, 低位较低的占比, 城镇学生占比, 模型会输出一个 Double 类型的 值, 指的是 房屋价格.

    let model = HousePricer()
        
    // RM(每个住宅的平均房间数)
    // LSTAT: 人口中被认为地位较低的百分比
    // PTRATIO: 城镇学生与学生的比率
    guard let result = try? model.prediction(RM: 5, LSTAT: 5, PTRATIO: 5) else {
        fatalError("Prediction failed!")
    }
    print("房屋价格:", result.MEDV) // 407177.23193359375
    

    总结

    • 到目前为止, CreateML 能做的只有三类, 图片分类, 自然语言处理, 回归分析
    • 而且只能依靠Mac本身来计算, 算力无法进一步提升, 意味着做出来的模型还远远达不到工业级的标准.
    • 除了 CreateML, 还有 TuriCreate, TFiwS 都可以应用在ML领域, 后面会继续补充.

    参考
    Apple官网- Machine Learning
    WWDC2018之Create ML(二)
    Create ML : 如何在Xcode 10中训练您自己的机器学习模型

    相关文章

      网友评论

          本文标题:机器学习之CreateML使用(二)

          本文链接:https://www.haomeiwen.com/subject/cbomoftx.html