美文网首页
weka详解

weka详解

作者: 小小宁儿 | 来源:发表于2020-01-10 17:44 被阅读0次

    本篇文章针对weka API的几个简单使用介绍,weka官网文档介绍非常详细,可参考。

    1. weka官网:https://www.cs.waikato.ac.nz/~ml/weka/

    2. weka官方文档:https://waikato.github.io/weka-wiki/

    3. weka API文档:https://weka.sourceforge.io/doc.stable-3-8/

    4. 推荐值得学习的blog:https://www.cnblogs.com/zlslch/category/999872.html

    此博客是介绍weka比较系统和详细的博客,有些不明白的地方可以查看官网。

    备注:weka官方文档上有相应例子,有些例子对应版本比较旧,可对应更新为自己使用的版本

    建议看下官网的有关weka视频的介绍:https://youtu.be/TF1yh5PKaqI

    一、Java调用Weka API创建Arff文件

    Arff(attribute relation file format 关系属性格式)文件是一种由独立、无序实例组成的数据集文件,是一种 ASCII 文本文件。在 Arff 文件中,%开始表示注释;@relation 表示数据之间的关系;@attribute 表示字段名称和字段类型;@data 表示具体的数据,同时数据的顺序要和@attribute 中的属性保持一致。文件内容中,最开始的部分显示文件注释,之后显示关系的名字和属性的具体定义,在属性下是具体的数据集合。

    1. 总共就这么四步,关键代码:

    1)一开始需要实例化一个Vector来保存数据属性:

    FastVector atts =newFastVector();// 保存属性

    2)同时需要有保存单条数据

    double[]vals;// arff保存单条数据

    3)判断数据格式之后新建数据属性:

    atts.addElement(newAttribute(numName));

    4)之后填充数据:

    vals[j] =instances.attribute(j).addStringValue("XXXXX");

    2. 完整代码:

    /** * 创建合法格式的Arff文件 * * @param data 该参数为封装好的Data参数,数据类型为 * Map<String, List<Object>> * @return * @throws Exception */

        public String createArffFile(Data data, int userID) throws Exception {

            FastVector atts = new FastVector();// 保存属性

            double[] vals;// arff保存单条数据

            // 创建List作为数据类型flag

            List<Object> indexList = new LinkedList<Object>();

            // 获取data数据

            wekaData = XMLParser.praseXML(data.getData_Content());

            // 获取data中的第0行为title,第一行为判断数据类型

            List<Object> titleList = wekaData.get("0");

            List<Object> firstList = wekaData.get("1");

            // 遍历title中的数据类型,为arff文件创建attribute

            for (int i = 0; i < firstList.size(); i++) {

                Object obj = firstList.get(i);

                String objStr = obj.toString();

                if (isNumeric(objStr)) {

                    indexList.add("Numeric");

                    String numName = String.valueOf(titleList.get(i));

                    atts.addElement(new Attribute(numName));

                } else if (isValidDate(objStr)) {

                    indexList.add("Date");

                    atts.addElement(new Attribute((String) titleList.get(i), "yyyy-MM-dd"));

                } else {

                    indexList.add("String");

                    atts.addElement(new Attribute((String) titleList.get(i), (FastVector) null));

                }

            }

            // 必须放在创建attribute之后 否则会报异常

            Instances instances = new Instances(data.getData_Name(), atts, 0); // 创建一个weka data实例

            System.out.println(indexList);

            // 填充数据

            for (int i = 1; i < wekaData.size(); i++) {

                vals = new double[instances.numAttributes()];

                String index = String.valueOf(i);

                int length = wekaData.get(index).size();

                System.out.println(length);

                // 遍历填充

                for (int j = 0; j < length; j++) {

                    if (indexList.get(j).equals("String")) {

                        System.out.println("string");

                        vals[j] = instances.attribute(j).addStringValue((String) wekaData.get(index).get(j));

                    } else if (indexList.get(j).equals("Numeric")) {

                        System.out.println("number");

                        System.out.println((String) wekaData.get(index).get(j));

                        double num = Double.valueOf((String) wekaData.get(index).get(j));

                        vals[j] = num;

                    }

                }

                instances.add(new Instance(1.0, vals));

                // end

            }

            System.out.println(instances.toString());

            // IP时间戳工具

            IPTimeStamp ipTimeStamp = new IPTimeStamp();

            // 保存文件加时间戳重命名,防止不同文件重名覆盖

            String fileName = ipTimeStamp.getIPTimeRand() + "_" + userID + "_" + data.getData_Name();

            String path = configProperty.getArffPath() + fileName + ".arff";

            File outFile = new File(path);

            FileUtils.writeStringToFile(outFile, instances.toString(), false);

            System.out.println("ArffPath" + configProperty.getArffPath());

            return path;

        }

    构建好的格式举例:K-means聚类样本.arff

    @relation K-means聚类样本

    @attribute X numeric

    @attribute Y numeric

    @data

    0,0

    1,0

    二、Weka API使用训练好的已知模型进行实时预测

    1、自己根据属性构建instance实例。

    2、调用之前已经训练的模型,调用时需要将模型强制转变为模型机器学习类型,如NaiveBayes的模型需要这样操作。

    Classifier m_Classifier = (NaiveBayes)SerializationHelper.read(new FileInputStream("model/bayes.model"));

    以下是本文构建的Weka实时预测功能:

    本实例中instance具有四个属性,第一个为double属性,第二个是double属性,第三个是Nominal类型,第四个是Class类型(预测值)。

    注:本文中使用的模型可以使用Weka图形界面操作生成。

    代码思路:

    首先,构建一个instances结构,构建instances具有什么样的属性;其次,指定instances的类别索引,即指定哪个属性代表的是类别。之后,构建instance实例,将instances的结构框架指定为instance的数据集,给instance赋值,此处传值时不需要传入Class值,因为这是我们要预测的;最后,使用已知模型的classifyInstance方法对instance进行预测,再根据预测出的索引得到预测类别的值。

    以下是编写的Weka实时预测代码:

    import java.io.FileInputStream;

    import java.io.FileNotFoundException;

    import weka.classifiers.Classifier;

    import weka.classifiers.bayes.NaiveBayes;

    import weka.core.Attribute;

    import weka.core.FastVector;

    import weka.core.Instance;

    import weka.core.Instances;

    import weka.core.SerializationHelper;

    public class WekaTestInstance

    {

        Instances m_Data = null;

        Classifier m_Classifier = null;

        public WekaTestInstance() throws FileNotFoundException, Exception

        {

            m_Classifier = (NaiveBayes)SerializationHelper.read(new FileInputStream("model/bayes.model")); 

            String nameOfDataset = "messDataset";

            FastVector attributes = new FastVector();

            attributes.addElement(new Attribute("aa"));

            attributes.addElement(new Attribute("bb"));

            FastVector fvNominalVal = new FastVector(3);

            fvNominalVal.addElement("blue");

            fvNominalVal.addElement("gray");

            fvNominalVal.addElement("black");             

            attributes.addElement(new Attribute("Nominal", fvNominalVal));

            FastVector classValues = new FastVector(2);

            classValues.addElement("pos");

            classValues.addElement("neg");

            attributes.addElement(new Attribute("Class", classValues));

            m_Data = new Instances(nameOfDataset, attributes, 10);

            m_Data.setClassIndex(m_Data.numAttributes()-1);

        }

        public void classifyMessage(double aa,double bb,String nominal) throws Exception

        {

            Instances testset = m_Data.stringFreeStructure();

            Instance instance = makeInstance(aa,bb,nominal,testset);

            System.out.println(m_Data.numAttributes());

            System.out.println(instance);

            double predicted = m_Classifier.classifyInstance(instance);

            System.out.println("predicted:"+predicted);

            System.out.println("Message classified as : " +

                    m_Data.classAttribute().value((int)predicted));

        }

        private Instance makeInstance(double aa,double bb,String nominal,Instances data)

        {

            Instance instance = new Instance(4);

            instance.setDataset(data);

            Attribute aaAtt = data.attribute("aa");

            Attribute bbAtt = data.attribute("bb");

            Attribute nominalAtt = data.attribute("Nominal");

            instance.setValue(aaAtt, aa);

            instance.setValue(bbAtt, bb);

            instance.setValue(nominalAtt, nominal);

    //      instance.setValue((Attribute)instance.attribute(0), aa);

    //      instance.setValue((Attribute)instance.attribute(1), bb);

    //      instance.setValue((Attribute)instance.attribute(2),nominal);       

            return instance;

        }

        public static void main(String[] args) throws Exception

        {

            WekaTestInstance wTestInstance = new WekaTestInstance();

            wTestInstance.classifyMessage(5.6,9.9,"gray");

        }

    }

    相关文章

      网友评论

          本文标题:weka详解

          本文链接:https://www.haomeiwen.com/subject/ooapactx.html