美文网首页程序员说
解析Arff文件时对指针的一些思考

解析Arff文件时对指针的一些思考

作者: 鹏抟九万 | 来源:发表于2015-02-08 22:28 被阅读52次

    这几天因为项目需要,写了个程序来解析arff文件。先解释一下什么事arff文件格式吧。Arff文件来源于Weka软件,Weka是一款用于数据挖掘的开源分析软件,而arff是weka指定的存储数据的文件格式。

    Arff文件主要分为头文件和数据两部分,头文件部分说明了数据包括哪些属性,以及每一个属性的取值范围等信息。举个栗子:比如我们要记录一个班里的同学,能够想到会有Name,Gender,Height等属性,于是在arff文件里,能够看到这样的信息:

    @ATTRIBUTE Name string

    @ATTRIBUTE Gender {Male,Female}

    @ATTRIBUTE Height real

    可以看出来,头文件里每行第一个关键字@ATTRIBUTE表明这是一个属性,第二个关键字是属性的名称,比如Name,Gender,Height,第三部分是属性的取值范围,可能是个字符串string,可能是枚举型变量,也可能是个实数。

    Arff文件的数据部分用@DATA开头,随后一行代表一个数据,紧跟上面的例子,数据部分会是这样的:

    @DATA

    Lily Female 160

    Mitchel Male 175

    Jack Male 178

    介绍完了Arff文件,我的任务就是写一个程序分析arff文件。我的方法是建立一个arff文件结构体,里面包括两种小的结构体:”属性结构体”和“数据结构体”,就像这样:

    属性结构体

    struct ArffAttribute

    {

    char Name[16];

    char Candidates[8];

    ArffAttribute* Next;

    };

    数据结构体

    struct ArffDataLine

    {

    char classType;

    char* dataLine;

    ArffDataLine* Next;

    };

    Arff文件结构体

    struct ArffFile

    {

    ArffAttribute* FirstAttribute;

    ArffAttribute* LastAttribute;

    ArffAttribute* AttributeList;

    ArffDataLine* FirstDataLine;

    ArffDataLine* LastDataLine;

    ArffDataLine* DataLineList;

    int AttributeCount=0;

    int DataLineCount=0;

    };

    ArffFile中用两种方式存储属性,第一种是用FirstAttribute和LastAttribute把属性按链表存储,第二种是用AttributeList把属性按照数组方式存起来。

    今天在把属性链表转换成数组的时候卡住了,原因是我不清楚这个数组的元素应该是ArffAttribute,还是ArffAttribute的指针。过了一会才想明白了,由于我是把链表元素ArffAttribute保存的内容复制到数组里,所以数组的元素应该是ArffAttribute,而不是它的指针。如果我选择不是复制内容,而是原封不动的使用链表里本来就有的元素,由于这些元素在内存里不能移动,所以只能用指针指向他们,那么数组的内容就应该是指针。

    今天写程序的时候在这里卡了好一会,在加上别的用指针的地方,一天里面起码有40%的时间用来思考指针的用法,或者调试指针带来的错误,特别消耗时间。记得大一的时候,教材里就写着指针是个非常危险的东西,最近一段时间对此深有体会,写程序时最需要考虑的就是指针的使用,而最容易出错的地方往往也是指针。所以平时写程序还是能避免就避免用指针吧~

    相关文章

      网友评论

        本文标题:解析Arff文件时对指针的一些思考

        本文链接:https://www.haomeiwen.com/subject/udcjxttx.html