新闻中完整性对象的识别

作者: 艾剪疏 | 来源:发表于2018-08-27 02:20 被阅读73次

新闻中完整性对象的识别
签名相关
六、数据库安全与保护
pthread函数的使用
Swift 使用Codable协议进行json转模型
Swift 使用Codable协议进行json转模型
iOS 加锁探究
mutex笔记
三色标记
预估

1 完整性对象概念
2 抽取算法思想
3 代码实现

1 完整性词概念

完整性词是在特定学科领域用来表示概念的称谓的集合。完整性词可以是词，也可以是词组，用来正确标记生产技术、科学、艺术、社会生活等各个专门领域中的事物、现象、特性、关系和过程。

例如，如下语料：

如“ Android/x  系统 /n  平台 /n _/x 7/v  英寸 /q Android/x  系统 /n  触控 /n MID/x  蓝 /a  魔 /ng W9/x  评测 /vn _/x  中
关村 /ns  在线 /vn Android/x  系统 /n  平台 /n W9/x  采用 /v660 MHz ARM9/x  内核 /n  处理器 /n ……”

可以抽取出：“ Android/x 系统 /n ”、“系统 /n 平台 /n ”、“ Android/x 系统 /n 平台 /n ”等。而2 次出现的“ Android/x 系统 /n ”后面的第 1 个词均为“平台”，所以，此评价对象不是右完整； 2 次出现的“系统 /n 平台 /n ”前面的词均为“ Android ”，所以，此评价对象不是左完整； 2 次出现的“ Android/x 系统 /n 平台 /n ”左右词均不相同，所以，此对象具有完整性是完整性词。

2 抽取算法思想

2.1 候选对象抽取

对某类新闻语料，分词、统计词性搭配出现频率最高的词性组合，选取排名靠前的作为该类新闻语料的词性规则。

下面是当时总结的油气行业的词性规则（前20组）

image.png

使用这个词性规则，对分词完毕后的文章进行词性匹配，留下符合该规则的词作为候选对象。

2.2 非完整性对象的过滤

过滤掉单字动词，如为 /v 、让/v 等。表示行为或趋向性的动词，如：可以 /v 、认为 /v 等这些噪音词。
抽取出左完整和右完整的词，如上面所说的“ Android/x 系统 /n 平台 /n ”这样的词。实现代码见下面。

2.3 非稳定性完整对象的过滤

稳定性对象是指：组成完整性对象各个词之间的紧密耦合程度。举例说明。

如“刻录 /n 盘 /qv ”候选对象是由“刻录”和“盘”2 个词组成的，假设在文章中：“刻录 /n 盘 /qv ”一起在文本中出现了 2 次，“刻录”这个词单独出现 2 次（它始终和“盘”在一起出现），“盘”出现了 3 次 ( 它除了与“刻录”在一起出现，还在其他位置出现 ) 。则可以通过对上面参数的计算，统计出“刻录”、“盘”这两个词在是一起出现可能性比分开出现的可能性大。即“刻录 /n 盘 /qv ”的稳定性。

公式如下：

image.png

假设Object（完整性词） = Item1（基词） + Item2 + Item3 + .... + ItemN。

s(Object)：完整性词的稳定性。如果s(Object)=1，此时Object最稳定；而当组成 Object 的词，仅在一起出现一次 (或很少次) ，而分散在文本中不同位置的次数趋于无穷时，s(Object)的值趋于0，此时Object最不稳定。即0 < s(Object) < 1。
f(Object)：完整性词出现频率。“刻录 /n 盘 /qv ”出现次数。
f(wi)：每个基词出现频率。f(w1) = “刻录 /n出现次数 = 2 ， f(w2) = 盘 /qv出现次数 = 3 。
m：完整性对象由几个item组成。 “刻录 /n 盘 /qv ”，m=2。

根据s(Object)的结果，设定阈值X来确定Object是不是完整性对象。

2.4 置信度计算

对经过上面两次完整性和稳定性的过滤之后，最后计算剩下候选对象计算置信度。置信度越大，则认为是完整性对象的可能性越大。置信度通过两个方法评价。

（1）特征 1：与某类短语规则同现

利用上面抽取词性规则的方法，抽取出修饰网站性对象的词语组合。例如：“刻录 /n 盘 /qv ”，前面可能会出现：好/d 精致的/a，很/d有用的/a，类似这样的修饰词，对这些修饰词进行统计、排序选取出靠前的。使用修饰词词性规则与出现完整性词的句子进行匹配，看是否同现（co = 1（同现） OR co = 0）。

（2）特征 2：完整性对象出现频率

假设给定 N 篇文档，共有d(1≤d≤N)篇文档包含评价对象O，第k(1≤k≤d)篇文档中共有S个词，O在第k篇文档中出现 n (1≤n≤S) 次，则词频tf(O)和df(O)的计算方式和之前说的一样。
然后，将其套用至下面的公式中，计算出f(O)。

image.png

β是一个调节参数，根据实际设置调整。0.5较为合适。
同一评价对象可能在多个文档中出现，采用平均值的方式计算评价对象 Object 的最终取值。

f(Object)表示结果值，此值越大， Object 是评价对象的可能性越大。

（3）置信度计算及排序（重点）

综合上述的 2 个特征值，对两个特征值进行整合排序，计算出最终的结果。

f(Object)的值越大时，候选评价对象 Object 是正确结果的可能性大，此时，有如下情况： (1) co为 1，f(Object)很小； (2) co为 0，f(Object)很大。
为了判断这 2 种情况的置信度，将 2 个特征的值，用二维坐标系表示，特征值的坐标表示如图（方法值得学习）：

image.png

将Object中co为 0 的f(Object)值标注在y轴上，并令其最大值为 n ， co 为 1 的f(Object)值标注在直线L上，并令其最小值为 p 。通过实验取得 L 上的点 m ，使得 m 和 n 的置信度相同，由 m 和 n 做直线 L 1 ，过点 p 做 L 1 的平行线 L 2 交 y 轴与点 q 。

令任意 2 点 (0, y 1)( q ≤ y 1 ≤ n ) ， (1, y 2)( p ≤ y 2 ≤ m ) ，过y 1 做 L 1 的平行线交 L 于点 z ，若 z ＞ y 2 ，则 y 1 ＞ y 2 ；若 z ≤ y 2 ，则 y 1 ≤ y 2 。

大于 m 的 Object 置信度最高，并按f(Object)值排序，q 、 n 、 p 、 m 之间的 Object 置信度次之，并按照 y 1 和 y 2的比较方法排序，小于 q 的 Object 置信度最低。这样得到最终的置信度排序，按置信度前 80 %作为结果提交。

2.5 评价对象的扩充（学习思想）

对于置信度不高的后 20 %且标注为“ n ”或“ x ”的评价对象，采用扩充规则来提高准确率和召回率。在对评价对象过滤和置信度排序后使用扩充规则，而不是在抽取候选评价对象时使用，是为了减缓整个评价对象识别的复杂度和运算量。

3 代码实现

全局变量

private static Map<String,Integer> keyMap = null;//某词出现次数
private static Map<String,Double> wordCount_txts = new HashMap<>();//某词在所有文章中出现的次数
private static Map<String,Double> wordCount_txt = new HashMap<>();//某词在某篇文章中出现的次数
private static List<String> contained = new ArrayList<>();//去除所有文本中的重复词语
private static Map<String,Double> noave_Object = new HashMap<>();//每个词未平均的object值
private static double ave_confidence_0 = 0,ave_confidence_1 = 0;//置信区间的平均置信点

候选对象抽取

/**
     * 按照规则，抽取单个文件的候选集
     * @param rulesPath 规则的路径
     * @param sourcePath 分词之后的文件路径
     * @param outputPath 抽取之后的保存路径
     * @return
     */
    public static void singleTextWordsSet(String rulesPath,String sourcePath,String outputPath){
        try {
            String result = "";
            List<String> rulesList = getRules(rulesPath);
            String sourceString = StringUtils.getContent(sourcePath);
            for(String rule : rulesList){
                result += StringUtils.getContentUseRegex(rule, sourceString, "");
            }
            StringUtils.string2File(result, outputPath);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

    /**
     * 读取评价对象抽取的规则
     * @param inputPath 规则的完整路径
     * @return
     * xx/n
     */
    public static List<String> getRules(String inputPath){
        List<String> result = new ArrayList<String>();
        File file = new File(inputPath); 
        FileReader fr = null;
        BufferedReader br = null;
        String regex = "[\u4e00-\u9fa5a-zA-Z0-9]*";
        try {
            fr = new FileReader(file);
            br = new BufferedReader(fr);
            String temp = "";
            while((temp=br.readLine()) != null){
                String[] temps = temp.split(ConstantParams.SINGLE_BLANK);
                String str = "";
                for(String rule : temps){
                    str += (regex+"/"+rule+"(.?)"+ConstantParams.SINGLE_BLANK);
                }
                result.add(str);
            }
        } catch (Exception e) {
            e.printStackTrace();
        }finally{
            try {
                if(br != null){
                    br.close();
                }
                if(fr != null){
                    fr.close();
                }
            } catch (Exception e2) {
                e2.printStackTrace();
            }
        }
        return result;
    }

/**
     * @Description: 词典处理：去除词性标注，抽取关键词之和
     * @return:
     * @date: 2017-10-15  
     */
    public static void genInteDic(String sourcePath,String outputPath){
        BufferedReader br = null;
        String result = "";
        String line = "";
        try {
            br = new BufferedReader(new InputStreamReader(new FileInputStream(new File(sourcePath)),FileUtils.getFileEncode(sourcePath)));
            while((line = br.readLine())!=null){
                String []bStr = line.split(ConstantParams.SINGLE_BLANK);
                String s = "";
                for(String w : bStr){
                    if(w.contains("/")){
                        s+= w.substring(0, w.indexOf("/"));
                    }
                }
                result+=s+ConstantParams.CHENG_LINE;
            }
        } catch (FileNotFoundException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }       
        StringUtils.string2File(result, outputPath);
    }

非完整性对象的过滤

/**
     * 过滤特殊词（单子动词，特殊符号... ...）
     * @param intputPath
     * @param outputPath
     */
    public static void filterWords(String inputPath,String outputPath){
        try {
            String result = "";
            File file = new File(inputPath);
            InputStream is = new FileInputStream(file);
            InputStreamReader isr = new InputStreamReader(is,FileUtils.getFileEncode(inputPath));
            BufferedReader br = new BufferedReader(isr);
            String temp = "";
            while((temp=br.readLine()) != null){
                String[] temps = temp.split(ConstantParams.SINGLE_BLANK);
                if(temps.length > 1){
                    result += temp+ConstantParams.CHENG_LINE;
                }else{
                    String[] wordsTemps = temps[0].split("/");
                    if(wordsTemps[0].length() != 1){
                        result += temp+ConstantParams.CHENG_LINE;
                    }
                }
            }
            br.close();
            StringUtils.string2File(result, outputPath);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

/**
     * 去除重复的候选词
     * @param inputPath
     * @param outputPath
     */
    public static void delRepWords(String inputPath,String outputPath){
        try {
            List<String> list = new ArrayList<String>();
            String result = "";
            BufferedReader br = new BufferedReader(new InputStreamReader(new FileInputStream(new File(inputPath)),FileUtils.getFileEncode(inputPath)));
            String temp = "";
            while((temp=br.readLine()) != null){
                if(!list.contains(temp)){
                    list.add(temp);
                    result += temp+ConstantParams.CHENG_LINE;
                }
            }
            br.close();
            StringUtils.string2File(result,outputPath);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

左右完整性词的计算

/**
     * 非完整性过滤
     * @param inputPath : 已去重完毕的词；   sourcePath：splitWords中的词；
     * @param outputPath
     * @return 满足条件的完整性词
     */
    public static List<String> filterInteWords(String inputPath,String sourcePath,String outputPath){
        List<String> inteWords = new ArrayList<String>();
        try {
            String rawResult = "";
            List<String> wordsList = StringUtils.getContentFromPath(inputPath);
            for(String word : wordsList){                   
                //读分词之后的源文件
                String sourceWord = StringUtils.getContent(sourcePath);
                String[] sourceWords = sourceWord.split(ConstantParams.SINGLE_BLANK);
                String[] words = word.split(ConstantParams.SINGLE_BLANK);
                Set<String> leftSet = new HashSet<String>();
                Set<String> rightSet = new HashSet<String>();

                //是0的时候，表示完整；1的时候表示不完整
                int left = 0;
                int right = 0;

                int leftFirst = 1;
                int rightLast = 1;
                if(words.length == 1){
                    for(int i=0;i<sourceWords.length;i++){
                        if(words[0].equals(sourceWords[i])){
                            if(i == 0){
                                leftFirst = 0;//左完整
                                rightSet.add(sourceWords[i+1]);
                            }else if(i == sourceWords.length-1){
                                rightLast = 0;//右完整
                                leftSet.add(sourceWords[i-1]);
                            }else{
                                leftSet.add(sourceWords[i-1]);
                                rightSet.add(sourceWords[i+1]);
                            }

                        }
                        if(leftFirst == 0){
                            left = 0;
                        }else{
                            if(leftSet.size() == 1){
                                left = 1;
                            }else{
                                left = 0;
                            }
                        }                       
                        if(rightLast == 0){
                            right = 0;
                        }else{
                            if(rightSet.size() == 1){
                                right = 1;
                            }else{
                                right = 0;
                            }
                        }
                    }
                }else if(words.length == 2){                    
                    for(int i=0;i<sourceWords.length-1;i++){
                        if(words[0].equals(sourceWords[i]) && words[1].equals(sourceWords[i+1])){
                            if(i == 0){
                                leftFirst = 0;//
                                rightSet.add(sourceWords[i+2]);
                            }else if(i == sourceWords.length-1){
                                rightLast = 0;
                                leftSet.add(sourceWords[i-1]);
                            }else{
                                leftSet.add(sourceWords[i-1]);
                                rightSet.add(sourceWords[i+2]);
                            }

                        }
                        if(leftFirst == 0){
                            left = 0;
                        }else{
                            if(leftSet.size() == 1){
                                left = 1;
                            }else{
                                left = 0;
                            }
                        }

                        if(rightLast == 0){
                            right = 0;
                        }else{
                            if(rightSet.size() == 1){
                                right = 1;
                            }else{
                                right = 0;
                            }
                        }
                    }
                }else if(words.length == 3){
                    for(int i=0;i<sourceWords.length-2;i++){
                        if(words[0].equals(sourceWords[i]) && words[1].equals(sourceWords[i+1]) && words[2].equals(sourceWords[i+2])){
                            if(i == 0){
                                leftFirst = 0;
                                rightSet.add(sourceWords[i+3]);
                            }else if(i == sourceWords.length-1){
                                rightLast = 0;
                                leftSet.add(sourceWords[i-1]);
                            }else{
                                leftSet.add(sourceWords[i-1]);
                                rightSet.add(sourceWords[i+3]);
                            }

                        }
                        if(leftFirst == 0){
                            left = 0;
                        }else{
                            if(leftSet.size() == 1){
                                left = 1;
                            }else{
                                left = 0;
                            }
                        }
                        if(rightLast == 0){
                            right = 0;
                        }else{
                            if(rightSet.size() == 1){
                                right = 1;
                            }else{
                                right = 0;
                            }
                        }
                    }
                }
                rawResult += word+ConstantParams.TABLE+left+ConstantParams.TABLE+right+ConstantParams.CHENG_LINE;
                if(left == 0 && right == 0){
                    inteWords.add(word);
                    //                  result += word+ConstantParams.TABLE+left+ConstantParams.TABLE+right+ConstantParams.CHENG_LINE;
                }
            }
            StringUtils.string2File(rawResult, outputPath);//所有完整性词的展示
            //          StringUtils.string2File(result, outputPath);//仅是完整性词的展示
            return inteWords;
        } catch (Exception e) {
            e.printStackTrace();
        }
        return inteWords;   
    }

非稳定性完整对象的计算

/**
     * @Description: 非稳定评价对象的过滤，并生成去除词性的stableWords,为后面计算做准备
     * @param: inputPath : fliterWords（未去重）   outPath:输出路径     inteWords:符合规则完整性词     stablePath
     * @return:
     * @date: 2017-10-13  
     */
    public static void getObject(String inputPath,String outPath,List inteWords,String stablePath){
        Map<String, Double> wordsObject = new HashMap<String, Double>();
        List<String> wordsList = StringUtils.getContentFromPath(inputPath);
        getKeyTimes(inputPath);
        try {
            double objectIndex = 0;
            for(String word : wordsList){
                if(!inteWords.contains(word)){
                    continue;
                }
                String[] words = word.split(ConstantParams.SINGLE_BLANK);
                if(words.length == 1){
                    wordsObject.put(word, 1.0);
                }
                else if(words.length == 2){
                    double aWordTimes = 0;
                    double bWordTimes = 0;
                    double objectTimes = 0;
                    double wordsNumber = 2;
                    if(keyMap.containsKey(word)){
                        objectTimes = keyMap.get(word); 
                    }
                    if(keyMap.containsKey(words[0]+ConstantParams.SINGLE_BLANK)){
                        aWordTimes = keyMap.get(words[0]+ConstantParams.SINGLE_BLANK);  
                    }
                    if(keyMap.containsKey(words[1]+ConstantParams.SINGLE_BLANK)){   
                        bWordTimes = keyMap.get(words[1]+ConstantParams.SINGLE_BLANK);  
                    }
                    objectIndex = objectTimes/((aWordTimes+bWordTimes)-(wordsNumber-1)*objectTimes);
                    if(Double.isInfinite(objectIndex)){
                        objectIndex = 0;
                    }
                    wordsObject.put(word, objectIndex);
                }
                else if(words.length == 3){
                    double aWordTimes = 0;
                    double bWordTimes = 0;
                    double cWordTimes = 0;
                    double objectTimes = 0;
                    double wordsNumber = 3;
                    if(keyMap.containsKey(word)){
                        objectTimes = keyMap.get(word); 
                    }       
                    if(keyMap.containsKey(words[0]+ConstantParams.SINGLE_BLANK)){
                        aWordTimes = keyMap.get(words[0]+ConstantParams.SINGLE_BLANK);  
                    }
                    if(keyMap.containsKey(words[1]+ConstantParams.SINGLE_BLANK)){   
                        bWordTimes = keyMap.get(words[1]+ConstantParams.SINGLE_BLANK);  
                    }
                    if(keyMap.containsKey(words[2]+ConstantParams.SINGLE_BLANK)){   
                        cWordTimes = keyMap.get(words[2]+ConstantParams.SINGLE_BLANK);  
                    }
                    objectIndex = objectTimes/((aWordTimes+bWordTimes+cWordTimes)-(wordsNumber-1)*objectTimes);
                    if(Double.isInfinite(objectIndex)){
                        objectIndex = 0;
                    }
                    wordsObject.put(word, objectIndex);
                }
            }
            Map resultMap = SortUtils.sortByValue(wordsObject);
            String str = "";
            //          String stable = "";
            Set<String> set = resultMap.keySet();
            Iterator<String> iter = set.iterator();
            while(iter.hasNext()){
                String key = iter.next();
                Double value = (Double)resultMap.get(key);      
                //              stable+=key+ConstantParams.SINGLE_BLANK+value+ConstantParams.CHENG_LINE;
                //稳定性>=0的数都可以存入最终的词典中
                if(value>=0){
                    str+=key+ConstantParams.CHENG_LINE; 
                }           
            }
            //stable
            clearSpeech(str, stablePath);
            //          StringUtils.string2File(str, stablePath);//稳定性词（删除）
            StringUtils.string2FileTrue(str, outPath);//生成第一层词典
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

计算特征 2：完整性对象出现频率，tf和idf的计算前面提到，不在赘述。

/**
     * @Description: 计算评价对象出现的概率:f-object
     * @return:
     * @date: 2017-10-30  
     */
    public static double calObject(String word){
        Double d = wordCount_txt.get(word);
        Double objectD = wordCount_txts.get(word);
        double result = 0.0;
        double X = 0.5;
        if(objectD == 1){
            result = X;
            return result;
        }
        else{
            result = d/objectD+1;
        }
        if(Double.isNaN(result)){
            result = 0.0;
        }
        return result;
    }

根据特征1和2，计算置信区间

/**
     * @Description: 计算置信区间的平均值
     * @param:
     * @return:
     * @date: 2017-12-18  
     */
    private static void calConfidence(Map<String,Double> ev0_word,Map<String,Double> ev1_word,String objectPath) {
        //根据分开的0和1，在对概率的分布值进行处理，求出其中的0和1的置信区间
        String content = StringUtils.getContent(objectPath);//f-object总排名,利用其计算置信度
        String[] content_split = content.split(ConstantParams.CHENG_LINE);
        double c_Confidence_0 = 0, l_Confidence_0 = 0;//0的置信区间范围
        double c_Confidence_1 = 0, l_Confidence_1 = 0;//1的置信区间范围
        double ave_0 = 0,ave_1 = 0;//均值
        double variance_0 = 0,variance_1 = 0;//方差
        //存基础数据
        List<Double> object_value_0 = new ArrayList<>();
        List<Double> object_value_1 = new ArrayList<>();
        double t = 2.807;//t分布，α=0.0025
        double count = 0;
        int N = content_split.length;//样本总个数    
        for(int i=0;i<content_split.length;i++){
            String[] word = content_split[i].split(ConstantParams.SINGLE_BLANK);            
            //计算出1和0  f-object的最大值
            /*
             * 求0部分和1部分f-object的值的置信区间
             * 
             * 1 均值     2 查表置信度数据    3 求S（方差/n-1）  4 求sqrt(n)
             * */
            if(ev0_word.containsKey(word[0])){
                if(ev0_word.get(word[0])!=null){
                    //写出                
                    //                  write_01(content_split[i]);
                    object_value_0.add(Double.valueOf(word[1]));
                    ave_0+= Double.valueOf(word[1]);
                }   
            }else if(ev1_word.containsKey(word[0])){
                if(ev1_word.get(word[0])!=null){
                    //写出                
                    //                  write_02(content_split[i]);
                    object_value_1.add(Double.valueOf(word[1]));
                    ave_1+= Double.valueOf(word[1]);
                }
            }
        }
        ave_0/=N; 
        ave_1/=N;
        //0的方差
        for(Double value : object_value_0){
            variance_0 +=Math.pow((value-ave_0), 2);
        }
        variance_0/=N-1;
        //1的方差
        for(Double value : object_value_1){
            variance_1 +=Math.pow((value-ave_1), 2);
        }
        variance_1/=N-1;
        //0的置信区间
        c_Confidence_0 = ave_0 - t*(N-1) * (variance_0/Math.sqrt(N)); 
        l_Confidence_0 = ave_0 + t*(N-1) * (variance_0/Math.sqrt(N)); 
        //1的置信区间
        c_Confidence_1 = ave_1 - t*(N-1) * (variance_1/Math.sqrt(N)); 
        l_Confidence_1 = ave_1 + t*(N-1) * (variance_1/Math.sqrt(N)); 


        for(double value :object_value_0){
            if(value>=c_Confidence_0 && value<=l_Confidence_0){
                count++;
                ave_confidence_0+=value;
            }
        }
        ave_confidence_0/=count;

        count = 0;
        for(double value :object_value_1){
            if(value>=c_Confidence_1 && value<=l_Confidence_1){
                count++;
                ave_confidence_1+=value;
            }
        }
        ave_confidence_1/=count;
        //      System.out.println(c_Confidence_0);
        //      System.out.println(l_Confidence_0);
        //      System.out.println("---------------");
        //      System.out.println(c_Confidence_1);
        //      System.out.println(l_Confidence_1);
        //      System.out.println("---------------");
        //      System.out.println(ave_confidence_0+"  "+ave_confidence_1);
    }

根据K值，求平行线另一点坐标，置信度排序

/**
     * @Description: 根据K值，求平行线另一点坐标
     * @param: K:斜率;X:X坐标值;ev0_word 评价值为0的词
     * @return:
     * @date: 2017-11-1  
     */
    public static void change0_1(double K,double X,Map<String,Double> ev0_word,Map<String,Double> ev1_word,String objectPath,String outputPath){
        Map<String,Double> allMap = new HashMap<String,Double>();
        //读取objectPath中的频率值
        String content = StringUtils.getContent(objectPath);
        String[] content_split = content.split(ConstantParams.CHENG_LINE);
        for(int i=0;i<content_split.length;i++){
            String[] word = content_split[i].split(ConstantParams.SINGLE_BLANK);
            String key = word[0];
            if(ev0_word.containsKey(key)){
                if(ev0_word.get(key)!=null){
                    double Y0 = Double.valueOf(word[1]);
                    double Y =  K*(X-0)-Y0;
                    allMap.put(key, Y); 
                }
            }
            else if(ev1_word.containsKey(key)){
                if(ev1_word.get(key)!=null){
                    double Y1 = Double.valueOf(word[1]);
                    allMap.put(key, Y1);    
                }
            }
        }
        List<Entry<String,Double>> sortMapByValue = StringUtils.sortMapByValue(allMap); 
        String fin_result = "";
        for(Map.Entry<String, Double> entry : sortMapByValue){
            fin_result+=entry.getKey() + ConstantParams.SINGLE_BLANK + entry.getValue() + ConstantParams.CHENG_LINE;
        }
        StringUtils.string2File(fin_result, outputPath);
    }

新闻中完整性对象的识别
1 完整性对象概念2 抽取算法思想3 代码实现 1 完整性词概念完整性词是在特定学科领域用来表示概念的称谓的集合...
签名相关
Xcode的codesign签名工具codesign指令可识别.app和machO，不能识别ipa 查看签名完整性...
六、数据库安全与保护
1.数据库完整性什么是数据库完整性数据库完整性是指数据库中数据的正确性和相容性。完整性约束条件的作用对象列...
pthread函数的使用
pthread函数的使用互斥锁在编程中，引入了对象互斥锁的概念，来保证共享数据操作的完整性。每个对象都对应于一...
Swift 使用Codable协议进行json转模型
1.序列化和反序列化序列化：将对象转换为字节序列的过程，在传递和保存对象时，保证对象的完整性和完整性，方便在网络...
Swift 使用Codable协议进行json转模型
1.序列化和反序列化序列化：将对象转换为字节序列的过程，在传递和保存对象时，保证对象的完整性和完整性，方便在网络...
iOS 加锁探究
1. iOS中的互斥锁在编程中，引入对象互斥锁的概念，来保证共享数据操作的完整性。每个对象都对应于一个可称为“互...
mutex笔记
在多线程编程中，为保证共享数据的完整性，引入互斥锁的概念，每个对象可以有一个mutex这样的标记，来标示这个对象...
三色标记
将对象逻辑上进行标记，黑（自己已识别，指针所指也识别），白（未识别），灰（自己已识别，但是指针对应对象未识别） C...
预估
一、预估的目的识别服务对象问题的客观因素；识别服务对象问题的主观因素；识别服务对象问题的成因及使问题延续的因素...

新闻中完整性对象的识别

1 完整性词概念

2 抽取算法思想

2.1 候选对象抽取

2.2 非完整性对象的过滤

2.3 非稳定性完整对象的过滤

2.4 置信度计算

（1）特征 1：与某类短语规则同现

（2）特征 2：完整性对象出现频率

（3）置信度计算及排序（重点）

2.5 评价对象的扩充（学习思想）

3 代码实现

相关文章