美文网首页
你所使用的案例检索库,搜索结果数可能与别人差8倍

你所使用的案例检索库,搜索结果数可能与别人差8倍

作者: Nuance__ | 来源:发表于2019-10-30 01:11 被阅读0次

按照知乎体的规矩,先说结论。

个人观点:Alpha、北大法宝与威科先行综合表现优于裁判文书网,无讼、元典仍需努力。

再上图为敬!各大案例检索 引擎在同样筛选条件的表现。

筛选条件:借贷、抵押、保证、父子、地区:上海、类型:民事案件。

各家搜索引擎能力的高低,在底层就是分词技术的比拼。分词,如一篇文章包含“研究生命令本科生”分为“研究生”、“命令”、“本科生”,但机器分词很可能产生歧义,可能出现“研究”、“生命”、“令”、“本科生”,那么以这样的分词,当你搜索“研究生”时,是无法找到这篇文章的。所以,一个良好的分词系统就是检索引擎成功的一半。

核心场景

之后,我会主要观察各种类型的词语在不同检索系统中的表现,来判断一个检索系统的索引健壮性及其分词能力。

我们先看一下,各大检索系统案例总量,发现均无法达到与裁判文书网接近的数量。数量最近接的是元典,达到裁判文书总量的98.6%。

常见短词

在常见短词中,我根据类别“行为”、“事实”、“客体”分别选取了:“担保”、“骨折”、“商标”。常见短词是律师最可能搜索的词,可以说是案件检索系统的基本能力。

图片所体现的“结果偏差率”即该检索系统的结果数与裁判文书网的结果数相偏差的比例,比如裁判文书网搜索到的结果是100个,某网的结果是90个,那么偏差率就是-10%。在有些情况,某些检索系统的检索能力确实是超过裁判文书网的,所以呈现出的是正百分比。

常见长词

常见长词也是检索系统的基本功。因为当你输入长词时,检索系统可能会根据你输入的内容进行分词,也可能不会。比如,“买卖合同纠纷”拆分成“买卖”、“合同”、“纠纷”或者根本就不拆。这两种方式都会导致结果数量的巨大差异。

案由:买卖合同纠纷

客体:劳动报酬

行为:解除合同

罕见短词

在搜索罕见短词时,当我本来搜索“王大锤”的时候发现3个现象:

  1. 裁判文书网显示的结果是10条,但北大法宝显示12条,经逐条核对,发现2条重复数据。
  2. 元典、无讼第一天均显示9条,但在第二天均变成10条。说明针对罕见短词,这两个系统可能会被动地进行机器学习并整理。
  3. Alpha显示的是11条数据,经过比对,发现有一条裁判信息只出现在北京法院审判信息网,但没有出现在裁判文书网。说明各大系统,只有Alpha收集了北京法院审判信息网的信息。

姓名:王小锤

品牌:喜茶

地名:帕劳

罕见长词

罕见长词其实是很常见的搜索需求,比如公司名,尤其要注意。可以看出,要搜索公司名时,裁判文书网、Alpha和北大法宝是你最好的选择。

公司名:深圳市腾讯计算机系统有限公司

品牌:无印良品

地址:北京市海淀区知春路

短英语词

英语短词发现2个现象:

  1. 各大系统只有Alpha是对大小写敏感的,好处是更精确,但坏处是如果不知道这个特点,可能会漏掉很多裁判文书。
  2. 裁判文书网未对罕见英语做优化,可能错过海外公司信息,如altium。

小写:iphone

大写:IPHONE

首字母大写:Iphone

全角英语:iphone

中英混合

裁判文书网未对中英混合做好索引,所以当你的关键词包含中英混合的品牌时,一定要使用第三方案件检索系统。

中英混合:老K

条件筛选

这个结果的数量差距还是挺可怕的,不用多说,自己看吧。

文书类型:判决书

区域:上海

审级:中级人民法院

数字

裁判文书网,对纯数字未做优化,纯数字建议使用第三方搜索。

纯数字:10176

金额:10890元

日期:2015年8月8日

符号

法律:《合同法》

日期:2015/08/08

比例:80%

综合

回到这张图,实际上威科先行“作弊”了,因为它在“精确搜索”模式下,仍然会进行模糊搜索,它会将“借贷”的近义词“借款“的结果也返回给用户。

总结

以上共检索141次,其中72次搜索结果数低于裁判文书网,69次高于裁判文书网。

“兼听则明,偏信则暗。” 没有一个案件检索系统是全面超越其他检索引擎的,都有所长。所以,在裁判检索过程中,一个良好的策略便是,进行裁判检索时,至少使用两个以上检索系统,且其中一个为裁判文书网。裁判文书网于2019年年9月升级,速度慢的问题,目前已得到改善,整体流畅度已经达到令人满意的程度。

相关文章

  • 你所使用的案例检索库,搜索结果数可能与别人差8倍

    按照知乎体的规矩,先说结论。 个人观点:Alpha、北大法宝与威科先行综合表现优于裁判文书网,无讼、元典仍需努力。...

  • day04-MySQL基础

    一、数据库概述 1.为什么要使用数据库 使用数据库检索,相比从一个txt或者xml文档中检索只能通过线性搜索(从头...

  • Lucene—全文检索

    1. 案例分析:什么时全文检索,如何实现全文检索   1.1 案例   实现一个文件的搜索功能,通过关键字搜索文件...

  • ES 拼音中文混合检索

    1. 使用场景介绍 搜索功能支持:拼音检索,中文检索,拼音中文混合检索例如:输入:l德h【期望结果】:刘德华 和刘...

  • ElasticSearch介绍

    什么是搜索? 如果使用数据库做搜索会怎样? 什么是全文检索和Lucene 什么是ElasticSearch? 1....

  • 谈谈对素材搜索的认识

    关于搜索,我一向比较自信,因为我大学学得专业与信息检索有关,对数据库检索、百度、Google等搜索工具的使用方法自...

  • Elasticsearch核心概念和原理

    搜索功能 使用传统关系型数据库做搜索存在:性能差(模糊查询可能会索引失效)、不可靠、结果不准确(相关度低)等问题,...

  • cocoapods发布的库在自己电脑可以找到,别人找不到

    在自己的电脑使用cocoapods发布了一个库,结果别人搜索不到, 参考: https://www.jianshu...

  • elasticsearch 简单搜索

    轻量级搜索 QueryString 使用查询表达式搜索JSON 构造请求 复杂检索(限制检索条件) 全文检索 截止...

  • 知网的检索坑

    当我使用常规检索时: 检索结果较多,不是精准匹配。 当我使用高级检索时: 检索结果较少,是精准匹配。

网友评论

      本文标题:你所使用的案例检索库,搜索结果数可能与别人差8倍

      本文链接:https://www.haomeiwen.com/subject/lacppctx.html