美文网首页
sensitive-word 敏感词 v0.20.0 数字全部匹

sensitive-word 敏感词 v0.20.0 数字全部匹

作者: 老马啸西风2020 | 来源:发表于2024-09-18 09:58 被阅读0次

敏感词系列

sensitive-word-admin 敏感词控台 v1.2.0 版本开源

sensitive-word-admin v1.3.0 发布 如何支持分布式部署?

01-开源敏感词工具入门使用

02-如何实现一个敏感词工具?违禁词实现思路梳理

03-敏感词之 StopWord 停止词优化与特殊符号

04-敏感词之字典瘦身

05-敏感词之 DFA 算法(Trie Tree 算法)详解

06-敏感词(脏词) 如何忽略无意义的字符?达到更好的过滤效果

v0.10.0-脏词分类标签初步支持

v0.11.0-敏感词新特性:忽略无意义的字符,词标签字典

v0.12.0-敏感词/脏词词标签能力进一步增强

v0.13.0-敏感词特性版本发布 支持英文单词全词匹配

v0.16.1-敏感词新特性之字典内存资源释放

v0.19.0-敏感词新特性之敏感词单个编辑,不必重复初始化

v0.20.0 敏感词新特性之数字全部匹配,而不是部分匹配

v0.21.0 敏感词新特性之白名单支持单个编辑,修正白名单包含黑名单时的问题

view

wordResultCondition-针对匹配词进一步判断

说明

支持版本:v0.13.0

有时候我们可能希望对匹配的敏感词进一步限制,比如虽然我们定义了【av】作为敏感词,但是不希望【have】被匹配。

就可以自定义实现 wordResultCondition 接口,实现自己的策略。

系统内置的策略在 WordResultConditions#alwaysTrue() 恒为真,WordResultConditions#englishWordMatch() 则要求英文必须全词匹配。

内置策略

WordResultConditions 工具类可以获取匹配策略

实现 说明 支持版本
alwaysTrue 恒为真
englishWordMatch 英文单词全词匹配 v0.13.0
englishWordNumMatch 英文单词/数字全词匹配 v0.20.0

使用例子

原始的默认情况:

final String text = "cp cpm trade deficit totaled 695 billion yen, or $4.9 billion";

List<String> wordList = SensitiveWordBs.newInstance()
        .wordDeny(new IWordDeny() {
            @Override
            public List<String> deny() {
                return Arrays.asList("cp", "69");
            }
        })
        .wordResultCondition(WordResultConditions.englishWordMatch())
        .init()
        .findAll(text);
Assert.assertEquals("[cp, 69]", wordList.toString());

会导致匹配 69,但这并不是我们预期的场景。

我们可以指定为英文数字必须全词匹配,主要是 wordResultCondition(WordResultConditions.englishWordNumMatch())

final String text = "cp cpm trade deficit totaled 695 billion yen, or $4.9 billion";

List<String> wordList = SensitiveWordBs.newInstance()
        .wordDeny(new IWordDeny() {
            @Override
            public List<String> deny() {
                return Arrays.asList("cp", "69");
            }
        })
        .wordResultCondition(WordResultConditions.englishWordNumMatch())
        .init()
        .findAll(text);
Assert.assertEquals("[cp]", wordList.toString());

当然也可以根据自己的需要,自定义实现更加复杂的策略。

小结

传统的敏感词都是直接部分匹配的,但是这在很多场景不符合。所以可以将这部分条件判断放开,让用户自己定义。

开源代码

敏感词 https://github.com/houbb/sensitive-word

敏感词 https://github.com/houbb/sensitive-word-admin

相关文章

  • java 实现敏感词(sensitive word)工具详解使用

    sensitive-word 平时工作中,只要涉及到用户可以自由发言(博客、文档、论坛),就要考虑内容的敏感性处理...

  • 啥是敏感词?

    敏感词 敏感词 敏感词 敏感词 敏感词 敏感词 敏感词 敏感词 ** **对不起,您搜索的内容已被屏蔽…… 大部分...

  • 各种get、post请求

    (1)curl (2)xhr (3) axios (axios v0.20.0) (4) php (http) (...

  • 数字敏感

    不明白是对数字敏感,还是自己敏感。 172 175 初中那会,初一初二是在172班,后来分班,172被打散得七零八...

  • 敏感数字

    2021年1月1日,我用11.18公里的新年第一跑,开启了我新年的周末慢跑。这个数字不是有意而为之,跑完步按了停止...

  • 数字敏感

    我是一个对数字十分敏感的人,特别喜欢记一些纪念日、友人的生日、手机号码、家庭住址...... 一有机会就会做一些小...

  • 敏感词

    在QQ兴趣部落里点评时写了“小事应让步,对父母、子女的态度要讲原则”,居然出现系统的提示:内容中有敏感词,不允许发...

  • 敏感词

    现在的网络特别发达,言论自由也大了,但是网络关键词有时也让人无可奈何。 上次我在空间里发了个关键词“吹箫”。结果被...

  • 敏感词

    假作真时真亦假, 真为假处假成真。 皆言生变归"计划", 又叹妖顽是"元根"。 "才厚"数典轻法义, "俊山"为利...

  • 敏感词

    一个时代有一个时代的语言特色,一个地方有一个地方的敏感词。网络上既有大众追捧的热词,也有小众的忌讳。婚丧嫁娶不...

网友评论

      本文标题:sensitive-word 敏感词 v0.20.0 数字全部匹

      本文链接:https://www.haomeiwen.com/subject/xidnljtx.html