美文网首页
脏词检测系统

脏词检测系统

作者: 赤子心_d709 | 来源:发表于2019-02-19 11:49 被阅读18次

背景

最近刚好调用脏词检测,看了下对应的系统大概实现,除了具体的匹配流程实现不便展开,框架层面稍微梳理一下,本质上是一个nlp强相关的系统

词典配置

    不同语言配置:如英语,葡萄牙语,阿拉伯语,意大利语等26个字母大小写
    中文繁体简体转化: 鎄 锿
    中英文符号:〔 %
    数字的规范: ⒈    1
    拼音规范,体现在发音习惯上面:zhu  zu,ceng cen,
    繁体->拼音:蹻    qiao
    输入法距离:比如q w在键盘很近
    字符大小写
    其他:如emoji符号等用于过滤

大致匹配流程:

不同的匹配模式选择,如下面的组合:

繁体内容转简体后匹配,归一化后匹配,同音字和拼音都进行匹配,非连续匹配,组合排列匹配

涉及算法

ac自动机,模糊匹配,trie,gdbt模型,最短编辑距离等

大体上就是根据输入的text,以及查询的词表id,根据匹配模式的选择对text进行处理,和词表里面的词进行比较

系统设计

词表设计:

支持词表的内容的增删改查,每个词表支持不同语言的脏词,比如table 1下面中文是一堆词,英文是一堆词

匹配接口:

支持单个词匹配和批量匹配
指定table ids,language,匹配模式(支持默认),查看匹配结果,返回是否命中(0,1),命中哪个词表的哪些词等具体信息

总结

具体的算法因为是强nlp相关也不算懂,看个框架学习下

相关文章

  • 脏词检测系统

    背景 最近刚好调用脏词检测,看了下对应的系统大概实现,除了具体的匹配流程实现不便展开,框架层面稍微梳理一下,本质上...

  • 脏值检测

    为什么更改数据的时候,页面上的东西就会跟着更改? 脏值检测是原理性的东西。(内部实现) 1.当事件触发时(属性改变...

  • 自制前端前端框架 Day19. 完善脏值检测

    现在脏值检测还有什么问题? 目前的脏值检测只能检测基本的值,比如string和Number。看一个测试案例: 这个...

  • 生产中的PVC电子线线径检测系统研发

    摘要:本文主要介绍了PVC电子线线径检测系统研发,并从线径检测、线芯检测及其厚度厚度检测分别进行了介绍。 关键词:...

  • MVVM双向数据绑定的个人理解

    AngularJS 的脏检查机制 AngularJS的双向数据绑定采用的脏检查机制,所谓“脏检查”,就是检测到数据...

  • 知网查重TMLC与PLMC有什么区别

    知网检测系统主要由期刊检测,本科系统检测,硕博系统检测以及分解检测构成,一般事业单位使用的是期刊检测系统,这一类检...

  • Agular $watch机制

    直接上代码: 运行结果 结论 $watch会在$scope逻辑处理完后进行脏值检测(第一次输出的是3) 脏值检测总...

  • 检测iOS App是否运行在越狱手机中

    检测步骤如下 检测Cydia是否安装 检测app是否可以编辑系统文件 检测系统是否包含可疑的文件 检测是否有可疑的...

  • 使用nmap批量识别目标操作系统

    采用下列选项启用和控制操作系统检测:-O (启用操作系统检测)也可以使用-A来同时启用操作系统检测和版本检测。--...

  • 基于单片机系统的竹筒端面检测系统的研发与应用(二)

    摘要:本文主要介绍了基于单片机的竹筒端面的内径、外径、壁厚及检测数量的检测系统的研发与应用。 关键词:竹筒;壁厚;...

网友评论

      本文标题:脏词检测系统

      本文链接:https://www.haomeiwen.com/subject/hxlxyqtx.html