修改whoosh 支持中文分词法

修改whoosh 支持中文分词法

作者: tglmm | 来源:发表于2020-04-30 15:20 被阅读0次

修改whoosh 支持中文分词法
Elasticsearch 安装插件 IK Analyzer
Django笔记（四）搜索 django-haystack使用
linux修改支持中文
python
Whoosh + jieba 中文检索
Cygwin ls 不支持中文文件名显示
jupyternotebook latex 中文
Whoosh搜索引擎的安装与配置
ubuntu 更改系统语言及解决中文字体乱码

import jieba

from whoosh.analysis import Tokenizer,Token

class ChineseTokenizer(Tokenizer):
    def __call__(self, value,positions=False,chars=False,
                 keeporiginal=False,removestops=True,
                 start_pos=0,start_char=0,mode="",**kwargs):
        t = Token(positions,chars,removestops=removestops,mode=mode,**kwargs)
        seglist = jieba.cut(value,cut_all=True)
        for w in seglist:
            t.original = t.text = w
            t.boost = 1.0
            if positions:
                t.pos = start_pos + value.find(w)
            if chars:
                t.startchar = start_char + value.find(w)
                t.endchar = start_char + value.find(w) + len(w)
            yield t

def ChineseAnalyzer():
    return ChineseTokenizer()

相关文章

修改whoosh 支持中文分词法
Elasticsearch 安装插件 IK Analyzer
简介 Elasticsearch自带standard分词法，但是这个分词法对英文支持不错，对中文支持却很差，我们可...
Django笔记（四）搜索 django-haystack使用
搜索模块 Haystack whoosh为例安装添加中文分词在haystack包目录拷贝一份whoosh_b...
linux修改支持中文
修改系统为中文远程连接有时候会乱码，以CRT为例子
python
参考 python 日期 whoosh pdf python mysql中查询数据，结果中文显示乱码 Python...
Whoosh + jieba 中文检索
背景最近项目要用到 Whoosh 一个 Python 编写的索引检索模块，发现比较少中文资料并且看了学长的代码也...
Cygwin ls 不支持中文文件名显示
原因是ls不支持中文中的控制符. 修改ls如下，ls可显示中文修改ll如下，ll可显示中文立即生效
jupyternotebook latex 中文
修改 nbconvert 中的latex 模板文件从而可以支持中文。
Whoosh搜索引擎的安装与配置
Whoosh介绍 Whoosh is a library of classes and functions for...
ubuntu 更改系统语言及解决中文字体乱码
改成中文语言安装中文支持包sudo apt-get install language-pack-zh-hans修改...

网友评论

本文标题：修改whoosh 支持中文分词法

本文链接：https://www.haomeiwen.com/subject/qxozwhtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|修改whoosh 支持中文分词法|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！