IR homework 1: 构建布尔检索系统

IR homework 1: 构建布尔检索系统

作者: cuizixin | 来源:发表于2018-09-22 23:08 被阅读3次

IR homework 1: 构建布尔检索系统
homework1&2
『IR 信息检索入门必看』#1 概论&布尔模型（简明）
U6L1
ELK 构建 MySQL 慢日志收集平台
IR知识总结
Homework 1
homework 1
Linux Java-JDK 安装
『IR 信息检索入门必看』#5 检索系统评价（简明）

ir homework 1: 构建布尔检索系统

思路

语料库预处理

去除非中文汉字符号，包括：标点符号、英文、数字等等
分词
去停用词

建表

获取语料库的词汇表
获取各个文档的词汇表
建表，用dict类型word2docs保存，word对应包含该word的文档编号

查询文档

解析用户表达式
合法性检查
计算符合条件的文档集合
打印结果

待解决的问题

查询表达式，其中一个运算项经过预处理后为空，怎么办
- 空集合&其他集合=空集合

资源

停用词表
https://github.com/dongxiexidian/Chinese
结巴分词
https://github.com/fxsjy/jieba

有用的代码块

逐行读文件

with open(file_name, 'r') as f1:
    for line in f1.readlines():
        pass # do something

如何只保留中文汉字

去掉标点符号，英文，数字等。

def chinese_word_extraction(content_raw):
    '''只保留中文汉字
    '''
    chinese_pattern = u"([\u4e00-\u9fa5]+)"
    chi_pattern = re.compile(chinese_pattern)
    re_data = chi_pattern.findall(content_raw)
    content_clean  = ' '.join(re_data)
    return content_clean

如何进行中文分词

word_list = list(jieba.cut_for_search(line))

如何检查一个表达式是否合法

def check_syntax(expression, **variables):
    """检查表达式合法性
    """
    try:
        eval(expression, variables)
    except (SyntaxError, NameError, ZeroDivisionError):
        return False
    else:
        return True

相关文章

IR homework 1: 构建布尔检索系统
ir homework 1: 构建布尔检索系统思路语料库预处理去除非中文汉字符号，包括：标点符号、英文、数字...
homework1&2
HOMEWORK 1 运行结果 HOMEWORK 2 运行结果
『IR 信息检索入门必看』#1 概论&布尔模型（简明）
访问博客查看本文[https://hwcoder.top/IR-Note-1/] 最新内容，排版更美观ヾ(•ω•...
U6L1
回家作业： 1.workbook：Homework1 2.Tutorial book：Homework1 在线练习...
ELK 构建 MySQL 慢日志收集平台
本文讲解如何通过一套开源日志存储和检索系统 ELK 构建 MySQL 慢日志收集及分析平台。 ELK、EFK 简介...
IR知识总结
什么是IR？ IR分为SSA(static single assignment 静态单赋值) IR和正常IR经过...
Homework 1
from operator import add, sub def a_plus_abs_b(a, b):"""R...
homework 1
·Look at the picture,there are eight kids surrounding a t...
Linux Java-JDK 安装
安装步骤：检测yum更新检索系统其他jdk组件下载jdk配置环境变量 1. 检测yum更新 2. 检索系统其他jd...
『IR 信息检索入门必看』#5 检索系统评价（简明）
访问博客查看本文[https://hwcoder.top/IR-Note-5/] 最新内容，排版更美观ヾ(•ω•...

网友评论

本文标题：IR homework 1: 构建布尔检索系统

本文链接：https://www.haomeiwen.com/subject/datfoftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|IR homework 1: 构建布尔检索系统|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！