美文网首页
文本比对(不借助任何第三方库)

文本比对(不借助任何第三方库)

作者: 小诸葛686 | 来源:发表于2023-06-20 17:39 被阅读0次

基于python实现的文本比对,计算出文本相同部分。

import time

file = open(r"data/s1.txt", "r", encoding="utf-8")
s1 = file.read()

file = open(r"data/s2.txt", "r", encoding="utf-8")
s2 = file.read()


# 1.将文档1,文档2按单个字符分词。
# 2.求两个分词集合交集。
# 3.根据文档1和交集内容计算得到字符串tmp,判断tmp是否存在两个文档。
# 4.存在继续执行3。
# 5.不存在则tmp为相同内容。
# 6.继续执行3直到处理文档结束。
def by_set():
    set1 = set(s1)
    set2 = set(s2)
    res = set1.intersection(set2)

    tmp = ''
    count = 0
    for s in s1:
        tmp_str = (tmp + s).lstrip().lstrip('\n')
        flag = (s in res) and (tmp_str in s1) and (tmp_str in s2)
        if flag:
            tmp += s
        else:
            res_tmp = tmp.replace('\n', '').replace(' ', '')
            if len(res_tmp) > 10:
                tmp_result = tmp.strip().strip('\n')
                print(tmp_result)

                print('\n\n\n---------------------------------------------------------------------------------------------\n\n\n')
            tmp = s

        count += 1
        if count == len(s1):
            res_tmp = tmp.replace('\n', '').replace(' ', '')
            if len(res_tmp) > 12:
                tmp_result = tmp.strip().strip('\n')
                print(tmp_result)


start = time.time()
by_set()
end = time.time()

print('\n\n\n')
print(end - start)

相关文章

  • python-数据库连接/网络编程

    1、连接 Python连接数据库需要借助第三方库,数据库的类型不同,使用的第三方库也不一样,本文以MySQL数据库...

  • 基因组注释--重复序列注释(二):RepeatMasker安装与

    前言 RepeatMasker是一个通过已有数据库预测重复序列的软件,依赖于RepBase数据库和第三方比对软件(...

  • 2020-03-16

    使用cocoapods更新第三方库 只更新指定第三方库,不更新其他的库 pod update 库名--verbos...

  • 中级04 - Java Web

    一、Java Web初体验 1. 使用Java发送HTTP请求 可以借助第三方库,比如 httpclient,接着...

  • 什么是离线人脸识别?

    从自建人脸库中进行筛选比对,整个比对运算的过程在本地服务器内完成,不经过外网传递、不产生人脸比对费用,真正实现自建...

  • 斯科德离线人脸识别 自建人脸库的闭环管理

    斯科德离线人脸识别从自建人脸库中进行筛选比对,整个比对运算的过程在本地服务器内完成,不经过外网传递、不产生人脸比对...

  • clang: error: linker command fai

    iOS 9.0更新碰到:第三方库不包含bitcode运行错误提示 某一个第三方库不包含bitcode? bitc...

  • jieba 库

    1. jieba 库概念 jieba 是优秀的中文分词第三方库 中文文本需要通过分词或得单个的词语 jieba 是...

  • [react]17、AntDesign

    1、React中添加class 在React中可以借助于一个第三方的库:classnames添加命令:yarn a...

  • Could not automatically select a

    使用pod遇到如下图问题时 [1] 当从终端进入pod后,不添加任何第三方开源库的时候,直接pod install...

网友评论

      本文标题:文本比对(不借助任何第三方库)

      本文链接:https://www.haomeiwen.com/subject/qwayydtx.html