ChatGPT 实践有感
通常,向量化功能包括自动分段和自定义分段两种方式。
然而,自动分段可能导致内容不准确,尤其是在处理类似“xxxx有以下5个内容”的情况时。当篇幅较长的内容被提问时,原本的5个内容可能只会显示3个,其他两个则被遗漏。为了解决这个问题,我们可以使用“自定义分段”功能,将相似内容归为一个分段。以下是几种具体方法:
利用自定义分段功能,在原内容中需要分段的地方插入特殊字符以标识分段。系统会根据这些特殊字符进行分段。但需要注意的是,这种方法可能会导致超出最大1000 token的限制。这种方法适用于多行的excel表格数据,将每行作为一个分段。
对于字数较少的Word数据,若需要精确分段,我们可以先上传一个很小的Word文件,然后删除其中的分段。接着,根据自己的理解,将连贯的内容分段插入Word文件。请注意,字数应控制在500字以内,绝对不超过700字,以免在用户提问时出现token超限的问题。对于部分连贯但过长的内容,我们需要进行简单处理,如在前面添加一句总结性的陈述等。
网友评论