1. max_tokens 设置尽可能小一点

因为在自然语言处理中，较长的文本输出通常需要更长的计算时间和更多的计算资源。因此，限制输出文本的长度可以在一定程度上降低计算成本和计算时间。这样做的目的，还有
1）保证输出文本的长度不会超过 LLM 的接受范围
2）充分利用计算资源，提高模型的运行效率
3）限制 max_tokens 能够增加 prompt 的长度；如 gpt-3.5-turbo 的限制为 4097 tokens，如果设置 max_tokens=4000，那么 prompt 就只剩下 97 tokens 可用，如果超过就会报错。

2. 数据集长文本如何切分比较合理？

通常会将文本按照段落或者句子进行切分，以便更好地处理和理解文本中的语义和结构信息。
最小切分单位取决于具体的任务和技术实现。例如gpt-3.5-turbo 的限制为 4097 tokens，他的最小节分单位不能超过4097 tokens。
通常情况下，我们需要将整个句子或者段落作为切分单位。当然，还需要进行实验和评估来确定最合适的 embedding 技术和切分单位。可以在测试集上 / 命中测试比较不同技术和切分单位的性能表现，并选择最优的方案。

3. 知识库里上传数据集文档是 Excel，如何更好的处理？

首行设置表头，后面每行显示内容，不要有其他多余的表头设置，不要设置复杂格式的表格内容。
如下方表格示例，仅需保留第二行的表头，首行（表格1）为多余表头，需删掉。

4. TopK：值范围为整数 1～10

用于筛选与用户问题相似度最高的文本片段。系统同时会根据选用模型上下文窗口大小动态调整片段数量。系统默认值为 2 。这个值建议可以*设置为 2～5 ，因为我们期待的是得到与嵌入的上下文匹配度更高的答案。

5. Score 阈值：值范围为两位小数的浮点数 0～1

用于设置文本片段筛选的相似度阈值，即：只召回超过设置分数的文本片段（在“命中测试”中我们可以查看到每个片段的命中分数）。系统默认关闭该设置，即不会对召回的文本片段相似值过滤。打开后默认值为 0.7 。这里我们推荐保持默认关闭设置，如果你有更精准的回复要求，也可以设置更高的值（最高值为1，不建议过高）