首先,由于模型速率的限制(每分钟令牌数、每分钟请求数),文件上传向量化过程可能会超过速率的限制(除非开发人员在这里做一些特殊处理,让其不会超过模型速率的限制)。
然后,平台在文件向量化时,一定进行分段处理,且每段也有最大token限制,目前我见到的平台一般都是最大限制token在1000 以内,也有个别限制在2000以内的。
为什么对于每段有最大token限制?
原因在于,每次提示语+输入问题的向量搜索会找到相关的内容段,这里计算token是将 找到整个内容段的token全部计算进来的,如果每段的文字很多,token数量很多,这里就有可能超过 大模型的最大token数量了。
网友评论