文件向量化的分段为什么有最大token限制？

作者: 求知笔记 | 来源:发表于2023-12-27 15:07 被阅读0次

【ceph】分段上传
七牛上传开发（一）限制文件类型和文件大小
【许晓笛】 EOS 智能合约案例解析(2)
以太坊平台相关的STO协议2
内存分页不就够了?为什么还要分段?还有段页式?
【许晓笛】 EOS 智能合约案例解析(3)
IT匠心说 -《Linux系统限制》
多线程的使用场景
系统限制ulimit学习
linux中的limits.conf文件配置

首先，由于模型速率的限制（每分钟令牌数、每分钟请求数），文件上传向量化过程可能会超过速率的限制（除非开发人员在这里做一些特殊处理，让其不会超过模型速率的限制）。

然后，平台在文件向量化时，一定进行分段处理，且每段也有最大token限制，目前我见到的平台一般都是最大限制token在1000 以内，也有个别限制在2000以内的。

为什么对于每段有最大token限制？

原因在于，每次提示语+输入问题的向量搜索会找到相关的内容段，这里计算token是将找到整个内容段的token全部计算进来的，如果每段的文字很多，token数量很多，这里就有可能超过大模型的最大token数量了。

【ceph】分段上传
整体上传对象接口最大文件限制分段上传对象接口达到多大需要分段上传每段切分为多大
七牛上传开发（一）限制文件类型和文件大小
功能点限制文件大小设置上传凭证的有效时间限制文件类型设置上传凭证的有效时间若token失效，接口返回参数...
【许晓笛】 EOS 智能合约案例解析(2)
详解 EOS 智能合约的 cpp 文件之前的文章介绍了 eosio.token 智能合约的 hpp 文件，这次向...
以太坊平台相关的STO协议2
1.7 ERC-1404 简单受限制Token标准标题：简单受限制Token标准(Simple Restrict...
内存分页不就够了?为什么还要分段?还有段页式?
关于内存访问你可能听过分段，分页，还有段页式。但是为什么要分段？又为什么要分页？有了分页为什么还要分段？这就...
【许晓笛】 EOS 智能合约案例解析(3)
详解 EOS 智能合约的 abi 文件这次向大家介绍 eosio.token 智能合约的最后一个文件 —— ab...
IT匠心说 -《Linux系统限制》
列出所有限制： ulimit -a 仅列出「文件句柄数」、「最大进程数」的限制： ulimit -n -u 调整限...
多线程的使用场景
什么时候使用多线程场景1：批量处理任务向大量（100w以上）的用户发送邮件处理大批量文件处理大文件时，文件分段...
系统限制ulimit学习
ulimit命令 ulimit用于控制系统内执行资源的限制，如coredump文件大小、文件的最大值、能打开的最大...
linux中的limits.conf文件配置
实验环境为ubuntu16.04实验目的将打开文件的最大限制数修改为65535实验操作：1、查看打开文件的限制数 ...