LangChain 之基于文档的问答系统。文档问答系统是常见的用 LLM 构建的复杂应用。其中关键技术就是 Embedding 和向量存储
用向量存储类(比如 VectorstoreIndexCreator)以及加载器对导入的文件(比如 csv)建立向量索引。向量索引传入问题,就能得到回答
这背后的主要问题是,文档通常很大,如何让 LLM 对文档所有内容进行问答。Embedding 就是将一段文本转成数字 Vector。内容相近的文本有相近的 Vector。如图所示,头两句都是关于宠物的,内容相近
将文档拆成小块,每次就将最相关的内容传给 LLM,然后将文本块生成 Embedding 和原始文本存储在向量数据库中。查到相似的文本块后,将文本块和原始查询一并传给 LLM,让 LLM 依据这些文档生成最终答案
网友评论