LLM 构建应用事,一个重要的问题是如何评估应用的表现,是否达到了某种验收标准?用其他解决方案,比如采用其他 LLM 或调整向量数据库参数等时,会变得更好还是更差。
用语言模型和链来评估其他语言模型、其他链和其他应用
用怎样的数据集来评估。最简单的方式就是自己根据数据来构建。更好的方式是借用 LangChain 中的 QAGenerationChain 自动化这个过程。它读取文档并生成一组问题和答案。小技巧,设置 langchain.debug = true,可以观察过程中发生的事情
用 QAEvalChain 来评估
网友评论