美文网首页
RAG 学习笔记(九)

RAG 学习笔记(九)

作者: 啊阿伟啊 | 来源:发表于2024-01-26 08:48 被阅读0次

基于博文 Advanced RAG Techniques: an Illustrated Overview 的学习和练习的记录。

中文内容可以查看博主@宝玉的译文 高级 RAG 技术:图解概览 [译]

系列笔记:
RAG 学习笔记(一)
RAG 学习笔记(二)
RAG 学习笔记(三)
RAG 学习笔记(四)
RAG 学习笔记(五)
RAG 学习笔记(六)
RAG 学习笔记(七)
RAG 学习笔记(八)

性能评估

Ragas 评估框架

ragas 评估指标

Ragas 框架中的评估指标分为两类

  1. 评估答案生成效果的指标:
    • 忠实程度(Faithfulness):生成的答案与给定上下文的一致程度
    • 回答的相关度(Answer relevancy):生成的答案与问题的相关程度
  2. 评估检索效果的指标:
    • 上下文准确率(Context precision):检索结果是否准确
    • 上下文召回率(Context recall):该出现的结果是否检索到了
    • 上下文相关度(Context relevancy):检索的内容与问题的相关程度(和文档分割策略相关)

Truelens 评估框架

RAG 三元组

Truelens 框架 介绍了 RAG 三元组

  1. 上下文相关度(context relevance):检索的内容与问题的相关程度
  2. 依据性(groundedness):回答内容基于给定上下文的程度
  3. 回答相关度(answer relevance):生成的答案与问题的相关程度

其他指标

OpenAI cookbook 中演示的指标:

  1. 命中率(hit rate)
  2. 平均倒数 排名(Mean Reciprocal Rank):常见的搜索引擎指标

与高级 RAG pipeline 的关系

高级 RAG pipeline
  1. 1-7 部分、Encoder 和 Ranker 微调部分,都为了提高检索的相关度
  2. 8 部分、LLM 微调部分,都为了提高回答内容的相关度和依据性(groundedness)。

图片中涉及的内容:请看系列笔记(二)到(七)

资源

  1. 吴恩达课程:构建并评估高级 RAG
  2. 简单实现检索器评估 pipeline,并对微调的 Encoder 效果进行评估
  3. LangChain 评估框架 LangSmith:可以监控 RAG 管道内运行的情况,使系统更加透明。
  4. LlamaIndex 生态中的评估工具包:RAG Evaluation Pack,提供工具和相关开放数据集。

结语

除了之前介绍到的内容外,还有其他的技术:

  1. 基于网络搜索的 RAG,比如:LlamaIndex 的 RAGsweblangchain
  2. 深入 Agent 架构,比如 OpenAI 在 Agent 这项技术的“押注”
  3. 关于 LLM 长期记忆的讨论

生产中 RAG 的挑战除了检索效果和回答效果外,就是运行速度了。因此 Mixtral 和 Phi-2 这类小模型是比较有前景的。


完结撒花 ✿✿ヽ(°▽°)ノ✿

相关文章

网友评论

      本文标题:RAG 学习笔记(九)

      本文链接:https://www.haomeiwen.com/subject/tdsmodtx.html