美文网首页
RAG 学习笔记(九)

RAG 学习笔记(九)

作者: 啊阿伟啊 | 来源:发表于2024-01-26 08:48 被阅读0次

    基于博文 Advanced RAG Techniques: an Illustrated Overview 的学习和练习的记录。

    中文内容可以查看博主@宝玉的译文 高级 RAG 技术:图解概览 [译]

    系列笔记:
    RAG 学习笔记(一)
    RAG 学习笔记(二)
    RAG 学习笔记(三)
    RAG 学习笔记(四)
    RAG 学习笔记(五)
    RAG 学习笔记(六)
    RAG 学习笔记(七)
    RAG 学习笔记(八)

    性能评估

    Ragas 评估框架

    ragas 评估指标

    Ragas 框架中的评估指标分为两类

    1. 评估答案生成效果的指标:
      • 忠实程度(Faithfulness):生成的答案与给定上下文的一致程度
      • 回答的相关度(Answer relevancy):生成的答案与问题的相关程度
    2. 评估检索效果的指标:
      • 上下文准确率(Context precision):检索结果是否准确
      • 上下文召回率(Context recall):该出现的结果是否检索到了
      • 上下文相关度(Context relevancy):检索的内容与问题的相关程度(和文档分割策略相关)

    Truelens 评估框架

    RAG 三元组

    Truelens 框架 介绍了 RAG 三元组

    1. 上下文相关度(context relevance):检索的内容与问题的相关程度
    2. 依据性(groundedness):回答内容基于给定上下文的程度
    3. 回答相关度(answer relevance):生成的答案与问题的相关程度

    其他指标

    OpenAI cookbook 中演示的指标:

    1. 命中率(hit rate)
    2. 平均倒数 排名(Mean Reciprocal Rank):常见的搜索引擎指标

    与高级 RAG pipeline 的关系

    高级 RAG pipeline
    1. 1-7 部分、Encoder 和 Ranker 微调部分,都为了提高检索的相关度
    2. 8 部分、LLM 微调部分,都为了提高回答内容的相关度和依据性(groundedness)。

    图片中涉及的内容:请看系列笔记(二)到(七)

    资源

    1. 吴恩达课程:构建并评估高级 RAG
    2. 简单实现检索器评估 pipeline,并对微调的 Encoder 效果进行评估
    3. LangChain 评估框架 LangSmith:可以监控 RAG 管道内运行的情况,使系统更加透明。
    4. LlamaIndex 生态中的评估工具包:RAG Evaluation Pack,提供工具和相关开放数据集。

    结语

    除了之前介绍到的内容外,还有其他的技术:

    1. 基于网络搜索的 RAG,比如:LlamaIndex 的 RAGsweblangchain
    2. 深入 Agent 架构,比如 OpenAI 在 Agent 这项技术的“押注”
    3. 关于 LLM 长期记忆的讨论

    生产中 RAG 的挑战除了检索效果和回答效果外,就是运行速度了。因此 Mixtral 和 Phi-2 这类小模型是比较有前景的。


    完结撒花 ✿✿ヽ(°▽°)ノ✿

    相关文章

      网友评论

          本文标题:RAG 学习笔记(九)

          本文链接:https://www.haomeiwen.com/subject/tdsmodtx.html