评论分享 | 科学中的 ChatGPT：如何与数据对话

作者: BioJournal_Link | 来源:发表于2024-08-28 04:18 被阅读0次

浅探ChatGPT
Chat gpt是什么
用ChatGPT解释科学
数据科学家和数据工程师工作关系竟然这样！
我与ChatGPT的早餐对话
写十个关于 ChatGPT 状态的笑话。
5分钟扫盲chatGPT与OpenAI编程(for 开发者)
Python数据科学（一）- python与数据科学应用(Ⅰ)
Python数据科学（二）- python与数据科学应用(Ⅱ)
Python数据科学（六）- 资料清理(Ⅰ)

Basic Information

英文标题: ChatGPT for science: how to talk to your data
中文标题: 科学中的 ChatGPT：如何与数据对话
发表日期: 22 July 2024
文章类型: TECHNOLOGY FEATURE
所属期刊: Nature
文章链接: https://www.nature.com/articles/d41586-024-02386-6

科幻中的计算机分析与现实中的AI工具

在科幻作品中，角色无需编程技能就能从数据中提取有意义的信息，他们只需简单地提出问题：“计算机，分析。” 现在，越来越多的公司正在尝试将这种科幻变为现实——某种程度上是通过使用大型语言模型（LLMs）。这些强大但专注的人工智能（AI）工具让研究人员能够用自然语言向他们的数据提出问题，例如“对照组和实验组之间有什么区别？” 但与科幻中的AI不同，这些工具给出的答案仍需谨慎对待，并在使用前进行双重检查。就像是数据分析版的 ChatGPT。

这些工具出现的原因很简单：筛选和优先处理生物数据是繁琐且具有挑战性的，并且需要专门的技能。“生物数据变得越来越复杂，”加利福尼亚州旧金山 Enable Medicine 公司的一位科学经理 Alexandro Trevino 说道。该公司正在为其药物开发客户构建空间基因表达和蛋白质定位数据的图谱。“数据规模大幅增加，这些数据集的复杂性也在增加，因此我们在挖掘、理解和解释这些数据方面的挑战也相应增加。”

理论上，专用的LLM允许研究人员在不完全了解数据复杂性或不具备编程技能的情况下，从数据中提取洞见。而且其中一些工具已经可以回答相当复杂的问题。但这些工具仍在不断改进中。像其他基于LLM的工具一样，它们可能会出现“幻觉”或编造答案。因此，开发人员建议这些工具应在一定程度上由人类监督下使用。

为什么与数据“对话”？

如今，在线数据和查询工具并不短缺。例如，CZ CELLxGENE 数据门户提供了预构建的工具，允许研究人员查询单细胞基因表达数据集。类似 ChatPDF 的工具让研究人员能够上传PDF文件（如科学论文）并向其提问。然而，更复杂的分析需要了解底层数据的结构以及它们的变量名称和类型。

为了简化这种交互，位于旧金山的生物技术公司 Genentech 正从零开始构建基于 LLM 的工具。由公司位于纽约市的前沿研究总监 Stephen Ra 领导，这款 LLM 旨在解决“贯穿药物发现和开发管线的广泛问题，”他说，“从靶点识别、发现、安全性评估和优先级排序，到如何做出更好的决策，或者降低某些临床试验阶段的风险，或者更好地理解患者的轨迹和不良反应。”

Ra 表示，最终的 LLM 可以简化目前手动且繁琐的任务。例如，科学家可能暂时搁置他们的数据集，但之后希望对这些数据进行总结。他们可以提问，“给我这个特定时间、特定品系的特定检测结果”，Ra 说。该系统应能够充分理解查询内容和数据，从而满足请求。目前，Genentech 及其母公司罗氏的“多个团队”正在对该系统进行测试。

同样地，Enable Medicine 的 LLM 旨在帮助公司代表其客户——主要是肿瘤学和自身免疫性疾病领域的制药公司——查询其生物图谱。公司首席执行官 Kamni Vijay 表示，研究人员可以提出诸如“患者是否对治疗有反应，什么因素区分了有反应和无反应的患者？”或者“哪些生物标志物会影响或预测疾病进展？”之类的问题。

Vijay 还提到，Enable 正在基于几个现有的 LLM 进行构建，并使用数万份样本中的数百万GB的分子和细胞数据进行训练。然而，他们仍在进行实验。“我们的一部分研究是在探索这种界面是否在科学上具有有效性和价值。”

这些工具是什么样子的？

在这个领域的一些工具模拟了 ChatGPT 的流行问答格式。例如，由马萨诸塞州波士顿的布莱根妇女医院的计算病理学家 Faisal Mahmood 构建的 PathChat 允许用户输入病理图像（如肿瘤活检结果）以及描述性数据（例如“该肿瘤对标记 A、B 和 C 呈阳性染色”）。用户随后可以对这些数据提出自然语言问题，例如“你对该肿瘤的原发性来源有什么看法？” 这些交流以类似于 WhatsApp 对话的文字气泡形式呈现。

然而，Enable 的系统与这种问答格式有所不同。Vijay 表示，它是一个更加复杂的自动化系统，支持自然语言查询。

还有一些工具输出代码而非文字。Mergen 是一个基于 LLM 的 R 编程语言库，由柏林 Max Delbrück 中心的生物信息学家 Altuna Akalin 构建。Akalin 创建这个库（或称“包”）是因为他的团队收到的基因组数据分析请求超出了他们的处理能力。Mergen 主要面向基因组学研究人员，而非计算科学家。它分析预处理后的基因组数据集，以回答诸如“你能给我提供某一组个体中过表达的所有基因吗？”之类的问题。工具不会直接给出答案，而是返回可执行的代码来进行分析。不过，Akalin 警告说，和所有 LLM 一样，这些代码在使用前应由人进行仔细检查，因为即使代码可以执行，也可能包含逻辑错误。

它们是如何构建的？

要构建一个能够让研究人员与数据对话的 LLM 需要什么？与所有 AI 系统一样，答案是大量的训练数据。但是，数据类型的平衡同样重要，并且团队为实现这一平衡付出了相当大的努力，Ra 说道。“对我们来说，价值在于能够创建一个对 Genentech 内的多个团队广泛有用的工具，并允许这些团队微调他们自己的模型。” Ra 解释说，Genentech 使用了包括组学和临床数据在内的多项项目和领域的内部和外部信息组合来训练其模型。

Trevino 介绍说，有两种主要方法可以将通用型 LLM 转化为一个能够与数据对话的系统。一种方法是使用领域特定的信息（如病理学数据）对通用型 LLM 进行微调。在这种“非常有效”的方法中，模型本身“具体地学习了新的内容”。另一种方法称为情境化处理，不改变底层的通用型 LLM，而是为其提供定制的情境，如医学文献数据库，作为查询的一部分。Trevino 拒绝透露 Enable 使用的是哪种方法。

为了构建 PathChat，Mahmood 和他的团队从 Facebook 母公司 Meta 开发的通用型 LLM Llama 2 入手。他们将 LLM 与他们为病理学构建的两个视觉语言模型（UNI 和 CONCH）连接起来，每个模型都在数百万张病理图像和说明文字上进行了训练，从而形成了一个多模态 LLM。然后，研究人员利用从案例报告和教育文章中提取的五十万次病理对话对该多模态 LLM 进行了精炼，这些对话大多来自布莱根妇女医院和麻省总医院，涵盖了病例的完整发展过程，从而得到了 PathChat，Mahmood 说道。他补充说，目前布莱根妇女医院的一些病理学家正在使用该系统来解释显微图像并编写病理形态描述，然后由病理学家进行检查。

它们可靠吗？

确认至关重要：仅仅因为 LLM 提供了答案，并不意味着这个答案是正确的。LLM 可能会捏造答案或遗漏信息，而如何确保模型的回应是可验证和可复制的，仍然是一个未解决的问题，Trevino 说：“如何验证结果是一个活跃的研究领域。”

Ra 认为，领域专家的反馈是其中一个关键方面。有多种方式可以整合这些检查——例如，用户可以提供简单的“赞”或“踩”反馈，或者给出更详细的回应，甚至可以在人与 LLM 之间进行迭代交互。无论采用哪种方式，希望随着时间的推移，模型需要的输入会越来越少，因为随着数据集的扩大，这种反馈机制的可扩展性会受到限制。

Trevino 和 Ra 都表示，在研究特定的 LLM 中，理解和信任底层模型的运作尤其重要。Trevino 认为，一个挑战是“稍微打开这个黑箱”，以便更好地理解它为什么会以某种方式回答问题。这有助于减少“幻觉”的发生。

事实上，Genentech 从头构建其 LLM 的动机之一，Ra 说，是因为他们希望知道可以信任并理解输入模型的每一条数据。“在我们经常处理特权信息或非常敏感的信息（如患者数据）的环境中，这一点尤为重要。”

Ra 解释道，现成的“黑箱”LLM 并不总是清楚它们是如何训练的。“我认为这是对一些商业 LLM 解决方案的一个普遍批评，往往数据透明度不够。”

在 LLM 领域的另一个持续挑战是底层数据的偏见。在训练数据中代表性不足的群体会在生成的模型中被错误地代表，目前的基因组数据严重代表了欧洲血统的人群。Trevino 和 Vijay 认为，解决方案是改善底层数据的多样性。但他们也表示，底层数据何时足够多样化并没有真正的终点。

然而，如果这些挑战能够克服，“这些类型的模型将带来非常实际的好处，”Trevino 说。重要的是“确保这种好处得以实现并最大限度地普及化”，并且这些收益值得为之付出的努力。

本文由mdnice多平台发布

浅探ChatGPT
ChatGPT是什么 ChatGPT是OpenAI最新公布的对话模型，可以理解为对话版本的GPT3.5，帮你搜索信...
Chat gpt是什么
ChatGPT是 OpenAI 训练的对话式大规模语言模型，以对话的方式进行交互。如果你还没关注到ChatGPT...
用ChatGPT解释科学
最近ChatGPT爆红互联网，忍不住询问了科学界疑问，看看是否准确，还想问其他问题的，欢迎评论区留言。科学家的最...
数据科学家和数据工程师工作关系竟然这样！
在实际的工作中，数据科学家们不仅要学会如何实用工具，还要懂得如何与同事合作。在实际的数据建模和数据处理的过程中数据...
我与ChatGPT的早餐对话
吃着体检中心的早餐，我问了ChatGPT几个问题，发现它不但智能，还很智慧，最后还帮小朋友问了一个问题，很有趣[机智]
写十个关于 ChatGPT 状态的笑话。
1.“我听说 ChatGPT 服务器很慢，因为它们试图教 AI 如何耐心！2.“ChatGPT服务器必须卡在流量中...
5分钟扫盲chatGPT与OpenAI编程(for 开发者)
一、chatGPT与OpenAI ChatGPT 是 OpenAI 公司的一个技术产品，chatGPT使用了 GP...
Python数据科学（一）- python与数据科学应用(Ⅰ)
Python数据科学（一）- python与数据科学应用(Ⅰ)Python数据科学（二）- python与数据科学...
Python数据科学（二）- python与数据科学应用(Ⅱ)
Python数据科学（一）- python与数据科学应用(Ⅰ)Python数据科学（二）- python与数据科学...
Python数据科学（六）- 资料清理(Ⅰ)
Python数据科学（一）- python与数据科学应用(Ⅰ)Python数据科学（二）- python与数据科学...