在开放数据上训练的图像扩散模型
https://arxiv.org/abs/2310.16825
摘要
我们组装了一个知识共享许可 (CC) 图像的数据集,用于训练一组开放扩散模型,这些模型在质量上可与Stable Diffusion 2 (SD2) 竞争。 这项任务提出了两个挑战:
(1) 高分辨率 CC 图像缺乏训练文本到图像生成模型所需的标题;
(2) CC图像相对稀缺。
反过来,为了应对这些挑战,我们使用直观的迁移学习技术来生成一组与精选的 CC 图像配对的高质量合成字幕。 然后,我们开发了一种数据和计算效率高的训练方法,训练现有 SD2 模型所需的 LAION-2B 数据只需 3%,但获得的质量相当。 这些结果表明我们有足够数量的 CC 图像(约 7000 万)来训练高质量模型。
我们的训练方案还实施了各种优化,可实现约 3 倍的训练加速,从而实现快速模型迭代。 我们利用这个方法来训练几个高质量的文本到图像模型,我们将其称为 CommonCanvas 系列。
尽管我们在比 LAION 小得多的 CC 数据集上进行训练并使用合成字幕进行训练,但我们最大的模型在人类评估中实现了与 Stable Diffusion 2 相当的性能。 我们在此 https URL 发布我们的模型、数据和代码
精选图片
Figure 1: Selection of text prompts. Using entirely Creative-Commons images and our synthetic captioning approach, we achieve comparable qualitative performance to Stable Diffusion 2 (SD2- base), as seen in CommonCanvas generations, while only requiring a small fraction (< 3%) of the amount of training data. (c) “Lossy compression” via BLIP-2 from an input image to a synthetic caption. When we use a T2I model to generate an image with this “lossy” caption (e.g., via CommonCanvas), the resulting generation looks nothing like the original prompt image that produced the caption.局限性
我们没有解决的一个问题是,YFCC100M 数据已有大约十年的历史; 它的 CC 图像不像 LAION-2B 中的那样最新。 鉴于我们成果的成功,未来我们计划使用来自其他来源的知识共享图像来增强 CommonCatalog,并测试更大的 CommonCanvas 模型架构。
结论
在本文中,我们仅在知识共享图像和合成字幕上训练 CommonCanvas 文本到图像潜在扩散模型系列。 我们讨论与 CC 图像相关的数据不完整和稀缺问题,以及我们如何依次解决这些问题。
对于数据不完整性,我们提出了telephoning,这是一种直观的迁移学习类型(第 3 节),我们用 BLIP-2 实例化它,以生成 CC 图像的合成标题 - 共同构成 CommonCatalog 数据集(第 4 节)。
关于数据稀缺性,我们假设使 SD2 饱和所需的数据比 LAION-2B 中包含的数据少得多,并且 CommonCatalog 应该足以进行训练。
为了更有效地测试这一假设,我们实施了各种机器学习系统优化,其速度比我们的 SD2 基线提高了 2.7 倍。 最终,我们发现我们可以在 <3% 的 LAION-2B(第 5 节)上训练 SD2,这鼓励我们在 CommonCatalog 的商业(大约 7000 万)和非商业(大约 2500 万)示例上进行训练。 我们的 CommonCanvas 模型在某些类别(例如人脸)中表现不佳,但 CommonCanvas-LNC 在人类评估方面表现出与 SD2 统计上相当的性能(第 6 节)
LLM 中的 4 位量化
https://arxiv.org/abs/2310.16836v1
摘要
我们提出 LLM-FP4,用于以训练后的方式将大型语言模型 (LLM) 中的权重和激活量化为 4 位浮点值。 现有的训练后量化 (PTQ) 解决方案主要基于整数,并且难以应对低于 8 位的位宽。
与整数量化相比,浮点(FP)量化更加灵活,可以更好地处理长尾或钟形分布,并且已成为许多硬件平台的默认选择。 FP量化的特点之一是其性能很大程度上取决于指数位和限幅范围的选择。
在这方面,我们通过搜索最佳量化参数构建了强大的 FP-PTQ 基线。 此外,我们观察到激活分布中存在较高的通道间方差和较低的通道内方差模式,这增加了激活量化的难度。 我们认识到这种模式在为不同任务设计的一系列 Transformer 模型中是一致的,例如 LLM、BERT 和 Vision Transformer 模型。
为了解决这个问题,我们提出了每通道激活量化,并表明这些额外的缩放因子可以重新参数化为权重的指数偏差,从而产生的成本可以忽略不计。 我们的方法首次可以将 LLaMA-13B 中的权重和激活量化为仅 4 位,并在常识零样本推理任务上取得了 63.1 的平均分数,仅比全样本低 5.8。 精度模型,明显优于之前的最先进模型 12.7 个百分点。 代码位于:此 https URL。
精选图片
Figure 1: An illustration of floating-point (FP) quantization process using FP5 (E2M2) positive axis. The real-valued clipped X′′ R in Eq. 5 is rescaled by the real-valued scaling factor α˜. Figure 3: Overview of pre-shifted exponent bias method: (a) Search phase: The real-valued channel-wise scaling exponent bias for activations (b˜ j ) is partitioned into a real-valued tensor-wise exponent bias (ρ), and the integer-based channel-wise exponent bias (b˜ori j ). (b) Reparameterization and weight pre-computation: Once the optimal values are determined on the calibration set, b˜ori j are re-parameterized into the weight tensor. The weights are pre-computed to apply the bias, therefore this is a one-time cost. (c) Inference phase: The method leverages efficient matrix multiplication between low-bit floating-point matrices.局限性
我们的实验是在具有有限句子长度的公开数据集上进行的,我们的方法对极长序列或流数据的通用性尚未得到验证,可能需要进一步研究。 此外,我们提出的方法如何推广到语言和视觉之外的其他领域(例如音频)还有待观察。 看到我们的方法对生成任务和其他应用程序的适用性也很有趣。
结论
本文首次成功演示了自然语言转换器架构(包括大型语言模型和 BERT 模型)中权重、激活和嵌入的 4 位浮点训练后量化。
我们还将我们的方法扩展到视觉转换器并观察其强大的泛化能力。 我们的方法涉及一种实用的基于搜索的技术,该技术建立了强大的基线并实现了 6 位和 8 位量化的最先进结果。
此外,我们通过提出预移位指数偏差来解决变压器通道间高方差的挑战,这在实现精确的 4 位量化方面被证明非常有效。
评估GPT-4V的光学字符识别能力
https://arxiv.org/abs/2310.16809v1
摘要
本文对最近发布的大型多模态模型 (LMM) GPT-4V(ision) 的光学字符识别 (OCR) 功能进行了全面评估。 我们评估了模型在一系列 OCR 任务中的性能,包括场景文本识别、手写文本识别、手写数学表达式识别、表格结构识别以及从视觉丰富的文档中提取信息。
评估表明,GPT-4V 在识别和理解拉丁语内容方面表现良好,但在处理多语言场景和复杂任务方面表现不佳。 基于这些观察,我们更深入地研究了专门的 OCR 模型的必要性,并考虑了充分利用 GPT-4V 等预训练通用 LMM 来执行 OCR 下游任务的策略。
该研究为未来 LMM 的 OCR 研究提供了重要参考。 评估流程和结果可在此 https URL 上获取。
精选图片
Figure 1: Illustration of word-level scene text recognition. In the answers of GPT-4V, we highlight the characters match the GT in green and characters do not match in red. GPT-4V can recognize curved, slanted and artistic English text, while comman-style Chinese text can not be recognized.局限性
我们的工作存在三个主要局限性。 首先,由于 GPT-4V 的对话限制(每 3 小时 50 个对话),我们评估的测试样本规模较小(大多数为每个数据集 50 个样本)。
这可能会限制结果的普遍性。 其次,我们的评估主要关注主流OCR任务,不包括其他OCR相关任务。
因此,研究结果可能无法涵盖 GPT-4V 的全部 OCR 功能。 第三,仅评估了 GPT-4V 在 OCR 中的零样本能力,而没有探索少样本场景。 因此,没有解决针对特定任务进一步训练或微调模型的潜在好处。 采用上下文学习[89]等技术的小场景场景值得未来探索。
结论
在本文中,我们通过各种实验对 GPT-4V 的 OCR 能力进行了全面评估。 我们首次不仅提供定性演示,还提供 GPT4V 在各种任务中的定量性能分析。 这些任务包括场景文本识别、手写文本识别、手写数学表达式识别、表格结构识别以及从视觉丰富的文档中提取信息。
我们的研究结果以细致的实验结果为基础,对 GPT-4V 的优点和局限性进行了深入分析。 尽管该模型显示出准确识别拉丁语内容的强大能力,但它在处理多语言和复杂场景时表现出明显的困难。 此外,高昂的推理成本和持续更新带来的挑战对 GPT-4V 的实际部署构成了重大障碍。
尽管存在这些限制,GPT-4V 和其他现有的通用 LMM 仍然可以通过多种方式为 OCR 领域的发展做出重大贡献。 其中包括增强语义理解、对下游任务进行微调以及促进自动/半自动数据构建。 总之,本文首次对 GPT-4V 在 OCR 任务中的性能进行了深入的定量评估。 我们将在未来不断更新评估结果,我们希望本文的研究结果能为使用大型多模态模型从事 OCR 任务的研究人员和从业者提供有价值的见解和策略。
回答长篇结构化文档的问题
https://arxiv.org/abs/2309.08872
摘要
当文档无法适应 LLM 的上下文长度时,大型语言模型 (LLM) 会出现文档问答 (QA) 问题。 为了克服这个问题,大多数现有的工作都集中于从文档中检索相关上下文,并将它们表示为纯文本。 然而,PDF、网页和演示文稿等文档自然是由不同的页面、表格、部分等构成的。
将此类结构化文档表示为纯文本与用户对这些具有丰富结构的文档的心智模型不一致。 当系统必须查询文档的上下文时,这种不协调性就会凸显出来,看似微不足道的问题可能会妨碍 QA 系统。
为了弥补处理结构化文档方面的这一根本差距,我们提出了一种称为 PDFTriage 的方法,该方法使模型能够根据结构或内容检索上下文。
我们的实验证明了所提出的 PDFTriage 增强模型在解决现有检索增强LLM无法解决的几类问题上的有效性。 为了促进对这一基本问题的进一步研究,我们发布了基准数据集,其中包含 900 多个人工生成的问题,超过 80 个结构化文档,来自 10 种不同类别的问题类型,用于文档 QA。
精选图片
Figure 1: Overview of the PDFTriage technique: PDFTriage leverages a PDF’s structured metadata to implement a more precise and accurate document question-answering approach. It starts by generating a structured metadata representation of the document, extracting information surrounding section text, figure captions, headers, and tables. Next, given a query, a LLM-based Triage selects the document frame needed for answering the query and retrieves it directly from the selected page, section, figure, or table. Finally, the selected context and inputted query are processed by the LLM before the generated answer is outputted. Figure 3: User Preferences between PDFTriage and Alternate Approaches: Overall, PDFTriage-generated answers were favored the most by the users, claiming 50.8% of the top-ranked answers overall. Furthermore, PDFTriage answers ranked higher on certain multi-page tasks, such as structure questions and table reasoning, while ranking lower on generalized textual tasks, such as classification and text questions. However, across all the question categories, PDFTriage beat both the Page Retrieval and Chunk Retrieval approaches on a head-to-head ranking.结论
在这项工作中,我们提出了 PDFTriage,一种专门用于面向文档的任务的新型问答技术。 我们将我们的方法与现有的问答技术(例如页面检索和块检索)进行比较,以证明我们方法的优势。 我们发现 PDFTriage 提供了优于现有方法的性能。 PDFTriage 还被证明在用于检索的各种文档长度和上下文中都是有效的。 我们正在考虑未来工作的以下方向: 1. 开发多模式方法,将表格和图形信息纳入 GPT-4 文档问答中。 2. 将问题类型纳入 PDFTriage 方法中,以提高该方法的效率和功效。
评估LLM多轮对话中的聊天能力
https://arxiv.org/abs/2310.13650v1
摘要
通过高质量的多轮对话与人类交互是大型语言模型(LLM)的一个关键特征。 然而,对这种能力的人为评估涉及密集的体力劳动。
本报告通过基于LLM的方法,对现有的用于人类风格多轮聊天的大型语言模型进行了初步评估。 我们从现实世界的人类对话开始,并将最初的话语保留为 ChatSEED。
然后,我们提示LLM基于 ChatSEED,逐个话语生成完整的多轮对话(数十个话语)。 最后,我们采用最先进的 LLM(GPT-4 等)作为评委来评估生成的对话。 通过不同的评估方案,我们得出了基本相同的结论。 我们发现 GPT-4 可以生成质量令人印象深刻的人类风格的多轮对话,明显优于其同行。
鉴别器很难区分 GPT-4 生成的对话和人类对话。 相比之下,其他LLM由于指令遵循能力差、倾向于生成冗长的话语或一般能力有限,因此很难生成质量令人满意的多轮对话。 所有数据和代码将在此 https URL 中提供,我们希望它们可以作为评估 LLM 多轮聊天能力的宝贵资源。
精选图片
Figure 1. BotChat evaluates the multi-turn dialogue performance by prompting ChatBots to generate multi-turn dialogues based on initial human utterances and evaluate them with a judge LLM. Figure 3. The length distribution of utterances generated by different LLMs, in a violin plot.结论
在本报告中,我们设计了一个代理评估范式 BotChat 来衡量大型语言模型的多轮对话能力。 BotChat 与 LLM 法官评估 ChatBot 生成的对话,以将繁重的人力从评估中解放出来。
我们设计了多种评估协议,并采用它们来评估 14 名现代LLM生成的对话。 我们发现很大一部分LLM擅长进行有限轮次的对话。 然而,当轮数较大时,只有少数LLM(GPT-4、Vicuna-v1.5-13B等)取得了令人满意的性能。 我们希望 BotChat 能够成为多轮对话能力自动评估之旅中的宝贵资源。
SALMONN:为理解声音世界而调整的人工智能模型
https://arxiv.org/abs/2310.13289v1
摘要
听觉可以说是物理世界中人工智能(AI)主体的一项基本能力,它是指感知和理解由至少三种类型的声音组成的一般听觉信息:语音、音频事件和音乐。 在本文中,我们提出了 SALMONN,一种语音音频语言音乐开放神经网络,通过将预训练的基于文本的大语言模型(LLM)与语音和音频编码器集成到单个多模态模型中而构建。 SALMONN 使LLM能够直接处理和理解一般音频输入,并在训练中使用的许多语音和音频任务上取得有竞争力的表现,例如自动语音识别和翻译、基于听觉信息的问答、情绪识别、说话者验证、 SALMONN 还具有训练中未见的多种新兴能力,其中包括但不限于将语音翻译为未经训练的语言、基于语音的槽位填充、基于口语查询的问题 回答、基于音频的故事讲述和语音音频共同推理\textit{等}。 研究了跨模态涌现能力的存在,并提出了一种新颖的小样本激活调整方法来激活 SALMONN 的这种能力。 据我们所知,SALMONN 是该类型的第一个模型,可以被视为迈向具有通用听力能力的人工智能的一步。 SALMONN 的交互式演示可在 \texttt{\url{this https URL}} 获取,训练代码和模型检查点将在接受后发布。
精选图片
Figure 1: The model architecture of SALMONN. A window-level Q-Former is used as the connection module to fuse the outputs from a Whisper speech encoder and a BEATs audio encoder as augmented audio tokens, which are aligned with the LLM input space. The LoRA adaptor aligns the augmented LLM input space with its output space. The text prompt is used to instruct SALMONN to answer open-ended questions about the general audio inputs and the answers are in the LLM text responses. The LLM and encoders are kept frozen while the rest can be updated in training.结论
这项工作提出了 SALMONN,一种语音音频语言音乐开放神经网络,可以被视为LLM迈向通用听力能力的一步。 配备双听觉编码器的 SALMONN 在语音识别、音频字幕和语音翻译等训练任务上取得了有竞争力的表现,同时推广到一系列未经训练的理解任务,如槽填充、未经训练语言的语音翻译和关键词提取。 此外,所提出的激活调整阶段使 SALMONN 具有卓越的突发能力,例如基于音频的讲故事和语音音频共同推理。 因此,通过彻底、全面的实验评估,SALMONN 展示了未来开发通用听力 AI 的有前景的方向。
网友评论