头条
Voicemod 筹集了 1450 万美元以推动生成式 AI(声波)繁荣
Voicemod 已成为实时变声和音板技术的领先创造者。他们的使命是让每个人都能通过声音表达自己。他们构建了富有表现力和身临其境的音频工具,可以轻松创建独特的声音特性并实现与个性化声音的交互。这将是巨大的,因为播客、画外音和有声读物空间在过去几年里爆炸式增长。
Deep Graph Library 达到 1.0
DGL 是图深度学习中一个强大而有用的工具,现已推出 1.0 版!其中包括数百个最先进的图形网络、基线和各种图形编辑实用程序的示例。它们还具有用于消息传递算法和多 GPU 训练的模块化构建块。所有这些都组合成一个工具包,可以扩展强大的算法来绘制数十亿个连接图。
研究
通过检索文档生成代码
由于代码接口经常变化和上下文学习的局限性,强烈需要能够在不进行昂贵的数据收集和模型再训练的情况下更新程序综合性能。这项工作表明使用文档可以改进 CodeT5 的生成代码。结果很好,提高了约 3% 这不是根本性的变化,但对从业者来说可能是一个有用的技巧
语言不是你所需要的全部:将感知与语言模型相结合
KOSMOS-12 是一种多模式大型语言模型,可以在上下文中学习、遵循指令并感知一般模式。它在一系列任务上取得了令人印象深刻的表现,包括语言理解、感知语言和视觉任务。该模型在网络规模的多模态语料库上进行了训练,并受益于跨模态迁移。作者还介绍了一个用于诊断 MLLM 的非语言推理能力的数据集。
定向扩散:通过注意力引导直接控制物体放置
文本引导的扩散模型很难在特定位置组成具有多个对象的场景,这在讲故事中至关重要。为了解决这个问题,作者提出了 Directed Diffusion,这是一种通过在交叉注意力图中的所需位置注入“激活”同时衰减其余位置来提供对多个对象的位置控制的方法。此方法可与现有的预训练模型一起使用,并且只需要几行代码即可实现。
工程
ChatLLaMA:基于 Meta 的 LLaMA 模型的 ChatGPT (GitHub Repo)
Meta 最近发布了 LLaMA 集合,包含 7 到 650 亿个参数模型,这些模型比 GPT-3 更小,但表现出更好的性能。这个新系列为更快的推理性能和实时助手打开了大门,同时具有成本效益并在单个 GPU 上运行。然而,它们并没有针对教学任务进行微调。为了解决这个问题,ChatLLaMA 作为第一个基于人类反馈强化学习 (RLHF) 训练过程的 LLaMA 开源实现被引入。它支持所有 LLaMA 模型架构,与原始 ChatGPT 相比,允许更快、更便宜的训练和推理。
VoxFormer:3D 语义占用预测的前沿基线 (Github Repo)
作者提出了 voxformer,这是一个框架,旨在使 AI 系统能够从 2D 图像中想象出被遮挡物体和场景的完整 3D 几何形状。 VoxFormer 使用两阶段设计,其中一组稀疏的可见和占用的体素查询来自深度估计,然后是生成密集 3D 体素的致密化阶段。该框架采用掩码自动编码器设计,通过自注意力将信息传播到所有体素。 SemanticKITTI 上的实验表明,VoxFormer 优于现有技术,在几何方面相对改进了 20.0%,在语义方面相对改进了 18.1%,并且在训练期间将 GPU 内存减少了约 45% 至不到 16GB。
杂七杂八
人工智能计算 40 年
对 AI 多年来的各种趋势的一个很好的汇编。所需的计算量每 9 个月翻一番,而参数数量每 18 个月翻一番。到 2031 年,硬件改进可能会得到改善。训练超过 15 个月的模型没有意义。这不仅限于语言,还包括视觉和 RL。包括交互式图表。
冷静,没有有意识的AI
这篇文章提醒我们,尽管 Bing AI 和 ChatGPT 看似人类的反应,但这些聊天机器人并没有意识或感知力。在我们实现通用人工智能 (AGI) 之前,我们还有很长的路要走,这正是 OpenAI 最初着手解决和保护人类免受侵害的问题。
Ask Seneca (Product Launch)
从基于 Seneca 的基于 GPT3 的斯多葛哲学家那里获得生活建议。
组建人工智能产品团队
Meta 正在组建一个 AI 产品团队,专注于为 WhatsApp、Messenger 和 Instagram 添加生成 AI 功能。
Learn Prompting (Online Course)
Learn prompting 是关于提示工程的免费开源课程。
网友评论