头条
福特宣布新的自动驾驶部门“Latitude AI”
福特致力于自动驾驶汽车的未来,这一声明证实了这一点。总部位于匹兹堡的 550 人团队将继续致力于福特产品中的技术,同时对全自动驾驶汽车进行长期研究。该领域的长期领导者将以各种身份领导团队。
谷歌云 CEO 为持续的 AI 能力而呐喊
随着人工智能竞赛的升温,谷歌感受到了压力。在最近的一次内部会议上,谷歌云 CEO 表示“游戏永远不会在第一分钟结束”,并敦促员工团队合作,继续提高 AI 能力。他谈到了历史书籍将如何描述谷歌在这段时间的航行,并对搜索的未来表示乐观。
研究
长卷积和巧妙的令牌混合规模在 64k 令牌时快 100 倍
斯坦福大学系统小组的另一篇论文致力于提高长上下文的语言建模能力。他们致力于构建次二次注意力替代,并建立在他们最近在状态空间模型和长卷积工作中的大部分工作之上。他们引入了“Hyena Hierarchy”,这是对注意力的一种替代,同时减少了 FLOP,并改进了长上下文扩展。这是令人兴奋的下一步,值得一读。
无限大小的扩散恢复
该论文讨论了扩散模型在零样本图像恢复中的使用,并提出了处理任意大小图像的解决方案。当前的方法仅处理固定大小的图像,但所提出的方法使用 Mask-Shift Restoration 来解决局部不连贯,并使用 Hierarchical Restoration 来缓解域外问题。这些无参数方法不仅可以用于图像恢复,还可以用于无限大小的图像生成,使其成为扩散模型的潜在通用工具。
StraIT:使用分层图像变换器的非自回归生成
该论文提出了一种称为分层图像变换器 (StraIT) 的非自回归 (NAR) 生成模型,该模型在高质量图像合成方面优于现有的自回归 (AR) 和扩散模型 (DM)。 StraIT 利用图像的分层特性将视觉标记编码为分层级别,从而减轻建模难度并提升 NAR 模型的生成能力。实验表明,StraIT 在 ImageNet 上以 256×256 分辨率实现了 3.96 的 FID 分数,而没有利用采样或辅助图像分类器中的任何指导。
工程
使用扩散模型的单眼深度估计 (Github Repo)
作者提出了一种基于去噪扩散模型的单目深度估计方法。他们引入创新来解决嘈杂和不完整的深度图,并利用预训练进行监督学习。他们的 DepthGen 模型实现了最先进的性能并自然地表示深度模糊。该模型的插补支持和零样本性能支持简单的文本到 3D 管道。
比 ControlNet 更好的控制 (HuggingFace Space)
另一种控制文本到图像模型的几何输出的新颖方法。这次可以指定多个区域进行控制。通用代码尚不可用,但您可以在此空间中测试模型。
拼贴扩散:精确控制拼贴条件图像生成
该论文提出了 Collage Diffusion,这是一种拼贴条件扩散算法,可以精确控制生成图像中对象的空间排列和视觉属性。通过使用 alpha 掩码修改文本-图像交叉注意力并学习每层的专门文本表示,用户可以逐层编辑生成图像的各个组成部分并控制图像协调。 Collage Diffusion 生成全局协调的图像,比以前的方法更好地保持所需的对象位置和视觉特征。
杂七杂八
EleutherAI 回顾展
Eleuther 是机器学习领域顶级的开放科学合作组织之一,在过去一年半的时间里为该领域做出了许多贡献。他们发表了 28 篇论文、10 种不同的模型和数十个代码库。许多最激动人心的发展,如 RWKV、GPTNeo 和 AlphaFold 的开放复制都来自这个小组。在这里阅读更多关于他们正在做什么以及接下来会发生什么的信息。
20B Flan UL2 模型发布 - 完全开源,无限制
该指令调优模型的上下文长度为 2048 个标记,是文本生成的优秀基础模型。凭借改进的 CoT、上下文学习和一般性能(比 FlanT5-xxl 高出 7.4%),该模型在开源语言模型方面向前迈出了一大步。该模型使用 UL2 目标,它是降噪器的混合体,在通用语言建模方面表现出令人印象深刻的性能。重要的是,他们还在 Flan 指令调整过程之前通过额外的 100k 步训练消除了对繁琐模式标记的需求。
OpenAI CTO Mira Murati 的崛起
本文深入探讨了 OpenAI 首席技术官 Mira Murati 如何成为科技界最具影响力的创新者之一。
罗马尼亚推出世界首位人工智能政府“顾问”
罗马尼亚政府推出了“Ion”,这是一个基于人工智能 (AI) 的平台,旨在记录罗马尼亚人的声音和意见,并用它们来指导国家政策决策。
OpenAI 定价线程 (Twitter Thread)
昨天 ChatGPT API(又名“gpt-3.5-turbo”)价格下跌 90% 是 AI 的另一个前后时刻。
PromptCraft-Robotics(GitHub Repo)
PromptCrafts-Robotics 是一个社区,供人们测试和分享机器人领域 LLM 的有趣提示示例。
Nebullvm (GitHub Repo)
Nebullvm 是一个即插即用模块生态系统,可优化您的人工智能系统的性能。
网友评论