头条
谷歌向 Gemini Advanced 推出 Gems 和 Imagen 3
https://9to5google.com/2024/08/28/gemini-advanced-gems-imagen-3/
谷歌正在向 Gemini Advanced 订阅用户推出其新功能 Gems 和 Imagen 3。 Gems 允许用户创建针对特定任务的 Gemini 自定义版本,提供学习教练和编码合作伙伴等预制选项,而 Imagen 3 是 Google 最新的图像生成模型,现在可用于生成详细且艺术的图像。
Midjourney 表示正在“进军硬件领域”
https://techcrunch.com/2024/08/28/midjourney-says-its-getting-into-hardware/
Midjourney 正在向硬件领域扩张,并在旧金山组建了一支新团队。这一举措从聘请前 Neuralink 和 Apple Vision Pro 工程师 Ahmad Abbas 就可以看出,硬件可能与其正在开发的视频和 3D 生成 AI 模型有关。
OpenAI 正在洽谈融资,估值超过 1000 亿美元
OpenAI 正在洽谈在由 Thrive Capital 牵头的新一轮融资中筹集数十亿美元,这将使该公司的估值超过 1000 亿美元,微软也有望参与其中。
研究
生成验证器:奖励建模作为下一个标记预测
https://arxiv.org/abs/2408.15240
奖励模型通常被训练为判别分类器。DeepMind 的这项工作使用语言模型的“是/否”逻辑作为奖励信号。它发现,通过允许模型使用 CoT 和集成,研究人员将性能提高了 16%。
多语言套利
https://arxiv.org/abs/2408.14960
Cohere 的 Aya 模型能够通过利用 oracle 模型性能和路由合成数据生成之间的差异,显着提高其相对于基线模型的胜率。
Text2SQL is Not Enough: Unifying AI and Databases with TAG
https://arxiv.org/abs/2408.14717v1
表增强生成是一种新范式,它将语言模型与数据库相结合,以回答复杂的自然语言问题。
工程
使用扩散模型快速高质量生成 3D 形状
https://github.com/octree-nn/octfusion
OctFusion 是一种使用扩散模型生成 3D 形状的方法,可实现高效和高质量。它可以在单个 Nvidia 4090 GPU 上仅用 2.5 秒生成任意分辨率的 3D 形状。
将 Transformer 提炼为高效的线性 RNN
https://github.com/jxiw/mambainllama
研究人员已经证明,大型 Transformer 模型可以提炼为更易于部署的线性 RNN,并重复使用注意层的权重。
事件引导视频去模糊
https://arxiv.org/abs/2408.14930v1
研究人员开发了一种新的视频去模糊方法,通过集成事件相机(以微秒时间分辨率捕捉运动)来增强运动模糊视频的清晰度。
杂七杂八
设备上的实时 AI
https://cartesia.ai/blog/2024-08-27-on-device
Cartesian 宣布了多项模型和系统改进。它还发布了一个开放的混合状态空间模型。
Stephen Wolfram 认为我们需要哲学家研究 AI 周围的大问题
Stephen Wolfram 强调将哲学严谨性纳入 AI 研究、解决核心伦理问题的重要性。随着 AI 影响力的不断增长,这些传统上属于哲学的问题变得越来越重要。Wolfram 提倡在 AI 发展中进行更深入、更经典的哲学思考,以更好地理解其对人类的影响。
今年欧洲最热门的 AI 交易
https://techcrunch.com/2024/08/24/the-top-ai-deals-in-europe-this-year/
尽管初创企业普遍面临逆风,但 AI 企业仍继续获得大量资金。2024 年,美国 AI 初创企业已达成近 30 笔超过 1 亿美元的交易,欧洲紧随其后。主要投资包括 WAYVE (10 亿美元)、Mistral AI (~10 亿美元)、Helsing (4.84 亿美元)、Poolside (4 亿美元)、DeepL (3.2 亿美元)、H (2.2 亿美元) 和 Flo Health (2 亿美元)。
Joy Caption
https://huggingface.co/spaces/fancyfeast/joy-caption-pre-alpha
专为图像字幕设计的一个开源 VLM。
介绍 RPBench-Auto
https://boson.ai/rpbench-blog/
Boson AI 推出了 RPBench-Auto,这是一个自动化评估流程,用于对受 ArenaHard 和 Alpaca Eval 启发的 LLM 角色扮演能力进行基准测试。
轻量级冠军:NVIDIA 发布具有最先进准确度的小型语言模型
https://blogs.nvidia.com/blog/mistral-nemo-minitron-8b-small-language-model/
NVIDIA 的 Mistral-NeMo-Minitron 8B 是 12B 模型的压缩版本,它实现了最先进的准确度,同时又足够小,可以在 RTX 工作站上运行。
网友评论