头条

Meta 发布了大量重要且有用的研究成果，包括语音转语音模型、改进的 SAM 以及许多其他有趣的进展。

Anthropic 发布其更新的安全政策，可以使 AI 更难失控

https://venturebeat.com/ai/anthropic-just-made-it-harder-for-ai-to-go-rogue-with-its-updated-safety-policy/

Anthropic 更新了其负责任的扩展政策，其中包括对存在重大风险的 AI 模型（例如生物武器和自主 AI 研究）的能力阈值。该政策旨在通过引入 AI 安全级别来设定行业标准，这些级别要求根据模型能力采取更严格的保障措施。通过公开披露安全实践并维持负责任的扩展官，Anthropic 希望在 AI 治理方面发挥领导作用并启发整个行业采取类似的做法。

研究

捷径模型

https://kvfrans.com/shortcut-models/

捷径模型是一种新型一致性模型，只需很少的推理步骤即可生成连续信号。

前沿模型的破坏评估

https://www.anthropic.com/research/sabotage-evaluations

Anthropic 进行了多项新颖的评估，以确定弱点以及如何衡量大型和强大模型中的错位。

零样本 3D 视觉接地

https://runsenxu.com/projects/VLM-Grounder/

VLM-Grounder 是一种新的 3D 视觉落地方法，它通过使用视觉语言模型 (VLM) 和 2D 图像克服了传统方法的局限性。

工程

DeepSeek 的原生多模态模型

https://github.com/deepseek-ai/Janus

DeepSeek 已训练并发布了一个 1.3b 的强大模型，该模型可以对交错的文本和图像进行操作，以生成和理解。

Meta 的 Lingua

https://github.com/facebookresearch/lingua

Meta 创建了一个简单且适合研究的代码库，可以在 24 小时内重现 Llama 2 7B。

将文本到图像模型与人类价值观对齐

https://github.com/achernarwang/LiVO

LiVO（轻量级值优化）是一种将文本到图像模型与人类价值观对齐的新方法。

杂七杂八

长上下文竞赛

https://www.kaggle.com/competitions/gemini-long-context/overview

Gemini 团队已拨出 10 万美元用于最佳利用其长上下文模型功能。

AlphaCodium 的表现优于 o1 模型的直接提示

https://www.qodo.ai/blog/system-2-thinking-alphacodium-outperforms-direct-prompting-of-openai-o1/

OpenAI 的 o1 模型展现了系统 1.5 思维，与之前的 LLM 相比，其推理能力有所增强，但仍未达到完整的系统 2 深思熟虑的问题解决能力。AlphaCodium 通过提供指导推理和迭代细化的结构化框架，显著提高了 o1 的编码性能，在 Codeforces 基准测试中实现了更高的准确性。虽然 o1 和 AlphaCodium 共同展示了推动 AI 向更深层次推理发展的前景，但仍有许多工作要做，以将完整的系统 2 思维整合到 AI 模型中。

Duolingo 首席执行官 Luis von Ahn 认为人工智能有很多东西可以教给我们

https://www.theverge.com/24267841/luis-von-ahn-duolingo-owl-language-learning-gamification-generative-ai-android-decoder

Duolingo 首席执行官 Luis von Ahn 讨论了如何利用人工智能和游戏化来增强语言学习，例如通过与人工智能化身聊天对话和人工智能生成的视频游戏式冒险等功能。该公司最近推出了 Duolingo Max，这是一种价格更高的订阅计划，提供人工智能驱动的对话练习，因为人工智能生成的内容成本更低，开发速度更快。尽管人工智能在参与度方面存在局限性，但 Duolingo 仍致力于通过平衡学习效率和游戏化、娱乐性体验来保持用户的积极性。