美文网首页
2024-11-14 简讯 : Qwen 2.5 Coder 3

2024-11-14 简讯 : Qwen 2.5 Coder 3

作者: 数科每日 | 来源:发表于2024-11-12 20:01 被阅读0次

头条


Qwen 2.5 Coder 32B Instruct 来了!

https://qwenlm.github.io/blog/qwen2.5-coder-family/

Qwen 2.5 Coder 系列是一系列专门针对代码训练的语言模型。最新的 32B 参数模型比 GPT-4o 更好,同时又足够小,可供许多人在本地运行。它在许多基准测试中也与 Claude Sonnet 3.5 相当。

X 准备向免费用户开放 AI 聊天机器人“Grok”

https://techcrunch.com/2024/11/10/x-is-testing-a-free-version-of-ai-chatbot-grok/

X 的 AI 聊天机器人 Grok 最初仅向付费用户开放,但可能很快就会向所有人开放。

谷歌洪水预报人工智能将覆盖 7 亿人

https://blog.google/technology/ai/expanding-flood-forecasting-coverage-helping-partners/

谷歌基于人工智能的洪水预报正在扩展到 100 多个国家,覆盖 7 亿人。


研究


StdGen

https://stdgen.github.io/

StdGen 是一种从单个图像生成 3D 角色的新方法。它将问题分解为可分离的部分(如头发和夹克),从而提高输出质量。

Mixture-of-Transformers:用于多模态基础模型的稀疏且可扩展的架构

https://arxiv.org/abs/2411.04996

Mixture-of-Transformers (MoT) 架构引入了一种稀疏多模态转换器,该转换器按模态(文本、图像和语音)解耦参数,从而实现高效处理,同时保持性能质量。在包括 Chameleon 7B 和 Transfusion 设置在内的多项评估中,MoT 实现了与密集基线相当或更好的性能,同时使用的计算资源明显更少 - 语音处理 FLOP 低至 37.2%,图像生成挂钟时间低至 47.2%。

具有多模态对齐的蛋白质建模

https://arxiv.org/abs/2411.05316v1

本研究探讨了如何改善 LLM 与以蛋白质为中心的几何深度模型之间的对齐,以实现更好的跨模态理解。


工程


AlphaFold 3

https://github.com/google-deepmind/alphafold3

DeepMind 已将 AlphaFold 3 的代码和权重开源,供研究使用。与之前最先进的技术相比,它有了很大的改进,可以加速人工智能在科学应用方面的发展。

使用 Online-LoRA 进行持续学习

https://github.com/christina200/online-lora-official

Online-LoRA 是一种新框架,旨在通过实时微调预先训练的 Vision Transformers (ViT) 来防止在线持续学习 (OCL) 中的灾难性遗忘,而无需排练缓冲区。

困难照明条件下的标记检测

https://arxiv.org/abs/2411.05552v1

DeepArUco++ 引入了一种基于深度学习的方法,用于在传统方法经常失败的具有挑战性的照明条件下改进基准标记检测。


杂七杂八


LLM 能否在近百万级的干草堆中跟踪线索?

https://needle-threading.github.io/

具有扩展上下文窗口的大型语言模型 (LLM) 可实现更广泛的应用。对 17 个领先 LLM 的新研究表明,虽然许多模型可以有效地处理多个并发信息线程,但它们的实际有效上下文限制通常短于其理论最大上下文长度。许多模型表现出“线程安全性”(同时处理多个信息线程而不会降低性能),但随着上下文窗口扩展到其极限,准确性往往会下降。

有针对性的监管案例

https://www.anthropic.com/news/the-case-for-targeted-regulation

人工智能的进步正在迅速提高数学、编码和科学等领域的能力,增加了机会和风险。受控监管对于管理网络安全和 CBRN 等领域的潜在滥用至关重要。Anthropic 的负责任扩展政策要求透明度和谨慎的立法方法,以平衡安全与创新。

Hermes 3

https://nousresearch.com/hermes3/

Hermes 3 是在 Llama 3.1 的基础上进行微调的,在推理和创造力方面表现出色。它通过 8B、70B 和 405B 参数的模型展示了卓越的性能。该模型解锁了 AI 对齐和人工意识方面的新功能。

全球开发者数量激增,AI 引领 Python 成为顶级语言

https://github.blog/news-insights/octoverse/octoverse-2024/

由于 AI 和机器学习项目激增,Python 已升至 GitHub 上的顶级语言。

谷歌意外泄露可接管计算机的 Jarvis AI 预览

https://www.engadget.com/ai/google-accidentally-leaked-a-preview-of-its-jarvis-ai-that-can-take-over-computers-203125686.html

谷歌的新 AI 原型 Jarvis 曾短暂出现在 Chrome 网上应用店中。

人工智能育儿已经到来,a16z 已准备好为其提供支持

https://techcrunch.com/2024/11/07/ai-powered-parenting-is-here-and-a16z-is-ready-to-back-it/

Andreessen Horowitz 正在投资使用 LLM 的人工智能“育儿副驾驶”,例如 Cradlewise 和 Nanit。

相关文章

网友评论

      本文标题:2024-11-14 简讯 : Qwen 2.5 Coder 3

      本文链接:https://www.haomeiwen.com/subject/bmzljjtx.html