美文网首页
2024-08-29 简讯 : OpenAI 计划在秋季发布新的

2024-08-29 简讯 : OpenAI 计划在秋季发布新的

作者: 数科每日 | 来源:发表于2024-08-27 22:23 被阅读0次

    头条


    OpenAI 计划在秋季发布新的 AI 模型“Strawberry”

    https://www.pymnts.com/news/artificial-intelligence/2024/openai-aims-release-new-ai-model-strawberry-fall/

    OpenAI 计划在秋季发布一款名为“Strawberry”的新 AI 产品。它将具有高级推理能力,例如能够解决以前从未见过的数学问题,并且可以执行制定市场策略等高级任务。

    Artifacts 已经可供所有人使用

    https://www.anthropic.com/news/artifacts

    Anthropic 已将 Artifacts 开放使用,包括移动设备。

    Cerebras 推理

    https://cerebras.ai/blog/introducing-cerebras-inference-ai-at-instant-speed

    Cerebras 的芯片组具有巨大的统一内存。因此,它可以避开带宽问题并以每秒数千个令牌的速度为模型提供服务。


    研究


    语言模型的物理学:Part 3.3

    https://arxiv.org/abs/2404.05405

    作为本系列的第 3 部分,本文探讨了缩放定律以及在模型中存储知识所需的位数。答案似乎是每个参数大约 2 位知识。

    Fire-Flyer AI HPC

    https://arxiv.org/abs/2408.14158
    DeepSeek 发布了一篇论文,概述了其用于 DL 训练的硬件-软件协同设计策略。

    宣布推出 Higgs Llama V2

    https://boson.ai/higgs-v2/

    Boson AI 推出了 Higgs-Llama-3-70B-v2,这是一种在 Arena-Hard 和 AlpacaEval 2.0 等对话和理解基准测试中表现出色的新模型。与 Claude 3.5 Sonnet 相比,该模型将响应再生率降低了 21.6%,并将第一天的留存率提高了 5.3%。借助内部奖励模型 Higgs Judger,该模型在性能上与 Google 的 Gemini 1.5 Pro 不相上下。


    工程


    混合模型训练后手册

    https://www.zyphra.com/post/the-zyphra-training-cookbook

    预训练混合(Mamba 风格)模型与预训练普通 Transformer 不同。这篇文章探讨了如何扩展不同的超参数、数据采集和其他以获得您想要的性能。

    Llama Duo:模型回退系统

    https://github.com/deep-diver/llamaduo

    这是一个框架,可以微调小模型,以在封闭 API 模型出现故障时作为回退。它展示了如何顺利地从大型模型迁移到小型模型。

    LitServe

    https://github.com/Lightning-AI/LitServe

    LitServe 是一款易于使用、灵活的服务引擎,适用于基于 FastAPI 构建的 AI 模型。批处理、流式传输和 GPU 自动缩放等功能消除了为每个模型重建 FastAPI 服务器的需要。


    杂七杂八


    Llava BitNet

    https://huggingface.co/IntelLabs/LlavaOLMoBitnet1B

    Llava BitNet 是第一个在 VLM 任务上训练的三元 (-1, 0, 1) 权重模型。该模型、权重和脚本正在完全开源。技术报告即将发布,表明该模型具有良好的性能。

    推理是免费且即时的

    https://fume.substack.com/p/inference-is-free-and-instant

    虽然大型语言模型 (LLM) 的推理能力可能不会显著提高,但它们的成本降低和速度的提高将使它们更适合重复性任务。虽然这些模型可能缺乏真正的理解,但它们仍然可以有效地处理简单的任务。

    内存高效的 LLM 训练

    https://arxiv.org/abs/2408.12857v1
    Online Subspace Descent 是一种新的优化器,它通过提高内存效率来改进 LLM 的训练。

    Qwen 2 Audio

    https://huggingface.co/collections/Qwen/qwen2-audio-66b628d694096020e0c52ff6

    Qwen 发布了音频输入风格模型,可以推理音乐、音频和声音。

    Sketch2Scene

    https://xrvisionlabs.github.io/Sketch2Scene/

    该团队连续使用多个模型,能够创建一个令人惊叹的模型,该模型可以根据单个输入草图生成完全可玩的 3D 游戏场景。

    1 毫米“芯片风扇”可将主动冷却功能置于超薄设备内

    https://www.engadget.com/mobile/this-1mm-fan-on-a-chip-could-put-active-cooling-inside-ultra-thin-gadgets-130014002.html

    xMEMS 推出了 XMC-2400 µCooling 芯片,这是一款 1 毫米高的固态风扇,旨在为智能手机等超薄设备降温。

    相关文章

      网友评论

          本文标题:2024-08-29 简讯 : OpenAI 计划在秋季发布新的

          本文链接:https://www.haomeiwen.com/subject/szbzkjtx.html