美文网首页
2023-12-19 简讯 : Meta发布庞大的第一人称视频数

2023-12-19 简讯 : Meta发布庞大的第一人称视频数

作者: 数科每日 | 来源:发表于2023-12-17 22:40 被阅读0次

    头条


    Meta发布庞大的第一人称视频数据集

    https://ai.meta.com/blog/ego-exo4d-video-learning-perception/
    视频理解是一个古老的领域,现在才开始取得成功。成功的主要驱动力是高质量的数据集。Meta的这项工作包括许多传感器数据源和手势姿态。它为现有方法提供了基准性能。

    Snapchat+ 订阅者现在可以创建并发送AI生成的图片

    https://techcrunch.com/2023/12/12/snapchat-subscribers-can-now-create-and-send-ai-generated-images/
    Snapchat为其Snapchat+订阅者引入了新的AI驱动功能,包括一个AI图像生成器,它可以根据文本提示创建图像,以及一个梦幻自拍特性,可以与朋友一起创建奇幻图像。一个新的AI扩展工具允许用户自动扩展和填充照片的背景。这些功能正在向超过700万Snapchat+订阅者逐步推出。

    Google将Gemini Pro引入Vertex AI

    https://techcrunch.com/2023/12/13/google-brings-gemini-pro-to-vertex-ai/
    Google推出了Gemini Pro,这是其先进AI模型Gemini Ultra的轻量级版本,用于Vertex AI的公共预览,提供文本和图像处理能力,以及可定制的上下文,适用于各种用例。


    研究


    通过防止熵崩溃的稳定训练

    https://github.com/apple/ml-sigma-reparam
    Transformer 虽然令人惊叹,但经常难以训练,存在许多不稳定性。其中一个主要问题是注意力矩阵的熵崩溃。这项工作是一种通过简单的重参数化来防止这种情况的方法。

    使用扩散模型估计图像中的光照

    https://diffusionlight.github.io/
    该项目引入了一种估计图像中光照的新技术,克服了当前依赖HDR全景数据集的方法的局限性。通过使用扩散模型将铬球渲染到标准图像中,该技术揭示了铬球和扩散噪声之间独特的关系。

    自动驾驶的语言模型

    https://arxiv.org/abs/2312.09245v1
    DriveMLM是一个新框架,使用大型语言模型增强自动驾驶。这个系统不仅可以与现有的自动驾驶系统集成,而且在模拟中表现更好,它将语言决策与车辆控制相结合。


    工程


    Coframe Coffee (GitHub Repo)

    https://github.com/Coframe/coffee
    上周发布的Coffee帮助通过AI简化前端开发,可以插入现有代码库。该项目特别专注于基于Coframe团队从使用AI生成80%以上的前端的经验中学到的第一类DX。

    LLM应用评估框架 (GitHub Repo)

    https://github.com/confident-ai/deepeval
    DeepEval是一个一体化的LLM应用评估框架,允许用户轻松识别并迭代不满意的LLM输出。它目前提供14种以上的评估指标,如幻觉、总结、G-Eval、RAGAS等,让用户以类似Pytest或基于组件的方式评估整个数据集。

    解决Pytorch内存问题

    https://pytorch.org/blog/understanding-gpu-memory-1/
    对于使用Pytorch的实践者来说,最大的挑战之一是弄清楚为什么会出现内存不足。Pytorch 2.1中的一些新工具可以深入了解内存使用情况。。


    杂七杂八


    AMD社区性能基准测试

    https://community.amd.com/t5/instinct-accelerators/competitive-performance-claims-and-industry-leading-inference/ba-p/652304
    MI300X是AMD的旗舰AI加速器,现在在ROCm 6的支持下,其推理性能接近NVIDIA。这对社区来说是个好消息,因为它为新兴的AI公司提供了替代芯片。

    在Magic The Gathering草稿上微调Mistral 7B

    https://generallyintelligent.substack.com/p/fine-tuning-mistral-7b-on-magic-the
    使用Magic: The Gathering草稿作为测试案例的微调实验,使GPT-4的能力得到了增强,产生了一个与人类性能密切匹配的微调7B参数模型。

    AI的何时、何地以及如何

    https://www.saastr.com/the-where-when-and-how-of-ai-with-theory-ventures-open-ai-motherduck-and-lamini/
    领先的创始人和风险投资者讨论了AI的最新动态,从LLM在企业创新中的应用到其他领域。如果你对“关于AI你应该知道的事情”的步伐感到有些不知所措,这是一个很好的快速回顾。

    MMLU提示模板

    https://github.com/microsoft/promptbase/blob/main/src/promptbase/mmlu/prompt_templates.py
    Microsoft的Medprompt+目前是MMLU的最佳提示方法。微软已经发布了这个模板,以及许多其他在评估社区标准的思路链式样式模板。

    Agility使用LLM与其人形机器人沟通

    https://techcrunch.com/2023/12/14/agility-is-using-large-language-models-to-communicate-with-its-humanoid-robots/
    生成式AI和大型语言模型正在改变机器人技术。Agility 的双足机器人Digit现在可以根据自然语言命令执行复杂任务,标志着向更人性化、直观的机器人交互的转变。

    相关文章

      网友评论

          本文标题:2023-12-19 简讯 : Meta发布庞大的第一人称视频数

          本文链接:https://www.haomeiwen.com/subject/lnnogdtx.html