头条

Meta 推出 Code Llama

https://ai.meta.com/blog/code-llama-large-language-model-coding/
Meta 发布了 Code Llama，这是一种基于 Llama 2 的大型编码语言模型。 7B、13B 和 34B 参数模型现已推出。他们在 HumanEval (53.7) 和 MBPP (56.2) 上表现强劲。 Code Llama 模型可以生成和调试代码，经过指令调整，并且具有极长的上下文 - 多达 100k 个 Token。

Hushing Face 融资 2.35 亿美元

https://techcrunch.com/2023/08/24/hugging-face-raises-235m-from-investors-including-salesforce-and-nvidia/
Hugging Face 在 D 轮融资中筹集了 2.35 亿美元，参与方包括谷歌、亚马逊、Nvidia、英特尔、AMD、高通、IBM、Salesforce 和 Sound Ventures。该初创公司目前估值为 45 亿美元。

白宫的“人工智能网络挑战”旨在众包国家安全解决方案

https://www.engadget.com/the-white-houses-ai-cyber-challenge-aims-to-crowdsource-national-security-solutions-170003434.html
白宫与谷歌和 OpenAI 等科技巨头合作，发起了“人工智能网络挑战”，以开发能够发现和修复软件漏洞的人工智能。该竞赛提供2000万美元的奖金。将鼓励获胜团队开源他们的解决方案。

研究

法律推理基准

https://hazyresearch.stanford.edu/legalbench/
为了构建衡量语言模型在法律框架中推理能力的基准，需要付出相当大的协作努力。注意已训练模型中的污染。

视频生成基准

https://arxiv.org/abs/2308.11606
通过自动视频生成讲故事是一个新兴的研究领域。故事延续、故事混音等任务是很难衡量的。希望这个伟大的新 Google 基准测试能够帮助该领域取得进展。

使用 LiDAR 点跟踪 3D 对象的新方法

https://arxiv.org/abs/2308.11875v1
由于注意力分散或没有注意到长期运动，大多数计算机视觉工具在使用 LiDAR 点跟踪 3D 物体时遇到困难。 MTM-Tracker混合了两种方法并分两个阶段工作来解决这些问题。

工程

低精度训练的单位缩放

https://graphcore-research.github.io/unit-scaling/user_guide.html
Graphcore 发布了一个优秀的 Pytorch 库，使 fp8 的训练变得超级简单和稳定。人们只需要一个模型包装器和火炬编译即可。

使用简单指令制作更智能、更小型模型的酷方法 (GitHub Repo)

https://github.com/neulab/prompt2model
Prompt2Model 不使用大型且占用大量资源的 AI 模型，而是让人们用简单的语言描述想要的内容，然后为该任务创建一个更小、更高效的 AI 模型。它可以使模型比一些流行的大模型工作得更好。

Cheetah：用于视觉语言任务的突破性多模式LLM (GitHub Repo)

https://github.com/dcdmllm/cheetah
由于理解混合图像文本上下文的限制，最近的模型经常难以处理复杂的视觉语言任务。 I4 基准测试的引入是为了评估这些任务。结果显示视觉提示生成器的注意力存在缺陷。为了解决这个问题，研究人员开发了 Cheetah，这是一种具有独特模块和训练策略的模型，擅长理解复杂的交错指令。 Cheetah 在 I4 基准测试中取得了顶级性能。