头条
Meta的音频基础模型
https://ai.meta.com/research/publications/audiobox-unified-audio-generation-with-natural-language-prompts/
Meta最近展示了一个用于音频的基础人工智能模型。它发布了相关论文,并提供了更多样本和引人入胜的演示。该项目的主要目标是使用同一个模型生成可控制的音频内容和风格。
微软和劳工联盟形成“历史性”联盟,共同探讨人工智能
https://finance.yahoo.com/news/microsoft-labor-unions-form-historic-142333100.html
微软正在与美国劳工联邦和工业组织大会合作,讨论人工智能对工人的影响,并从2024年冬季开始提供人工智能培训。这一开创性的联盟旨在让工人参与人工智能的开发和政策制定,并包括一个中立协议,以便于在微软实现工会化。
欧盟就全球首个全面人工智能规则达成协议
https://apnews.com/article/ai-act-europe-regulation-59466a4d8fd3597b04542ef25831322c
欧盟已就世界上第一个全面的人工智能立法——人工智能法案达成初步协议。经过长时间的谈判,该协议解决了人工智能的各个方面,包括生成性人工智能和执法机构使用面部识别技术,为人工智能的使用设定了法律框架,对全球人工智能的监管和发展可能产生重大影响。
研究
BioCLIP
https://imageomics.github.io/bioclip/
一个为生物学应用设计的视觉模型。它在特定的生物任务上比OpenAI的CLIP模型表现出色,提高了近20%。同时提供了一个包含1000万对图片和文本的训练集。
视频分类与时空多样性
https://arxiv.org/abs/2310.17942v1
空间-时间多样化网络(STDN)是一个新模型,通过探索视频中帧内的空间特征和跨时间的关系,捕捉视频中的多种线索。
使用状态自适应平衡增强强化学习算法
https://shenzhi-wang.github.io/NIPS_FamO2O/
研究人员介绍了FamO2O,这是一个旨在提升当前离线到在线强化学习算法能力的框架,通过确定基于状态的最佳改进和约束平衡。
工程
BricksLLM (GitHub仓库)
https://github.com/bricks-cloud/BricksLLM
BricksLLM是一个用Go语言编写的云原生人工智能网关,它作为OpenAI的代理,可以创建具有速率限制、成本限制和TTL的API密钥。
具有大型语言模型能力的AI代理 (GitHub仓库)
https://github.com/kwaikeg/kwaiagents
KwaiAgents是一个高级代理系统,使用大型语言模型模拟类似人类的认知技能。
现在加上海象:在DALL-E 3中进行提示工程
https://simonwillison.net/2023/Oct/26/add-a-walrus/
一个使用DALL-E 3的实验,展示了不同的提示如何生成不同的图像,以及后续提示如何进一步细化这些图像。
杂七杂八
PyTorch 2内部机制
https://www.slideshare.net/perone/pytorch-2-internals
关于Pytorch 2中所有新事物的最新演讲,如Dynamo、Instructor和ExecuTorch。
无监督对象分割的挑战
https://vlar-group.github.io/UnsupObjSeg.html
这个项目深入探讨了使用无监督模型在真实世界图像中分割对象的难度。
HuggingFace获得AMD支持
https://github.com/huggingface/transformers/releases/tag/v4.36.0
Transformers 4.36.0已发布,带有新的Mistral模型、AMD支持、默认使用safetensors等功能!
AI Tamago (GitHub仓库)
https://github.com/ykhli/AI-tamago
一个带有Web前端的本地LLM宠物。
AI训练速度提升30倍
https://unsloth.ai/introducing
这个项目最近因为手动用Triton重写常见模型的梯度而引起了广泛关注。它的基准测试可能不是最有说服力的,但这是一个伟大的尝试。
网友评论