头条
欧盟人工智能法案扫除了最后一个大障碍
https://techcrunch.com/2024/02/02/eu-ai-act-coreper-vote/
旨在根据风险监管人工智能应用的欧盟人工智能法案已通过成员国代表的关键投票,并确认了该法律草案的最终文本。
微软为 Copilot 带来新的AI 图像功能
https://venturebeat.com/ai/microsoft-brings-ai-image-generation-to-copilot-adds-new-model-deucalion/
微软宣布对其 Copilot AI 进行重大更新,包括新设计、AI 图像创建、编辑功能以及名为 Deucalion 的新 AI 模型。
Smaug-72B:开源 AI 的新王
https://venturebeat.com/ai/meet-smaug-72b-the-new-king-of-open-source-ai/
由Abacus AI开发、由阿里巴巴集团Qwen团队的“Qwen-72B”衍生而来的名为“Smaug-72B”的新开源语言模型,目前在Hugging Face的自然语言处理排行榜上名列前茅。 Smaug-72B 在各种基准测试中均优于 GPT-3.5 和 Mistral Medium 等成熟模型,在主要评估中平均得分超过 80 分,标志着开源 AI 的一个里程碑,暗示了其与专有 AI 技术相竞争的潜力。
研究
具有合成注释的高保真文本转语音模型
https://www.text-description-to-speech.com/
这些文本转语音模型由 Stability AI 训练,可以通过精确的自然语言指令进行指导。 由于没有用于生成音频的适当文本描述的大型数据集,其创建者对大型语音语料库进行了综合注释以进行训练。 这是注释、上字幕和生成建模培训更广泛趋势的另一个例子。
MusicRL
https://arxiv.org/abs/2402.04229
Google 的 MusicLM 团队使用 30 万条反馈以及其他奖励信号,在他们的音乐生成模型上运行 RL 过程。 他们发现它在人类偏好研究中优于基本模型,但尚不清楚哪种强化学习方法能产生最高保真度的输出。
增强 CLIP 以实现高效图像分类
https://arxiv.org/abs/2402.04087v1
本文重新审视经典的高斯判别分析(GDA)算法,以提高 CLIP 在图像分类任务中的性能,而无需额外的训练或资源。
工程
Yolo-World:实时开放词汇对象检测 (GitHub Repo)
https://github.com/AILab-CVC/YOLO-World
对象检测是识别对象及其边界框的过程。 这通常只能针对训练前选择的一组固定对象来完成。 这项工作引入了一种可以进行开放词汇对象检测的实时方法,这意味着它可以检测任何运行时指定的对象组合的边界框。
自我发现实施 (GitHub Repo)
https://github.com/catid/self-discover
谷歌提出了一种新颖的提示技术,允许语言模型使用一组推理原语来发现针对特定问题的推理的更大框架。 这意味着模型可以选择不同的模块并将它们组合起来以更好地解决复杂问题。 这个存储库是这些想法的非正式实现。
MobileVLM V2 is Out!
https://arxiv.org/abs/2402.03766v1
MobileVLM V2 是一系列适用于移动设备的高级视觉语言模型,通过创新架构展示了显着的性能改进。
杂七杂八
人工智能的盈利之路
https://sidstage.substack.com/p/the-path-to-profitability-for-ai
人工智能研究的最新转变侧重于效率和深度,而不是单纯的准确性和广度。 NVIDIA 的 H100 销量和 AI 不断增长的能源需求凸显了该行业的规模。 投资需要盈利能力,将研究转向更小、更高效的模型(如 Phi 2),并强调从模型架构到部署的可持续经济性。 训练、微调和设计方面的创新有望提高人工智能的能量和计算效率。 设备上的功能反映了更加可持续和实用的人工智能应用的更广泛趋势。
用新基准挑战多模态语言模型
https://arxiv.org/abs/2402.03757v1
一项新研究揭示了 GPT-4V 等多模态大语言模型 (MLLM) 的弱点:它们难以处理特定类型的图像文本输入,从而导致错误。 CorrelationQA 是一个基准,旨在评估 MLLM 在图像可能误导或与文本矛盾的情况下的性能。
设计如何为 Rabbit R1 AI 硬件带来 1000 万美元的预购
https://www.fastcompany.com/91013196/how-design-drove-10m-in-pre-orders-for-rabbit-r1-ai-hardware
Rabbit R1是一款亮橙色的人工智能对讲机。 它有一个大按钮,用户可以按下它来通话,一个厚重的滚轮可以浏览屏幕,还有一个带有隐私门的旋转摄像头。 该设备售价 199 美元,可以通过编程来控制应用程序和网站。 本文讲述了 Rabbit 和 Teenage Engineering 如何合作打造迄今为止最成功的人工智能硬件产品的故事。
OpenAI 组建新团队研究儿童安全
https://techcrunch.com/2024/02/07/openai-forms-a-new-team-to-study-child-safety
OpenAI 成立了儿童安全团队,探索防止儿童滥用其人工智能工具的方法。
本地 AI 过滤的社交媒体 (GitHub Repo)
https://github.com/thomasj02/AiFilter
一个 Chrome 扩展程序,允许您使用本地语言模型根据您选择的条件过滤社交媒体帖子。
网友评论