头条
北京法院裁定 AI 生成的内容受版权保护
https://www.scmp.com/tech/tech-trends/article/3243570/beijing-courts-ruling-ai-generated-content-can-be-covered-copyright-eschews-us-stand-far-reaching
北京互联网法院裁定,由于人类创作者的智力投入,人工智能创作的图像属于受版权保护的艺术品,这对人工智能行业和全球版权纠纷具有重大影响的具有里程碑意义的案件判决了损害赔偿。
Stable Diffusion Maker 离开 Stability AI
https://sifted.eu/articles/stability-ai-rombach-news
Stability AI 的研究科学家 Robin Rombach 对开发稳定扩散模型至关重要,他即将离开公司,这标志着一年来技术团队变动中的重大离职。
Copilot4D 简介:自动驾驶的基础模型
https://waabi.ai/introducing-copilot4d/
Waabi 的 Copilot4D 是一个开创性的基础模型,它利用 LiDAR 数据来理解和预测环境随时间的 3D 动态,从而提高自主机器的功能。
NLX 获 1500 万美元 A 轮融资
https://nlx.ai/news/nlx-raises-15m-in-series-a-funding
NLX 是一个企业对话式人工智能平台,已从 Cecano、Comcast 等公司筹集了额外资金。 该平台用于构建聊天、语音、视频和会话系统。
研究
使用扩散模型进行数据增强
https://arxiv.org/abs/2403.12803v1
DreamDA 提供了一种新的数据增强方法,利用扩散模型来合成与原始数据分布紧密匹配的多样化、高质量图像。
具有交互式推理的视觉语言模型
https://sites.google.com/view/chain-of-spot/
Chain-of-Spot (CoS) 引入了一种交互式推理技术,可显着增强大型视觉语言模型 (LVLM) 处理和理解图像的方式。 通过关注图像中的关键感兴趣区域来响应特定问题或指令,CoS 使 LVLM 能够在不影响图像分辨率的情况下访问详细的视觉信息。
使用预先训练的扩散模型增强虚拟试穿
https://rlawjdghek.github.io/StableVITON/
StableVITON 是一种基于图像的虚拟试穿的新颖方法。 该方法侧重于保持服装细节,同时利用预先训练的扩散模型的生成能力。 StableVITON 在预先训练的模型的潜在空间中学习衣服和人体之间的语义对应关系。
工程
Triton Puzzles (GitHub Repo)
https://github.com/srush/Triton-Puzzles/
Triton 是一个以类似 Python 的方式编写 CUDA 内核的库。 它越来越受欢迎。 该存储库有一组难度不断增加的谜题,鼓励学习该工具。
基于扩散的视频翻译
https://www.mmlab-ntu.com/project/fresco/
FRESCO 是一种结合帧内和帧间对应的新颖方法,可显着提高视频翻译任务中的时空一致性。
使用一致性模型增强图像编辑 (GitHub Repo)
https://github.com/1202kbs/gctm
该项目通过引入广义一致性轨迹模型(GCTM)增强了扩散模型执行图像编辑和恢复等任务的能力。 这些模型简化了这一过程,只需一步即可在任意两个分布之间进行转换,以极高的精度和效率修改图像。
杂七杂八
新突破使矩阵乘法更接近理想
https://www.quantamagazine.org/new-breakthrough-brings-matrix-multiplication-closer-to-ideal-20240307/
清华大学和加州大学伯克利分校的研究人员在矩阵乘法方面取得了重大突破,提出了一种已经刺激了进一步增强的创新技术。 核心计算操作的这一进步可以在各种应用程序中节省大量时间、电力和成本。 这是自 2010 年取得上一个里程碑以来在降低矩阵乘法计算复杂性方面取得的最显着进展。
程式化图像合并算法
https://benjdd.com/posts/stylized-image-binning-algorithm/
本教程介绍如何使用 JavaScript 中的分箱算法创建类似像素艺术的图像处理工具,其中包含滑块等交互式 Web 元素,以便进行自定义。 分箱技术使用箱大小和间隙等参数,通过平均箱内的像素亮度将图像转换为风格化的像素化艺术品。 该实现涉及操作 HTML 画布元素上的像素数据并优化循环结构以提高效率。
使用 LLM 生成模糊生成器
https://verse.systems/blog/post/2024-03-09-using-llms-to-generate-fuzz-generators/
像克劳德这样的LLM可以生成有效的模糊器来解析代码,使传统上需要大量人力的过程自动化。 虽然 LLM 通常对于静态分析来说不够精确,但由于模糊测试的随机性,它们似乎非常适合创建模糊器。 结合了LLM驱动的静态分析和有针对性的模糊测试的混合方法可能有望识别和利用代码中的漏洞。
JARS AI推出互动AI展示平台
https://www.jars.ai
JARS 允许任何人与朋友一起制作自己喜欢的节目的剧集。
OpenAI 可能在几个月内发布 GPT-5
https://indianexpress.com/article/technology/artificial-intelligence/openai-gpt-5-release-few-months-9224982/
OpenAI 可能会在夏天发布 GPT-5。
网友评论