美文网首页
2024-09-04 简讯 : AI 引发了一场网络爬虫之战

2024-09-04 简讯 : AI 引发了一场网络爬虫之战

作者: 数科每日 | 来源:发表于2024-09-03 21:36 被阅读0次

头条


AI 引发了一场网络爬虫之战

https://spectrum.ieee.org/web-crawling
数据来源倡议的一份报告警告说,随着网站越来越多地限制爬虫机器人,阻止访问高质量数据,生成式 AI 模型可能会受到影响。这种趋势是由对数据滥用的担忧推动的,可能会将 AI 训练的依赖从维护良好的来源转移到质量较低的数据。在数据日益稀缺的情况下,公司可能会转向合成数据或直接许可,以保持 AI 模型的有效性。

Anthropic Quickstart Repo

https://github.com/anthropics/anthropic-quickstarts/

Anthropic 发布了一组有用的入门项目。它与 Brex、Uber、Facebook 等公司的前 AI 负责人合作,帮助编写了第一个 Quickstart,这是一个由 Claude 提供支持的可扩展客户服务代理。

OpenAI Japan 首席执行官透露 GPT Next 计划

https://www.itmedia.co.jp/aiplus/articles/2409/03/news165.html

OpenAI 的 GPT Next 将以大约 100 倍于 GPT-4 的计算负载进行训练。它将于今年晚些时候发布。真实的估计表明,一些计算负载的变化也是由于算法的改进。


研究


成功实现 AI 安全需要哪些条件

https://sleepinyourhat.github.io/checklist/

Anthropic 的 Sam 猜测,在开发超人 AI 系统的过程中,开发人员需要完成哪些任务才能成功实现 AI 安全。

扩展 Vision Mamba 模型

https://arxiv.org/abs/2408.17081v1

本文介绍了一种随机分层混洗正则化技术,以克服 Vision Mamba 模型中的过度拟合问题,使其能够扩展到 3 亿个参数,同时保持与 Vision Transformers (ViT) 相当的性能。

增强细粒度场景理解

https://arxiv.org/abs/2405.05852v1

研究人员已经开发出稳定的控制表示,以改进具身 AI 代理中的细粒度场景理解。通过使用预先训练的文本到图像扩散模型,这些表示可以捕获复杂任务所需的详细视觉空间信息。


工程


H100 市场缺失的指南

https://blog.lepton.ai/the-missing-guide-to-the-h100-gpu-market-91ebfed34516?gi=2ae59bc5517e&utm_source=tldrai

本指南涵盖了 GPU 购买的基本方面,包括不同选项的定价、确保可靠性、其他硬件规格的重要性以及可用性考虑因素。它解决了买家在 GPU 市场中面临的关键问题,从成本到性能和物流。

稳定的视觉里程计

https://github.com/shuyanguni/drl_exposure_ctrl
该项目提供了一个深度强化学习框架,以提高视觉里程计 (VO) 系统在具有挑战性的照明条件下的稳定性。

检测罕见心脏异常

https://github.com/mediabrain-sjtu/ecgad

一种先进的心电图诊断系统,使用自监督异常检测预训练来提高对罕见但关键的心脏异常的检测能力。


杂七杂八


Reliant 的论文搜索 AI 承担了科学数据繁琐的工作

https://techcrunch.com/2024/08/20/reliant-ai/

Reliant AI 由 Karl Moritz Hermann 共同创立,已获得 1130 万美元的种子轮融资,旨在通过其 AI 产品 Tabular 实现学术界耗时的文献综述自动化,该产品可从科学出版物中零错误地提取数据。利用 LLM 和专有技术,Reliant 为研究人员提供了用户友好的用户界面,比传统方法提高了效率。其内部硬件方法强调了对研究行业高质量、特定领域的 AI 解决方案的承诺。

前线工程师协会

https://www.forbes.com/councils/forbestechcouncil/2024/08/20/the-order-of-engineers-on-the-front-line-their-crucial-role-in-the-progress-of-artificial-intelligence/

人工智能工程是推动人工智能技术发展的核心,尤其强调道德发展和负责任的实施。意大利 C3i 等专业协会通过持续培训和道德准则来保持质量标准并支持工程师。不断发展的领域要求工程师不断更新技能、创新和跨学科合作,以负责任地充分利用人工智能的全部潜力。

利用人工智能实现高效的事件响应

https://engineering.fb.com/2024/06/24/data-infrastructure/leveraging-ai-for-efficient-incident-response/

Meta 推出了一种使用启发式检索和基于 LLM 的排名的人工智能辅助根本原因分析系统,在其网络 monorepo 调查中,准确率达到 42%。根据历史数据对 Llama 2 模型进行微调是提高系统准确性的关键。该公司计划扩大人工智能工具集成,旨在实现主动风险缓解和自主工作流程。

Windows 11 上的 RWKV

https://threadreaderapp.com/thread/1831000938120917336.html
出色的 RWKV 模型已在其 cpp 项目中包含本地推理模型。

编程的艺术以及我为什么不使用LLMs

https://kennethnym.com/blog/why-i-still-wont-use-llm/

LLMs越来越多地融入到编码工作流程中,因提高生产率而受到称赞,但有些人认为它们在编程中的有效性被夸大了。

人工智能以前所未有的准确度预测地震

https://scitechdaily.com/artificial-intelligence-predicts-earthquakes-with-unprecedented-accuracy

德克萨斯大学的研究人员开发了一种人工智能,在中国的一次试验中预测了 70% 的地震。

相关文章

网友评论

      本文标题:2024-09-04 简讯 : AI 引发了一场网络爬虫之战

      本文链接:https://www.haomeiwen.com/subject/tzqlljtx.html