美文网首页
魔哈镜像迄今最大合成数据集 Cosmopedia

魔哈镜像迄今最大合成数据集 Cosmopedia

作者: 魔哈Moha | 来源:发表于2024-02-29 19:32 被阅读0次

Cosmopedia

Cosmopedia 是一个由Mixtral-8x7B-Instruct-v0.1生成的合成教科书、博文、故事、帖子和WikiHow文章的数据集。该数据集包含超过3000万个文件和250亿个tokens,是HuggingFace用了10k张H100生成的迄今为止最大的开放合成数据集。受 Phi1.5 工作的启发,Cosmopedia 的初始版本为合成数据领域的研究奠定了基础。它作为不同主题的综合资源,强调其在后续迭代中进一步增强的潜力。

Cosmopedia分为八个部分,每个部分都源自不同的种子样本。这些分割包括 web_samples_v1 和 web_samples_v2,约占数据集的 75%,源自类似于 RefinedWeb 的内部 Web 数据集。斯坦福分部利用了来自 stanford.edu 的课程大纲,而故事分部则采用了 UltraChat 和 OpenHermes2.5 生成的叙述。此外,WikiHow、OpenStax、KhanAcademy 和 automathtext 拆分涉及与其各自来源相关的提示。

Dataset splits

Prompts都基于使用种子样本(例如网页摘录)的概念,并要求模型生成与该种子样本相关的新内容(教科书、故事、博客文章)。数据集由8个拆分组成,具体取决于拆分中使用的种子数据的来源。下图显示了Cosmopedia中种子数据集、世代格式和受众的分布:


除了去污染外,Cosmopedia将解释网络样本的主题聚类方法以及我们完善提示的迭代过程。主题聚类 我们的目标是以教科书等更干净的格式生成大量合成数据,涵盖广泛的主题(本质上,在网络上发现的任何有用的东西)

如何在魔哈上使用Cosmopedia

首先魔哈仓库已经完全同步了Cosmopedia数据集,并会在每天早上定期从 HuggingFace上更新最新版本的数据集

目前有两种方式可以通过魔哈·Moha仓库来加速您下载Cosmopedia数据集

设置魔哈官方地址直接下载数据集

export HF_ENDPOINT=https://moha.xiaoshiai.cn/huggingface

使用Moha专属CDN加速从HuggingFace上下载数据集


相关文章

  • RMAN常用命令

    一. List命令的使用列出备份集、数据文件镜像等列出指定表空间任意数据文件的备份集或镜像副本列出指定范围内包含归...

  • 基于Matlab的NDVI最大合成

    采用最大合成法将月数据ndvi合成年数据NDVI,本文以spot的月ndvi为例进行,利用matlab平台,代码如...

  • 魔灵召唤

    魔灵的社交部分 魔灵把一个万金油型的宠作为合成获得(抽取能否获得,该数据未知,但合成获得肯定是最合算的方法)而想要...

  • 数据集的划分&更改评估指标

    数据集划分为 训练集 开发集(交叉验证集) 测试集,最大化团队效率。 如何划分 将所有的数据随机洗牌,放入交叉验证...

  • 目标检测:YoloV3

    VOC数据集下载 一直在找Pascal voc数据集下载地址,但官网好像上不去,记录一下镜像网址 Pascal V...

  • 机器学习:决策树算法代码详细注释笔记

    计算给定数据集的香农熵 按照给定特征划分数据集 选择数据集最好的分类属性 获取分类集中概率最大的分类 创建决策树递...

  • mysql

    连接 查看连接数 mysql查看最大允许的上传数据 数据库操作 查看数据库 数据库字符集 创建数据库 字符集问题 ...

  • 相约星期五 #11 镜像

    镜像的图样 镜像图样:Huggins哈金斯 镜像图样:Huggins哈金斯的分解步骤图 1-常规版木木-禅绕画-夏...

  • RDD(Resilient Distributed Datase

    RDD是Spark框架中的核心概念,通俗来讲,Spark无论处理什么数据都会先整合成一个拥有多个分块的数据集,而这...

  • 11 ID转换——表达矩阵的整理

    cleaning 选择表达量最大的基因 去除没有注释的数据集 相同基因的表达数据取最大值 选择表达量最大的探针wh...

网友评论

      本文标题:魔哈镜像迄今最大合成数据集 Cosmopedia

      本文链接:https://www.haomeiwen.com/subject/clmqzdtx.html