美文网首页
下载kaggle数据集的小妙招

下载kaggle数据集的小妙招

作者: 统计学家 | 来源:发表于2021-04-17 15:35 被阅读0次

kaggle是很多数据分析和机器学习初学者非常喜爱的数据科学竞赛平台。
这个平台上有很多接近现实业务场景的数据集,非常适合练手。
今天向大家推荐一个下载kaggle数据集的小工具——kaggleAPI
配置好之后,可以写个脚本,以后下载数据就方便多了。

安装

pip install kaggle

安装完毕之后执行

kaggle compeitions list

然后就会报错,提示没有kaggle.json文件,不用理他。
这一步主要是让其运行后生成配置文件夹,一般在C盘-用户-用户名下的.kaggle

image

配置

登录kaggle官网


image

右上角头像处点击,选择Account


image
进去之后滚动到最下面API处,选择Create New API Token image

然后就会自动下载一个kaggle.json文件,另存到第一步那个.kaggle文件夹

下载数据集

再执行以下

kaggle compeitions list

可以看到近期的一些竞赛,重点关注以下奖金😃


image

除了list,kaggle competitions 还有一些其他用法,不展开讲了。

kaggle competitions {list, files, download, submit, submissions, leaderboard}

大家最关心的数据集下载

kaggle datasets{list,files,download,create,version,init,metadata,status}

比较常用的是:list(可用数据集列表)、files(数据文件)、download(下载)

kaggle datasets list

用法

usage: kaggle datasets list [-h] [--sort-by SORT_BY]
[--size SIZE] [--file-type FILE_TYPE] [--license LICENSE_NAME] 
[--tags TaG_IDS] [-s SEARCH] [-m] [--user USER] [-p PAGE] [-v]

这个里面还有2个常用的参数: -s 搜索,后面可以加关键词;-p 展示多少行,默认是20


image
kaggle datasets download

用法

usage: kaggle datasets download 
[-h] [-f FILE_NAME] [-p PATH] [-w] [--unzip]
[-o] [-q][dataset]

更真实的用法

如果单纯在cmd执行个下载指令就大材小用了,我们还可以用kaggleAPI写shell脚本完成更复杂的用法,比如:

#!/bin/sh
DATASET="noxmoon/chinese-official-daily-news-since-2016"
ARCHIVE_FILE="chinese-official-daily-news-since-2016.zip"
DATA_FILE="chinese_news.csv"
DATA_DIR="data"
COL_NAME="headline"
LINES=3000
OUTPUT_FILE="headlines.txt"

if [ -d ${DATA_DIR} ]; then
  echo ${DATA_DIR}' exists, please remove it before running the script'
  exit 1
fi

echo "Creating dir"
mkdir -p ${DATA_DIR}
cd ${DATA_DIR}
kaggle datasets download -d ${DATASET}
unzip ${ARCHIVE_FILE}

echo "Deleting original dataset archive"
rm -f ${ARCHIVE_FILE}

echo "Extracting, cutting, shuffling data"
awk  -v col=$COL_NAME -F "\"*,\"*" '{print $COL_NAME}' $DATA_FILE | shuf -n 3000 > ${OUTPUT_FILE}

下载-解压一气呵成!

参考

https://github.com/Kaggle/kaggle-api

相关文章

  • 下载kaggle数据集的小妙招

    kaggle是很多数据分析和机器学习初学者非常喜爱的数据科学竞赛平台。这个平台上有很多接近现实业务场景的数据集,非...

  • Kaggle入门

    如何下载Kaggle上的数据集? 首先要下载Kaggle上对应的API工具,需要先安装Kaggle。 在vsc中输...

  • 深度学习中猫🐱和狗🐶的分类 1

    以猫狗分类,讲述深度学习的分类算法。 第1部分,数据集,包括: 下载数据集:使用Kaggle API下载数据集; ...

  • 推荐系列4 电影推荐

    1 数据集下载 https://www.kaggle.com/sherinclaudia/movielens 2 ...

  • 下载Kaggle数据集

    一般都是在python下对kaggle的数据集进行处理,这里就默认已安装过python并且可以使用pip进行pyt...

  • Kaggle数据集下载

    (1)安装kaggle (2)测试 (3)debug 报错,别急,进入My Account 点击创建新的API T...

  • SQL Python教程之在 Python 环境中使用 SQL进

    看完本文收获 从 Kaggle 下载数据集。 使用 python 和 pandsql 库访问数据集。 使用 pyt...

  • kaggle API 使用

    在下载kaggle数据集时有时会发现下载速度很慢,有什么方法可以提高下载速度呢,答案是用kaggle API,本文...

  • CNN实战-手写数字识别

    数据集下载地址:https://www.kaggle.com/c/digit-recognizer/data 本项...

  • Kaggle泰坦尼克生存预测

    泰坦尼克是Kaggle上非常经典的一个项目,首先我们从Kaggle上下载数据集(https://www.kaggl...

网友评论

      本文标题:下载kaggle数据集的小妙招

      本文链接:https://www.haomeiwen.com/subject/uooulltx.html