美文网首页
wikiSQL-数据形式

wikiSQL-数据形式

作者: yumiii_ | 来源:发表于2018-12-13 15:46 被阅读0次

本文是https://github.com/salesforce/WikiSQL这个网址的翻译,只是为了方便了解这个数据集的格式..

.jsonl文件的格式:

{
   "phase":1,
   "question":"who is the manufacturer for the order year 1998?",
   "sql":{
      "conds":[
         [
            0,
            0,
            "1998"
         ]
      ],
      "sel":1,
      "agg":0
   },
   "table_id":"1-10007452-3"
}

phase表示在哪个数据集收集的数据,有两个phase。
question:自然语言问句
sql:

  • sel: 表中的哪一列被选中了,是这一列的索引值。
  • agg: 指的是aggregation operator的索引号,在lib/query.py中我们可以看到是这几个operator:

agg_ops = ['', 'MAX', 'MIN', 'COUNT', 'SUM', 'AVG']

  • conds:三元组列表(column_index,operator_index,condition)where column = "value"

    • column_index:列的索引
    • operator_index:满足这个条件数字索引。也就是下面几种运算符:

    cond_ops = ['=', '>', '<', 'OP']

    • condition:条件的比较值,以字符串或浮点类型表示。也就是value

.tables.jsonl的格式:

{
   "id":"1-1000181-1",
   "header":[
      "State/territory",
      "Text/background colour",
      "Format",
      "Current slogan",
      "Current series",
      "Notes"
   ],
   "types":[
      "text",
      "text",
      "text",
      "text",
      "text",
      "text"
   ],
   "rows":[
      [
         "Australian Capital Territory",
         "blue/white",
         "Yaa\u00b7nna",
         "ACT \u00b7 CELEBRATION OF A CENTURY 2013",
         "YIL\u00b700A",
         "Slogan screenprinted on plate"
      ],
      [
         "New South Wales",
         "black/yellow",
         "aa\u00b7nn\u00b7aa",
         "NEW SOUTH WALES",
         "BX\u00b799\u00b7HI",
         "No slogan on current series"
      ],
      [
         "New South Wales",
         "black/white",
         "aaa\u00b7nna",
         "NSW",
         "CPX\u00b712A",
         "Optional white slimline series"
      ],
      [
         "Northern Territory",
         "ochre/white",
         "Ca\u00b7nn\u00b7aa",
         "NT \u00b7 OUTBACK AUSTRALIA",
         "CB\u00b706\u00b7ZZ",
         "New series began in June 2011"
      ],
      [
         "Queensland",
         "maroon/white",
         "nnn\u00b7aaa",
         "QUEENSLAND \u00b7 SUNSHINE STATE",
         "999\u00b7TLG",
         "Slogan embossed on plate"
      ],
      [
         "South Australia",
         "black/white",
         "Snnn\u00b7aaa",
         "SOUTH AUSTRALIA",
         "S000\u00b7AZD",
         "No slogan on current series"
      ],
      [
         "Victoria",
         "blue/white",
         "aaa\u00b7nnn",
         "VICTORIA - THE PLACE TO BE",
         "ZZZ\u00b7562",
         "Current series will be exhausted this year"
      ]
   ]
}

id:表的id
header:表中的列名
rows:表中每一行的值.

我们具体来看一下下载下来的data文件夹的数据:
这是train.jsonl第一行的数据:

train.jsonl
这是train.table.json第一行的数据:
train.tables.json

我们可以看到标注的sql的sel,conds,agg,然后去train.tables.json比对一下:
sel:索引5表示notes,conds:3表示current slogan,0表示"=","SOUTH AUSTRALIA"表示值.也就意味着这句SQL是:select notes where current slogan = "SOUTH AUSTRALIA".

over~

相关文章

  • wikiSQL-数据形式

    本文是https://github.com/salesforce/WikiSQL这个网址的翻译,只是为了方便了解这...

  • MySQL入门指南:删改查

    数据操作语言(DML) 数据插入(增加数据) 形式一 形式二 形式三 形式四:适用于从本地文件中读取并生成表 注意...

  • R进行多组箱线图的绘制

    上图 数据形式如下:

  • Python写入数据到csv中

    数据以元组形式包裹 数据是字典格式

  • 2018-01-16

    SAS成长之路——数据输入 一、数据量不大的情况   数据部的一般形式: 二、数据量较大的情况  数据部的一般形式...

  • 2018-08-22 Day3-字符串

    1.数据存储形式 计算机以二进制的形式存储 (1).原码:数据的二进制形式 10 --> 1010 原码:0000...

  • R for data science 笔记||使用ggplot2

    数据可视化贯穿数据分析始终 数据终将以某种形式展现出来。 数据可视化是关于数据视觉表现形式的科学技术研究。这种数据...

  • 物理层(一)

    [TOC] 数字传输 数据可以以模拟或数字形式表示。计算机使用数字形式存储信息。因此,数据需要以数字形式转换,以便...

  • 算法训练 -- 第一章 线性表

    一、位操作 所有数据在计算机底层都是以二进制形式存在的存储时:数据以二进制数字形式进行存储计算时:数据以补码形式参...

  • 13-Operator Chains(任务链)

    一、数据传输形式 Stream在算子之间传输数据的形式可以是one-to-one(forwarding)的模式也可...

网友评论

      本文标题:wikiSQL-数据形式

      本文链接:https://www.haomeiwen.com/subject/usigtqtx.html