美文网首页
结构化数据中的从属判断问题

结构化数据中的从属判断问题

作者: 小黄鸭呀 | 来源:发表于2020-11-04 09:45 被阅读0次

 从数据表中选出数据时,有时需要判断成员是否从属于某一个集合。例如从房价表中选出重要城市的房价信息,从销售表中选出 VIP 客户的销售记录等等。如何简便快捷的处理结构化数据中的从属判断问题,这里为你全程解析,并提供 esProc 示例代码。

1. 集合包含性检测

在一个表中,根据集合的包含性判断查找记录。

【例 1】 在员工表中,统计一线城市各部门的平均工资。部分数据如下:

【解题思路】

    从员工表选出数据时,需要判断员工的所在城市是否从属于由北京、上海、广州、深圳组成的常数集合。当集合的成员数小于 10 个时,可以使用函数 A.contain() 进行过滤。

【SPL 脚本】

A4的执行结果如下:

在一个表中,根据较大集合的包含性判断来查找记录。

【例 2】 在销售表中,统计 2014 年大客户的每月销售额。部分数据如下:

【解题思路】

本题与【例 1】类似,从销售表选出数据时,需要判断销售客户是否从属于大客户的常数集合。当集合的成员较多时(超过 10 个),可以先对常数集合排序,再使用函数 A.contain() 的 @b 选项,进行二分法查找。

【SPL 脚本】

A4的执行结果如下:

2. 外键映射的包含性检测

在两个表中,根据外键映射的包含性检测查找记录。

【例 3】 查询各班有多少学生选修了“Matlab”课程。选课表和课程表如下:

【解题思路】

从选课表选出数据时,需要判断课程的名称是否等于“Matlab”。可以先在课程表中筛选出课程名称是“Matlab”的课程集合,再选出选课表的课程 ID 从属于这个集合的记录。

【SPL 脚本】

A6的执行结果如下:

3. 非外键的包含性检测

在两个表中,根据非外键的包含性检测查找记录。

【例 4】 查询各班所有某科成绩超过 80 分的学生数量。成绩表和学生表如下:

【SQL 语句】

从学生表选出数据时,需要判断学生是否有单科成绩超过 80 分的。可以先在成绩表中选出所有大于 80 分的记录,再按学生 ID 去重,得到某科成绩高于 80 分的学生 ID 的集合。接下来只要选出学生的 ID 从属于这个集合的记录。

【SPL 脚本】

A7的执行结果如下:

在两个表中,根据非外键的匹配性检测查找记录,优化提速。

【例 5】查询 2014 年各城市有销售记录的客户数量。销售表和客户表如下:

【解题思路】

从客户表选出数据时,需要判断客户在 2014 年是否有销售记录。可以先在销售表中选出 2014 年的记录,再按客户 ID 去重,得到 2014 年有销售记录的客户 ID 的集合。接下来只要选出客户表的 ID 从属于这个集合的记录。

【SPL 脚本】

A6的执行结果如下:

4. 外键映射的不包含性检测

在两个表中,根据外键映射的不包含性检测查找记录。

【例 6】 查询 2014 年每个新增客户的销售总额。销售表和客户表如下:

【解题思路】

从客户表选出数据时,需要判断该客户在 2014 年没有销售记录。可以先在销售表中筛选出 2014 年有销售记录的集合,再选出客户表的 ID 不从属于这个集合的记录。

【SPL 脚本】

A5的执行结果如下:

SPL CookBook》中还有更多相关计算示例。

相关文章

  • 结构化数据中的从属判断问题

    从数据表中选出数据时,有时需要判断成员是否从属于某一个集合。例如从房价表中选出重要城市的房价信息,从销售表中选出 ...

  • 结构化数据中的从属判断问题

    1. 集合包含性检测 在一个表中,根据集合的包含性判断查找记录。 【例 1】 在员工表中,统计一线城市各部门的平均...

  • Kaggle竞赛:Histopathologic Cancer

    1 问题和数据分析 问题:肿瘤判别。判断一个图片中是否含有结构化肿瘤。 以下是比赛中给出的数据介绍 In this...

  • 结构化数据中的存在判断问题

    从数据表中选出数据时,有时候需要判断成员在某些条件下是否存在,这些条件可能是从其他的数据表中查询的。例如分数是成绩...

  • TFS介绍

    简介 TFS主要针对海量非结构化(结构化的数据是指像mysql中的数据,非结构化就是像NOSQL中的数据)的小数据...

  • 大数据学习day_1

    #思考问题 ##什么是结构化数据,什么是非结构化数据? 1. 结构化数据即行数据,存储在传统的关系型数据库里,一般...

  • 数据分类

    应用程序数据:结构化、半结构化和非结构化数据结构化数据:结构化数据通常存储在具有行和列的数据库表中,其中键列指示表...

  • 2020机器学习结构化学习(1)

    结构化学习 简介 什么样问题是结构化学习,输入和输出都是结构化数据,所谓结构化数据可以是以下这些数据结构 序列 列...

  • 第七层 数据治理之模型设计

    模型层次 1)数据操作层:把数据几乎无处理的放在数据仓库中 ① 同步:保存增存量的结构化数据② 结构化:把非结构化...

  • 大数据之数据采集方法

    引言 数据源的分类,大体可以分为三类:结构化数据,半结构化数据,非结构化数据 开始 我仅对我工作中接触的数据和使用...

网友评论

      本文标题:结构化数据中的从属判断问题

      本文链接:https://www.haomeiwen.com/subject/uvzbvktx.html