结构化文本计算示例（二）

作者: 小黄鸭呀 | 来源:发表于2020-05-07 11:25 被阅读0次

结构化文本计算示例（二）
一文看懂词嵌入word embedding（2种算法+其他文本表
Greedy NLP Learning Notes（六）信息抽取
iOS 动态计算文本高度
文本表示｜独热编码｜整数编码｜词嵌入
markdown使用
JAVA基础教程书目录
js获取数组中某属性的最大值和最小值
学习《文本分析》之概述
深入理解计算机系统

上一节讲述了结构化文本的一些基本运算，本节继续用案例讲述二目运算和综合运算。

二目运算

集合运算（文件比较）

现有文件f1.txt和f2.txt，第一行是列名，需要对文件中的Name字段进行交集运算。部分数据如下：

文件f1.txt:

文件f2.txt:

代码如下：

函数isect用于集合间的交集运算，A1.(Name)表示取出A1的Name列，形成一个集合，B1.(Name)表示取出B1的Name列。本案例的最终结果如下：

类似地，求并集用函数union，差集可用diff，合集可用conj（相当于union all）。也可以直接用运算符来代替函数，写法更加简洁，比如交集，并集、差集、合集可以改写为：

A1.(Name) ^ B1.(Name)

A1.(Name) & B1.(Name)

A1.(Name) \ B1.(Name)

A1.(Name) | B1.(Name)

上面的示例显示了读入文本文件并自动拆分为字段后，仅取其中的某一列进行集合运算。那如果想不拆分字段，对整行数据一起比较呢？很简单，在导入的选项加上 s 即可，表示不拆分字段。但需要注意的是，不进行拆分后，相当于直接返回一个只有一列的序表，且此时的列名也没有拆分，变成了Name(Tab)Dept,也就是此时的列名中包含了不可见字符 Tab，这列名是非法的，都没法直接引用了。不过还好可以用序号来表示第几列，此时的代码如下：

显然，不拆分字段时，肯定只有一列，与其得到一个非法的列名，还不如不要列名，直接返回成集合（序列）多好，此时需要额外加上选项 i，表示只有一列数据时，直接返回成序列。此时交集直接就是集合的运算了，写成 A1^B1 即可，代码如下：

上面两种算法，得到的都是相同的结果：

归并

现有table1.txt和table2.txt已按逻辑主键ID1、ID2排序。现在要根据主键用table2更新table1，即主键相同其他字段不同时更新table1，主键不同时向table1插入数据。

源数据如下：

用table2更新table1之后，table1应当如下：

代码如下：

以游标方式读取table1.txt和table2.txt，按照逻辑主键用B1更新A1。函数mergex可进行数据归并，并保持结果仍有序，@u表示计算并集。最后将计算结果写入新文件。

这个代码使用了游标，不必考虑内存对数据文件的大小的限制，因此可以处理非常大的文件。

如果文件本身无序，那么需要先排序再归并，这时只需要将每个游标附加一个排序表达式即可，A2可以改写为：

[B1.sortx(ID1,ID2),A1.sortx(ID1,ID2)].mergex@u(ID1,ID2)

有序集合运算

假设文件f1.txt和f2.txt已按Name和Dept排序，需要计算两者的交集。源数据如下：

文件f1.txt:

文件f2.txt:

当文件有序时，可以通过归并算法来实现集合运算，其性能比普通集合运算更高。代码如下：

merge表示对序表进行归并，@i表示交集，@u表示并集，@d表示差集。

计算结果如下：

如果文件本身无序，可先用函数sort排序，但要注意小文件排序归并比普通集合运算更慢，所以本方法适合较大的文件。

关联计算

emp.txt是用tab分隔的文本文件，其EId字段对应sales.txt中的SellerId字段，现在要将emp.txt的Name、Dept、Gender这三个字段对齐到sales.txt。

源数据如下：

代码如下：

函数join执行连接运算，并将两个表改名为s和e，默认内连接，@1表示左连接，@f表示全连接。之后从连接的表中取得需要的字段，组成新的二维表。结果如下：

综合运算

多层关联

下面的例子中共有5个数据源文件，其中订单是事实表，客户、产品、地区、供应商是维表。我们需要过滤出客户和供应商属于同一个地区的订单，然后根据这些订单按城市分组，汇总各城市的订单数和订单金额。

关系结构如下图：

代码如下：

读入文本，建立事实表和维表之间的关联，之后按关联关系查询订单，再进行分组汇总，其中函数switch用于建立外键关联。

异构文件比较

Data.txt是tab分隔的文本，共有6个字段，其中here字段是分号分隔的字符串。另有文件list是单列数据。现在要比较这两个文件，如果某条记录的here字段拆分后和List.txt中的任意一行匹配，则将这条记录输出到result.txt中。

源数据如下：

List.txt

Data.txt

代码如下：

A3格子的代码中使用函数select进行查询，条件为here字段用array拆分为字符串序列后，再跟A2序列求交(“^”)集，结果不为空(“[]”)。

结果如下：

多级目录文件抽取

目录“D:\files”包含多级子目录，每个目录下都有许多文本格式的文件，从这些文件中读取指定的行（比如第二行），并将这些数据写入新的文件d:\result.txt。

代码如下：

参数path的初始值设为“D:\files”，表示从该目录开始抽取数据，之后递归调用本脚本（c:\readfile.dfx），每次传入给参数path的值不同。

函数directory用来读出参数path中根目录下的文件列表，选项@p表示文件名带全路径，@d表示只取目录名。

~.skip(1)表示跳过一行。

~.fetch@x(1)表示从当前位置读取一行（即第二条）数据后立刻关闭游标。

分组拆分写出

文件sales.txt存储了大量销售订单，现在将该文件按年和月拆分为多个文件，文件名格式为“年-月.txt”。

代码如下：

按年月分组解析分组，再按组循环，并写入文件。比如文件2009-01.txt，文件内容如下：

源数据超过内存时应用函数cursor读文件，如组内数据仍超内存，应当使用函数groupx分组，但代码结构无变化。

综合运用（库存计算）

文件Stock.txt存储货物的出入库记录，同种货物每天可能出入库多次，也可能连续几天无任何货物出入库，货物初值为0，入库用In表示，出库用Out表示，需要计算出所有货物的每日库存。源数据如下：

代码如下：

代码说明：先用A2汇总出所有货物每日的出入库总数，再按最早、最晚日期算出完整的日期列表，存于B3。然后按货物分组，循环每组数据，并将当前组与B3对齐，在B6中计算出当前货物的每日库存，计算完成后将所有库存结果保存到A8。

计算完成后A8结果如下：

网友评论

本文标题：结构化文本计算示例（二）

本文链接：https://www.haomeiwen.com/subject/ovvoghtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

结构化文本计算示例（二）

相关文章