美文网首页FastAI
FastAI08-NLP的分词化和数字化

FastAI08-NLP的分词化和数字化

作者: 科技老丁哥 | 来源:发表于2019-10-10 17:28 被阅读0次

在NLP中,第一步基本上都是分词化(Tokenization)和数字化(Numericalization).分词化就是将一整段话切分成一个一个的分词,此处的分词并不是简单的一个单词,而数字化是将该单词转换为整数值,便于模型训练。

FastAI库中将这两个过程直接封装起来了,所以一般我们用TextDataBunch.from_csv(path, 'texts.csv')加载文本数据时,根本就觉察不到这两个过程。

1. 分词化-Tokenization

lesson-3提供的数据集是imdb_sample,这是IMDB数据集的一个子集,全部位于一个csv文件中,这个csv文件的格式为:


第一列是label,表示该评论是正面还是负面,第二列text是评论本身文本,第三列is_valid表示该文本是不是val set。

当然,最简单的分词化就是用空格来分开一个一个的单词,这样一个单词就是一个分词,但是这样不太准确,标点符号怎么办?缩写怎么办,比如isn't, don't等?大小写怎么办?

FastAI在加载文本数据集之后,直接将文本进行分词化处理了,处理之后的分词可以用data.show_batch()显示出来:

2. 数字化-Numericalization

FastAI在将文本进行分词化处理之后,马上对其进行了数字化处理,即用所有文本中的所有分词(默认下,只考虑出现2次及以上的分词,且分词总数为6万)来构建一个分词库,然后用整数来标注每一个分词,这样就将分词和整数一一对应起来。

这个分词库就是刚才加载的data.vocab,我们可以用这个分词库来将整数转换为分词,也可以将分词转换为整数。

data.vocab.itos[:10]

['xxunk',
'xxpad',
'xxbos',
'xxeos',
'xxfld',
'xxmaj',
'xxup',
'xxrep',
'xxwrep',
'the']

可以打印出第一个文本对应的整数值:

data.train_ds[0][0].data[:10]

array([ 2, 5, 66, 62, 34, 99, 72, 34, 42, 96], dtype=int64)

可以看出,对应的分词都已经转换为整数了。

其实,TextClasDataBunch.from_csv()函数是一种高级的封装之后的API,所以它失去了一些灵活性,如果想要更多灵活性,可以用下面的方法,效果一样:

data = (TextList.from_csv(path, 'texts.csv', cols='text')
                .split_from_df(col=2)
                .label_from_df(cols=0)
                .databunch())

使用NLP专用的TextList类的工厂方法可以满足各种定制化需求。比如上面指定文本来源于text列,使用col=2列来分割train set和val set,label来源于cols=0列。

相关文章

  • FastAI08-NLP的分词化和数字化

    在NLP中,第一步基本上都是分词化(Tokenization)和数字化(Numericalization).分词化...

  • 武汉疫情之后,泛家居行业将会发生的十大变化

    01、家居卖场将会区分为数字化卖场和非数字化卖场 红星美凯龙的数字化道路很长,本身已经建立了强大的数字化能力,再结...

  • 疫情之后,泛家居行业将会发生的十大变化

    01 家居卖场将会区分为数字化卖场和非数字化卖场 红星美凯龙的数字化道路很长,本身已经建立了强大的数字化能力,再结...

  • 档案信息化004 档案信息化建设

    档案信息化建设必须紧扣数字化和网络化两个主题。 数字化是信息化的基础,没有数字化就没有计算机技术和信息技术。 网络...

  • 企业数字化转型的主要有哪些内容?

    数字化转型的主要内容有数字化认知、数字化转型战略、数字化架构调整、数字化组织变革等22项内容。 1、提高数字化认知...

  • 数字化

    数字化的本质:建立成本更低、体验更好的交易。 在产业数字化领域,数字化能力需要聚焦组件化和服务化,围绕场景和关键业...

  • 数字化管理助力企业运营

    导读: 1、什么是数字化管理 2、数字化管理的优势 3、数字化管理助力企业运营 01 什么是数字化管理 数字化管理...

  • 2018新零售变革 云集品布局数字化门店

    2018新零售变革 云集品布局数字化门店 在未来的商业化中,将没有线上和线下的区分,只有数字化商业和非数字化商业的...

  • 5-2

    在了解央行的DC/EP之前,我们必须区分“货币的数字化”和“数字化货币”的概念。 “货币的数字化”中,钱还是你的钱...

  • 对数字化转型的理解

    “数字化转型” 的定义 1. 何为数字化? 数字化把原子世界和模拟数据转化成0和1表示的二进制信息,通过比特信息表...

网友评论

    本文标题:FastAI08-NLP的分词化和数字化

    本文链接:https://www.haomeiwen.com/subject/rhsapctx.html