美文网首页
torchtext 踩坑

torchtext 踩坑

作者: QXPLUS | 来源:发表于2021-11-29 15:20 被阅读0次
torchtext源码路径

NLP入门遇到的一些坑(持续更新 ……)

1. 安装spacy和en_core_web_sm

python -m spacy download en_core_web_sm
python -m spacy download en
安装spacy和en_core_web_sm的时候基本都会出错,这事,可以考虑直接下载en_core_web_sm安装包,在进行安装。

  • 注意,spacy 及其语言包(en_core_web_sm)的版本要保持一致
!pip install spacy==3.0.6 -U
!wget https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.0.0/en_core_web_sm-3.0.0.tar.gz
!pip install en_core_web_sm-3.0.0.tar.gz

2. torchtext.leagcy 遗留包导致的问题

from torchtext import data, datasets
TEXT = data.Field(tokenize='spacy')
LABEL = data.LabelField(dtype=torch.float)
会提示,torchtext.data 没有Field函数的问题,去打开源码,发现确实没有,

torchtext.data

但是发现这个功能存在于torchtext.legacy.data.field中


torchtext.legacy.data

torchtext.legacy.data.init 源码的倒入模块行可以看出,在这里具有常用的Field 和 LabelField函数

torchtext.legacy.data.__init__

于是,将导入模块的代码,修改为:
from torchtext.legacy import data, datasets
接下来继续跑上面的代码,还是报错,OSError: [E050] Can't find model 'en'. It doesn't seem to be a shortcut link, a Python package or a valid path to a data directory.
于是去查了下torchtext.legacy.data.field.Field. _init_ 函数,发现tokenizer_language默认设置为“en”,而我们安装的是en_core_web_sm, 所以需要指定tokenizer_language = “en_core_web_sm”,

1638169986(1).png
于是,下面的代码就可以正常运行了。
from torchtext.legacy import data, datasets
# from torchtext import data,datasets

TEXT = data.Field(tokenize='spacy',
                  tokenizer_language='en_core_web_sm')
LABEL = data.LabelField(dtype=torch.float)

相关文章

  • torchtext 踩坑

    NLP入门遇到的一些坑(持续更新 ……) 1. 安装spacy和en_core_web_sm python -m ...

  • JavaScrip-StepPitGuide《JavaScrip

    《JavaScript踩坑指南》JavaScrip-StepPitGuide? 《JavaScript踩坑指南》 ...

  • 算法踩坑6-二叉搜索树排序

    背景 接上面五篇文章算法踩坑-快速排序 算法踩坑2-插入排序 算法踩坑3-堆排序 算法踩坑4-冒泡排序 ...

  • 算法踩坑5-归并排序

    背景 接上面四篇文章算法踩坑-快速排序 算法踩坑2-插入排序 算法踩坑3-堆排序 算法踩坑4-冒泡排序 来...

  • D1094:踩坑的价值最大化

    是人就会踩坑,不踩坑理论上就不属于人类,踩坑是人之常情,能回头站在坑边反思,才是对踩过的的坑价值最大化的体现,要不...

  • Torchtext使用教程

    Torchtext使用教程 主要内容: 如何使用torchtext建立语料库 如何使用torchtext将词转下标...

  • 交互设计师所要避免的几个坑

    前言 工作中难免会踩到几个坑,即使现在不踩以后还会踩,只有踩过才会深刻记住,踩过说明爱过!但是踩过的坑必须把坑填满...

  • 踩坑,使用cocoaPods import导入时没有提示的解决办

    续上篇写的,踩坑,cocoaPods ---- framework not found Pods之后 ,又踩坑了。...

  • 2020-10-19随笔 踩坑0传值

    踩坑:当值传入0时,if条件判断时候会自己转换,记录踩坑。

  • 随笔

    读书啊,就是一个坑踩完了又掉进另一个坑,先说踩读书没用的坑,爬出来了,再踩读书要多的坑,之后再踩读书要精啊,读书要...

网友评论

      本文标题:torchtext 踩坑

      本文链接:https://www.haomeiwen.com/subject/tzhlxrtx.html