美文网首页
HSE-advanced level NLP- 1.1 Text

HSE-advanced level NLP- 1.1 Text

作者: 快乐自由拉菲犬 | 来源:发表于2020-06-01 11:31 被阅读0次

分词对于英语而言,是比较容易的,毕竟每个词之间都是space or punctuation.
但是其他语言可能就没这么方便了,比如德语、日语、中文。期间没有明显的spaces.

尤其是日语,压根没有空格at all.

虽然这样,对于人类而言,却毫无难度。

token: you can think it as a useful unit for semantic processing

可见,这些tokens don't make any sense n't

所以tokenization如要让tokens具有意义。


(from:https://www.coursera.org/learn/language-processing/lecture/SCd4G/text-preprocessing)

相关文章

网友评论

      本文标题:HSE-advanced level NLP- 1.1 Text

      本文链接:https://www.haomeiwen.com/subject/jcpjzhtx.html