分词对于英语而言,是比较容易的,毕竟每个词之间都是space or punctuation.
但是其他语言可能就没这么方便了,比如德语、日语、中文。期间没有明显的spaces.
尤其是日语,压根没有空格at all.
虽然这样,对于人类而言,却毫无难度。
token: you can think it as a useful unit for semantic processing
可见,这些tokens don't make any sense n't
所以tokenization如要让tokens具有意义。
(from:https://www.coursera.org/learn/language-processing/lecture/SCd4G/text-preprocessing)
网友评论