美文网首页
HSE-advanced level NLP- 1.1 Text

HSE-advanced level NLP- 1.1 Text

作者: 快乐自由拉菲犬 | 来源:发表于2020-06-01 11:31 被阅读0次

    分词对于英语而言,是比较容易的,毕竟每个词之间都是space or punctuation.
    但是其他语言可能就没这么方便了,比如德语、日语、中文。期间没有明显的spaces.

    尤其是日语,压根没有空格at all.

    虽然这样,对于人类而言,却毫无难度。

    token: you can think it as a useful unit for semantic processing

    可见,这些tokens don't make any sense n't

    所以tokenization如要让tokens具有意义。


    (from:https://www.coursera.org/learn/language-processing/lecture/SCd4G/text-preprocessing)

    相关文章

      网友评论

          本文标题:HSE-advanced level NLP- 1.1 Text

          本文链接:https://www.haomeiwen.com/subject/jcpjzhtx.html