美文网首页
自然语言认知基础

自然语言认知基础

作者: 晓在IT | 来源:发表于2021-02-14 22:25 被阅读0次

作为2021年的第一篇文章,没有什么豪言壮语。因为千万的规划方案,写得太多。而个人持续成长,不仅仅是你会说什么,而且你还能够做什么。否则人的能力将会随之年龄呈现反比,自此职场焦虑就出现了。
犹如人工智能已经落地到生活场景,但也有人是人云亦云,只是将一些概念。但科技始终是“千里之行始于足下”,愿2021继续一步一个脚印,继续向上攀爬。

一、分词是什么

分词是将文本分解成更简单的单元的过程。对于大多数文本,我们关心的是独立单词。分词是根据一组分隔符来分割的。这些分隔符通常是空格字符。Java中的空格是由Character类的isWhitespace方法定义的。例如,当空格分隔符使文本分隔符(如段落边界)变得模糊时,不同的分隔符可能很有用,检测这些文本分隔符非常重要。
二、分词过程因诸多因素而变得复杂,如下所示。


image.png

·语言:不同的语言带来了独特的挑战。空格是一种常用的分隔符,但如果我们需要使用中文(在中文中不使用空格),空格分隔符就不适用。
·文本格式:文本通常使用不同的格式存储或显示。相较于简单文本HTML或其他标记技术的文本将使分词过程变得复杂。
·停用词:对于某些NLP任务来说,常用单词可能不重要。这些常用词被称为停用词。当停用词对手头的NLP任务没有贡献时,它们会被删除。这些词包括“a”、“and”、“she”等。
·文本扩展:对于缩略词和缩写词,有时需要扩展它们,以便后期处理可以产生更好的质量结果。例如,如果搜索对“machine”这个词感兴趣,了解IBM是International Business Machines的缩写可能会有用。
·大小写:单词的大小写在某些情况下可能很重要。单词的大小写可以帮助识别专有名词。在文本分词时,转换为相同的大小写可能有助于简化搜索。
·词干化和词元化:这些过程会将单词转换为它们的词根。
删除停用词可以节省索引中的空间并使索引过程更快。然而,有些搜索引擎并不删除停用词,因为它们对于某些查询是有用的。例如,在执行精确匹配时,删除停用词将导致错误。而且,NER任务通常依赖于停用词。要认识到《Romeo and Juliet》是一部戏剧,就必须把“and”这个词包含进去。
三、简单的Java分词器
几个Java类支持简单的分词器,如下所示:
·Scanner
·String
·BreakIterator
·StreamTokenizer
·StringTokenizer

相关文章

  • 自然语言认知基础

    作为2021年的第一篇文章,没有什么豪言壮语。因为千万的规划方案,写得太多。而个人持续成长,不仅仅是你会说什么,而...

  • 浅谈自然语言处理基础(上)

    本系列第三篇,承接前面的《浅谈机器学习基础》和《浅谈深度学习基础》。 自然语言处理绪论 什么是自然语言处理? 自然...

  • 2.4领域语言与自然语言的比较2

    领域认知带来领域语言,这种实质性的语言观念是否适用于自然语言? 首先,自然语言并不是专门在认知方向使用,人类精神生...

  • 自然语言学习路线图

    01 完整路线 第一部分:机器学习基础篇 第一章:自然语言处理概述 1. 自然语言处理的现状与前景 2. 自然语言...

  • 浅谈语音识别基础

    承接前面的《浅谈机器学习基础》、《浅谈深度学习基础》和《浅谈自然语言处理基础》,主要参考了《解析深度学习:语音识别...

  • NLP 学习资源

    2021年 1月31日 贪心学院高级课程 课程拼团 PART1: 基础篇 自然语言处理概述 | 什么是自然语言处理...

  • 利用自然语言处理技术的聊天机器人

    自然语言处理,即通过计算机识别、理解、计算或分析、生成自然语言的过程。其中最基础的就是句法语义分析、信息抽取、文...

  • 使用 Python 进行社交媒体情感分析入门

    学习自然语言处理的基础知识并探索两个有用的 Python 包。 自然语言处理(NLP)是机器学习的一种,它解决了口...

  • 使用 Python 进行社交媒体情感分析入门!

    学习自然语言处理的基础知识并探索两个有用的 Python 包。 自然语言处理(NLP)是机器学习的一种,它解决了口...

  • 探讨两个开源的 Python 包,进行社交媒体情感分析入门

    学习自然语言处理的基础知识并探索两个有用的 Python 包。 自然语言处理(NLP)是机器学习的一种,它解决了口...

网友评论

      本文标题:自然语言认知基础

      本文链接:https://www.haomeiwen.com/subject/hjuuxltx.html