美文网首页
文本分析之我的词库

文本分析之我的词库

作者: spssau | 来源:发表于2024-01-31 18:49 被阅读0次

文本分析时,可能涉及到一些新词,比如‘内卷’,这个词很可能在词典中并未出现过,词库也不认识它。但研究者自己认识它,此时可将该词纳入到新词词库中,让系统统计词频等信息时也对该词进行统计。当然还有一些停用词,比如‘好了’,这个词没有实际的意义没有统计词频等必要,此时可对该词设置为停用词。除此之外,还可设置情感词,比如:‘元宇宙’可能是个正向词(也可能是负向情感,由研究者决定),那么可自主设置其情感分值。操作上为点击‘我的词库’,然后选择即可,如下图:

接下来针对三个词库的设置进行具体说明。

新词词库

如果是新词,那么其操作方式为输入或者粘贴即可,通常可在‘新词发现’时找出一些潜在的新词,然后整理在EXCEL中,最后一次性复制和粘贴到框框中就好。比如下图:

批量加入新词后,左侧框中即呈现出全部新词。当然也可对新词进行移除处理,也可以搜索是否某个新词已经加入新词库,也或者下载出所有设置好的新词等。如下图所示:

特别提示:

在‘新词发现’功能处,有加入或者移出新词的功能。但通常情况下建议一次性将新词批量处理,在处理完成后,重新进行分析,重新进行分析的方式为:点‘我的项目’-》点击‘重新分析ICON’。

停用词

停用词是指已经不再需要计算频率的词,研究者可自行批量设置,类似如下图操作即可:

批量加入停用词后,左侧框中会展示所有的停用词,研究者也可删除停用词,搜索是否某个词为停用词,并且下载所有的停用词等。如下图所示:

特别提示:

在词云分析和词定位分析处,均有加入或者移出停用词的功能。但通常情况下建议一次性将停用词批量处理,在处理完成后,重新进行分析,重新进行分析的方式为:点‘我的项目’-》点击‘重新分析ICON’。

情感词

如果系统未识别到某个关键词的情感得分,也或者希望自己设置情感词,此时可进行设置。其输入格式为:“情感词,情感分值”,比如“很好,0.8”,此处情感分值建议规则为:-1到1分之间,大于1/3为情感正向,小于-1/3为情感负向[SPSSAU的情感计分规则是这样],情感得分绝对值越大意味着情感程度越高。

当有多个情感词时,换行输入(或者粘贴即可),操作类似如下图:

在加入情感词之后,左侧框中会展示所有自定义的情感词,研究者也可删除它,搜索是否某个词为自定义情感词,并且下载所有自定义情感词等。如下图所示:

特别提示:

在情感词自定义设置之后,如果需要查看按词情感分析,那么需要重新分析,重新进行分析的方式为:点‘文本情感分析’-》“按词”-》点击‘重新分析’。如下图所示:

相关文章

  • 数据分析小白笔记(一)

    数据分析 小白笔记 1、文本分词 2、去停用词 下载停用词库

  • 学习《文本分析》之文本索引和检索

    前提概述 前提知识回顾传送门: 学习《文本分析》之概述 学习《文本分析》之分词、词性标注及语法树 信息(这里主要指...

  • 2021-04-10 ch7 文本表示

    文本表示基础 单词和句子的表示 迭代1:one-hot表示词库:[今天 天气 很好]句子1:[今天 天气 很好] ...

  • 我的词库

    虚与委蛇 〔对别人假意敷衍应付〕 溢于言表 〔某种意愿、感情通过言辞、神情充分流露出来〕 怀恨在心 〔记住对...

  • 秋色

    秋之萧瑟,秋之肃杀,秋之绚烂,这些在我幼时的词库,统统都没有。 我的秋天,是放假,老师们要放下书本,回...

  • 7-文本处理公式和正则表达式

    本章内容 ◆ 各种文本工具来查看、分析、统计文本◆ 文本处理三剑客之grep◆ 正则表达式◆ 扩展正则表达式 抽取...

  • Bleve 文档翻译计划(3)——文本分析

    Text Analysis(文本分析) 文本分析是将输入文本转换成一系列分析后的术语的过程。在索引时进行分析,将输...

  • ImageQ|文本挖掘工具|文本挖掘在线工具|分析之"

    ImageQ文本挖掘工具|文本挖掘在线工具|分析之"外籍男推女工被抓",就在10月21日那天,香港地铁发生恶性伤人...

  • 读书笔记| 《故事》罗伯特·麦基12

    PART Ⅲ | 故事设计原理 CHAPTER 12| 场景分析 文本和潜文本/场景分析技巧/ 01 任何文本都有...

  • 小鹤双拼词库分析

    前言: 数据挖掘这门课的大作业是上交一份数据挖掘的案例.于是乎我决定对比分析一下小鹤音形和正常全拼的码表.首先是小...

网友评论

      本文标题:文本分析之我的词库

      本文链接:https://www.haomeiwen.com/subject/drraodtx.html