写在前面:笔者近期阅读了《海量数据分析前沿》,其中提到,近年来有关人的兴趣和活动的数据存量有了飞速的增长,并且海量数据具有显著的“碎片化”特征,即对人的网络行为建模需要组合来自不同网络媒体的数据。在了解到海量数据挖掘分析对人类兴趣和活动的关注后,结合最近接触较多的心理学知识,笔者意识到大数据数据挖掘技术的出现与发展或许在心理学研究中具有划时代的意义,于是搜索了近年来的中文文献进行了阅读,总结如下,称不上是“研究综述”,浅“谈”辄止尔。
一 心理学研究中对数据挖掘技术的认知概述
1 数据挖掘定义
数据挖掘(Data Mining)是指从大量的、不完全的、有噪声的、模糊的、随机的数据中发现隐含在数据中的关系,建立模型,提取具有潜在价值、可信、新颖、有效并能被人所理解的信息和知识的过程。又称为数据库中的只是发现、数据分析等[1]。
2 心理学研究领域应用数据挖掘的一般过程
问题描述,数据准备(数据采集,数据预处理,数据转换),数据挖掘(分类,聚类,关联规则,模式识别,预测,偏差分析等),结果输出,结果评估[1][2]。
二 大数据时代下心理学研究的可用数据源
1. 传统心理学研究方法收集到的观察数据、实验数据、测量数据和访谈资料等[1]。
2. 社交网络数据,如微博、Twitter等[1]。
3. 社会、生活的其他场景数据,如网购数据、投资数据、面试数据、健康数据、定位数据等[1][3]。
三 大数据时代的心理学研究变革与意义
1 从数据的层面来看
第一, 打破了样本与总体之间的界限,实现了研究对象的变革。(传统做法)研究对象为随机抽取的样本,并通过控制样本行为获取数据,总结对象的心理变化规律,进而将样本研究结果推广至总体。(问题)忽略了样本与总体之间的差异。(大数据时代)从海量数据中获取全面信息,利用数据平台进行分析处理,直面总体形成心理学分析依据,提高心理学研究的质量[3]。
第二,剔除了控制性心理实验造成的干扰,提高研究的真实性。(传统做法)在规定的情境下要求研究对象做出选择,以此分析其心理倾向。(问题)这种规定情境与实际生活存在差异,实验中对象的行为在被观察过程中也会发生改变,导致数据难以直接反应心理变化。(大数据时代)多元信息获取渠道获取的数据代表着个体在真实情境下的实际反应,这些数据相较于实验室规定情境而言更加真实、可靠[3]。
第三,提高了海量的数据收集和处理效率,推动了研究过程的转变。(传统做法)大型问卷和测验。(问题)数据收集过程漫长复杂,信息处理过程缺乏有效手段,耗费大量的人力、物力、财力。(大数据时代)海量数据收集与处理工具打破研究在时间和空间上的局限,在短时间内完成海量数据的获取,同时利用数据处理器完成分析,形成直观可见的研究模型,从而有效降低心理研究成本,提高研究工作效率[3]。
第四,打破了数据信息与心理行为的界限,实现了数据即行为的变革。 (传统做法及问题)回溯性分析通常受到遗忘等因素的影响,造成数据失真。(大数据时代)研究对象的行为会形成永久性记录,时间场景信息真实可靠,确保研究对象数据与行为的统一性[3]。
2 从技术的层面来看
大数据与人工智能的结合,使得心理学家可以利用生态化的行为数据实现对人们心理指标的自动识别,即生态化识别[4]。
生态化识别是指一种非接触式的心理特征测量方法,利用机器学习技术,建立心理指标预测模型,从而实现对受试者心理指标的自动识别。与传统方法相比,具有以下优势:1)可实现对不同时间粒度的纵向追踪;2)可获取重大事件发生前后受试者的心理状态和行为表现及其变化规律,从而对事件影响进行量化研究;3)不依赖于被试对象的主观报告和主试者的操纵,可避免实验条件的误差。
四 大数据挖掘与人工智能技术在心理学研究中的应用实例
1 微博人格预测模型
现有的人格结构主要是从现实语境中产生的,在解释网络用户行为过程中常常遇到困难,研究网络人格结构将有助于我们从心理层面识别网络用户身份,深入了解网络用户的行为特征并预测用户的网络行为。中国科学院心理研究所计算网络心理实验室(computational cyber psychology lab,CCPL)对网络人格结构开展相关研究:根据词汇学假设建立微博人格结构;利用机器学习,以期建立一个对网络用户行为心理具有更好描述和预测效果的模型,即建立人格预测模型。
心理指标的自动识别为进一步研究网络心理提供了基础性研究,能更有效地进行网络用户身份识别、预测用户行为等[4]。
2 在线主动自S干预
传统的自S风险评估研究主要采用心理测验、访谈、问卷等分析方法,但从应用效果上说,以上方法具有较大的被动性;往往有自S企图或倾向的人主动求助率低,而且很难防止他们刻意隐藏内心的真实想法,难以起到及时预警的作用。不同于传统研究方法的被动性,通过社交网络能主动寻找有潜在自S倾向的个体,并对他们产生影响。
在新浪微博用户文本分析基础上,结合用户行为数据分析,全面比较了自S用户和无自S倾向用户在社交行为、语言使用上的差别,归纳有自S倾向的用户的可识别模式,建立自S意念识别模型。该模型的精确率、召回率、F 值和准确率分别为 0.88、0.85、0.85 和 0.86,优于之前相同领域内自S识别模型的预测结果。目前,通过对各种网络媒介内容的实时分析,甄别出其中带有自S意念的发言,通过对发言用户以往行为和内容的分析,进一步确认用户的自S意念后,提供及时有效的干预[4]。
3 青岛大虾事件分析
利用心理预测模型对2015年10月的一个热点事件——青岛大虾宰客事件(原本 38 元一份的海捕大虾,结账时变成38元一只)进行了分析。通过新浪微博API获取了全国100万活跃微博用户在该热点事件期间发布的微博,并采用topic model文本挖掘技术对相关文本进行了分析。结果表明,事件爆发后 2 天,网友主要是对该事件本身进行讨论,从第 3 天开始,网友开始将事件发散,关注点已经不在青岛大虾这一事件本身,而是以“段子”的形式讨论不同地区旅游景点宰客的普遍现象,通过讲述自己的亲身经历或听说的类似事件,表达对景点宰客这一现象的不满。同时,结果表明,网友们对官方发布和回应的内容都高度关注,每次都会引发热议。
通过利用心理预测模型分析此类事件,不仅可以及时获取事件发生变化趋势,了解事件背后大众的心理变化和态度取向,更可以为国家相关机构进行舆情监控提供先行指数(antecedent index),提高相关部门应对危机事件的能力[4]。
五 大数据挖掘与心理学的研究展望
第一,充分利用数据挖掘技术的知识发现功能,关注潜在的数据关系和行为模型,完善心理学研究体系[2]。
第二,针对海量数据的”碎片化”特征,发展融合多数据源的数据挖掘技术和系统,构建跨空间、跨表达、跨管理域的心理分析模型,从而提供个性化的服务。
第三,加强人才队伍建设,促进多学科专业人才合作交流,建设跨学科专业,健全基于心理学研究且掌握数据挖掘技能的人才培养体系[2]。
参考文献
[1] 张哲. 浅议数据挖掘在心理学研究领域的应用. 教育教学论坛. 2010年5月.
[2] 成方妍, 李家玲, 于炜烨, 张敏强. 数据挖掘技术在心理学领域的应用和展望. 第二十一届全国心理学学术会议摘要集. 2018年11月.
[3] 白浪. 论大数据时代的心理学研究变革. 山西青年. 2020年4月.
[4] 刘兴云, 刘晓倩, 向媛媛, 朱廷劭. 人工智能大数据之于心理学. 科技导报. 2019年11月.
网友评论