- 链路预测是否有助于检测软件产品线(SPL)中的功能交互?;
- 世界贸易分析的潜在狄利克雷分配模型;
- Scikit-network:Python中的图分析;
- 用于可扩展知识图谱分析的语义属性图;
- 网络中层级社区的可检测性;
- 帮助用户应对社交媒体上的算法威胁:多媒体研究议程;
- 美国县级COVID-19活动的高分辨率时空模型;
- 探索Web挖掘的COVID-19会话Vlog语音提示;
- Twitter的新长度限制的采用:280字限制会是新的140字?;
- 通过挫折云表征态度网络图;
- 协作行为启发式选择的动力学;
- 人体测量估计中的人为偏见;
链路预测是否有助于检测软件产品线(SPL)中的功能交互?
原文标题: Does Link Prediction Help Detect Feature Interactions in Software Product Lines (SPLs)?
地址: http://arxiv.org/abs/2009.07392
作者: Seyedehzahra Khoshmanesh, Robyn Lutz
摘要: 软件产品线需求工程的一项持续挑战是预测功能(功能单元)的新组合是否会产生有害的或有害的功能交互。因此,我们寻求在开发的早期阶段改进和自动化不需要的特征交互的预测。在本文中,我们展示了如何将软件产品线中不需要的功能交互的检测有效地表示为链路预测问题。链路预测使用机器学习算法和图节点之间的相似性分数来识别可能的新边。我们在此将软件产品线要素建模为节点,并将要素之间的不必要交互建模为边。我们研究了六个基于链接的相似性度量,其中一些使用图的局部知识,另一些使用图的全局知识,供在这种情况下使用。我们根据文献中的软件产品线基准评估我们的方法,并从基于图的相似性数据构建六个机器学习模型。结果表明,在此小型研究中,最好的ML算法将特征交互分类为不需要或需要的时,精度达到0.75:1,并且全局相似性指标的性能优于局部相似性指标。这项工作展示了链路预测模型如何帮助发现早期开发中缺少的边,这些边代表了未记录或无法识别的不需要的功能交互。
世界贸易分析的潜在狄利克雷分配模型
原文标题: Latent Dirichlet Allocation Models for World Trade Analysis
地址: http://arxiv.org/abs/2009.07727
作者: Diego Kozlowski, Viktoriya Semeshenko, Andrea Molinari
摘要: 国际贸易是经济学的经典研究领域之一。如今,鉴于数据的可用性,可以使用超越传统方法的新方法和技术来补充和丰富用于分析的工具。本文展示了潜在的狄利克雷分配模型的应用,这是自然语言处理领域的一种众所周知的技术,用于搜索国际贸易产品空间中的潜在维度,以及它们随时间在各国之间的分布。我们将此技术应用于1962年至2016年国家货物出口的数据集。研究结果表明,有可能基于经验证据生成更高级别的货物分类,并且还可以研究这些分类在国家内部的分布。后者显示了有关国家贸易专业化的有趣见解。
Scikit-network:Python中的图分析
原文标题: Scikit-network: Graph Analysis in Python
地址: http://arxiv.org/abs/2009.07660
作者: Thomas Bonald (IP Paris), Nathan de Lara (IP Paris), Quentin Lutz (IP Paris), Bertrand Charpentier (TUM)
摘要: Scikit-network是受scikit-learn启发而用于大型图分析的Python软件包。图由SciPy的稀疏CSR格式的邻接矩阵表示。该软件包提供了用于对图的节点进行排名,聚类,分类,嵌入和可视化的最新算法。通过混合快速矩阵向量乘积(使用SciPy),编译代码(使用Cython)和并行处理来实现高性能。该软件包是根据BSD许可证分发的,其依赖项仅限于NumPy和SciPy。它与Python 3.6及更高版本兼容。可以在线获取源代码,文档和安装说明。
用于可扩展知识图谱分析的语义属性图
原文标题: Semantic Property Graph for Scalable Knowledge Graph Analytics
地址: http://arxiv.org/abs/2009.07410
作者: Sumit Purohit, Nhuy Van
摘要: 图是描述各种复杂系统的活动,关系和演变的自然而基本的表示。可以将诸如通信,引用,采购,生物学,社交媒体和运输等许多领域建模为一组实体及其关系。资源描述框架(RDF)和标记属性图(LPG)是在图中编码信息的两种最常用的数据模型。两种模型在使用诸如节点和边之类的基本图元素方面相似,但在建模方法,可表达性,序列化和目标应用程序方面有所不同。 RDF是一种灵活的数据交换模型,用于表达有关实体的信息,但是它往往具有较高的内存占用量和低效的存储能力,因此并不是执行可伸缩图分析的自然选择。相比之下,LPG作为执行可扩展图分析任务(例如子图匹配,网络对齐和实时知识图查询)的可靠模型而受到关注。它提供了有效的存储,快速遍历和灵活性,可以对各种实际领域进行建模。同时,LPG缺乏形式知识的支持,例如提供自动知识推断的本体。我们提出语义属性图(SPG)作为将RDF化为LPG模型的逻辑投影。 SPG继续使用RDF本体来定义投影图的类型层次结构,并根据给定的本体对其进行验证。我们提供了一个框架,可使用两个不同的计算环境将经过修饰的RDF图转换为SPG。我们还展示了使用Amazon Web Services的基于云的图迁移功能。
网络中层级社区的可检测性
原文标题: Detectability of hierarchical communities in networks
地址: http://arxiv.org/abs/2009.07525
作者: Leto Peel, Michael T. Schaub
摘要: 我们研究了恢复网络中种植的分区层次结构的问题。先前已经详细分析了单个种植分区的可检测性,并且已经确定了相变,在该相变以下无法检测到该分区。在这里,我们表明,在分层设置中,存在其他阶段,其中多个一致分区的存在可以帮助或阻碍检测。因此,非分层分区的可检测性限制通常无法提供有关完整分层结构的可检测性的足够信息,正如我们以几个建设性示例所强调的那样。
帮助用户应对社交媒体上的算法威胁:多媒体研究议程
原文标题: Helping Users Tackle Algorithmic Threats on Social Media: A Multimedia Research Agenda
地址: http://arxiv.org/abs/2009.07632
作者: Christian von der Weth, Ashraf Abdul, Shaojing Fan, Mohan Kankanhalli
摘要: 参加社交媒体平台有很多好处,但也构成了巨大的威胁。用户经常会意外地失去隐私,被错误/虚假信息轰炸,或者由于内容过于个性化而陷入过滤器气泡中。隐藏的AI驱动算法在幕后工作以塑造用户的思想,态度和行为的兴起进一步加剧了这些威胁。我们调查了多媒体研究人员如何帮助解决这些问题,从而为社交媒体用户创造了公平的竞争环境。我们对社交媒体上的算法威胁进行了全面的调查,并将其用作设定有效和实时用户轻推的具有挑战性但重要的研究议程的镜头。我们进一步实现了概念原型,并与专家进行了评估以补充我们的研究议程。本文呼吁通过利用机器学习和多媒体内容分析技术,但以透明的方式,并且为了用户的利益,解决与社交媒体上的算法威胁作斗争的解决方案。
美国县级COVID-19活动的高分辨率时空模型
原文标题: High-resolution Spatio-temporal Model for County-level COVID-19 Activity in the U.S
地址: http://arxiv.org/abs/2009.07356
作者: Shixiang Zhu, Alexander Bukharin, Liyan Xie, Mauricio Santillana, Shihao Yang, Yao Xie
摘要: 我们提供了一种可解释的高分辨率时空模型,用于估计COVID-19的死亡人数,以及在美国当前县级和每周汇总的确诊病例,比当前时间提前一周。我们的时空模型的一个显著特征是它考虑了(a)两个本地时间序列的时间自动和成对相关性(确诊病例和COVID-19的死亡),(b)位置之间的动力学(县),以及(c)协变量,例如当地社区内部的流动性和社会人口因素。社区内部的流动性和人口统计学因素,例如总人口和老年人的比例,被视为重要的预测指标,因为它们被认为对确定COVID-19的动态至关重要。为了减少模型的高维性,我们将稀疏结构作为约束,并强调了美国前十大都会区的影响,我们将其称为(并在模型中视为)传播疾病的中心。我们的回顾性样本外县级预测能够准确预测随后观测到的COVID-19活性。拟议的多变量预测模型被设计为高度可解释的,可以清楚地识别和量化确定COVID-19动态的最重要因素。正在进行的工作涉及合并更多的协变量,例如教育和收入,以提高预测的准确性和模型的可解释性。
探索Web挖掘的COVID-19会话Vlog语音提示
原文标题: Exploring Speech Cues in Web-mined COVID-19 Conversational Vlogs
地址: http://arxiv.org/abs/2009.07504
作者: Kexin Feng, Preeti Zanwar, Amir H. Behzadan, Theodora Chaspari
摘要: 新型SARS冠状病毒2(n-SARS-CoV-2)引发的COVID-19大流行以前所未有的方式影响了人们的生活。在大流行期间,社交博客作者使用社交媒体积极分享他们在隔离方面的观点或经验。本文从YouTube收集了视频,以跟踪对话视频博客中的情绪反应以及它们与大流行相关事件的潜在关联。特别是,分析了从纽约市的位置上传的视频博客,因为这是美国大流行的第一批震中之一。我们在隔离期间观察到了vlogger的声学和语言特征中的一些常见模式,这表明情绪反应的变化。此外,我们调查了与纽约地区COVID-19事件相关的听觉和语言模式的波动(例如,每日新病例数,死亡人数以及居家秩序和紧急状态的延长)。我们的结果表明,诸如过零率,抖动和微光之类的声学特征对于分析社交媒体视频中的情绪反应非常有价值。我们的发现进一步表明,声学和语言指标的某些峰值与COVID-19事件一致,例如死亡人数和紧急情况通报的峰值。
Twitter的新长度限制的采用:280字限制会是新的140字?
原文标题: Adoption of Twitter's New Length Limit: Is 280 the New 140?
地址: http://arxiv.org/abs/2009.07661
作者: Kristina Gligorić, Ashton Anderson, Robert West
摘要: 2017年11月,Twitter将允许的最大推文长度从140个字符增加了一倍,达到280个字符,这是世界上最具影响力的社交媒体平台之一的一次大刀阔斧的转变。在关于Twitter用户如何采用新的长度限制的第一个长期研究中,我们问:新的长度限制的效果是否类似于旧的长度限制?还是将限制增加一倍,从根本上改变了Twitter的发布内容长度有限的方式?通过分析Twitter在大约3年的时间内公开提供的1%样本,我们发现,当长度限制从140个字符增加到280个字符时,大约140个字符的推文发生率立即下降,而大约280个字符的推文发生率下降稳定上涨约6个月。尽管增加了这种趋势,但在切换之后,接近长度限制的推文的频率要远低于切换之前。我们发现各种语言和客户端设备类型的采用率差异很大。在给定语言下切换之前,大约140个字符的推文的流行与在同一语言下切换之后大约280个字符的推文的流行密切相关,并且很长的推文在Web客户端上比在移动客户端上更受欢迎。此外,切换后大约280个字符的推文在句法和语义上类似于切换之前大约140个字符的推文,在两种情况下均表现出消息压缩的模式。综上所述,这些发现表明,新的280个字符的限制构成了旧的140个字符的限制的新的,较不易破坏的版本。长度限制仍然是使用Twitter数据进行的所有研究均应考虑的重要因素。
通过挫折云表征态度网络图
原文标题: Characterizing Attitudinal Network Graphs through Frustration Cloud
地址: http://arxiv.org/abs/2009.07776
作者: Lucas Rusnak, Jelena Tešić
摘要: 姿态网络图(ANG)是网络图,其中边刻画了表达的观点:通过边连接的两个顶点可以是同意的(正)或敌对的(负)。在态度图中达成共识的程度反映了达成共识的难易程度,这是每个人都能接受的。挫折指数是一种这样的度量,因为它决定了网络与总体结构平衡状态之间的距离。在本文中,我们建议通过将挫折指数的概念扩展到挫折云来衡量图中的共识,挫折云是给定网络的最接近平衡状态的集合。沮丧的云以最小的情感干扰解决了共识问题,同时考虑了整个网络上所有可能的共识观点。基于挫折云的方法消除了传统网络图分析的脆弱性,因为它允许人们检查整个图上的共识。基于生成树的平衡算法刻画网络的平衡状态和全局共识的变化,并使我们能够测量顶点对共识的影响及其表达态度的强度。拟议的算法为大型网络中强弱状态之间的差异以及顶点的影响提供了一个简化的解释,如从社会和调查数据构建的示例性态度网络图所示。我们表明,所提出的方法可以准确地对联盟网络进行建模,为社区发现提供判别功能,成功预测与实际选举结果一致的管理员选举结果,并通过指出有影响力的顶点和异常决策为ANG结果分析提供更深入的分析见解。
协作行为启发式选择的动力学
原文标题: Dynamics of heuristics selection for cooperative behaviour
地址: http://arxiv.org/abs/2009.07791
作者: Felipe Maciel Cardoso, Carlos Gracia-Lazaro, Yamir Moreno
摘要: 涉及合作行为的情况在动物和人类中普遍存在。博弈论和演化动力学为理解允许这种合作的机制提供了理论和计算基础。该领域的研究通常会考虑不同的行为策略,并研究如何根据不断发展的规则将其固定在人群中。但是,这些策略如何从基本的演化机制中产生出来,仍然没有被完全理解。为了解决这个问题,在这里我们通过基于演化算法的启发式选择模型研究合作策略的出现。在提出的模型中,主体根据其遗传密码所指定的试探法与其他参与者进行互动,并在更长的时间范围内按其适应性进行繁殖。我们表明,该系统可以通过启发式选择演变为低突变率的合作机制,而增加突变会降低合作水平。我们对可能策略的分析表明,互惠和惩罚是合作出现的主要要素,而条件合作则是更频繁的策略。此外,我们表明,除了行为规则外,还包括遗传相关性,则亲属关系起着重要作用。我们的结果表明,我们的演化启发式模型是研究合作行为演变的通用且强大的工具。
人体测量估计中的人为偏见
原文标题: Human biases in body measurement estimation
地址: http://arxiv.org/abs/2009.07828
作者: Kirill Martynov, Kiran Garimella, Robert West
摘要: 身体测量,包括体重和身高,是健康的关键指标。能够以视觉方式可靠地评估人体测量结果是朝着增加对超重和肥胖的认识迈出的一步,因此对公共健康至关重要。然而,目前尚不十分清楚,人类如何能够准确地评估图像中的体重和身高,以及何时以及如何失败。为了弥合这一差距,我们从Web上收集的1,682张人的图像开始,每幅图像都标有真实的体重和身高,并要求人群工作者估算每幅图像的体重和身高。我们在考虑图像特征以及人群工作者评估图像的情况下进行了多方面的分析,揭示了一些新颖的发现:(1)即使经过汇总,人群的准确性总体还是很低的。 (2)我们发现有充分的证据表明收缩会偏向参考值,从而导致轻(矮)人的体重(身高)被高估,而重(矮)人的体重(身高)被低估。 (3)我们使用贝叶斯模型估计工人的个人参考值,发现参考值与工人自己的身高和体重密切相关,这表明工人更擅长估算与自己相似的人。 (4)高个子的体重比矮个子的体重低估了很多;但是,知道身高只会轻微减轻体重误差。 (5)在女性图像上的准确性高于男性,但是女性和男性工人的准确性没有差异。 (6)如果对先前的猜测给出反馈,则随着时间的推移,人群工作者会有所改善。最后,我们探索了各种偏差校正模型以提高人群的准确性,但发现这样做只会带来适度的收益。总体而言,随着肥胖相关疾病的增加,这项工作提供了有关人体测量估计偏差的重要见解。
声明:Arxiv文章摘要版权归论文原作者所有,机器翻译后由本人进行校正整理,未经同意请勿随意转载。本系列在微信公众号“网络科学研究速递”(微信号netsci)和个人博客 https://www.complexly.cn (提供RSS订阅)进行同步更新。个性化论文阅读与推荐请访问 https://arxiv.complexly.cn 平台。
网友评论