- 基于地理聚类的随机实验设计;
- 定量和定性方法的复制:可比数字社会科学的新时代;
- 用于AffCon 2019共同任务的CruConAffect:一种特征丰富的表征幸福的方法;
- 评估公路运输系统总体弹性的贝叶斯网络方法:系统视角;
- 演化网络中的效率和收缩;
- 虚拟世界中的非泊松捐赠行为;
- 虚拟世界中用户活动波动的统计特性;
- 我们可以通过有自私用户的移动人群学习获得新鲜信息吗?;
- 推荐系统的协同相似性嵌入;
- Twitch播放口袋妖怪,机器学习Twitch:用于无监督的上下文感知异常检测识别流数据中的巨魔;
- 具有异质空间约束的移动个体动态接触网络中接种疫苗的SIS流行病模型,;
- 基于有限理性的逃逸动力学;
- 来自健康相关博客的糖尿病患者生活质量评估;
- 文化同质性的矛盾:领域位置,语义相似性和创造性集体的社会网络纽带;
- 网络连通性动态影响文化传播变体的演变;
- VEDAR:可靠的行为变化检测;
- 基于层级图卷积网络的半监督节点分类;
- 基于几何深度学习的社交媒体虚假新闻检测;
- 音乐中的Zipf法则出现在Zipfian单位的自然选择中;
- 通过高阶模体特征进行链路预测;
- 对英语内容生态系统的广泛评价;
- 通过分层抽样学习网络拓扑表示;
- Prigogine-Herman-Enskog方程的交通流基本图;
- 利用中心性度量分析政治学的合著网络;
基于地理聚类的随机实验设计
原文标题: Randomized Experimental Design via Geographic Clustering
地址: http://arxiv.org/abs/1611.03780
作者: David Rolnick, Kevin Aydin, Jean Pouget-Abadie, Shahab Kamali, Vahab Mirrokni, Amir Najmi
摘要: 基于Web的服务通常运行随机实验来改进其产品。运行这些实验的一种流行方法是使用地理区域作为实验单元,因为这不需要跟踪单个用户或浏览器cookie。由于用户可以从多个地理位置发出查询,因此不能将地理区域视为独立的,并且实验中可能存在干扰。在本文中,我们研究了这个问题,并首先提出了一种新的算法GeoCUTS,它可以形成地理聚类,最大限度地减少干扰,同时保持聚类大小的平衡。我们使用来自Google搜索的匿名流量的随机样本来形成表示用户移动的图,然后构建图的地理上一致的聚类。我们的主要技术贡献是衡量集群有效性的统计框架。此外,我们进行实证评估,表明GeoCUTS的性能与手工制作的地理区域相比,包括新颖和现有的指标。
定量和定性方法的复制:可比数字社会科学的新时代
原文标题: Replications in quantitative and qualitative methods: a new era for commensurable digital social sciences
地址: http://arxiv.org/abs/1902.05984
作者: Dominique Boullier
摘要: 社会科学是通过组合实地工作和数据的比较方法建立的,无论是定量的还是定性的。大数据为扩展此要求以构建可比较的数据集提供了新的机会。本文讲述了之前两个量化时代(人口普查和民意调查)的故事,以证明需要将新机构视为新一代社会科学的目标:作为行动者网络理论提出的对象和在全数字网络中传播的复制品。重新审视了Latour的Boa Vista topofil的案例研究,以探索在复制理论中扩展的用于比较的定性方法和演员网络理论方法如何提供来自任何实地研究的新见解,并且可以使用数字资源来实现。
用于AffCon 2019共同任务的CruConAffect:一种特征丰富的表征幸福的方法
原文标题: CruzAffect at AffCon 2019 Shared Task: A feature-rich approach to characterize happiness
地址: http://arxiv.org/abs/1902.06024
作者: Jiaqi Wu, Ryan Compton, Geetanjali Rakshit, Marilyn Walker, Pranav Anand, Steve Whittaker
摘要: 我们为CL-Aff共享任务2019提供了我们的系统CruzAffect.CruzAffect包含几种类型的强大而有效的情感分类任务模型。我们利用传统的分类器,如XGBoosted Forest,以及深度学习卷积神经网络(CNN)分类器。我们探索丰富的特征集,如句法特征,情感特征和轮廓特征,并利用几个情感词典,发现社会参与的基本指标,并控制一个主题可以在他们快乐的时刻锻炼,如HappyDB的文本片段所述数据库。数据带有标记集(10K)和更大的未标记集(70K)。因此,我们在10K数据集上使用监督方法,为70K使用自助半监督方法。我们评估这些模型用于代理和社会标签的二元分类(任务1),以及概念标签的多级预测(任务2)。我们在保留数据上获得了有希望的结果,表明所提出的特征集有效地代表了情感分类任务的数据。我们还构建概念模型,发现在快乐时刻重复出现的一般主题。我们的结果表明,在代理,社会和概念的类别之间共享通用特征,表明应该可以为情感分类任务建立通用模型。
评估公路运输系统总体弹性的贝叶斯网络方法:系统视角
原文标题: A Bayesian network approach for assessing the general resilience of road transportation systems: A systems perspective
地址: http://arxiv.org/abs/1902.06051
作者: Junqing Tang, Hans R. Heinimann, Ke Han
摘要: 我们提出了一个贝叶斯网络模型(BNM),它基于功能导向的弹性框架和10个系统质量之间的本体相互依赖性来概率地评估1997年至2016年北京道路交通系统的总体弹性。我们用多源数据测试了模型从各个部门收集。通过分析灵敏度和影响来检查系统质量。结果表明,北京道路系统的总体弹性呈现出“V”形趋势,一般弹性在50%到70%之间,2006年最低。这种情况急剧增加。此外,北京公路运输系统的总体弹性受其能力的影响最大:(1)重建其性能,(2)强大,(3)适应,(4)改变,以及(5)快速修复损坏的部件。拟议的BNM是一种用于多维和系统分析的有前途的工具,而不是找到一种适合弹性的一刀切量化标准。
演化网络中的效率和收缩
原文标题: Efficiency and shrinking in evolving networks
地址: http://arxiv.org/abs/1902.06063
作者: Arianna Bottinelli, Marco Gherardi, Marc Barthelemy
摘要: 表征网络的时空演变是许多学科的核心话题。虽然对网络扩展进行了彻底的研究,但对于经验网络在缩小时的行为方式知之甚少。对于交通网络而言,由于它们与社会经济基础的联系,这尤其重要,我们关注的是法国铁路网络从1840年到2000年的诞生,与该国的人口动态有关。该网络与技术(例如,更快的列车)并行并且在强约束下发展,例如保持良好的人口覆盖并平衡成本和效率。我们表明,1930年开始的缩小阶段减少了网络的总长度,同时保持了效率和人口覆盖:效率和稳健性保持相当稳定,而网络的总长度在1930年至2000年间缩小了50美元,并且在同一时期,总旅行时间和时间直径减少了75美元以上。此外,缩小网络并不影响整体可达性,平均旅行时间自成立以来稳步下降。这种演变自然导致运输多模式的增加(例如大量使用汽车),并且显示了在不同空间尺度上共同考虑运输模式的重要性。更一般地说,我们的结果表明,收缩不一定与性能和功能的衰退相关,但在设计目标方面可能是有益的,并且可以是自适应网络的自然演化的一部分。
虚拟世界中的非泊松捐赠行为
原文标题: Non-Poisson donation behaviors in virtual worlds
地址: http://arxiv.org/abs/1902.06069
作者: Yan-Hong Yang, Ming-Xia Li, Wei-Xing Zhou, H. E. Stanley
摘要: 与现实世界中的慈善捐赠类似,捐赠行为在虚拟世界中个体之间的复杂互动中起着重要作用。但是,目前尚不清楚捐赠过程是否是随机的。我们使用来自并行虚拟世界的详细数据来研究这个问题,该数据遵循大型多人在线角色扮演博弈。我们发现,捐赠持续时间遵循幂律尾分布,平均尾指数接近1.91,具有强大的长程相关性,并具有多重分形特征。这些研究结果表明,捐赠过程是非泊松的,这对于模拟虚拟世界中复杂的个体行为具有潜在的价值。
虚拟世界中用户活动波动的统计特性
原文标题: Statistical properties of user activity fluctuations in virtual worlds
地址: http://arxiv.org/abs/1902.06070
作者: Yan-Hong Yang, Wen-Jie Xie, Ming-Xia Li, Zhi-Qiang Jiang, Wei-Xing Zhou (ECUST)
摘要: 用户活动波动反映了在线社会的表现。我们调查了在95个独立虚拟世界中同时在线用户的1分钟用户活动时间序列的统计特性。由于人类的昼夜节律和周周期,在线用户的数量表现出明显的日内和周模式。统计分析表明,绝对活动波动的分布具有44个虚拟世界的幂律尾部,平均尾部指数接近2.15。分区函数方法揭示了绝对活动波动对于所有95个虚拟世界都具有多重分形特征。对于具有绝对活动波动的幂律尾分布的44个虚拟世界的样本,奇点的宽度 Delta alpha 与最大活动( p -value = 0.070)和到达的最大活动负相关。最大活动( p -value = 0.010)。其他51个虚拟世界和95个虚拟世界的整个样本都没有观察到负相关。此外,数值实验表明,时间结构和大波动都会影响多重分形谱。我们还发现时间结构对奇点宽度的影响大于大波动。
我们可以通过有自私用户的移动人群学习获得新鲜信息吗?
原文标题: Can We Achieve Fresh Information with Selfish Users in Mobile Crowd-Learning?
地址: http://arxiv.org/abs/1902.06149
作者: Bin Li, Jia Liu
摘要: 智能移动设备的激增推动了移动人群学习服务的爆炸性增长,其中服务提供商依靠用户社区自愿收集,报告和共享散布的兴趣点集合的实时信息。影响未来大规模采用此类移动人群学习应用程序的一个关键因素是人群学习信息的新鲜度,可以通过称为“信息时代”(AoI)的度量来衡量。然而,我们表明,如果系统设计不当,移动人群学习的AoI在自私用户行为下可能会出现任意不良。这促使我们设计有效的奖励机制,以激励移动用户及时报告信息,目标是保持每个PoI的AoI和拥塞水平低。为此,我们考虑一个简单的基于线性AoI的奖励机制,并根据无政府状态(PoA)的价格分析其AoI和拥堵性能,这表征了由于用户的自私行为导致的系统效率的下降。值得注意的是,我们证明了所提出的机制在确定性场景中渐近地实现了最优AoI性能。此外,我们证明了所提出的机制在一般随机情况下实现了有界PoA,并且该界限仅取决于系统参数。特别是,当PoI的服务率在随机情况下是对称的时,所实现的PoA渐近地上限为 1/2 。总的来说,这项工作提高了我们对移动人群学习系统中信息新鲜度的理解。
推荐系统的协同相似性嵌入
原文标题: Collaborative Similarity Embedding for Recommender Systems
地址: http://arxiv.org/abs/1902.06188
作者: Chih-Ming Chen, Chuan-Ju Wang, Ming-Feng Tsai, Yi-Hsuan Yang
摘要: 我们提出了协作相似性嵌入(CSE),这是一个统一的框架,利用用户项目二部图中可用的综合协作关系进行表示学习和推荐。在提出的框架中,我们区分两种类型的邻近关系:直接邻近和第k阶邻域邻近。虽然从前者学习中利用了从图中可观察到的直接用户 - 项目关联,但从后者学习使用隐式关联,例如用户 - 用户相似性和项目 - 项目相似性,这可以提供有价值的信息,尤其是在图表稀疏时。此外,为了提高可扩展性和灵活性,我们提出了一种专门用于捕获两种邻近关系的采样技术。对8个基准数据集的大量实验表明,CSE比最先进的推荐方法产生明显更好的性能。
Twitch播放口袋妖怪,机器学习Twitch:用于无监督的上下文感知异常检测识别流数据中的巨魔
原文标题: Twitch Plays Pokemon, Machine Learns Twitch: Unsupervised Context-Aware Anomaly Detection for Identifying Trolls in Streaming Data
地址: http://arxiv.org/abs/1902.06208
作者: Albert Haque
摘要: 随着在线社区,论坛和客户评论的重要性日益增加,互联网“巨魔”激增,从而使信息搜索者难以找到相关和正确的信息。在本文中,我们考虑了检测和识别互联网巨魔的问题,几乎所有这些都是人类代理。与检测自动垃圾邮件或计算机化机器人相比,在人群中识别人工代理具有重大挑战。为了了解巨魔的行为,我们使用上下文异常检测来分析每个聊天用户。使用聚类和基于距离的方法,我们使用上下文数据,例如组的当前目标,当前时间和用户名,将每个点分类为异常。特征与标准明显不同的用户将被归类为巨魔。我们从病毒互联网时尚Twitch Plays Pokemon中收集了3800万个数据点。使用聚类和基于距离的方法,我们开发了用于识别巨魔的启发式方法。使用MapReduce技术进行预处理和用户分析,我们能够根据从用户的生命历史中提取的10个特征对巨魔进行分类。
具有异质空间约束的移动个体动态接触网络中接种疫苗的SIS流行病模型,
原文标题: An SIS epidemic model with vaccination in a dynamical contact network of mobile individuals with heterogeneous spatial constraints
地址: http://arxiv.org/abs/1902.06393
作者: Xiao-Long Peng, Ze-Qiong Zhang, Junyuan Yang, Zhen Jin
摘要: 基于网络的流行病模型已被广泛用于了解传染病的传播,但一般忽略了这样一个事实,即大多数现实网络是动态的而不是静态的。在本文中,我们研究了一种易受感染的易感流行病模型,该模型在移动个体的动态接触网络中进行疫苗接种,其中我们将移动个体视为允许进行远程跳跃的随机游走者。与先前在具有恒定交互半径的随机游走网络中的流行病研究不同,我们考虑这样的情景:个体具有异质分布的交互半径 r ,并且感染个体根据交互半径分布以概率接种。我们推导出基本的再生数 mathcal {R} _0 并探索该模型的无病和地方平衡的稳定性。理论和模拟结果均表明,个体相互作用半径的分布对基本繁殖数量和流行病患病率有显著影响。一般来说,在半径分布更加异质的人群中,这种疾病会更容易爆发;但是导致流行病流行率降低。有趣的是,结果表明,无论半径分布如何,都可以实现疾病预防和控制的最佳疫苗接种干预。此外,关于潜在接触网络结构的一些有趣结果显示与流行动力学有很强的相关性。该研究为考虑移动个体的空间限制提供了针对传染病的有效遏制措施的潜在影响。
基于有限理性的逃逸动力学
原文标题: Escape dynamics based on bounded rationality
地址: http://arxiv.org/abs/1902.06541
作者: Lingxiao Wang, Yin Jiang
摘要: 在极端情况下,例如逃避恐慌,有限理性会对人类行为产生直接影响。构造了封闭边界逃逸动力学的元胞自动机模型,利用平均场近似研究了有界理性行为对集体效应的影响。分析逃逸效率表明,在合理性的前提下,有限理性策略可以获得更高的性能。在逃逸过程中,出现可能的亚稳状态,并且逃逸时间取决于系统大小。
来自健康相关博客的糖尿病患者生活质量评估
原文标题: Quality of Life Assessment of Diabetic patients from health-related blogs
地址: http://arxiv.org/abs/1902.06548
作者: Andrea Lenzi, Marianna Maranghi, Giovanni Stilo, Paola Velardi
摘要: 动机:人们正在产生大量的社会数据来描述他们的医疗保健体验,并不断搜索有关疾病,症状,诊断,医生,治疗方案和药物的信息。这些社会痕迹越来越多,这为提高护理的及时性和效率提供了一个有趣的机会。通过收集,分析和利用这些信息,可以修改或在任何情况下显著提高我们对病理表现的认识,并获得更详细和细致的患者体验愿景,我们称之为“社会表型”。疾病。材料和方法:在本文中,我们提出了一个数据分析框架来表示,提取和分析疾病的社会表型。为了显示我们方法的有效性,我们提供了一个关于糖尿病的详细案例研究首先,我们创建了一个高质量的糖尿病患者信息数据样本,从流行的医学论坛中提取了10多年。接下来,我们使用基于潜在分析和单词嵌入的主题提取技术来识别主要并发症,经常报告的症状和这些患者的共同关注点。结果:我们表明,对疾病的自由表现的感知可能与用于测量疾病对患者生活质量的影响的问卷调查,调查和其他常用方法的推断明显不同。在我们关于糖尿病的案例研究中,我们发现据报道每天对糖尿病患者有影响的问题是饮食,血糖控制,药物和临床试验。生活质量评估中通常不考虑这些问题,因为医生认为这些问题并不代表严重的限制。
文化同质性的矛盾:领域位置,语义相似性和创造性集体的社会网络纽带
原文标题: The Ambivalence of Cultural Homophily: Field Positions, Semantic Similarities, and Social Network Ties in Creative Collectives
地址: http://arxiv.org/abs/1902.06597
作者: Nikita Basov, Centre for German, European Studies, St. Petersburg State University
摘要: 本文利用定性,形式和统计社会语义网络分析的混合来研究当田野逻辑与实践相遇时文化同质性如何发挥作用。一方面,由于相似领域的个体也具有相似的文化取向,文化同质性再现了主体间社会网络关系中的客观场域结构。另一方面,领域在实践中有效并且实现实用目标。占据不同领域位置的个体经常加入群体,创造性地重新解释场地强加的文化取向,并产生替代特定位置的文化相似性。借助这些新兴的相似性,文化同质性机制可能会激发占据不同但不同的场地位置的成员之间的社会网络联系,从而争夺领域。我在两个创意集体中研究了文化同性恋的这种矛盾角色,每个集体都围绕着文化生产领域的相反两极。我发现不同类型的文化相似性会影响场地内部和场地之间不同类型的社会网络联系:词汇的相似性刺激了职位内部的友谊和协作联系,从而复制了这个领域,而与相同文化结构的联系刺激了职位之间的协作关系因此,争夺该领域。后一种效应在民族志数据的统计分析中是可见的,但在文本的定性分析中易于监督,因为线人倾向于在其明确的陈述中标明其在职位上的一致性。这凸显了混合社会语义网络分析的重要性,这种分析对当地环境敏感,能够揭示文化与社会之间相互作用的潜在机制。
网络连通性动态影响文化传播变体的演变
原文标题: Network connectivity dynamics affect the evolution of culturally transmitted variants
地址: http://arxiv.org/abs/1902.06598
作者: José Segovia Martín, Bradley Walker, Nicolas Fay, Monica Tamariz
摘要: 人口中文化变异的分布由中性演化动力学和选择压力决定,其中包括几个个体认知偏差,人口统计学因素和社会网络结构。社会网络连接的时间动态,即群体中的个体彼此交互的顺序,在很大程度上尚未被探索。在本文中,我们研究了在一个完全连接的社会网络中,连接动力学,单独和与不同认知偏差的相互作用,如何影响文化变异的演变。使用基于主体的计算机模拟,我们操纵人口连通性动态(早期,中期和晚期全人口连通性);内容偏见,或偏好高品质的变体;协调偏见,或者代理人是否倾向于使用自我产生的变异(以自我为中心的偏见),或者转向在他人中观察到的变异(分配中心偏见);和内存大小,或代理可以在其内存中存储的项目数。我们表明连通性动态影响变异传播的时间过程,较低的连通性减缓了人口对单一文化变体的收敛。我们还表明,与中性演化模型相比,内容偏差加速了收敛并放大了连通性动态的影响,而更大的内存大小和协调偏差,特别是以自我为中心的偏差,减缓了收敛。此外,连通性动态影响高质量变体(适应性)的频率,后期连通性群体显示出适应性快速变化的突发,随后是相对较慢变化的时期,以及单峰演化动态后的早期连通性群体。通过这种方式,我们首次提供了代理交互顺序和标点演化之间的直接联系。
VEDAR:可靠的行为变化检测
原文标题: VEDAR: Accountable Behavioural Change Detection
地址: http://arxiv.org/abs/1902.06663
作者: Amit Kumar, Tanya Ahuja, Rajesh Kumar Madabhattula, Murali Kante, Srinivasa Rao Aravilli
摘要: 随着测量/流/实时数据的可用性呈指数增长,了解上下文行为变化是一项至关重要的功能,以便提供无与伦比的客户体验并构建高性能和高可用性系统。实时行为变化检测在多个域中查找用例,例如社会网络,网络流量监控,广告交换度量等。在流数据中,行为变化是一种难以置信的观察,不适合其余数据的分布。对这种行为变化的及时和精确的揭示可以给我们在关键情况下对系统的实质信息,这可能是重要决策的驱动因素。检测行为改变过时方式是一项艰巨的任务,因为系统需要处理高速实时数据并不断地从数据中学习,同时检测单次数据传输中的异常。在本文中,我们介绍了一种称为问责行为变化检测(VEDAR)的新算法,它可以实时检测和阐明行为变化,并以类似人类感知的方式运作。我们有基准标记我们的algorithmon开源异常检测数据集。我们通过比较开源异常数据集与Numenta HTM和Twitter AdVec(SH-ESD)等行业标准算法的性能,对我们的算法进行了基准测试。我们的算法优先执行上述行为变化检测算法,效率在第V节中给出。
基于层级图卷积网络的半监督节点分类
原文标题: Semi-supervised Node Classification via Hierarchical Graph Convolutional Networks
地址: http://arxiv.org/abs/1902.06667
作者: Fenyu Hu, Yanqiao Zhu, Shu Wu, Liang Wang, Tieniu Tan
摘要: 图卷积网络(GCN)已成功应用于网络挖掘的节点分类任务。然而,大多数基于邻域聚合的模型通常很浅,缺乏“图池化”机制,这阻止了模型获得足够的全局信息。为了增加感受野,我们提出了一种新的深层次图解卷积网络(H-GCN)用于半监督节点分类。 H-GCN首先重复地将结构相似的节点聚合到超节点,然后将粗化的图细化为原始图以恢复每个节点的表示。建议的粗化过程不是仅仅聚合单跳或双跳邻域信息,而是扩大了每个原始节点的接收场,因此可以学习更多的全局信息。对公共数据集进行的综合实验证明了所提方法相对于现有技术方法的有效性。值得注意的是,当仅提供极少数标记样品时,我们的模型获得了实质性改进。
基于几何深度学习的社交媒体虚假新闻检测
原文标题: Fake News Detection on Social Media using Geometric Deep Learning
地址: http://arxiv.org/abs/1902.06673
作者: Federico Monti, Fabrizio Frasca, Davide Eynard, Damon Mannion, Michael M. Bronstein
摘要: 社交媒体如今成为全球数百万人的主要新闻来源之一,因为它们成本低,易于访问和快速传播。然而,这是以可疑的可信度和暴露于“假新闻”的重大风险为代价的,故意写入误导读者。自动检测虚假新闻带来了挑战,这些挑战无视现有的基于内容的分析方法。其中一个主要原因是,对新闻的解释通常需要了解政治或社会背景或“常识”,目前的NLP算法仍然缺失。最近的研究表明,虚假和真实新闻在社交媒体上的传播方式不同,形成了可以用于自动虚假新闻检测的传播模式。与基于内容的对应方相比,基于传播的方法具有多种优势,其中包括语言独立性和对对抗性攻击的更好恢复能力。在本文中,我们展示了一种基于几何深度学习的新型自动假新闻检测模型。底层核心算法是经典CNN到图的概括,允许融合异构数据,例如内容,用户简档和活动,社交图和新闻传播。我们的模型经过培训并经过新闻报道的测试,由专业的事实检查机构进行验证,并在Twitter上传播。我们的实验表明,社会网络结构和传播是允许高度准确(92.7%ROC AUC)虚假新闻检测的重要特征。其次,我们观察到,在传播几个小时之后,可以在早期阶段可靠地检测到假新闻。第三,我们测试了我们的模型在培训和测试数据上的时间老化。我们的结果表明,基于传播的虚假新闻检测方法可以作为基于内容的方法的替代或补充策略。
音乐中的Zipf法则出现在Zipfian单位的自然选择中
原文标题: Zipf's law in music emerges by a natural choice of Zipfian units
地址: http://arxiv.org/abs/1902.06678
作者: Juan Ignacio Perotti, Orlando Vito Billoni
摘要: Zipf定律指出,书面文本中的单词显示频率按照幂律排列。该法是在翻译和非翻译语言中观察到的稳健统计特性。有趣的是,这个法律似乎也体现在音乐记录中,其中几个指标取代了文字 - 书面文本中的Zipfian单位的规范选择 - 但是找到与音乐中的单词概念的准确类似是困难的,因为缺乏功能语义。这就产生了哪个是音乐中适当的Zipfian单位的问题,甚至在其他情况下。特别是,在书面文本中,除了规范使用单词之外,还提出了几种替代方案,试图扩展Zipf定律的有效范围。在这项工作中,我们对乐谱和文学文本进行了比较统计分析,以寻求和验证Zipfian单元在音乐中的自然选择。我们发现,当和弦和音符被选为Zipfian单位时,Zipf定律出现在音乐中。我们的结果基于对音乐和文本统计特性的一致分析,支持Zipf定律在人类语言中的一般有效性。
通过高阶模体特征进行链路预测
原文标题: Link Prediction via Higher-Order Motif Features
地址: http://arxiv.org/abs/1902.06679
作者: Ghadeer Abuoda, Gianmarco De Francisci Morales, Ashraf Aboulnaga
摘要: 链路预测需要预测哪些新链接可能出现在图表中。能够以良好的准确度预测看不见的链接在社交媒体,安全,交通和推荐系统等多个领域具有重要的应用。常见的方法是使用基于未连接的节点对的公共邻居的特征来预测该对是否将在未来形成链路。在本文中,我们提出了一种链路预测方法,它依赖于图拓扑的高阶分析,远远超出常见的邻居。我们将链路预测问题视为监督分类问题,并且我们提出了一组依赖于一对节点出现的模式或主题的特征。通过使用大小为3,4和5的图案,我们的方法捕获了关于该对节点附近的图拓扑的高级细节,这导致更高的分类准确度。除了提出使用基于motif的特征之外,我们还提出了两个与从图构建分类数据集相关的优化。首先,为了确保在提取特征时同等对待正面和负面的例子,我们建议在图表中添加负面例子,作为消除正面例子的常用方法的替代方法。其次,我们表明,当采样节点对形成负例时,控制最短路径距离是很重要的,因为预测的难度随最短路径距离而变化。我们通过实验证明,使用具有良好构造的分类数据集的现成分类器,与先前基于拓扑的特征学习方法相比,精度提高了10个百分点。
对英语内容生态系统的广泛评价
原文标题: A Broad Evaluation of the Tor English Content Ecosystem
地址: http://arxiv.org/abs/1902.06680
作者: Mahdieh Zabihimayvan, Reza Sadeghi, Derek Doran, Mehdi Allahyari
摘要: Tor是世界上最着名的黑暗网之一。它具有高尚的用途,包括作为以匿名为幌子进行言论自由和信息传播的平台,但在文化上可以更好地作为犯罪活动的渠道和作为营销非法商品和数据的平台。过去关于Tor内容的研究支持这一概念,但是通过针对可能包含非法内容的流行域进行。因此,对过去研究的调查可能无法完全评估Tor的内容和使用。这项工作通过对英语Tor生态系统内容的广泛评估来解决这一差距。我们对Tor黑暗网络进行了全面的爬行,并通过主题和网络分析,描述了在广泛的Tor域及其超链接关系结构中托管的信息和服务的类型。我们恢复了由他们托管的信息或服务定义的九种域类型,并且在其他调查结果中,揭示了某些类型的域如何故意从Tor的其余部分自我封锁。我们还提供了一些测量结果(遗憾地)表明非法药物和服务的市场如何成为Tor领域的主导类型。我们的研究是从20,000 Tor种子地址爬行超过100万页的产物,产生了超过150,000 Tor页面的集合。我们制作了一个打算的数据集,以便在https://github.com/wsu-wacs/TorEnglishContent中将域结构公开作为数据集提供。
通过分层抽样学习网络拓扑表示
原文标题: Learning Topological Representation for Networks via Hierarchical Sampling
地址: http://arxiv.org/abs/1902.06684
作者: Guoji Fu, Chengbin Hou, Xin Yao
摘要: 拓扑信息对于研究网络中节点之间的关系至关重要。最近,网络表示学习(NRL)将网络投射到低维向量空间,已经在分析大规模网络中显示出它们的优势。但是,大多数现有的NRL方法都是为了保留网络的本地拓扑而设计的,它们无法捕获全局拓扑。为了解决这个问题,我们提出了一个名为HSRL的新NRL框架,以帮助现有的NRL方法捕获网络的本地和全球拓扑信息。具体而言,HSRL使用社区感知压缩策略递归地将输入网络压缩为一系列较小的网络。然后,使用现有的NRL方法来学习每个压缩网络的节点嵌入。最后,通过连接来自所有压缩网络的节点嵌入来获得输入网络的节点嵌入。对五个真实世界数据集的链路预测的实证研究证明了HSRL相对于最先进方法的优势。
Prigogine-Herman-Enskog方程的交通流基本图
原文标题: Fundamental Diagram of Traffic Flow from Prigogine-Herman-Enskog Equation
地址: http://arxiv.org/abs/1902.06688
作者: W. Marques Jr., A. R. Mendez, R. M. Velasco
摘要: 最近应用一种测量高速公路基本交通关系的新方法表明,流量密度和速度 - 间隔图的许多关键参数取决于车辆长度。针对这一事实,我们在这项工作中提出了针对侵略性驾驶员的Prigogine-Herman交通方程的概括,其中考虑到车辆不是点状物体但具有有效长度的事实。我们的方法类似于Enskog针对稠密气体引入的方法,并提供了与经验交通数据非常一致的基本图表的构建。
利用中心性度量分析政治学的合著网络
原文标题: Analysis of Coauthorship Network in Political Science using Centrality Measures
地址: http://arxiv.org/abs/1902.06692
作者: Adeel Ahmed, Muhammad Fahad Khan, Muhammad Usman, Khalid Saleem
摘要: 在最近的时代,数据网络正在大量增长并形成复杂结构的形状。数据科学家试图分析不同的复杂网络,并利用这些网络以有意义的方式理解网络的复杂结构。需要检测和识别这样的复杂网络,以便了解这些网络在使用复杂结构时如何提供通信手段。社会网络分析提供了使用图论,网络属性和社区检测算法来探索和分析这种复杂网络的方法。在本文中,使用共同的中心性度量,分析了微软学术图(MAG)的公共关系和公共管理主题的共同合作网络。作者属于世界各地的不同研究和学术机构。已经确定了作者的凝聚力,并在中心性度量的基础上进行排名,例如中介度,程度,页面排名和亲密度。实验结果表明,发现具有特定领域优势的作者,具有较强的实地知识,并在公共关系和公共管理领域保持同行之间的协作。
声明:Arxiv文章摘要版权归论文原作者所有,由本人进行翻译整理,未经同意请勿随意转载。本系列在微信公众号“网络科学研究速递”(微信号netsci)和个人博客 https://www.complexly.me (提供RSS订阅)进行同步更新。
网友评论