- MMED:多域和多模态事件数据集;
- Tor用户对维基百科的贡献:是否像其他人一样?;
- 动态推荐系统的分层时间卷积网络;
- 大规模互联网流量的新现象;
- 人类社会演化的动力学:一种能量学方法;
- 发表偏倚对保护规划的影响;
- 实现社交物联网和社交云;
- 基于相关性的社区检测;
- 为小岛屿发展中国家提供100%可再生能源的电网——能源、环境和经济增长的耦合;
- 隐藏二部图中最大k度的分布式计算;
- 电阻数据的临界点分析与预警维护失败的早期预警信号;
- 网络分析中的实验算法指南;
MMED:多域和多模态事件数据集
原文标题: MMED: A Multi-domain and Multi-modality Event Dataset
地址: http://arxiv.org/abs/1904.02354
作者: Zhenguo Yang, Zehang Lin, Min Cheng, Qing Li, Wenyin Liu
摘要: 在这项工作中,我们构建并发布了一个多域和多模态事件数据集(MMED),其中包含从数百个新闻媒体网站(例如雅虎新闻,谷歌新闻,CNN新闻)收集的25,165篇文本新闻文章和76,516图像在Flickr社交媒体上分享的帖子,根据412个真实世界事件进行注释。收集数据集以探索组织由不同数据域中的专业人员和业余爱好者贡献的异构数据的问题,以及将从一个数据域获得的事件知识传递到异构数据域的问题,从而总结具有不同贡献者的数据。我们希望MMED数据集的发布可以激发对相关挑战性问题的创新研究,例如事件发现,跨模式(事件)检索和视觉问答等。
Tor用户对维基百科的贡献:是否像其他人一样?
原文标题: Tor Users Contributing to Wikipedia: Just Like Everybody Else?
地址: http://arxiv.org/abs/1904.04324
作者: Chau Tran, Kaylea Champion, Andrea Forte, Benjamin Mako Hill, Rachel Greenstadt
摘要: 维基百科等网站上的用户生成内容由志愿者制作,他们不仅创造内容,还通过审查他人的贡献来投入时间和精力进行质量控制。由于认为隐私增强工具是故意破坏,垃圾邮件和滥用的来源,许多用户生成的网站(如维基百科)阻止了使用Tor等代理的匿名编辑。虽然阻止匿名寻求编辑被认为在遏制滥用方面是有效的,但是匿名寻求编辑的未实现的有价值贡献形式的附带损害通常是看不见的。尽管自2005年以来维基百科已采取措施阻止Tor用户的贡献,但我们证明这些块已经不完美,并且通过Tor在维基百科上进行编辑的数万次尝试都取得了成功。我们利用几个数据源来测量和描述维基百科上Tor编辑的历史,并比较Tor用户对其他维基百科用户群的贡献。我们的分析表明,设法通过维基百科禁令的Tor用户提供的内容与未注册的维基百科贡献者以及注册用户的初始贡献的质量相似。
动态推荐系统的分层时间卷积网络
原文标题: Hierarchical Temporal Convolutional Networks for Dynamic Recommender Systems
地址: http://arxiv.org/abs/1904.04381
作者: Jiaxuan You, Yichen Wang, Aditya Pal, Pong Eksombatchai, Chuck Rosenberg, Jure Leskovec
摘要: 可以从跨会话数据中学习以动态预测用户将选择的下一个项目的推荐系统对于在线平台至关重要。然而,现有方法通常使用受速度和存储器消耗限制的开箱即用序列模型,对于生产环境通常是不可行的,并且通常不包含跨会话信息,这对于有效推荐是至关重要的。在这里,我们提出了分层时间卷积网络(HierTCN),这是一种分层深度学习体系结构,可根据用户与项目的顺序多会话交互进行动态推荐。 HierTCN专为具有数十亿项目和数亿用户的网络规模系统而设计。它由两个级别的模型组成:高级模型使用递归神经网络(RNN)来汇总用户在不同会话中不断变化的长期兴趣,而低级模型使用时间卷积网络(TCN)实现,利用会议期间的长期利益和短期互动,以预测下一次互动。我们对公共XING数据集和大规模Pinterest数据集进行了大量实验,该数据集包含600万用户,具有16亿次交互。我们表明,与基于TCN的模型相比,HierTCN比基于RNN的模型快2.5倍,并且使用的数据存储量减少了90%。我们进一步开发了一种有效的数据缓存方案和基于队列的小批量生成器,使我们的模型能够在24小时内在单个GPU上进行培训。我们的模型始终优于最先进的动态推荐方法,召回率提高18%,平均倒数排名提高10%。
大规模互联网流量的新现象
原文标题: New Phenomena in Large-Scale Internet Traffic
地址: http://arxiv.org/abs/1904.04396
作者: Jeremy Kepner, Kenjiro Cho, KC Claffy
摘要: 互联网正在改变我们的社会,需要对互联网流量进行定量了解。我们的团队收集并管理包含500亿个数据包的最大公共互联网流量数据。在MIT SuperCloud中使用10,000个处理器分析此流数据揭示了一种新现象:互联网流量中其他看不见的叶节点和隔离链路的重要性。我们的分析进一步表明,双参数修改的Zipf-Mandelbrot分布准确地描述了移动样本窗口的各种源/目标统计数据,范围从100,000到100,000,000个数据包,而不是跨越多年和各大洲的集合。测量的模型参数区分不同的网络流,并且模型叶参数与不同底层网络拓扑中的流量的分数强烈相关。
人类社会演化的动力学:一种能量学方法
原文标题: The Dynamics of Human Society Evolution: An Energetics Approach
地址: http://arxiv.org/abs/1904.04400
作者: Ram C. Poudel, Jon G. McGowan
摘要: 人类社会是一个开放的系统,通过与各种已知和未知(能量)通量的耦合而发展。这些动态如何精确展开?能量学可能会提供进一步的见解。我们扩展了Navier Stokes的方法,研究随时间演变的领域中的非平衡动力学。基于社会领域理论,经典领域理论的归纳,我们定义了社会中个体的社会力量,社会能量和汉密尔顿主义。基于时间依赖的汉密尔顿主义(包括权力动力学)勾勒出个人和社会演化的方程式。在本文中,我们将证明Lotka-Volterra型方程可以从社会领域的哈密顿方程导出。
发表偏倚对保护规划的影响
原文标题: Effects of publication bias on conservation planning
地址: http://arxiv.org/abs/1904.04486
作者: Raffael Hickisch, Timothy Hodgetts, Paul J. Johnson, Claudio Sillero, Klement Tockner, David W. Macdonald
摘要: 保护规划需要有关生物多样性空间格局的可靠信息但是,现有的数据集是有偏差的:一些栖息地,分类群和地点的代表性不足。在这里,我们将地理出版物密度映射到各省“省”的次国家级。我们查询科学网络目录SCI和SSCI的生物多样性相关出版物,包括国家和省名称(1993 - 2016年期间)。我们将这些数据与假设影响研究的其他省级因素(即经济发展,人类存在,基础设施和偏远)结合起来。我们表明,与其生物气候条件所预期的生物多样性相比,似乎未充分研究的遗址很可能由于各种原因而无法被研究人员所接受,其中当前或最近的武装冲突是值得注意的。最后,我们创建了一个优先考虑地理上发布偏差的省份名单,并讨论我们的省级模型如何协助调整保护规划中的出版偏差。
实现社交物联网和社交云
原文标题: Enabling the Social Internet of Things and Social Cloud
地址: http://arxiv.org/abs/1904.04558
作者: Weishan Zhang, Qun Jin, Didier El Baz (LAAS)
摘要: 社交物联网正在改变社交模式,并将带来前所未有的在线和离线社交体验。社交云是对社会网络的改进,以便通过社交互动合作地提供计算设施。这两个领域都需要更多的研究工作才能拥有通用或统一的支持架构,以便与各种相关技术集成。这两种范式都与社会网络,云计算和物联网有关。因此,我们有理由相信它们有很多相互支持的潜力,我们预测这两者将以某种方式合并。
基于相关性的社区检测
原文标题: Correlation-Based Community Detection
地址: http://arxiv.org/abs/1904.04583
作者: Zheng Chen, Zengyou He, Hao Liang, Can Zhao, Yan Liu
摘要: 从复杂网络挖掘社区结构是各个领域的重要问题。许多现有的社区检测方法通过优化社区评估功能来检测社区。然而,这些功能中的大多数甚至在随机图上具有高值,并且可能无法检测到大规模网络中的小社区(所谓的分辨率限制问题)。在本文中,我们通过将相关性分析与社区检测相结合,介绍了两种新的以节点为中心的社区评估函数。我们将进一步表明,相关性分析可以提供一种新的理论框架,该框架在基于相关性的优化问题的背景下统一一些现有的评估函数。在此框架中,我们可以通过选择正确的相关函数来减轻分辨率极限问题并消除随机波动的影响。此外,我们将挖掘关联规则中使用的三个关键属性引入社区检测的上下文中,以帮助我们选择适当的相关函数。基于我们引入的相关函数,我们提出了一种称为CBCD的社区检测算法。我们提出的算法在综合基准网络和现实网络上都优于现有的最先进算法。
为小岛屿发展中国家提供100%可再生能源的电网——能源、环境和经济增长的耦合
原文标题: Power Grid with 100% Renewable Energy for Small Island Developing States -- Nexus of Energy, Environment, and Economic Growth
地址: http://arxiv.org/abs/1904.04597
作者: Yuichi Ikeda
摘要: 我们使用我们的电网优化模型估算了具有高水平可再生能源的电网的系统级平均电力成本(LCOE)。系统方法LCOE的估算结果将根据小岛屿发展中国家(SIDS)经济体的能源,环境和经济增长之间的关系进行讨论。虽然100%的可再生能源在技术上可以使用电力存储,但估计的LCOE高达397美元/兆瓦时,远远高于美国和日本住宅用户的电价。敏感性分析表明,100%可再生电网的LCOE估计增加223%,相当于经济增长率降低了11%。经济增长的减少将对小岛屿发展中国家的经济产生重大的负面影响。然而,使用来自太阳能光伏发电的过剩能量供应通过电解水来产生氢会降低LCOE,因此可以用更少的二氧化碳排放实现更高的经济增长。
隐藏二部图中最大k度的分布式计算
原文标题: Distributed Computation of Top-k Degrees in Hidden Bipartite Graphs
地址: http://arxiv.org/abs/1904.04626
作者: Panagiotis Kostoglou, Apostolos N. Papadopoulos, Yannis Manolopoulos
摘要: 隐藏图是由一组已知顶点(节点)组成的灵活抽象,而这组边是事先不知道的。要揭示边集,必须通过评估返回true或false的函数 f(u,v)来执行多个边探测查询,如果节点 u 和 v 分别连接或不连接。显然,如果对包含 n 节点的图执行所有可能的 n(n-1)/ 2 探测,则可以完全显示该图。但是,函数 f()通常是计算密集型的,因此执行所有可能的探测查询会导致高执行成本。目标是通过尽可能少地执行探测查询来提供有用查询的答案。在这项工作中,我们通过使用分布式算法研究了发现具有最高度数的隐藏二部图的顶部 k 节点的问题。特别是,我们使用Apache Spark并提供实验结果,表明与现有的集中式方法相比,实现了显著的性能改进。
电阻数据的临界点分析与预警维护失败的早期预警信号
原文标题: Tipping point analysis of electrical resistance data with early warning signals of failure for predictive maintenance
地址: http://arxiv.org/abs/1904.04636
作者: Valerie Livina, Adam Lewis, Martin Wickham
摘要: 我们将临界点分析应用于汽车或航空工业中常用的电子元件的测量,并根据电阻时间序列的尺度特性展示早期预警信号。该分析利用统计物理框架和随机建模,将测量的时间序列表示为根据测量估计的确定性和随机分量的组合。早期预警信号比传统技术估计的早得多,例如基于阈值的故障检测,或威布尔故障分析中使用的批量估算。所引入的技术可用于工业应用的电力电子器件的预测性维护。我们建议这种方法可以应用于电力系统和能源应用中的各种电磁测量。
网络分析中的实验算法指南
原文标题: Guidelines for Experimental Algorithmics in Network Analysis
地址: http://arxiv.org/abs/1904.04690
作者: Eugenio Angriman, Alexander van der Grinten, Moritz von Looz, Henning Meyerhenke, Martin Nöllenburg, Maria Predari, Charilaos Tzovas
摘要: 网络科学领域是一个高度跨学科的领域;对于网络数据的实证分析,它从几个研究领域中提取算法方法。因此,研究程序和技术结果的描述通常有所不同,有时甚至是广泛的。在本文中,我们将重点放在网络分析算法工程实验部分的方法论上 - 这是一个以实证为重点的研究领域的重要组成部分。更确切地说,我们统一和调整来自不同领域的现有建议,并提出通用指南 - 包括统计分析 - 用于系统评估网络分析算法。这样,可以适当地评估新提出的算法的行为,并且与现有解决方案的比较变得有意义。此外,作为主要技术贡献,我们提供SimexPal,这是一种高度自动化的工具,可根据我们的指南执行和分析实验。为了说明SimexPal的优点和我们的指南,我们将它们应用于案例研究中:我们设计,执行,可视化和评估最近算法的实验,以近似中介中心性,这是网络分析中的一个重要问题。总之,我们的指南和SimexPal都应该对实验算法中的先前努力进行现代化和补充;它们不仅对网络分析有用,而且对相关环境也有用。
声明:Arxiv文章摘要版权归论文原作者所有,由本人进行翻译整理,未经同意请勿随意转载。本系列在微信公众号“网络科学研究速递”(微信号netsci)和个人博客 https://www.complexly.me (提供RSS订阅)进行同步更新。
网友评论