- COVID-19流行期间因流动限制而造成经济隔离的证据;
- 理解COVID-19早期的美国社会经济扰动;
- 基于物理过程的参数化模型用于研究COVID-19流行病的传播;
- 流行病到达时间;理论,讨论与局限;
- 舆论传播动力学的最新进展:2020年综述;
- WES:实际基础架构基于主体的用户交互模拟;
- 使用复杂网络分析提取地震时间序列中的相关性;
- 具有指定度数和维数序列的超图的构造和随机生成;
- 迈向B-TAMBiT:带单词和双语测试调节器的反向翻译;
- 城市街道网络的多重分形标度分析:以中国十二个特大城市为例;
- 连续利润最大化:无约束Dr-次模最大化的研究;
- 探索基于随机游走的小批量选择策略对知识图谱补全的影响;
- 谁是政治高音喇叭?,政治高音喇叭与非政治性人物高音喇叭的人口比较;
- 在线社区违反规范-Stack Overflow评论研究;
- 行为变化及其对知名度提升的影响:微博从精英到大众;
- 深度地震全球序列的长期相关性研究;
- 离散主体人口信息网络中的社区结构;
- 具有间接传输链接和有限联系信息的动态网络上的疫苗接种策略;
- 在线产品评论中检测和鉴定极端主义评论者组;
- 通过延迟优化含时图中的可达性集;
- 回归基础:使用结构信息对科学文献进行聚类;
- paper2repo:学术论文的GitHub存储库推荐;
- mFLICA:从时间序列推断协调领导力的R包;
COVID-19流行期间因流动限制而造成经济隔离的证据
原文标题: Evidence of economic segregation from mobility lockdown during COVID-19 epidemic
地址: http://arxiv.org/abs/2004.05455
作者: Giovanni Bonaccorsi, Francesco Pierri, Matteo Cinelli, Francesco Porcelli, Alessandro Galeazzi, Andrea Flori, Ana Lucia Schmidt, Carlo Michele Valensise, Antonio Scala, Walter Quattrociocchi, Fabio Pammolli
摘要: 为了应对COVID-19大流行,各国政府已实施锁定限制以降低感染率。我们对Facebook提供的近乎实时的意大利数据进行了大规模分析,以研究锁定策略如何影响个人和地方政府的经济状况。我们将流动性变化建模为类似于自然灾害的外来冲击。我们确定了流动限制对意大利公民的两种影响方式。首先,我们发现,在财政能力较高的城市,封锁的影响更大。其次,我们发现了隔离效应,因为在不平等程度较高且个人人均收入较低的城市中,流动限制更加严格。
理解COVID-19早期的美国社会经济扰动
原文标题: Understanding the Socio-Economic Disruption in the United States during COVID-19's Early Days
地址: http://arxiv.org/abs/2004.05451
作者: Swaroop Gowdra Shanthakumar, Anand Seetharam, Arti Ramesh
摘要: 在本文中,我们收集和研究Twitter通讯,以了解大流行初期COVID-19在美国的社会经济影响。我们的分析表明,在这段时间内,COVID-19席卷了整个国家,这一点已得到大量趋势标签的证明。随着感染迅速飙升,用户上了Twitter,要求人们自我隔离并隔离。用户还要求关闭学校,酒吧和餐馆,以及封锁城市和州。来函显示,随之而来的恐慌性购买和某些基本商品(尤其是厕纸)的供应不足。我们还观察到,随着病毒继续传播,用户对通信表示沮丧。通过识别和跟踪与COVID相关的流行标签,我们有条不紊地收集了530206条推文。然后,我们将主题标签分为六个主要类别,即1)普通COVID,2)隔离,3)紧急购买,4)学校关闭,5)锁定和6)沮丧和希望,并研究这些推文的时间演变主题标签。我们对所有主题标签组所共有且特定于每个主题标签组的单词进行语言分析。我们的初步研究提供了人们对大流行病反应的简洁概括的图片,并为将来进行细粒度的语言和行为分析奠定了基础。
基于物理过程的参数化模型用于研究COVID-19流行病的传播
原文标题: Parametrization Model Motivated from Physical Processes for Studying the Spread of COVID-19 Epidemic
地址: http://arxiv.org/abs/2004.05992
作者: S. Maltezos
摘要: 除了对人类健康的危害和损失之外,新病毒COVID-19的爆发还引起了范围广泛的人类活动中非常严重的问题,包括基础和应用科学研究,主要涉及世界范围的合作。我们所有人都希望能够快速预测疾病的每日病例曲线中的转折点。在这项工作中,我们主要通过创建一个可靠的数学模型来描述一个孤立的社会,城市甚至整个国家的这种可靠的数学模型,从而解决了COVID-19病毒疾病传播的问题。利用粒子探测器物理中出现的类似机制,我们集中于所谓的n度半高斯函数。这种方法可以在对感染者每日报告病例的数据分析中提供一些非常有用的优势。应用此模型并对数据进行拟合(在提交本研究报告之前一直进行报道),我们已经确定了除其他外,研究中一个社会中公民的平均感染时间。我们还在其他国家/地区报告的案件中应用并采用了该模型,并且进行了有益的比较和结论。
流行病到达时间;理论,讨论与局限
原文标题: Epidemic Arrival Times; Theory, Discussion, and Limitations
地址: http://arxiv.org/abs/2004.05557
作者: Alastair Jamieson-Lane, Bernd Blasius
摘要: 在过去的一个世纪中,世界航空公司网络的兴起导致我们的“距离”和“亲近性”观念发生了急剧变化,无论是在贸易和旅行方面,还是在疾病传播方面(较不理想)。使用来自WAN的飞行数据,以及大大简化的流行模型,我们能够以有效的计算方式预测任意初始条件下的流行到达时间。我们的框架为Brockmann &Helbing(2013)最初引入的“有效距离”提供了理论上的证明,但是我们也观察到,这种启发式方法的预测能力明显低于以前的报道。对我们框架的进一步改进允许进行预测,即使是在已知过去方法失败的参数范围内,也可以说明此类方法可能会失败的情况。
舆论传播动力学的最新进展:2020年综述
原文标题: Recent advances in opinion propagation dynamics: A 2020 Survey
地址: http://arxiv.org/abs/2004.05286
作者: Hossein Noorazar
摘要: 意见动态吸引了来自不同领域的研究人员的兴趣。个人之间的本地交互为整个系统创造了有趣的动力。从各种角度来看,这种动态变化都很重要。小组决策,成功的营销和构建网络(可以达成或阻止共识)是现有或潜在应用程序的一些示例。互联网的发明使观点融合变得更快,更单方面并且整体上不同。虚假新闻,宣传和选举干扰的传播已经明确表明,有必要进一步了解这些动态。在过去的几年中,该领域新思想的出现加速了。 2020年第一季度,至少发表了50篇研究论文,无论是经过同行评审和发表,还是在诸如arXiv的预印本上。在本文中,我们总结了这些突破性的想法及其引人入胜的扩展,并介绍了新开发的概念。
WES:实际基础架构基于主体的用户交互模拟
原文标题: WES: Agent-based User Interaction Simulation on Real Infrastructure
地址: http://arxiv.org/abs/2004.05363
作者: John Ahlgren, Maria Eugenia Berezin, Kinga Bojarczuk, Elena Dulskyte, Inna Dvortsova, Johann George, Natalija Gucevska, Mark Harman, Ralf Lämmel, Erik Meijer, Silvia Sapora, Justin Spahr-Summers
摘要: 我们介绍了基于Web的仿真(WES)研究议程,并介绍了FACEBOOK的WW系统。我们在FACEBOOK上描述了WW在可靠性,完整性和隐私性方面的应用,该应用被用于模拟由数亿行代码组成的基础架构上的社交媒体交互。 WES议程借鉴了许多研究领域的研究成果,包括基于搜索的软件工程,机器学习,编程语言,多智能体系统,图论,博弈AI和AI辅助博弈。最后,我们提出了一系列未解决的问题和研究挑战,以推动更广泛的研究。
使用复杂网络分析提取地震时间序列中的相关性
原文标题: Extracting correlations in earthquake time series using complex network analysis
地址: http://arxiv.org/abs/2004.05415
作者: Sumanta Kundu, Anca Opris, Yohei Yukutake, Takahiro Hatano
摘要: 使用复杂网络的理论,我们展示了三种不同类型地震的地震记录的一些非平凡特征:常规地震,地震群和震颤。对于每种类别,我们研究两种时间序列:幅度时间和事件间时间(IET)。根据可见性图的标准,通过将每个地震事件视为一个节点并确定链接,将地震时间序列映射到一个复杂的网络中。我们对度分布的分析表明,以上三类地震的震级在统计上是不相关的。另一方面,对于所有类别的地震,IET系列都表现出类似于布朗运动的相关性。时间序列的可见性图都显示了小世界的行为,高度的聚类和层次结构。此外,我们发现可以通过关联的能见度图的拓扑来区分三种不同类别的地震的时间序列。对分类系数的分析还表明,群体比震颤更断断续续。
具有指定度数和维数序列的超图的构造和随机生成
原文标题: Construction and Random Generation of Hypergraphs with Prescribed Degree and Dimension Sequences
地址: http://arxiv.org/abs/2004.05429
作者: Naheed Anjum Arafat, Debabrota Basu, Laurent Decreusefond, Stephane Bressan
摘要: 我们提出了构建和随机生成超图的算法,这些图没有循环,并具有规定的度和维数序列。目的是为马尔可夫链蒙特卡罗方法提供起点和替代方法。我们的算法利用了属性的转置和针对由零和一组成的矩阵而设计的算法,这些矩阵具有规定的行和列总和到超图。当不提供初始超图时,构造算法扩展了马尔可夫链蒙特卡罗方法的适用性。随机生成算法允许开发针对超图属性(例如平均聚类系数)的自归一化重要性抽样估计器。我们证明了所提出算法的正确性。我们还证明了随机生成算法会以非零概率按照指定的度数和维数序列生成任何超图。我们根据经验和比较评估随机生成算法的有效性和效率。实验表明,随机生成算法可提供稳定,准确的平均聚类系数估计值,并且与马尔可夫链蒙特卡洛方法相比,还证明了更好的有效样本量。
迈向B-TAMBiT:带单词和双语测试调节器的反向翻译
原文标题: Towards the B-TAMBiT: A Back-Translation with an Adjudicator with Mono and Bilingual Tests
地址: http://arxiv.org/abs/2004.05509
作者: Mahamadou Kante, Euloge François Kouame, Macire Kante
摘要: 研究人员已转向各种学科来寻找可以以不同方式对信息隐私做出贡献的理论。这些理论的数据收集工具(问卷)是英语。但是,与社交网站相关的问题是针对具有不同文化背景的各个群体的。因此,大多数情况下使用跨文化和国际研究来解决这些平台面临的问题。今后,有必要将这些文书翻译成其他语言,例如法语。在本文中,我们使用了来自不同方法(B-TAMBiT)的不同技术,为英语仪器翻译成法语提供了一种混合方法。
城市街道网络的多重分形标度分析:以中国十二个特大城市为例
原文标题: Multifractal scaling analyses of urban street networks: the cases of twelve megacities in China 2020-04-12
地址: http://arxiv.org/abs/2004.05545
作者: Yuqing Long, Yanguang Chen
摘要: 铁路和公路的城市交通运输网络被证明具有分形性。但是,以前的研究主要基于单分形标度。为了揭示城市的空间复杂性,本文致力于探讨中国12个城市街道网络中的多重分形标度。城市聚类算法(CCA)用于识别城市边界并定义街道系统。然后,采用盒计数法计算广义相关维数和质量指数,利用基于微权重的直接确定法估计奇异指数和局部分形维数。参数估计的基本算法是固定截距线性回归分析。结果反映了城市街道网络的重要的多重分形结构。全局多重分形维数谱,即Dq-q谱,是一条倒S形曲线,而局部多重分形维谱,即f(a)-a谱,是右倾单峰曲线。如果矩阶q接近负无穷大,则广义相关维将超过嵌入空间维2,并且对数-对数图上用于局部参数估计的分散点将变得无序。得出的结论如下。遵循多重分形定律,城市交通网络围绕城市中心和次中心发展并形成层叠结构。街道系统的主要特征是空间异质性和不对称的级联结构。通过优化低密度地区和边地区的交通网络,我们可以提高城市系统的可达性和交通水平。
连续利润最大化:无约束Dr-次模最大化的研究
原文标题: Continuous Profit Maximization: A Study of Unconstrained Dr-submodular Maximization
地址: http://arxiv.org/abs/2004.05549
作者: Jianxiong Guo, Weili Wu
摘要: 利润最大化(PM)是选择用户子集作为在线社会网络中病毒式营销的种子,它可以在成本与影响力传播的利润之间取得平衡。我们将PM扩展到一般营销策略下的PM,并形成持续利润最大化(CPM-MS)问题,其问题在整数晶格上。我们的CPM-MS的目标功能是dr-submodular,但不是单调的。这是无约束dr-submodular最大化(UDSM)问题的典型案例,以它为出发点,本文对UDSM进行了系统的研究,与已有的研究者截然不同。首先,我们介绍了基于格的双贪婪算法,该算法可以获得恒定的近似保证。但是,存在一个严格且不切实际的条件,即要求目标值在整个域上都是非负的,否则就没有理论上的界限。因此,我们提出了一种技术,称为基于格的迭代修剪。它可以有效地缩小搜索空间,从而大大增加了在不损失逼近率的情况下在此较小域上满足非负目标函数的可能性。然后,为了克服估计CPM-MS的目标值的困难,我们采用了反向采样策略,并将其与基于格的双重贪婪(包括修剪)相结合,而不会损失其性能,但会减少其运行时间。整个过程可以视为解决UDSM问题的通用框架,尤其是应用于社会网络时。最后,我们在几个真实的数据集上进行实验,以评估所提出算法的有效性和效率。
探索基于随机游走的小批量选择策略对知识图谱补全的影响
原文标题: Exploring Effects of Random Walk Based Minibatch Selection Policy on Knowledge Graph Completion
地址: http://arxiv.org/abs/2004.05553
作者: Bishal Santra, Prakhar Sharma, Sumegh Roychowdhury, Pawan Goyal
摘要: 在本文中,我们探讨了不同的小批量采样技术在知识图完成中的作用。知识图完成(KGC)或链路预测是预测知识图中缺少的事实的任务。通常使用保证金,软保证金或交叉熵损失函数来训练KGC模型,该函数促进为真实事实三元组分配更高的分数或概率。 Minibatch梯度下降用于优化这些损失函数,以训练KGC模型。但是,由于每个小批量仅包含来自大型知识图中的几个随机采样的三元组,因此在大多数情况下,小批量中出现的任何实体都只会发生一次。因此,这些损失函数会忽略任何实体的所有其他邻居,这些实体的嵌入将在某个小批量步骤中进行更新。在本文中,我们提出了一种新的基于随机游动的小批量采样技术,用于训练KGC模型,该技术优化了由紧密相连的三元组子图(而不是随机选择的三元组)的小批量所引起的损失。我们已经显示了使用我们的采样技术对不同模型和数据集进行实验的结果,发现所提出的采样算法对这些数据集/模型具有不同的影响。具体来说,我们发现我们提出的方法在DB100K数据集上达到了最先进的性能。
谁是政治高音喇叭?,政治高音喇叭与非政治性人物高音喇叭的人口比较
原文标题: Who are Political Retweeters?, Demographic comparison of political retweeters with retweeters of non-political personalities
地址: http://arxiv.org/abs/2004.05587
作者: Muhammad Umer Gurchani
摘要: Twitter多年来一直是政治学研究的焦点,因为它提供了机会来直接观察政治信息在不同社区中的传播。在这里,我们将研究信息传播现象,并将重点放在负责在Twitter网络上各处传播政治信息的节点上。本文试图使用来自大多数活跃的法国政治低音炮的名称和位置相关数据的各种技术来填补政治低音炮人口统计方面的空白。在这里,我将尝试根据性别,语言,位置,教育程度和自我描述按类别列出这些帐户的细分。为了将有关政治高音喇叭的信息放在上下文中,我们还将创建一类非政治高音喇叭,以就上述变量在各组之间进行比较。
在线社区违反规范-Stack Overflow评论研究
原文标题: Norm violation in online communities -- A study of Stack Overflow comments
地址: http://arxiv.org/abs/2004.05589
作者: Jithin Cheriyan, Bastin Tony Roy Savarimuthu, Stephen Cranefield
摘要: 规范是社区中的行为期望。在线社区也应遵守系统行为准则中表达的规则和规定。即使社区主管部门不断提示其用户遵守法规,但据观察,仇恨言论和侮辱性语言的使用也在增加。在本文中,我们在发表评论的同时,对Stack Overflow(SO)的用户进行了量化和分析,该模式是Stack Overflow(SO)的用户-专业,发烧友程序员的著名技术问答网站。尽管该站点一直致力于解决技术问题和调试,但仇恨言论以及发表令人反感的言论仍使社区“有毒”。通过在不同的SO社区中识别和最小化各种违反规范的模式,社区的毒性将降低,从而使社区可以更有效地参与其知识共享的目标。此外,通过自动检测此类评论,版主可以警告作者,从而减少重复的可能性,从而可以提高站点和社区的声誉。基于从SO的两个不同数据源中提取的注释,这项工作首先提出了违反的规范的分类法。其次,它表明了对某些违反规范的制裁。第三,它提出了一种推荐系统,该系统可用于警告用户他们将要违反规范。这可以帮助实现在线社区中的规范遵守。
行为变化及其对知名度提升的影响:微博从精英到大众
原文标题: Behavior variations and their implications for popularity promotions: From elites to mass in Weibo
地址: http://arxiv.org/abs/2004.05591
作者: Bowen Shi, Ke Xu, Jichang Zhao
摘要: 社交媒体在产生和消费信息方面的繁荣同时表明在线用户影响力在确定内容受欢迎程度方面的关键作用。尤其是,了解有影响力的精英与大众基层之间的行为差异是交流中的重要问题。但是,很少解决用户行为在用户类别和内容域之间如何变化以及这些差异如何影响内容受欢迎度的问题。新浪微博是中国最受欢迎的类似Twitter的服务之一,它从七个内容域的新颖视角,从精英和大众的角度绘制了五个用户组之间行为变化的详细图片。有趣的是,精英们通过视频链接发布了更多不同的内容,而大众则拥有更高忠诚度的转发器。根据这些变体,讨论并证明了增强内容流行度的面向用户的动作。最令人惊讶的发现是,内容的多样性并不总是带来更多的转发,而大众和精英应该分别通过增加其转发者的数量和忠诚度来促进内容的普及。我们的结果首次证明了在社交媒体中采用高度个性化的流行度提升策略而非通用原则的可能性。
深度地震全球序列的长期相关性研究
原文标题: Long-range correlation studies in deep earthquakes global series
地址: http://arxiv.org/abs/2004.05674
作者: Douglas S. R. Ferreira, Jennifer Ribeiro, Paulo S. L. Oliveira, André R. Pimenta, Renato P. Freitas, Andrés R. R. Papa
摘要: 在本文中,我们考虑了震级为 m geq 4.5 的地震,使用世界范围内深地震(深度大于70 km)的数据进行了地震学研究。我们已经从复杂网络的角度解决了这个问题,使用时间窗口模型构建了深地震网络,这些网络呈现出无标度和小世界的特征。这项工作是对先前研究的扩展,该研究使用类似的方法来处理浅层事件。我们针对深层地震的结果与针对浅层地震的结果相符,因为深层地震的连通性分布也遵循q指数分布,并且存在标度行为。我们的结果使用复杂网络和非扩展统计力学进行了分析,有助于加强使用时间窗口模型构建震中网络。它们加强了地震与地震系统的关键性之间的远距离联系的想法。
离散主体人口信息网络中的社区结构
原文标题: Community Structures in Information Networks for a Discrete Agent Population
地址: http://arxiv.org/abs/2004.05708
作者: Peter Marbach
摘要: 社区是社会网络的重要特征。本文的目的是提出一个数学模型来研究社会网络中的社区结构。为此,我们考虑一种特殊情况的社会网络,即信息网络。我们假设有很多对获取内容感兴趣的主体。主体对他们感兴趣的内容类型有所不同。主体的目标是形成社区,以最大程度地提高其获取和产生内容的效用。我们使用这种模型来表征在这种情况下作为纳什均衡出现的社区的结构。本文介绍的工作将针对连续主体模型情况获得的结果推广到针对离散主体种群模型的情况。我们注意到,离散的主体集可以更准确地反映现实生活中的信息网络,并且需要这些主体集才能获得对社区结构的更多见解,例如社区内的连通性(图结构)以及信息传播在一个社区内。
具有间接传输链接和有限联系信息的动态网络上的疫苗接种策略
原文标题: Vaccination strategies on dynamic networks with indirect transmission links and limited contact information
地址: http://arxiv.org/abs/2004.05725
作者: Md Shahzamal, Raja Jurdak, Bernard Mans, Frank de Hoog, Dean Paini
摘要: 传染病仍然是现代社会的主要全球负担,每年造成1300万人死亡。降低传染病发病率和死亡率的一种方法是预防性接种或针对性接种。但是,当前的疫苗接种策略依赖于很难获得且成本高昂的高度具体的个人联系信息,以便确定有影响力的散布人员。当前的方法还仅关注个体之间的直接接触以进行传播,而忽略了间接传播,在这种间接传播中,病原体可以在一个感染的个体和一个易感个体之间传播,这些个体在短时间内访问同一位置而没有相遇。本文提出了一种新颖的疫苗接种策略,该策略依赖于可以轻松而有效地收集的直接和间接的粗粒度联系信息。我们的策略不是跟踪个人的确切接触程度,而是使用人们访问的地点的类型来估计个人的接触程度范围,同时考虑直接和间接接触。我们进行了广泛的模拟,以评估我们的策略与最新疫苗接种策略的效果。结果表明,在考虑间接链接时,我们的策略可达到与oracle方法相当的性能,并且优于所有现有策略。
在线产品评论中检测和鉴定极端主义评论者组
原文标题: Detecting and Characterizing Extremist Reviewer Groups in Online Product Reviews
地址: http://arxiv.org/abs/2004.05865
作者: Viresh Gupta, Aayush Aggarwal, Tanmoy Chakraborty
摘要: 在线市场经常以评论的形式见证垃圾评论。人们经常被雇佣来针对特定品牌,以通过撰写高度正面或负面的评论来促进或阻碍它们。这通常是集体进行的。尽管以前的一些研究试图识别和分析此类垃圾邮件群体,但很少有人探索发现那些针对整个品牌而不只是产品的群体。在本文中,我们从亚马逊产品评论网站收集了评论,并手动标记了一组923个候选评论者组。使用频繁的项目集挖掘对品牌相似性进行抽取,以便如果用户已经相互查看了很多品牌(的产品),则将用户聚集在一起。我们假设审阅者组的性质取决于特定于(组,品牌)对的8个特征。我们开发了一种基于功能的监督模型,将候选群体归类为极端主义实体。我们运行多个分类器,以根据该组用户的评论对一个组进行分类,以确定该组是否显示出肢体征兆。基于三层Perceptron的分类器被证明是最好的分类器。我们将进一步详细研究此类群体的行为,以更好地了解品牌级意见欺诈的动态。这些行为包括评分的一致性,评论情绪,已验证的购买,评论日期和评论收到的有用票。令人惊讶的是,我们观察到有许多经过验证的审阅者显示出极端的情绪,这在进一步的调查中导致了绕开现有机制来防止亚马逊上出现非官方激励措施的方法。
通过延迟优化含时图中的可达性集
原文标题: Optimizing Reachability Sets in Temporal Graphs by Delaying
地址: http://arxiv.org/abs/2004.05875
作者: Argyrios Deligkas, Igor Potapov
摘要: 含时图是一种动态图,其中为每个边分配了一组整数时间标签,这些标签指示该边在哪个离散时间步可用。在本文中,我们研究了时间标签的更改(对应于边可用性的延迟)如何影响给定来源的可达性集。关于时间可达性集的问题是由网络流行病学中的含时图的大量应用所激发的,其目的是最大程度地减少感染的传播,并在制造网络中安排供应网络中的问题,其目的与最大化覆盖率和生产率相反。我们介绍了针对可达性集的控制机制,该机制基于延迟时间事件的两个自然操作,这些时间操作会严重影响这些事件的链。称为合并的第一个操作是全局操作,并在整个网络中同时将连续的时间标签批处理在一起。这对应于将所有事件推迟到特定时间。第二,在图的每个边的时间标签上施加独立的延迟。对于合并操作,即全局锁定效应,即使对于非常简单的图结构,我们也证明了针对几个最小化和最大可达性目标的NP硬度结果。对于第二个操作,独立延迟,我们证明了当允许的延迟数量有界时,最小化问题是NP难的。我们用多项式时间算法对此进行补充,以在无限制延迟的情况下最小化可到达性集。
回归基础:使用结构信息对科学文献进行聚类
原文标题: Return to basics: Clustering of scientific literature using structural information
地址: http://arxiv.org/abs/2004.05904
作者: Jinhyuk Yun, Sejung Ahn, June Young Lee
摘要: 学者经常采用相关性度量来估计两个不同项目(例如文档,作者和机构)之间的相似性。此类相关性度量通常基于重叠参考( ie ,书目耦合)或引文( ie ,共引文),然后可以与聚类分析一起使用以找到研究领域之间的边界。不幸的是,计算相关性度量值极具挑战性,尤其是对于大量项目而言,因为计算复杂度大于线性。我们提出了一种识别研究前沿的替代方法,该方法使用了由相关性度量启发的直接引用。我们的新颖方法只是将一个节点复制到两个不同的节点:一个引用节点和一个引用节点。然后,我们将典型的聚类方法应用于修改后的网络。引用节点的群集应模仿书目耦合相关性网络中的节点,而被引用节点的群集应像同引用关系网络中的节点一样。在验证测试中,我们提出的方法与基于常规相关性的方法具有高度的相似性。我们还发现,与基于自然语言处理的分类相似性方面,所提出方法的聚类结果优于传统的基于相关性的度量。
paper2repo:学术论文的GitHub存储库推荐
原文标题: paper2repo: GitHub Repository Recommendation for Academic Papers
地址: http://arxiv.org/abs/2004.06059
作者: Huajie Shao, Dachun Sun, Jiahao Wu, Zecheng Zhang, Aston Zhang, Shuochao Yao, Shengzhong Liu, Tianshi Wang, Chao Zhang, Tarek Abdelzaher
摘要: GitHub已成为流行的社交应用程序平台,大量用户在该平台上发布其开源项目。尤其是,越来越多的研究人员发布与研究论文相关的源代码存储库,以吸引更多的人关注他们的工作。受这一趋势的激励,我们描述了一种新颖的跨项目推荐器系统 paper2repo ,该系统在GitHub上推荐与学术搜索系统(如Microsoft Academic)中的给定论文相匹配的相关存储库。关键的挑战是确定输入论文及其在两个平台上的相关存储库 无人标签的好处 之间的相似性。为此,paper2repo将文本编码和约束图卷积网络(GCN)集成在一起,以自动学习并将论文和存储库的嵌入内容映射到同一空间,在此处邻近度为推荐提供了基础。为了使我们的方法在现实生活中的系统更加实用,用于模型训练的标签是根据GitHub上用户操作的功能自动计算出来的。在机器学习中,这种自动标记通常被称为 em distant monitoring。据作者所知,这是第一个远程监督的跨平台(纸张到存储库)匹配系统。我们根据从GitHub和Microsoft Academic收集的真实数据集评估paper2repo的性能。结果表明,它优于其他现有技术推荐方法。
mFLICA:从时间序列推断协调领导力的R包
原文标题: mFLICA: An R package for Inferring Leadership of Coordination From Time Series
地址: http://arxiv.org/abs/2004.06092
作者: Chainarong Amornbunchornvej
摘要: 领导力是领导者影响追随者实现集体目标的过程。领导的特殊情况之一是协调模式的启动。在这种情况下,领导者是发起者,他们发起每个人都遵循的协调模式。给定一组实数的个体-多元时间序列,mFLICA软件包为R用户提供了一个框架,以推断时间序列内的协调事件,这些协调事件的发起者和关注者以及组合并和拆分的动态。 mFLICA软件包还具有可视化功能,以使领导推理的结果更易于理解。该软件包可在综合R存档网络(CRAN)上找到,网址为https://CRAN.R-project.org/package=mFLICA。
声明:Arxiv文章摘要版权归论文原作者所有,由本人进行翻译整理,未经同意请勿随意转载。本系列在微信公众号“网络科学研究速递”(微信号netsci)和个人博客 https://www.complexly.cn (提供RSS订阅)进行同步更新。个性化论文阅读与推荐请访问 https://arxiv.complexly.cn 平台。
网友评论