- GeoCoV19:具有位置信息的数以亿计的多语言COVID-19推文的数据集;
- 贫困水平、社会和个人异质性解释了SARS-CoV-2流行病在拉丁美洲的增长;
- 随机检测数据中COVID-19的感染和病例识别;
- 方向性,异质性和相关性在流行病风险和传播中的作用;
- 接触式跟踪应用程序的易失性;
- 为什么大多数COVID-19感染曲线呈线性?;
- 通过Twitter对大数据进行机器学习以了解公众对COVID-19的反应;
- 感觉现在该重新开放了吗?基于重新开放情绪分析的COVID-19新常态情景;
- 当前NHSx联系人跟踪应用程序的风险评分计算;
- COVID-19:简单模型出人意料的有效性;
- 预防COVID-19:气溶胶指南;
- 冠状病毒在固体表面沉积的呼吸液滴中存活的可能性;
- COVID-19公众情绪见解和推特分类的机器学习;
- 自动检测信息网络中有影响力的参与者;
- 超图上动力学过程的相变和稳定性;
- 信息级联分析概述:模型、预测和最新进展;
- 图随机神经网络;
- 使用基于探针的数据评估信号化主干道性能的大规模可并行化方法;
- 图的度异质性促进随机游走更快地相遇;
- 具有数千万个节点的大规模复杂网络的多重分形分析的高效计算沙箱算法;
- 识别区域经济中的关键部门:使用投入产出数据的网络分析方法;
GeoCoV19:具有位置信息的数以亿计的多语言COVID-19推文的数据集
原文标题: GeoCoV19: A Dataset of Hundreds of Millions of Multilingual COVID-19 Tweets with Location Information
地址: http://arxiv.org/abs/2005.11177
作者: Umair Qazi, Muhammad Imran, Ferda Ofli
摘要: 在过去的几年中,在突发公共卫生事件,自然或人为灾难等大规模融合事件中,社交媒体平台的使用激增。在为流行病和大流行病爆发做准备时,这些非传统数据源对于疾病预测和监视变得至关重要。在本文中,我们介绍了GeoCoV19,这是一个大型Twitter数据集,包含自2020年2月1日起在90天内发布的超过5.24亿条多语言推文。此外,我们采用基于地名词典的方法来推断推文的地理位置。我们假设,这种大规模的,多语言的,地理定位的社交媒体数据可以使研究社区能够评估社会如何集体应对这一前所未有的全球危机,并开发计算方法来应对诸如识别假新闻,了解社区的挑战等挑战。知识差距,建立疾病预测和监测模型等。
贫困水平、社会和个人异质性解释了SARS-CoV-2流行病在拉丁美洲的增长
原文标题: Poverty levels, societal and individual heterogeneities explain the SARS-CoV-2 pandemic growth in Latin America
地址: http://arxiv.org/abs/2005.11201
作者: José Miguel Ponciano, Juan Adolfo Ponciano, Juan Pablo Gómez, Robert D. Holt, Jason K. Blackburn
摘要: 拉丁美洲正遭受SARS-CoV-2大流行的严重影响,但是贫穷和薄弱的公共卫生机构阻碍了收集必要的精确数据来为经典的SEIR流行病模型提供信息。我们提出了一种替代方法,该方法利用了统计生态学和保护生物学的进步,以增强稀疏数据在预测和缓解流行病中的价值。我们的方法导致了所谓的随机流行病Gompertz模型,该模型具有很少的参数,可以灵活地将异质性纳入种群内部和跨时间传播。我们证明了贫困对整个拉丁美洲十四个国家的流行病影响很大,并表明我们的方法如何提供灵活,随时间变化的疾病风险预测,可用于完善公共卫生策略。
随机检测数据中COVID-19的感染和病例识别
原文标题: Infections and Identified Cases of COVID-19 from Random Testing Data
地址: http://arxiv.org/abs/2005.11277
作者: Allen Caldwell, Vasyl Hafych, Oliver SChulz, Lolian Shtembari
摘要: 关于Covid-19,有许多难以理解的数字。使用随机测试的报告,评估每次感染的死亡率,并将其用于提取有关实际感染比例以及在不同国家成功识别感染的更多信息。
方向性,异质性和相关性在流行病风险和传播中的作用
原文标题: The role of directionality, heterogeneity and correlations in epidemic risk and spread
地址: http://arxiv.org/abs/2005.11283
作者: Antoine Allard, Cristopher Moore, Samuel V. Scarpino, Benjamin M. Althouse, Laurent Hébert-Dufresne
摘要: 大多数流行病传播模型,包括许多专门为COVID-19设计的模型,都隐含地认为社会网络是无方向性的,即,每当发生接触时,感染就很可能在任一方向传播。尤其是,这种假设意味着最可能传播疾病的个体也最有可能从他人那里获得该疾病。在这里,我们回顾了随机有向图论的结果,结果表明,许多重要数量,包括生殖数量和流行病大小,都敏感地取决于出入和出入度的联合分布(“风险”和“传播”) ,包括它们的异质性以及它们之间的相关性。通过考虑各种类型的联合分布,我们阐明了为什么某些类型的异质性会导致偏离SIR模型的标准Kermack-McKendrick分析,即所谓的质量作用模型,其中接触是同质且随机的,而有些则不会。我们还表明,一些结构化的SIR模型是由个体类型(年龄或活动)之间复杂的联系方式所告知的,只是泊松过程的混合体,并且往往不会明显偏离最简单的质量作用模型。最后,我们指出了这种有针对性的结构可能对政策产生的影响,既可以用于联系追踪策略,也可以用于旨在防止超级传播事件的干预措施。特别是,有向网络具有经典“友谊悖论”的前向和后向版本-前向链接倾向于导致高风险的个人,而后向链接则导致具有高传播的个人-这样,前向链接和后向链接会导致高风险向后接触跟踪对于发现超级传播事件并防止将来的感染级联是必要的。
接触式跟踪应用程序的易失性
原文标题: The Fallibility of Contact-Tracing Apps
地址: http://arxiv.org/abs/2005.11297
作者: Piotr Sapiezynski, Johanna Pruessing, Vedran Sekara
摘要: 自从COVID-19在全球范围内爆发以来,我们一直在关注有关联系人跟踪应用程序的辩论-有关大流行的技术支持反应。随着公司,学者,政府和公民社会讨论实施这些应用程序的正确方法,我们注意到了反复出现的隐含假设。拟议的解决方案专为拥有互联网访问权限和智能手机所有权,人们愿意且能够安装这些应用程序,并且收到有关可能感染病毒的通知的人可以进行测试并可以安全隔离的世界而设计。在这项工作中,我们挑战这些假设。我们不仅表明全球范围内没有足够的智能手机来达到所需的采用门槛,而且还强调了互联网的广泛缺乏,这对某些群体的影响更大:老年人,低收入者和社交距离有限的人。不幸的是,这些也是COVID-19面临最高风险的人群。我们还报告说,已经以选择加入方式部署的联系人跟踪应用程序显示令人失望的采用水平。我们警告过度扩展现有的州和公司监视权可能带来的后果。最后,我们描述了多种情况,无论访问权限或策略如何,联系人跟踪应用程序都无济于事。在这项工作中,我们呼吁采取全面,公平的政策应对措施,优先考虑最弱势群体的需求,保护人权并考虑长期影响,而不是着眼于技术优先解决方案。
为什么大多数COVID-19感染曲线呈线性?
原文标题: Why are most COVID-19 infection curves linear?
地址: http://arxiv.org/abs/2005.11302
作者: Stefan Thurner, Peter Klimek, Rudolf Hanel
摘要: 许多国家/地区已超过其第一个COVID-19流行高峰。传统的流行病学模型将这种情况描述为非药物干预的结果,这种干预将增长率降至恢复率以下。在大流行的这一新阶段,许多国家的确诊病例随着时间的延长几乎呈线性增长。这种新的收容制度很难用传统的模型来解释,在传统的模型中,感染数量要么爆发性增长,直到达到畜群免疫力,要么疫情被完全抑制(零新病例)。在这里,我们根据接触网络的结构对此令人费解的观察结果进行解释。我们表明,对于任何给定的传播率,都存在着一定数量的社交接触者 D_c ,在此之下必须发生线性增长和低感染率。在 D_c 以上,发生了传统的流行病学动态,例如在SIR型模型中。在根据传输速率和具有传染性的天数的经验估计值校准我们的相应模型时,我们发现 D_c sim 7.2 。假设现实的接触网络的程度约为5,并假设锁定措施会将其减少到家庭规模(约2.5),我们将以极高的精度重现实际的感染曲线,而无需对参数进行拟合或微调。特别是,我们比较了美国和奥地利,作为一个国家的例子,该国家最初没有采取措施,而一个国家则在早期做出了严厉的封锁。我们的发现质疑标准舱室模型用于描述COVID-19围堵阶段的适用性。在其中观察到线性增长的可能性实际上为零。
通过Twitter对大数据进行机器学习以了解公众对COVID-19的反应
原文标题: Machine learning on Big Data from Twitter to understand public reactions to COVID-19
地址: http://arxiv.org/abs/2005.08817
作者: Jia Xue, Junxiang Chen, Chen Chen, ChengDa Zheng, Tingshao Zhu
摘要: 该研究旨在了解Twitter用户对COVID-19的讨论和反应。我们使用机器学习技术来分析从2020年1月20日至2020年3月7日收集的约180万条与冠状病毒相关的推文消息。共确定了11个重要主题,然后将其归类为10个主题,例如“中国境外(全球), ”,“在韩国爆发COVID-19”,“在纽约爆发的早期迹象”,“钻石公主巡游”,“经济影响”,“预防/防护措施”,“当局”和“供应链”。结果并未显示与治疗和/或症状相关的消息作为Twitter上的常见话题。我们还进行了情绪分析,结果表明,对当局的信任仍然是一种普遍的情绪,但可以识别出对当局的信任,对疾病爆发的恐惧以及对可能采取的预防措施的期望。还讨论了研究的意义和局限性。
感觉现在该重新开放了吗?基于重新开放情绪分析的COVID-19新常态情景
原文标题: Feeling Like It is Time to Reopen Now? COVID-19 New Normal Scenarios based on Reopening Sentiment Analytics
地址: http://arxiv.org/abs/2005.10961
作者: Jim Samuel, Md. Mokhlesur Rahman, G. G. Md. Nawaz Ali, Yana Samuel, Alexander Pelaez
摘要: 冠状病毒大流行带来了复杂的挑战和不利环境。这项研究发现了封锁带来的令人担忧的社会经济后果中的公众情绪,并探讨了随之而来的四种潜在的情绪相关情景。 COVID-19的严重性和残酷性导致极端感觉的发展以及情绪和精神保健方面的挑战。这项研究确定了情感后果-极端恐惧,困惑和不稳定的情绪的存在,以及信任和期待的混合。为了有效的决策和政策,有必要衡量主要的公众情绪趋势。这项研究使用时间与COVID-19保持一致的Twitter数据分析了公众情绪,以确定与“重新开放”经济有关的主导情绪趋势。当前的研究使用文本分析方法论来分析公众对于两种潜在分歧情景的支持-提前开放和延迟开放以及每种情况的后果。当前的研究基于探索性文本分析和文本数据可视化得出的结论是,来自美国Twitter用户的Tweets数据显示出更多的信任情绪支持,而不是担心重新开放美国经济。通过额外的验证,这可以为州政府,联邦政府,公司和社会领袖提供宝贵的时间敏感机会,以指导国家迈向成功的新正常未来。
当前NHSx联系人跟踪应用程序的风险评分计算
原文标题: Risk scoring calculation for the current NHSx contact tracing app
地址: http://arxiv.org/abs/2005.11057
作者: Mark Briers, Marcos Charalambides, Chris Holmes
摘要: 我们考虑了NHS COVID-19应用程序最初将如何根据个人最近与报告有冠状病毒症状的人的联系来计算风险分数。
COVID-19:简单模型出人意料的有效性
原文标题: COVID-19: The unreasonable effectiveness of simple models
地址: http://arxiv.org/abs/2005.11085
作者: Timoteo Carletti, Duccio Fanelli, Francesco Piazza
摘要: 当新型冠状病毒SARS-CoV2(COVID-19)在2020年3月被WHO宣布为大流行病时,科学界已经做好了充分准备,努力理解国家主管部门收集的迅速增长的大量数据世界各地的。然而,尽管新颖的理论方法多种多样,而且许多广泛建立的模型也很全面,但叙述爆发过程的官方人物仍然勾勒出一幅难以捉摸和令人生畏的画面。在这里,我们清楚地表明,COVID-19爆发的动力学属于SIR模型及其扩展的简单通用性类别。我们的分析自然使我们确定,任何理论方法都存在根本的局限性,即所报告数据背后的测试框架具有不可预测的非平稳性。但是,我们展示了如何可以自洽地量化这种偏差,并如何从数据中挖掘有用和准确的信息。特别是,我们描述了报告率的时间演变如何控制明显的流行高峰的发生,在疫情爆发时测试力度不够的国家通常遵循真实的流行高峰。尽早而果断地进行测试的重要性似乎是我们分析的必然结果,因为一开始就进行大量测试的国家显然早于其真正的高峰,而总的死亡人数则较少。
预防COVID-19:气溶胶指南
原文标题: Avoiding COVID-19: Aerosol Guidelines
地址: http://arxiv.org/abs/2005.10988
作者: Matthew Evans
摘要: COVID-19大流行已使人们更加关注了解呼吸道病毒传播机制的需求。在为预期的流感大流行做准备时,过去几十年间已积累了大量文献,这些文献表明,短距离气溶胶途径是一条重要的途径,尽管常常被忽略。我们为通过气溶胶传播的COVID-19建立了简单的数学模型,将其应用于已知的暴发,并提出了工作场所通风和占用的定量指导原则。
冠状病毒在固体表面沉积的呼吸液滴中存活的可能性
原文标题: Likelihood of survival of coronavirus in a respiratory droplet deposited on a solid surface
地址: http://arxiv.org/abs/2005.10897
作者: Rajneesh Bhardwaj, Amit Agrawal
摘要: 我们预测并分析了感染COVID-19的受试者的呼吸滴的干燥时间,这是感染另一名受试者的关键时间。液滴的干燥是通过扩散限制蒸发模型预测的,该模型是将无固定液滴放在固定有接触线的部分润湿的表面上。考虑液滴体积,接触角,环境温度和湿度的变化。我们基于几种条件下液滴的寿命来分析液滴中存在的病毒的存活机会,并发现病毒的存活机会受到这些参数中的每一个的强烈影响。使用该模型计算出的液滴内部的剪切应力大小不足以消除病毒。我们还探讨了五个不同城市的液滴干燥时间与COVID-19扩散速度之间的关系,发现它们之间的相关性很弱。
COVID-19公众情绪见解和推特分类的机器学习
原文标题: COVID-19 Public Sentiment Insights and Machine Learning for Tweets Classification
地址: http://arxiv.org/abs/2005.10898
作者: Jim Samuel, G. G. Md. Nawaz Ali, Md. Mokhlesur Rahman, Ek Esawi, Yana Samuel
摘要: 随着冠状病毒大流行,另一场危机以大规模恐惧和恐慌现象的形式出现,这是由于信息不完整且常常不准确所致。因此,迫切需要解决和更好地理解COVID-19的信息危机并评估公众情绪,以便可以实施适当的消息传递和政策决策。在本文中,我们使用冠状病毒特有的Tweets和R统计软件及其情绪分析包,确定了与大流行相关的公众情绪。我们使用必要的文本数据可视化技术支持的描述性文本分析,对随着COVID-19在美国达到峰值水平而产生的恐惧感随时间的进展进行深入研究。此外,我们在文本分析的背景下提供了两种基本机器学习(ML)分类方法的方法学概述,并比较了它们在对不同长度的冠状病毒推文进行分类中的有效性。我们使用朴素贝叶斯方法观察到短推文的强分类精度为91%。我们还观察到逻辑回归分类方法在较短的Tweets上可提供74%的合理准确性,而对于较长的Tweets而言,这两种方法均显示相对较弱的性能。这项研究提供了对冠状病毒恐惧情绪发展的见解,并概述了相关的方法,含义,局限性和机会。
自动检测信息网络中有影响力的参与者
原文标题: Automatic Detection of Influential Actors in Disinformation Networks
地址: http://arxiv.org/abs/2005.10879
作者: Steven T. Smith, Edward K. Kao, Erika D. Mackin, Danelle C. Shah, Olga Simek, Donald B. Rubin
摘要: 数字通信和社交媒体的武器化,以巨大的规模,速度和影响力开展虚假信息运动,对识别和打击敌对势力行动(IO)提出了新的挑战。本文提出了一个端到端框架,可以自动检测虚假信息,网络和有影响力的参与者。该框架集成了自然语言处理,机器学习,图分析和新颖的网络因果推理方法,以量化各个参与者在传播IO叙事中的影响。我们通过在2017年法国总统大选期间收集的Twitter数据集以及Twitter披露的已知IO帐户,展示了其在现实世界敌意IO运动中的能力。我们的系统能够以96%的精度,79%的召回率和96%的PR曲线下区域来检测IO帐户,绘制出显著的网络社区,并根据活动来发现高影响力的帐户,从而摆脱传统影响统计数据的影响数量和网络中心性。结果得到来自美国国会报告,调查新闻和Twitter提供的IO数据集的独立IO帐户独立来源的证实。
超图上动力学过程的相变和稳定性
原文标题: Phase transitions and stability of dynamical processes on hypergraphs
地址: http://arxiv.org/abs/2005.10891
作者: Guilherme Ferraz de Arruda, Michele Tizzani, Yamir Moreno
摘要: 超图自然地代表了更高阶的交互作用,这种交互作用从社会交互作用一直出现到神经网络和其他自然系统。尽管它们的重要性已得到公认,但尚无描述超图上一般动力学过程的理论框架。在本文中,我们弥合了这一差距,并得出了在任意超图上定义的动力学系统的稳定性的表达式。该框架使我们能够揭示出,在不动点附近,相关结构是超图的图投影,并且有可能确定给定过程中每个结构顺序的作用。我们还分析性地解决了两个普遍关注的动力学问题,即社会传染和扩散过程,并表明稳定性条件可以在结构和动力学组成部分中解耦。我们的结果表明,在社会传染过程中,只有成对的相互作用在吸收状态的稳定性中起作用,而对于扩散动力学,相互作用的顺序起着不同的作用。我们的首次尝试是为进一步探索超图上的动力学过程提供一个通用框架。
信息级联分析概述:模型、预测和最新进展
原文标题: A Survey of Information Cascade Analysis: Models, Predictions and Recent Advances
地址: http://arxiv.org/abs/2005.11041
作者: Fan Zhou, Xovee Xu, Goce Trajcevski, Kunpeng Zhang
摘要: 从用户生成的内容(如微博和科学论文)到在线业务(如病毒式营销和广告),我们日常生活中的数字信息泛滥,为探索和利用信息演化的轨迹和结构提供了前所未有的机会级联。学术界和工业界的大量研究努力旨在更好地理解推动信息传播的机制并量化信息传播的结果。本文对信息流行度预测方法进行了全面的回顾和分类,从特征工程和随机过程到图表示,再到基于深度学习的方法。具体来说,我们首先正式定义不同类型的信息级联,并总结现有研究的观点。然后,我们提出一种分类法,将现有作品分为上述三个主要类别以及每个类别中的主要子类别,然后我们系统地审查前沿研究工作。最后,我们总结了现有研究工作的利弊,并概述了该领域的开放挑战和机遇。
图随机神经网络
原文标题: Graph Random Neural Network
地址: http://arxiv.org/abs/2005.11079
作者: Wenzheng Feng, Jie Zhang, Yuxiao Dong, Yu Han, Huanbo Luan, Qian Xu, Qiang Yang, Jie Tang
摘要: 图神经网络(GNN)已将深度学习方法推广到图结构化数据中,在图挖掘任务中具有良好的性能。但是,现有的GNN通常会遇到带有稀疏标记节点的复杂图结构,并且会受到非稳健性,过度平滑和过度拟合的限制。为了解决这些问题,我们提出了一个简单而有效的GNN框架-图随机神经网络(Grand)。与现有GNN中的确定性传播不同,Grand采用随机传播策略来增强模型的鲁棒性。这种策略自然也使Grand能够将传播与特征变换解耦,从而减少了过度平滑和过度拟合的风险。此外,随机传播是图数据扩充的有效方法。在此基础上,我们通过利用多次扩展中未标记节点的分布一致性,为模型提出了Grand的一致性正则化方法,提高了模型的泛化能力。在图基准数据集上进行的大量实验表明,在半监督图学习任务上,Grand明显优于最新的GNN基线。最后,我们表明Grand缓解了过度光滑和过度拟合的问题,并且其性能与坚固性结合在一起。
使用基于探针的数据评估信号化主干道性能的大规模可并行化方法
原文标题: Massively Parallelizable Approach for Evaluating Signalized Arterial Performance Using Probe-based data
地址: http://arxiv.org/abs/2005.11147
作者: Subhadipto Poddar, Pranamesh Chakraborty, Anuj Sharma, Skylar Knickerbocker, Neal Hawkins
摘要: 主干道的有效运行对于社区的安全与活力至关重要。要管理此性能,考虑需求的动态性质,就需要通过各种策略来更新交通信号的时序。机构用于这些活动的资源通常很稀少,并且主要是由于公众的抱怨。本文为干道上的交通信号重新定时提供了一种数据驱动的优先级排序方法。为了消除对可用检测的任何依赖,基于探针的数据用于评估性能指标。基于探测器的数据来自于车载全球定位系统的观测数据,从而无需安装现场交通基础设施。本文提供了一种工作流程,用于根据捕获信号操作不同方面的基于探针的信号性能度量来测量和比较动脉走廊上的不同部分。所提出的方法可以用作指导机构寻求改变其信号控制的工具。该方法识别一组动态日,然后根据非动态日评估出行率。动态天数代表段上流量的变化性。非动态日的绩效指标包括平均旅行率,旅行率的日内变化,旅行率的日间变化,最小旅行率离散度以及两个变量,其中包括总体旅行率变化。因此,具有大量动态路段以及正常情况下性能较差的走廊将是自适应控制的候选者。在爱荷华州得梅因市内的11条走廊上进行了案例研究,确定了梅勒干草路和大学大道适合进行自适应控制。
图的度异质性促进随机游走更快地相遇
原文标题: Degree Heterogeneity in a Graph Facilitates Quicker Meeting of Random Walkers
地址: http://arxiv.org/abs/2005.11161
作者: Yusuke Sakumoto, Hiroyuki Ohsaki
摘要: 多个随机游走是一个模型,用于在图上移动多个独立的随机游走,并且被应用于各种图算法。为了设计使用多个随机游走的有效图算法,必须研究理论上的考虑以深刻理解图算法的特性。第一次见面时间是多次随机游走的重要指标之一。第一次开会时间定义为多个随机游走者在同一节点上开会所花费的时间。第一次会面时间与会合问题密切相关。在各种工作中,已经分析了多次随机行走的第一次会面时间。但是,许多以前的工作都集中在规则图上。在本文中,我们分析了任意图中多次随机游走的首次会面时间,并阐明了图结构对其预期值的影响。首先,我们使用谱图论推导了两个随机游走者的预期首次会面时间的谱公式。然后,使用导出的谱公式检查预期的第一次会议时间的主成分。所得的主要成分表明,(a)预期的第一次会议时间几乎由 n /(1 + d _ rm std ^ 2 / d _ rm avg ^ 2)和(b)预期的第一次会议时间主导。会议时间与多个随机游走的起始节点无关,其中 n 是节点数。 d _ rm avg 和 d _ rm std 分别是每个节点加权度的平均值和标准偏差。 n 和 d _ rm avg ,以及 d _ rm std 与图结构的统计信息有关。根据分析结果,加权度数的系数方差 d _ rm std / d _ rm avg (度数异质性)有助于更快地满足随机游走者的需求。
具有数千万个节点的大规模复杂网络的多重分形分析的高效计算沙箱算法
原文标题: A computationally-efficient sandbox algorithm for multifractal analysis of large-scale complex networks with tens of millions of nodes
地址: http://arxiv.org/abs/2005.11187
作者: Yuemin Ding, Jin-Long Liu, Xiaohui Li, Yu-Chu Tian, Zu-Guo Yu
摘要: 多重分形分析(MFA)是有用的工具,可以系统地描述理论和实验分形模体的空间异质性。分形分析的一种广泛使用的方法是盒盖。已知它是NP硬的。更严重的是,与分形分析算法相比,MFA算法具有更高的计算复杂度。在用于复杂网络的各种MFA算法中,沙盒MFA算法的行为具有最佳的计算效率。但是,现有的沙箱算法在计算上仍然很昂贵。在具有数千万个节点的大规模网络中实现MFA变得具有挑战性。还不清楚通过大大增加理论网络的规模是否可以改善MFA结果。为了解决这些挑战,本文针对大型网络的MFA提出了一种计算有效的沙箱算法(CESA)。我们的CESA采用广度优先搜索(BFS)技术直接搜索中心节点每一层的邻居节点,然后检索所需的信息。 CESA的输入是从压缩稀疏行(CSR)格式派生而来的稀疏数据结构,该格式设计用于压缩存储大型网络的邻接矩阵。理论分析表明,CESA可以将现有沙箱算法的时间复杂度从三次降低到二次,并且将空间复杂度从二次提高到线性。我们针对典型的复杂网络执行了MFA实验,以验证我们的CESA。最后,我们的CESA被应用于一些典型的大规模大型现实网络。
识别区域经济中的关键部门:使用投入产出数据的网络分析方法
原文标题: Identifying Key Sectors in the Regional Economy: A Network Analysis Approach Using Input-Output Data
地址: http://arxiv.org/abs/2005.11285
作者: Fernando DePaolis, Phil Murphy, M. Clara DePaolis Kaluza
摘要: 通过将网络分析技术应用于大型投入产出系统,我们确定了本地/区域经济中的关键部门。作为Blochl等人的扩展,我们通过使用基于随机游走的量度来克服传统集中度量度的局限性。 (2011)。这些更适合分析非常密集的网络,即那些大多数节点都连接到所有其他节点的网络。这些措施还允许存在递归关系(循环),因为它们在经济系统中很常见(取决于聚集的水平,大多数公司在同一工业部门中的其他公司买卖)。我们提出的集中度措施非常适合捕捉通常的产出和就业乘数所没有的部门效应。我们还开发了R包(xtranat),用于处理IMPLAN(R)模型中的数据并计算新开发的度量。
声明:Arxiv文章摘要版权归论文原作者所有,机器翻译后由本人进行校正整理,未经同意请勿随意转载。本系列在微信公众号“网络科学研究速递”(微信号netsci)和个人博客 https://www.complexly.cn (提供RSS订阅)进行同步更新。个性化论文阅读与推荐请访问 https://arxiv.complexly.cn 平台。
网友评论