美文网首页
现实数据之长尾问题

现实数据之长尾问题

作者: 孤独的飞鸟 | 来源:发表于2021-07-04 20:23 被阅读0次
  1. 长尾问题是什么:长尾问题是实际生产数据中的一种数据分布。其中关键的特点在于占据影响比例相对较小的部分分布着较多的实例。一个例子是统计指定话题下的100w的微博,其中的字按频次排期,除了头部的数据外,频次较低的字有着极大的数量。一个典型的分布如下:百科长尾
  2. 常见的长尾问题解决方案:对于长尾问题的解决,主要分为两部分
    • 高频部分通过人工筛选 + 人工标注,产出高质量可用数据。
    • 低频部分,通过自动化构建的方式,产出一份可用的指定质量的数据。
  3. 长尾问题的相关理论研究:
    • 齐普夫定律:文档中单词出现频次的一个定理,简单来说就是一篇文档中的单词按照词频排序后,词频P * 位序i,其值趋向于一个固定值。

附:文档的TF-IDF统计之python

docs = [] # 文档集合,二维数组,每个元素是一篇文档,其中已经切词完成。

def get_tfidf(docs):
    """
        基于给定的文档,产出TF-IDF词典
    """
    TF = defaultdict(int)
    IDF = defaultdict(float)
    [TF[word] += 1 for doc in docs for word in doc]
    [IDF[word] += 1 for doc in docs for word in set(doc)]
    IDF = {key: math.log(len(docs)/(value + 1)) for key, value in IDF.items()}
    TF_IDF = {key: 1.0 * TF[key] * IDF[key] for key in TF}
    return TF_IDF

参考资料:
齐普夫定律_百度百科 (baidu.com)
长尾效应(统计学术语)_百度百科 (baidu.com)

相关文章

  • 现实数据之长尾问题

    长尾问题是什么:长尾问题是实际生产数据中的一种数据分布。其中关键的特点在于占据影响比例相对较小的部分分布着较多的实...

  • 数据倾斜问题与解决

    长尾问题(数据倾斜) 发生长尾问题的原因 在MapReduce中,Map阶段和Reduce阶段都有可能由多个节点进...

  • 起航winner:网站长尾词如何批量优化

    最近收到群里的朋友发来邮件,问我长尾词太多了,一个一个优化不现实,怎么样才能大量的做长尾词。这个问题很有意义,可能...

  • 长尾分布分类问题解决方法

    Long-Tailed Classification系列之四:1. 长尾分布下分类问题简介与基本方法[https...

  • 产品书籍

    长尾理论 乌合之众 大众心理学 无价

  • 《爆款》- 分享

    早上迷迷糊糊地听了《爆款》,听完之后整个人清醒了,长尾理论在大数据血淋淋的现实下被证伪。我现在在做的事情,有很大一...

  • 数据建模 - 什么是数据建模

    源起 不管 数据建模 ,是什么,但它必须有利于解决现实问题。 如何反应现实问题 要想反应或表达现实问题,就需要清除...

  • 变量

    程序中的数据? 开发软件是用来解决现实世界中的问题,而现实世界中有很多问题都是使用数据进行描述的。所以软件执行过程...

  • 什么是长尾词?长尾词有什么作用?

    什么是长尾词?长尾词有什么作用?如何寻找长尾词?如何使用长尾词进行网站优化?长尾词布局该注意些什么? 一、长尾词的...

  • 《长尾理论 》—发现商机的一本书

    2017年,买的克里斯·安德森《长尾理论》。 个人认为,长尾理论,是作者在互联网下和大数据面前对经济现象的总结和论...

网友评论

      本文标题:现实数据之长尾问题

      本文链接:https://www.haomeiwen.com/subject/ndrvultx.html