网络数据挖掘 L4L5 网页排序

网络数据挖掘 L4L5 网页排序

作者: gb_QA_log | 来源:发表于2018-07-12 15:23 被阅读0次

网络数据挖掘 L4L5 网页排序
网页挖掘与内容分析：数据、实体、事件、关系抽取笔记
图网络数据集
获取社交网络数据的方式汇总|网络挖掘必备技能
排序网络
Python网络爬虫：基础知识Beautiful Soup
2018-12-04
数据挖掘
Python 网页爬虫、文本处理科学、计算机器学习、数据挖掘
Scrapy-Shell的用法以及request和respons

title: 网络数据挖掘 L4L5 网页排序
date: 2017-04-12 18:34:16
categories: DataMining
mathjax: true
tags: [WebDataMining]

L4 Ranking Aggregation

Social Choice Theory社会选择理论是关于投票的理论

我们如何做决定：

硬币
Dictatorship独裁
Democracy (Majority rule)大多数
还要考虑群体的异质偏好heterogeneous preferences

集体智慧

现在的民主方式其实是默认了一个前提，“集体智慧”。

Cognition 群体决策会比一部分专家更高效和客观
Coordination 代表了整体的文化认可度
Cooperation 避免胁迫，更自由

但其实集体智慧有很多因素要考虑。不是所有人都能做正确明智的选择：

差异化
盲从
意见分散
争论

主观、意见分散、集权、跟从都可能导致失败
处于对不同人的意见的综合考虑，实际生活中就有了各种应用：

选举
民意调查
特定的选举规则（如美国的赢家通吃）
搜索排行

Rule

Majority rule 多数
Condorcet paradox ：康多塞悖论，投票的结果和投票的顺序有关
Borda-Rule 博尔达计分法：每个人给每个方案都打分，再统计
其他变形：
Weighted Borda-Rule
With relevant scores available
早期算法：
Min, Max and Average model[Fox and Shaw,1995]
- Algorithm Final score
- CombMin minimum of individual relevance scores
- CombMed median of individual relevance scores
- CombMax maximum of individual relevance scores
- CombSum sum of individual relevance scores
- CombANZ CombSum / num non-zero relevance scores
- CombMNZ CombSum * num non-zero relevance scores
Linear Combination Model[Bartell 1995]给每个数据加权
Logistic Regression Model

以上算法在TREC会议上多有应用。

L5 Web Structure Mining

介绍

网络结构：

图
特征：
- 大
- 未知
- 动态

因此需要考虑实际的关注点、计算能力、内存等情况来构造网络图。为了构造这张图，先定义以下几个函数关系：

Back_url(the_url)找出所有指向本url的url
- 一定程度上反应重要性
- 苦难
- 利用搜索引擎link:url
Shortest_Path(url,url2)最短路径
Maximal_Clique(url)最大团，类似于找url的闭包
In_Degree(url)入度

Web Graph Mining

Fan：Back_url

流行程度
真粉？
特殊情况：google.com等

PageRank的计算

能够表明网页的流行程度。其中T是指向A的网页，而C(T)是T指向网页的总数
$PR(A)=(1-d)+d*(\frac{PR(T_1)}{C(T_1)}+\frac{PR(T_2)}{C(T_2)}+...\frac{PR(T_n)}{C(T_n)})$
举个例子：

Paste_Image.png

PR(a)=1, PR(b)=1, PR(c) =1

Paste_Image.png Paste_Image.png Paste_Image.png

Web Community

给定一些网页，找他们中的密集连接在一起的Community

完全子图
完全双向子图

附：
数据堂:出售数据
相关数据集、算法网站
http://webla.sourceforge.net/javadocs/pt/tumba/links/WebGraph.html
http://introcs.cs.princeton.edu/java/45graph/Digraph.java.html
http://www.cs.ucsb.edu/~kris/Research/agl/doc/agl2/Digraph.html

相关文章

网络数据挖掘 L4L5 网页排序
title: 网络数据挖掘 L4L5 网页排序date: 2017-04-12 18:34:16categorie...
网页挖掘与内容分析：数据、实体、事件、关系抽取笔记
网页数据挖掘 Web Mining is the process of Data Mining technique...
图网络数据集
网络分析，图挖掘方向的同学相信都曾因为没有数据苦恼。真实的数据往往需要爬取网页，但往往会遇到被封ip的危险。项目组...
获取社交网络数据的方式汇总|网络挖掘必备技能
网络型数据挖掘是一项主流的、重要的数据挖掘技术，常见的如社交网络、购物网络、金融网络等网络类型在生活中无处不在，做...
排序网络
排序网络 Sorting Network - matrix67 1、比较器与排序网络一般的排序算法都是给定了数据...
Python网络爬虫：基础知识Beautiful Soup
一、Beautiful Soup简介网络数据挖掘指的是从网站中获取数据的过程，数据挖掘技术可以让我们从网站世界中...
2018-12-04
数据挖掘-网络挖掘社交网络：点－用户，边－好友关系金融网络：点－网站，边－超链接互联网站：点－个人和机构，...
数据挖掘
挖掘数据的典型应用场景有搜索排序、关联分析以及聚类，下面我们一个一个来看，希望通过今天的学习，你能够了解数据挖掘典...
Python 网页爬虫、文本处理科学、计算机器学习、数据挖掘
Python 网页爬虫、文本处理科学、计算机器学习、数据挖掘兵器谱 1.本文介绍几种Python网页爬虫工具集...
Scrapy-Shell的用法以及request和respons
① Shell方法查找网页数据 shell介绍可方便的提供我们做一些测试提取数据如果想要提取网络数据网页可以在任...

网友评论

本文标题：网络数据挖掘 L4L5 网页排序

本文链接：https://www.haomeiwen.com/subject/ogcrpftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|网络数据挖掘 L4L5 网页排序|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！