算法图解-备忘

作者: martin6699 | 来源:发表于2018-08-12 17:52 被阅读0次

算法图解-备忘
《算法图解》note 11 总结
算法图解读书笔记
算法图解读书笔记
算法学习工具
图解LZ77压缩算法
前端
LZW压缩算法
2018-05-10
算法图解

看了算法图解，除了上两篇讲的快速排序和动态规划，了解到几点知识点记录下：

K最近邻算法
用于分类和回归，需要已最近的邻居作为衡量；可用来预测用户偏好，做成推荐系统，或者机器学习OCR识别文字、垃圾邮件过滤器；K最近邻算法使用的是计算用户间的距离来计算用户相似度，还有一种是余弦相似度；
反向索引
可用于搜索引擎；原理是抽取网页的关键字，将这些内容创建一个散列表，这个散列表的键为单词，值为包含指定单词的页面。现在假设有用户搜索hi, 在这种情况下，搜索引擎需要检查哪些页面包含hi, 那去查散列表就简单多了。
将单词映射到包含它的页面，这种数据结构被称为反向索引。
傅里叶变换
绝妙、优雅且应用广泛的算法少之又少，傅里叶变换算是一个。Better Explained是一个杰出
的网站，致力于以通俗易懂的语言阐释数学，它就傅里叶变换做了一个绝佳的比喻:给它一杯冰沙，它能告诉你其中包含哪些成分1。换言之，给定一首歌曲，傅里叶变换能够将其中的各种频
率分离出来。
傅里叶变换能够准确地指出各个音符对整个歌曲的贡献，让你能够将不重要的音符删除。这就是MP3格式的工作原理!
使用傅里叶变换可创建类似于Shazam这样的音乐识别软件。
原来网易云音乐听歌识曲就是这个算法。

MapReduce 分布式算法
分布式算法非常适合用于在短时间内完成海量工作，其中的MapReduce基于两个简单的理念:映射(map)函数和归并(reduce)函数。
布隆过滤器和HyperLogLog

布隆过滤器是一种概率型数据结构，它提供的答案有可能不对，但很可能是正确的。为判断网页以前是否已搜集，可不使用散列表，而使用布隆过滤器。使用散列表时，答案绝对可靠，而使用布隆过滤器时，答案却是很可能是正确的。

假设你在Google负责搜集网页，但只想搜集新出现的网页，因此需要判断网页是否搜集过。
使用布隆过滤器就有两种情况：
可能出现错报的情况，即Google可能指出“这个网站已搜集”，但实际上并没有搜集。
不可能出现漏报的情况，即如果布隆过滤器说“这个网站未搜集”，就肯定未搜集。

HyperLogLog近似地计算集合中不同的元素数，与布隆过滤器一样，它不能给出准确的答案，但也八九不离十，而占用的内存空间却少得多。
面临海量数据且只要求答案八九不离十时，可考虑使用概率型算法!

SHA加密算法和SimHash算法

散列表有几部分构成：
(1) 散列表容量大小
(2) 散列函数
(3) 填充因子 (大于填充因子就要考虑扩容)
(4) 冲突
(5) 冲突解决方案

SHA加密算法：散列表局部不敏感，假设你有一个字符串并计算了其散列值。
dog ----> cd6357
此时你修改其中的一个字符，再计算其散列值，结果将截然不同：
dot ----> e392da
这样攻击者不能通过比较散列值是否类似来破解密码

Simhash:
但有时你希望散列函数是局部敏感的，那就使用Simhash算法。如果你对字符串做细微的修改，Simhash生成的散列值也只存在细微的差别。这对你通过比较散列值来判断两字符川的相似度很有用。
那它的应用场景就有：
(1) Google使用Simhash来判断网页是否已搜集。
(2) 老师可以使用Simhash来判断学生的论文是否是从网上抄的。
(3) Scribd允许用户上传文档或图书，以便与人分享，但不希望用户上传有版权的内容！这个网站可使用Simhash来检查上传的内容是否与小说《哈利.波特》类似，类似则自动拒绝。
(4) 需要检查两项内容的相似度，Simhash很有用。

网友评论

本文标题：算法图解-备忘

本文链接：https://www.haomeiwen.com/subject/ctosbftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

算法图解-备忘

相关文章

算法图解-备忘

《算法图解》note 11 总结

算法图解读书笔记

算法图解读书笔记

算法学习工具

图解LZ77压缩算法

前端

LZW压缩算法

2018-05-10

算法图解

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读