3-6url去重方法
爬虫去重策略:
1将访问过的URL保存到数据库中:
2将访问过的URL保存到set中,只需要0(1)的代价就可以查询URL1000000002byte50个字符/1024/1024/1024 = 9G
3URL经过md5等方法哈希后保存到set中
4用bitmap方法,将访问过的URL通过hash函数映射到某一位
5bloomfilter方法对bitmap进行改进,多重hash函数降低冲突
3-73-7 彻底搞清楚unicode和utf8编码
字符串编码
1计算机只能处理数字,文本转换为数字才能处理,计算机中8个比特作为一个字节,所以一个字节能表示最大的数字就是255
1.jpg
网友评论