短链接实现

作者: 菜six岁 | 来源:发表于2018-06-29 00:39 被阅读40次

    经常能看到某些站点会使用一些短链接,例如:t.cn/RyG7nlE这样形式的链接。

    短链接有以下好处:
    1、短小精悍,方便推广,记忆(实际应该没什么人去记忆吧);
    2、可收集站点访问数据,用作数据分析等用途;
    3、做了一层中转,可以做各种个性化定制,如设置链接开放日期等访问控制的逻辑判断;
    4、节约空间,如微博会有字数限制;


    短链接一般会有两种做法:

    一、

    自增序列算法,也叫永不重复算法,用到的其实就是多进制,让一个整型用多进制表示,根据这个id查找对应的长链接。
    用数字100000000为例,以不同进制表示:

    进制 结果 元素
    2 101111101011110000100000000 [0-1]
    8 575360400 [0-7]
    10 100000000 [0-9]
    16 0x5f5e100 [0-9a-f]
    26 ikvozw [a-z]
    36 1njchs [0-9a-z]
    52 nJkmW [a-zA-Z]
    62 6LAze [0-9a-zA-Z]

    62进制 [0-9a-zA-Z] 表示10000只需要3个字符,长度大大缩短。
    可以估算一下,
    232 < (25.5) 6 < 45.56 < 466 < 626

    264 < (210 * 22/3) 6 < 16266 < 19326 < (62 * 625/6) 6 < 6211
    由此可见,32位二进制数字可用6位62进制字符表示,64位二进制数字可用11位62进制字符表示,264 = 9,223,372,036,854,775,807,就是9百京,这个数量就非常足够了。(原来比不上黄金弗利萨的战斗力,有一个垓)

    缺点:根据自增id生成,长短可能会不一,这个也可以通过填充特定字符来解决。

    二、

    1、将长链接md5,获取32位字符串;
    2、32位字符串按分8字节4份,循环处理,作为16进制数字和0x3fffffff(30个1)进行位与操作(超过30位忽略);
    3、30位分6段,每5位数字作为一个索引获取集合[a-z0-9]中对应的字符,最后获得4个长度为6的字符串;
    4、4个字符串中任意取一个作为短链接

    缺点:

    1、生成的短链接可能会产生碰撞,据说微博是使用这种算法(上面的文字是我搬运过来的,这个算法我不太懂它设计的原理。。。);
    2、需要用字符串作为查询条件去获取长链接,容易数据库索引建立不连续,降低查询效率;


    我使用的是第一种,恰好我们的长链接中的信息也都是整型,只要转化一下,再拼凑起来组成短链接就可以了,这样就连数据库hash表都可以不用建立。

    相关文章

      网友评论

        本文标题:短链接实现

        本文链接:https://www.haomeiwen.com/subject/bdswyftx.html