feature越多,维度成百上千都是可能的,curse of dimentionality 在统计的机器学习中是一个灾难,又叫高维诅咒。统计机器学习所统计的东西往往处于相当shallow的层面,在这个层面机器学习只能看到一些非常表面的现象,特征非常多,数据稀疏的要命,很多算法表现的很糟糕。举一个简单例子,通过对大规模语料库的统计,机器学习可能会发现这样一个规律:所有的“他”都是不穿bra的。而对于人的认知来说,无需进行任何统计学习,因为更深层次的认知就可以直接判断“他”是根本不会去bra的。
想起两个有趣的例子,图像识别技术和相关算法尽管经过几十年的发展但依旧有些图片无法识别转化成文字。有个公司把识别准确率低甚至无法识别的部分,截取出来,做成验证码,人们登陆时输入那些讨人厌的验证码,能达到99.1%的准确率。
这个技术大量运用与Google的街景拍摄识别。
另一个是某新闻APP的推荐机制,它通过识别用户关注公众号的logo来判定用户的喜好,这个推荐机制奏效的核心反倒不是算法本身。
网友评论