嘉宾耿杰森:刚才@亚当 Adam OBEN.COM 老师提到的数据学习问题,AI的一些算法,也可以帮助到区块链。federated learning。
嘉宾耿杰森:它的工作方式像这样吧,一个设备下载当前模型,通过学习手机上的数据来改进它,然后将更改汇总为小型集中更新。
嘉宾郑毅:@Jason 耿杰森 这类设备目前是怎么部署才合理?
嘉宾耿杰森:在机器学习里,培训数据都保留在的设备上,只有对模型的此更新才会使用加密通信发送出去。
嘉宾郑毅:减少区块链上链存储也有从边缘计算的角度去尝试的。边缘处理器被部署在手机基站,手机数据通过边缘处理后的数据才上链。像软银旗下的ARM和Nvdia都在边缘计算上进行架构的部署,未来这个新的架构可以被区块链使用。
嘉宾邢大地:@亚当 Adam OBEN.COM 是的,边缘计算是一个解决途径,相当于不必在中心化数据库里面进行训练,而是把数据价值local化的提取。
嘉宾郑毅:类似人体的神经网络。前几天在东京参加软银世界大会,孙正义特别强调了软银在边缘计算上的架构搭建。
嘉宾耿杰森:边缘计算主要缓解流量压力。
嘉宾郑毅:回顾历史,技术的迭代需要硬件和软件的融合迭代。
嘉宾邢大地:其实边缘计算所强调的分布式计算和分布式数据存储,对于所有做大数据和人工智能的都不会陌生。Hadoop架构和区块链的区别,就是多了一个master节点。
Bruce Xu :边缘计算是分担算力吧。
嘉宾郑毅:把算力放在神经节上了。
竹风:小数据集计算是个问题。就目前而言data partition 是个坎。外加数据自动化标注。这两个问题不好弄。
嘉宾邢大地:GAN在试图解决第二个问题。
竹风:我们在做NLP的自动化标注 还是有多少人工就有多少智能 期待同行推荐好的解决方案。
嘉宾邢大地:partition和integration都比较难,小数据集学习的精度有限,还是需要有类似于voting机制的算法来做improve。
嘉宾郑毅:可以尝试让社区参与给自动标识的算法打分,自修正。OBEN早些时候发了一个how tall的微信小程序,用说话声音测身高,然后让用户自己告诉算法正确答案。挺有效果的。google现在这个画家的小程序也有这个目的。
嘉宾邢大地:大家平时用的密码验证图片,就是一种收集标签数据的手段,据说最早是密歇根大学一个教授做的。
嘉宾耿杰森:使用区块链以众包方式简化数据任务,例如训练数据的标记。那些帮助AI培训和标签进行补偿。
嘉宾邢大地:第一个问题展开了这么多,看来我们的两位嘉宾老师和群友都是功力深厚,那么我问一下第二个问题。这个问题也是很多做AI的人经常问我的。
嘉宾邢大地:AI技术我们已经看到了很多落地应用,那么区块链加AI,我们可以期待那些落地应用是可以短时间落地的?并且真的发挥了区块链的优势?
Anita:@大地 @Jason 耿杰森 神级网络,机器学习善于处理数值计算智能,区块链里面绝大多数是离散变量,那么请问两位老师如何将没有规律的离散区块链世界状态映射为数值计算函数的输入以及如何对他们进行分类?
嘉宾郑毅:关于落地,我们在做的是从社交和娱乐的角度把人工智能和区块链结合,PAIYO是OBEN在PAI链开发的一个app,目前在内测阶段。
嘉宾郑毅:@Anita 先可以在链上建立一个允许消费者上传数据的应用,应用先处理结构化的数据,同时允许上传非结构化的数据,逐步迭代。对个人数据的确权、授权、以及人与人之间数据的安全传递。在社交app里,大多数匿名的社交app最后都死了。原因是社交需要信任。
Anita:@亚当 Adam OBEN.COM 如何保证该应用的可信性?如何保证该应用不盗取个人数据?
嘉宾邢大地:那么谁来收集数据?用户的个人数据上传哪里?
嘉宾郑毅:这里就要布局类似加噪音这些对隐私保密的数据学习方法。
Anita:@亚当 Adam OBEN.COM 那依然是一个中心化的应用?如何做到完全可信?
嘉宾邢大地:@Anita 线性模型目前还是是可以做sMPC的,通过多个节点来保护隐私,并且抵抗一定比例的collusion。
嘉宾郑毅:有技术手段的。
嘉宾耿杰森:@Anita 可以看看BurstIO,它使用区块链来维护数据的安全性和隐私性,平台允许企业从他们自己的数据中获取更多信息,在合适的时间与合适的利益相关者分享。AI的三个基础是算法,算力和数据,数据包括数据质量和标签。区块链在这几个方面都有可能提升AI的技术发展。
Anita:@大地 多个节点保护隐私,需要共识吗?
嘉宾邢大地:@Anita 如果只是完成特定计算,不需要。@Anita 你认为共识的目的是什么?
Bruce Xu :数据一致。
Anita:@大地 保证数据可信和安全。
嘉宾邢大地:@Bruce Xu 。
Bruce Xu :数据可信是基于不可篡改。
嘉宾邢大地:所以保护隐私和数据一致是两个不同的问题。我想请问一下@Jason 耿杰森 老师,既然我们讲到了共识机制,你觉得算力方面,区块链会如何提升AI的发展。
嘉宾郑毅:先解决有没有数据的事情,有的数据要先处理结构化数据,非结构化数据也可以上链,需要经过迭代。
嘉宾耿杰森:@大地,区块链使用各种技术,包括联合学习和区块链,为机器学习模型的培训创建一个匿名和安全的网格。
嘉宾郑毅:我记得伯克利的dawn song教授说过,AI一定是在链下,先是中心化学习。
嘉宾耿杰森:有个项目,OpenMinded网格, 使数据科学家和开发人员能够访问“矿工”提供的数据,他们帮助培训模型并获得奖励。
嘉宾邢大地:Singularitynet好像也是类似的思路@Jason 耿杰森 。
嘉宾耿杰森:还有一个项目,Neureal, 说它正在使用区块链来构建一个点对点框架,以利用空闲的计算能力进行大数据分析。
宾邢大地:@亚当 Adam OBEN.COM 链下训练模型,链上调用数据计算模型。
嘉宾耿杰森:线上还可以改进共享模型。
嘉宾邢大地:@Jason 耿杰森 那数据的pipeline怎么实现?在一个去中心化结构中。
Bruce Xu :挖矿本身会耗算力,如果支持AI训练,负担不是更重,这个怎么解决。
嘉宾耿杰森:例如federated learning,是这样做的,只做小的局部学习,通过局部的数据来改进它,只有对模型的此更新才会输出。
Bruce Xu :这是个常用的策略。
嘉宾邢大地:@Bruce Xu 挖矿不是一定要算哈希,可以做特定功能的芯片,这个和挖矿算法有关。
嘉宾郑毅:挖矿算力和AI算力可以分开。当然,在新的公链下,可以研发有用算力证明,让挖矿算力用于有用的AI计算。
Anita:@Jason 耿杰森 @大地 这个问题我也很感兴趣,数据的pipeline怎么实现?在一个去中心化结构中。
嘉宾耿杰森:数据在个人,只是在本地做模型的修改,然后输出模型的变化@Anita。
嘉宾邢大地:在区块链当中,链上存的要么是账本数据,要么是哈希值或者其他记录信息。而我们平时在AI中说的数值计算,是针对训练集数据而言的。而且AI算法当中,也不全是非离散数据,categorical analysis也是可以的。关于我问的pipeline那个问题,是因为我个人觉得数据清洗是一个复杂度很高的事情,很难做到自动化。这就对分布式实现提出了很高的要求。
YangZJ:落地应用不应该只有竞争,意味着所有节点完成同样任务。如何分配协同完成任务是一个值得思考的问题。
嘉宾邢大地:@Bruce Xu 共识是有成本的,线下解决问题,结果确认上链即可,参考闪电网络,或者state channel。
网友评论