郑宇博士
俞院长
郑宇博士分享:
1.城市数据的感知
感知方法:人为感知---主动方法,传感器感知(固定感知—位置固定,移动感知)
遇到挑战:
拿到的数据是sample,采样数据和整体数据的差异;→
有限的传感器,拿到有限的数据;
数据缺失missing;
应用:eg,抢救
优化平均抢救时间,min化时间
车辆的合理调度。
管理:
时空数据,点数据和网络结构数据。
空间不变,时间不停变换的数据;多时空变换的数据(摩拜);轨迹数据
易购,多元,多模(文本,视频,语音)
时空数据特点:在不停变换且不能交叉;空间范围+时间范围;真正做云计算的时候,需要用很多种数据融合,混合式处理,有机关联;
数据结构不一样:
查询方式不一样:history:keywords,空间范围,时间范围,不能直接支持前两者。
数据融合之前,需要做好数据索引。
2.管理、计算
分布式计算环境结合—极大降低交互时间
3.数据分析和挖掘
多个数据融合一起,进行挖掘

以往的问题:
1,地理,图形,等等数据,时空数据对数据特性的要求不同。
2,多元数据的融合。
3,data minng,database的方法
4,简单静态挖掘→交互可视分析
多元数据融合的方法:
传统特征串联+
基于语义融合的方法
基于相似度的方法
eg,人们出行规律,反映出地段价值
排序不要出错,冗余特征权重小
迁移学习的问题
4.应用
做综合商业体价值评估,商铺选址,房子价值评估
location location location
房屋的价值:三个地段均可以量化。Location, (家里到最近的一个高速入口的路网距离时间)。
综合商业体的价值分析:上海世贸商业中心+海底捞
优化了人气:大众点评的数量,相对的反映了人气的兴旺与否。
5.深度学习DEEP LEARNING
深度学习方法:深度学习算法:
网格化,转化成图形化,再进化成热力图,加入影响因素,得出模型。
时空数据,与语音、图像的不同。
时空数据,有时间属性(时间距离,有层次)平滑性周期性趋势性
与普通的文本语义有很大不同
把数据分成网格,不同轨迹数据归属到同一个网格,转化成一个矩阵
很多数据,构成数据流stream
如何用:相邻数据,放入深入卷积网络,模拟平滑性,模拟周期性,模拟趋势性,三个数据作一个融合,分别有不同的权重系数,再与外部因素相融合,整体预测下一个状况。是整体预测。
空间是通过深度卷积网络抓住,经过多次卷积,空间相关性;
时空残差网络模型→当卷积神经网络很深的时候,不准的时候,这个就更准确。深度时空残差网络,在人流预测上有很大作用。和滴滴,摩拜调度等。人工智能在物流行业。
环境方面:
数据是非线性的,实时细度分析
同一点,有时间相关性,不同点有空间相关性
污染物,有物理过程和化学过程
空气质量,和雾霾不同,雾霾是天气原因,空气质量是多种原因决定的。
交通流量图,单位时间经过一个路段的数量
数据科学家:懂得行业问题,吸取其他人的经验,清楚他们失败的原因;懂得数据背后的insight;对各种模型清晰,可以组合;对云平台了解。站在云平台的角度上看数据,想问题,关联模型,解决行业问题→大数据。
数据分析师:有数据,只是分析。

互动环节:
1.针对环节问题,不同城市之间数据应用不能转移,但是有两个可以转移:数据和数据之间的关系可以转移;
2.如何找key features?各个feature的权重?
数据比特征重要,特征比模型重要。
对行业的了解,对数据的敏感性。
3.数据比较少,缺失?
从小做起,替代数据,借数据,滚雪球。
5.时空索取的方法,搜索空间大大降低,spark+分布式计算,并行。时空数据库的proming.
6.数据挖掘接着会在哪些行业得到应用?
7.如何培养算法思维?
如何确认研究方向?
来源于生活,来源于观察。避免思路和别人重复。
网友评论