全世界有五千人将在2019年的四月来美国旧金山出席Spark + AI Summit 【没有注册的同学们可以开始动手了】。有别于其它大数据和AI会议,这里的讲座和PPT上往往充斥着源码和demo,世界顶尖的工程师们用他们的语言来分享Spark和AI的各种课题。。。今夜,我们分享一篇blog,A Guide to Data Engineering Talks at Spark + AI Summit 2019 。此文介绍了那些专门针对数据工程师的讲座。
1. Workday的Pavel Hardak and Jianneng Li 分享如何利用Spark来构建新一代分析产品Workday Prism Analytics的经验 Lessons Learned Using Apache Spark for Self-Service Data Prep in SaaS World,
2. Parquet社区的主要领导者Ryan Blue讲解如何Netflix一步一步把各种MR引擎迁移到Spark Migrating to Apache Spark at Netflix
3. 美国联邦医保中心服务着九千万美国人民,而他们用Spark分析【天价】医疗费用的使用。里面包含了各种隐私,信息相当之敏感,Donghwa分享如何做到数据安全和数据质量的管理 Apache Spark Data Governance Best Practices—Lessons Learned from Centers for Medicare and Medicaid Services
4. Lyft工程师Li Gao and Rohit Menon分享他们是如何在生产系统上大规模使用Apache Spark on Kubernetes Scaling Apache Spark on Kubernetes at Lyft
5. Matthew Powers from Prognos 介绍如何使用Delta和Parquet来构建一个超高性能的Data Lake Optimizing Delta/Parquet Data Lakes for Apache Spark
6. Hao Wan and Liyin Tang 介绍Aribnb如何用Spark来做批处理和流处理的,并且分享升级Spark2.x的经验 Apache Spark at Airbnb
7. 欧洲最大的时尚电商Zalando分享如何一百多个team共享同一个Data Lake,如何使用Delta和Structured Streaming来做实时分析 Continuous Applications at Scale of 100 Teams with Databricks Delta and Structured Streaming
8. Understanding Query Plans and Spark UIs, Xiao Li【本人】讲解如何通过读Plan和UI来理解Spark的运行,分享各种性能调优的经验。
网友评论