Spark 2.0 DataFrame map操作中Unable

作者: wangliang938 | 来源:发表于2017-06-08 18:39 被阅读1727次

Spark 2.0 DataFrame map操作中Unable
记一次scala的隐含问题
Spark Sql Row 的解析
Hadoop - SparkSQL
spark之map与flatmap的区别
SparkSQL编程实战
翻译：Apache Spark : RDD vs DataFra
Spark-SQL之DataFrame基本操作
Spark DataFrame 实战
2020-04-27 spark随机采样

摘自：http://blog.csdn.net/sparkexpert/article/details/52871000
还可以参看：https://stackoverflow.com/questions/39517980/spark-error-unable-to-find-encoder-for-type-stored-in-a-dataset
随着新版本的Spark已经逐渐稳定，最近拟将原有框架升级到spark 2.0。还是比较兴奋的，特别是SQL的速度真的快了许多。。

然而，在其中一个操作时却卡住了。主要是dataframe.map操作，这个之前在spark 1.X是可以运行的，然而在spark 2.0上却无法通过。。

看了提醒的问题，主要是：
******error: Unable to find encoder for type stored in a Dataset. Primitive types (Int, String, etc) and Product types (case classes) are supported by importing spark.implicits._ Support for serializing other types will be added in future releases. resDf_upd.map(row => {******

针对这个问题，网上所得获取的资料还真不多。不过想着肯定是dataset统一了datframe与rdd之后就出现了新的要求。

经过查看spark官方文档，对spark有了一条这样的描述。

Dataset is Spark SQL’s strongly-typed API for working with structured data, i.e. records with a known schema.

Datasets are lazy and structured query expressions are only triggered when an action is invoked. Internally, aDataset
represents a logical plan that describes the computation query required to produce the data (for a givenSpark SQL session).

A Dataset is a result of executing a query expression against data storage like files, Hive tables or JDBC databases. The structured query expression can be described by a SQL query, a Column-based SQL expression or a Scala/Java lambda function. And that is why Dataset operations are available in three variants.

从这可以看出，要想对dataset进行操作，需要进行相应的encode操作。特别是官网给的例子

// No pre-defined encoders for Dataset[Map[K,V]], define explicitlyimplicit val mapEncoder = org.apache.spark.sql.Encoders.kryo[Map[String, Any]]// Primitive types and case classes can be also defined as// implicit val stringIntMapEncoder: Encoder[Map[String, Any]] = ExpressionEncoder()// row.getValuesMap[T] retrieves multiple columns at once into a Map[String, T]teenagersDF.map(teenager => teenager.getValuesMapAny)).collect()// Array(Map("name" -> "Justin", "age" -> 19))

从这看出，要进行map操作，要先定义一个Encoder。。

这就增加了系统升级繁重的工作量了。为了更简单一些，幸运的dataset也提供了转化RDD的操作。因此只需要将之前dataframe.map

在中间修改为：dataframe.rdd.map即可。

网友评论

本文标题：Spark 2.0 DataFrame map操作中Unable

本文链接：https://www.haomeiwen.com/subject/aqptqxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Spark 2.0 DataFrame map操作中Unable

相关文章