Spark机器学习API之特征处理（一）

作者: Alukar | 来源:发表于2018-07-02 14:26 被阅读4次

Spark机器学习API之特征处理（一）
Spark机器学习API之特征处理（二）
1 Spark机器学习基础——特征工程
独热编码（One-Hot Encoding）
Spark MLlib机器学习开发指南(7)--特征转换--To
机器学习之特征预处理
Spark核心API发展史：RDD、DataFrame、Data
Spark机器学习实战（三）电影评分数据处理与特征提取
Spark MLlib机器学习开发指南(6)--特征提取--Co
Spark MLlib ALS 推荐系统

Spark机器学习库中包含了两种实现方式，一种是spark.mllib，这种是基础的API，基于RDDs之上构建，另一种是spark.ml，这种是higher-level API，基于DataFrames之上构建，spark.ml使用起来比较方便和灵活。

Spark机器学习中关于特征处理的API主要包含三个方面：特征提取、特征转换与特征选择。本文通过例子介绍和学习Spark.ml中提供的关于特征处理的API。

特征提取（Feature Extractors）

1. TF-IDF (HashingTF and IDF)

TF-IDF是文本特征提取中一个常用的方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。关于spark.ml中提供的HashingTF和IDF的原理和用法，在之前的文章http://lxw1234.com/archives/2016/01/605.htm中已经介绍过，这里不再介绍。

2. Word2Vec

Word2Vec是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算，计算出向量空间上的相似度，来表示文本语义上的相似度。

大数据学习交流群：724693112 欢迎大家来一起学习。

下面的例子将每个文档中的词语转换成长度为3的向量：

package com.lxw1234.spark.features

import org.apache.spark.SparkConf

import org.apache.spark.SparkContext

import org.apache.spark.ml.feature.Word2Vec

/**

* auth: http://lxw1234.com

object TestWord2Vec {

def main(args : Array[String]) {

val conf = new SparkConf().setMaster("local").setAppName("lxw1234.com")

val sc = new SparkContext(conf)

val sqlContext = new org.apache.spark.sql.SQLContext(sc)

import sqlContext.implicits._

val documentDF = sqlContext.createDataFrame(Seq(

"苹果官网苹果宣布".split(" "),

"苹果梨香蕉".split(" ")

).map(Tuple1.apply)).toDF("text")

val word2Vec = new Word2Vec().setInputCol("text").setOutputCol("result").setVectorSize(3).setMinCount(1)

val model = word2Vec.fit(documentDF)

val result = model.transform(documentDF)

result.collect().foreach(println)

}

程序运行输出如下：

[WrappedArray(苹果, 官网, 苹果, 宣布),[0.006021047011017799,-0.002911671996116638,0.05357655562693253]]

[WrappedArray(苹果, 梨, 香蕉),[-0.10302492479483286,-0.059321289261182145,0.05107089380423228]]

3. CountVectorizer

该方法用于将所有的文本词语进行编号，每个词语对应一个编号，并统计该词语在文档中的词频作为特征向量。

package com.lxw1234.spark.features

import org.apache.spark.SparkConf

import org.apache.spark.SparkContext

import org.apache.spark.ml.feature.{CountVectorizer, CountVectorizerModel}

/**

* auth: http://lxw1234.com

object TestCountVectorizer {

def main(args : Array[String]) {

val conf = new SparkConf().setMaster("local").setAppName("lxw1234.com")

val sc = new SparkContext(conf)

val sqlContext = new org.apache.spark.sql.SQLContext(sc)

import sqlContext.implicits._

val df = sqlContext.createDataFrame(Seq(

(0, Array("苹果","官网","苹果","宣布")),

(1, Array("苹果","梨","香蕉"))

)).toDF("id", "words")

var cvModel: CountVectorizerModel = new CountVectorizer()

.setInputCol("words")

.setOutputCol("features")

.setVocabSize(5) //设置词语的总个数，词语编号后的数值均小于该值

.setMinDF(1) //设置包含词语的最少的文档数

.fit(df)

println("output1:")

cvModel.transform(df).select("id","words","features").collect().foreach(println)

var cvModel2: CountVectorizerModel = new CountVectorizer()

.setInputCol("words")

.setOutputCol("features")

.setVocabSize(3) //设置词语的总个数，词语编号后的数值均小于该值

.setMinDF(2) //设置包含词语的最少的文档数

.fit(df)

println("output2:")

cvModel2.transform(df).select("id","words","features").collect().foreach(println)

}

程序output1的输出如下：

[0,WrappedArray(苹果, 官网, 苹果, 宣布),(5,[0,3,4],[2.0,1.0,1.0])]

[1,WrappedArray(苹果, 梨, 香蕉),(5,[0,1,2],[1.0,1.0,1.0])]

程序output2的输出如下：

[0,WrappedArray(苹果, 官网, 苹果, 宣布),(1,[0],[2.0])]

[1,WrappedArray(苹果, 梨, 香蕉),(1,[0],[1.0])]

因为setMinDF(2)设置了词语最低出现的文档数为2，因此只保留了”苹果”一词。

Spark机器学习API之特征处理（一）
Spark机器学习库中包含了两种实现方式，一种是spark.mllib，这种是基础的API，基于RDDs之上构建，...
Spark机器学习API之特征处理（二）
Spark机器学习库中包含了两种实现方式，一种是spark.mllib，这种是基础的API，基于RDDs之上构建，...
1 Spark机器学习基础——特征工程
1.Spark机器学习基础——特征工程 1.1对连续值处理 1.1.1 binarizer / 二值化 1.1.2...
独热编码（One-Hot Encoding）
机器学习数据预处理之独热编码（One-Hot Encoding）问题由来在很多机器学习任务中，特征并不总是连...
Spark MLlib机器学习开发指南(7)--特征转换--To
Spark MLlib机器学习开发指南(7)--特征转换--Tokenizer 翻译自Tokenizer,基于最新...
机器学习之特征预处理
这里要讨论特征预处理的相关问题。主要包括特征的归一化和标准化，异常特征样本清洗与样本数据不平衡问题的处理。(原文地...
Spark核心API发展史：RDD、DataFrame、Data
一、Spark第一代api：RDDRDD:五大核心特征：二、Spark第二代API：DataFrameDataF...
Spark机器学习实战（三）电影评分数据处理与特征提取
Spark机器学习实战（三）电影评分数据处理与特征提取这部分主要讲了进行数据可视化之后如何进行必要的数据处理，原...
Spark MLlib机器学习开发指南(6)--特征提取--Co
Spark MLlib机器学习开发指南(6)--特征提取，转换，选择--CountVectorizer 翻译自Co...
Spark MLlib ALS 推荐系统
Spark 机器学习库从 1.2 版本以后被分为两个包： spark.mllib包含基于RDD的原始算法API。S...

Spark机器学习API之特征处理（一）

相关文章

Spark机器学习API之特征处理（一）

Spark机器学习API之特征处理（二）

1 Spark机器学习基础——特征工程

独热编码（One-Hot Encoding）

Spark MLlib机器学习开发指南(7)--特征转换--To

机器学习之特征预处理

Spark核心API发展史：RDD、DataFrame、Data

Spark机器学习实战（三）电影评分数据处理与特征提取

Spark MLlib机器学习开发指南(6)--特征提取--Co

Spark MLlib ALS 推荐系统

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

大数据，机器学习，人工智能

人工智能/模式识别/机器学习精华专题

机器学习与数据挖掘

机器学习

机器学习与计算机视觉