美文网首页
win10+pyspark+pycharm+anaconda单机

win10+pyspark+pycharm+anaconda单机

作者: note_by_lj | 来源:发表于2018-09-13 14:08 被阅读0次

一、工具准备

1. jdk10

2. scala

3. anaconda3

4. spark-2.3.1-bin-hadoop2.7

5. hadoop-2.8.3

6. winutils

7. pycharm

二、安装

1. jdk安装

oracle官网下载,安装后配置JAVA_HOME、CLASS_PATH,bin目录追加到PATH,注意:win10环境下PATH最好使用绝对路径!下同!

2. scala安装

官网下载,安装后配置SCALA_HOME,bin目录追加到PATH

3. anaconda3安装

官网下载,安装时注意在“追加到PATH”复选框打钩

4. spark安装

官网下载压缩包,解压缩后配置SPARK_HOME,bin目录追加到PATH

5. hadoop安装

官网下载版本>=spark对应hadoop版本,解压缩后配置HADOOP_HOME,bin目录追加到PATH

6. winutils安装

下载地址:https://github.com/steveloughran/winutils,按hadoop版本对应下载

7. pycharm安装

下载付费版本,使用lanyu注册码激活,注意按照提示添加域名解析到hosts文件

三、处理python相关

  1. 将pyspark文件夹(在spark-2.3.1-bin-hadoop2.7\python目录)复制到anaconda3\Lib\site-packages目录下
  2. 将winutils解压缩后用对应版本的bin目录替换hadoop下的bin目录
  3. conda install py4j
  4. 进入hadoop\bin目录下,以管理员方式打开cmd,输入命令:winutils.exe chmod 777 c:\tmp\Hive,若提示错误,检查Hive目录是否存在,若不存在,则手动创建,再重新执行命令

四、验证

打开pycharm,使用anaconda中的python作为解释器,输入以下代码并运行:

from pyspark import SparkContext

sc = SparkContext('local')
doc = sc.parallelize([['a', 'b', 'c'], ['b', 'd', 'd']])
words = doc.flatMap(lambda d: d).distinct().collect()
word_dict = {w: i for w, i in zip(words, range(len(words)))}
word_dict_b = sc.broadcast(word_dict)

def wordCountPerDoc(d):
    dict = {}
    wd = word_dict_b.value
    for w in d:
        if wd[w] in dict:
            dict[wd[w]] += 1
        else:
            dict[wd[w]] = 1
    return dict

print(doc.map(wordCountPerDoc).collect())
print("successful!")

相关文章

  • win10+pyspark+pycharm+anaconda单机

    一、工具准备 1. jdk10 2. scala 3. anaconda3 4. spark-2.3.1-bin-...

  • ElasticSearch 安装 (单机单节点/单机多节点)

    ElasticSearch 安装 (单机单节点/单机多节点) ElasticSearch 简介 ElasticSe...

  • 2018-04-06

    单机脉冲除尘器@黄山单机脉冲除尘器@单机脉冲除尘器生产厂家@鸟上枝头,春意正浓 DMC脉冲单机除尘器由灰斗、上箱体...

  • 2018-06-11

    单机脉冲除尘器@呼伦贝尔单机脉冲除尘器@单机脉冲除尘器厂家直销 单机脉冲布袋除尘器是一种主动清灰结构的单体除尘设备...

  • 单机

    昨天突然想到了单机这个词,想来还是挺有意思了,读书的时候,喜欢到网吧玩游戏,那时的游戏便有联网和单机两种区分,一群...

  • Centos7搭建SkyWalking监控单机及集群服务器

    Skywalking最新发布版5.0.0 beta2的单机及集群安装说明 1. 单机部署 单机部署组件需求:H2或...

  • Redis基础--架构模式

    单机模式、主从模式、哨兵模式、集群模式 单机模式 就是安装一个redis,启动起来,业务调用即可;单机模式选择需要...

  • 2018-06-20

    单机布袋除尘器@乌鲁木齐单机布袋除尘器@单机布袋除尘器生产厂家 单机布袋除尘器是过滤式除尘器的一种,是使含尘气流经...

  • mysql搭建

    单机 主从

  • RabbitMQ入门(二)

    单机搭建集群 自己学习测试,受限于机器原因,有时只能自己单机尝试下集群操作,接下来带你学会单机部署集群操作。 插件...

网友评论

      本文标题:win10+pyspark+pycharm+anaconda单机

      本文链接:https://www.haomeiwen.com/subject/yulwgftx.html