美文网首页
apache zeppelin入门

apache zeppelin入门

作者: NEO_X | 来源:发表于2019-05-07 15:41 被阅读0次

    介绍

    Apache Zeppelin是一款基于Web的NoteBook,支持交互式数据分析。使用Zeppelin,可以使用丰富的预构建语言后端(或解释器)制作精美的数据驱动,交互式和协作文档,例如Scala(使用Apache Spark),Python(使用Apache Spark),SparkSQL,Hive ,Markdown,Angular和Shell。
    Zeppelin专注于企业,具有以下重要功能:

    • Livy集成(用于与Spark交互的REST接口)
      安全:
    • 作为经过身份验证的用户执行作业
    • 针对LDAP的Zeppelin身份验证
    • Notebook授权

    本文用用在于完成Zeppelin的基本功能介绍,以便可以创建自己的数据分析应用程序或导入现有的Zeppelin笔记本; 此外,将学习Zeppelin的高级功能,如创建和绑定解释器,以及导入外部库

    概念

    本文是将在未来的Spark教程中使用的基础知识,涵盖了重要的主题,如创建notebook,导入和扩展现有notebook,以及将不同的后端绑定到环境,以便可以使Zeppelin充分发挥它的潜力

    启动Zeppelin

    有两种方法可以访问 Hdp 环境中的 Zeppelin, 第一种是通过 Amabari的Quick Links*, 第二种方法是通过导航到您的浏览器上的Zeppelin的专用端口。

    通过AMBARI启动ZEPPELIN

    使用amy_ds/amy_ds作为用户名/密码组合登录Ambari(操作控制台)。

    • 进入Ambari后,单击Zeppelin Notebook,在Quick Links下选择Zeppelin UI

      zeppelin_link.png
    • 出现如下的Zeppelin界面

      zeppelin_url.png
    • 创建新的Note Book

      create_new_note.png

    导入NoteBook

    可能希望导入现有note book,而不是创建新note book。

    导入Zeppelin笔记本有两种方法,可以通过指向环境本地的json notebook,也可以通过提供一个url到其他地方托管的原始文件,例如在github上。接下来将介绍导入这些文件的两种方式。

    1.导入JSON文件

    在Zeppelin UI上单击“导入”。

    zeppelin_import_note.png

    接下来,单击“ 选择JSON文件”按钮

    zeppelin_upload_json.png

    最后,选择要导入的笔记本,然后单击“ 打开”。

    2.使用URL导入Notebook

    在导入时,选择 Add from URL

    add_from_url.png

    最后,将url粘贴到(原始)json文件,然后单击Import Note。

    删除note book

    如果想删除笔记本,可以转到Zeppelin欢迎页面。在notebook下面的页面左侧,将看到各种选项,例如导入笔记,创建新笔记,过滤框,在过滤框下方,可以在其中找到创建或导入的笔记本。

    delete_notebook.png

    notebook的操作使用

    operator_note_book.png

    安装解释器

    介绍如何安装Zeppelin解释器以在Zeppelin UI中使用。请注意支持的解释器,以确保要安装想要的解释器。

    • 查看可用的解释器
    /usr/hdp/current/zeppelin-server/bin/install-interpreter.sh --list
    
    inter_list.png
    • 通过以下命令进行安装解释器
    /usr/hdp/current/zeppelin-server/bin/install-interpreter.sh --name shell,jdbc,python...
    

    安装完毕后,重新启动Zeppelin

    创建解释器

    Zeppelin notebook 支持各种解释器,允许对数据执行许多操作。这些是将在我们各种Spark教程中使用的一些解释器。

    解释器 说明
    %spark2 Spark解释器运行用Scala编写的Spark 2.x代码 - Spark interpreter to run Spark 2.x code written in Scala
    %spark2.sql Spark SQL解释器(对Spark中的临时表执行SQL查询
    %sh Shell解释器运行shell命令,如移动文件 - Shell interpreter to run shell commands like move files
    %angular 用于运行Angular和HTML代码的Angular解释器-Angular interpreter to run Angular and HTML code
    %md 用于显示格式化文本,链接和图像的Markdown-Markdown for displaying formatted text, links, and images

    请注意每个解释器开头的%。每个段落都需要以%开头,后跟解释器名称。下图显示了三个解释器,Markdown,Spark和Shell

    在Zeppelin中创建一个解释器:

    1.单击位于Zeppelin欢迎页面右侧的匿名
    2.在下拉列表中选择Interpreter
    3.在Interpreters页面的右上角,将看到Create,单击它,这将打开Create new interpreter选项。我们将使用shell解释器作为示例。

    add_interpreter.png
    4.Interpreter Name中键入sh
    5.Interpreter Group中输入sh
    6.点击保存
    create_interpreter.png

    绑定使用解释器

    要绑定刚刚创建的解释器,需要重新打开要绑定新解释器的笔记本。

    1.单击Zeppelin笔记本右上角的齿轮。请注意,当单击该齿轮时,它会显示解释器绑定设置部分出现,你可以看到新创建的解释,在我们的情况下,命令解释程序SH。
    2.单击解释器,它将从白色变为蓝色。
    3.单击“保存”


    bind_interpreter.png

    新shell解释器已准备好投入使用。

    导入外部库

    在探索Zeppelin时,可能希望使用一个或多个外部库。例如,要运行Magellan,需要导入其依赖项; 需要在您的环境中包含Magellan库。在Zeppelin笔记本中有三种方法可以包含外部依赖:

    1.使用%dep解释器(注意:这仅适用于发布到Maven的库。)

    %dep
    z.load("group:artifact:version")
    

    2.使用%spark2解释器

    %spark2
    

    3.使用import语句

    import ...
    

    相关文章

      网友评论

          本文标题:apache zeppelin入门

          本文链接:https://www.haomeiwen.com/subject/foaeoqtx.html