美文网首页数据处理小项目
如何随时随地进行云数据分析

如何随时随地进行云数据分析

作者: 老Q在折腾 | 来源:发表于2018-10-11 16:47 被阅读214次

一、为什么需要一个远程Jupyter服务

熟悉Python的同学应该都知道Jupyter Notebook这一数据分析神器,它能帮助我们有效地组织输入输出,将我们探索数据的过程记录下来,后续稍加整理便可以生成一篇报告或者博客。Jupyter Notebook支持Markdown,也支持Python、R甚至Julia等语言,完全可以支持一个数据工作者的大多数分析需求。

然而有一个问题可能困扰了很多人,那就是本地的Jupyter Notebook无法轻易地带来带去,性能也不一定有保障。考虑以下场景:

  • 小明在公司使用Jupyter Notebook做了一些分析,但是下班回家后还要继续工作。家里的电脑跟公司的电脑环境不完全一致,同时公司的电脑是台式机无法带回家(或者懒得背笔记本回家);
  • 小明的笔记本是超极本,性能较弱,无法支持大数据分析的需求;
  • 小明在公司机器上使用Jupyter Notebook跑出了一份结果,但是他回家后需要查阅;
  • ……

当你也面临这些场景时,你就有必要考虑搭建一个可以远程访问的Jupyter Notebook或者JupyterLab服务了。JupyterLab与Jupyter Notebook师出同源,可以凭个人爱好进行选择。此次我们拿JupyterLab来进行演示。


欢迎大家关注我的个人博客【数洞】 【备用站】

二、快速搭建JupyterLab服务

首先,我们需要一台服务器。BAT三家都有各自的云平台,大家可以自行选择采购,我的忠告是不要选择小服务商,尽量选择大平台,小服务商的服务质量良莠不齐,且生存情况我们也不清楚,为了保证自己的银子不会消失,还是稳妥一点选择有靠谱背书的平台,BAT三家的服务我都体验过,大家可以放心使用,由于我日常使用的是在百度云的服务器上搭建的JupyterLab服务,那么这次我就选择使用腾讯云的另一台服务器给大家做演示。

这台服务器是Ubuntu,不过根据我的体验,CentOS上也没有什么分别。

首先我们登陆上我们的服务器:

# dain @ daindeMacBook-Pro in ~ [19:36:35]
$ sshtc
spawn ssh ubuntu@0.0.0.0
ubuntu@0.0.0.0's password:
Welcome to Ubuntu 16.04.5 LTS (GNU/Linux 4.4.0-134-generic x86_64)

 * Documentation:  https://help.ubuntu.com
 * Management:     https://landscape.canonical.com
 * Support:        https://ubuntu.com/advantage
New release '18.04.1 LTS' available.
Run 'do-release-upgrade' to upgrade to it.


Last login: Thu Sep 20 16:13:26 2018 from 0.0.0.0

# ubuntu @ VM-0-16-ubuntu in ~ [19:36:38]
$

为了方便,小编通过一个脚本模拟登录服务器的流程,这里边使用了expect程序,这里贴出来给感兴趣的同学用:

#!/usr/bin/expect -f
spawn ssh ${USER_NAME}@${YOUR_HOST}
set timeout 30
match_max 100000
expect "*password*"
send -- "${YOUR_PASSWORD}\n"
interact

具体使用的过程中,需要将用户名、服务器地址、密码按实际情况替换,然后将脚本保存为一个你喜欢的名字,并赋予执行权限、移动到环境变量$PATH所包含的目录中去,比如小编就保存在/usr/local/bin目录中。

接下来我们需要保证我们已经安装了Python/Python3,同时已经安装了对应版本的JupyterLab/Jupyter Notebook,使用pip安装Jupyter系列非常方便。

# ubuntu @ VM-0-16-ubuntu in ~ [20:00:33]
$ pip3 install jupyter jupyterlab

安装完成之后,我们进入ipython中,来为我们的Jupyter服务配置密码:

# ubuntu @ VM-0-16-ubuntu in ~ [20:02:19] C:127
$ ipython3
Python 3.5.2 (default, Nov 23 2017, 16:37:01)
Type "copyright", "credits" or "license" for more information.

IPython 2.4.1 -- An enhanced Interactive Python.
?         -> Introduction and overview of IPython's features.
%quickref -> Quick reference.
help      -> Python's own help system.
object?   -> Details about 'object', use 'object??' for extra details.

In [1]: from notebook.auth import passwd

In [2]: passwd()
Enter password:
Verify password:
Out[2]: 'sha1:1e39d24dcd6c:b265321ca0c4cb798888bcb69b0024983a8ac439'

上边的输出中,‘sha1:’开头的这一串我们需要复制下来,一会儿配置的时候需要使用。而我们输入的密码就是我们在浏览器中登录Jupyter时需要输入的。

接下来我们生成Jupyter配置文件并使用vim打开:

# ubuntu @ VM-0-16-ubuntu in ~ [20:04:51]
$ jupyter lab --generate-config
Writing default config to: /home/ubuntu/.jupyter/jupyter_notebook_config.

# ubuntu @ VM-0-16-ubuntu in ~ [20:04:59]
$ vim /home/ubuntu/.jupyter/jupyter_notebook_config.py

我们看到了一大串的配置选项,一入眼就有点懵了。不要慌,我们只需要修改其中的四行即可。我们使用vim的快捷键/来搜索以下几项,将他们之前的注释去掉,并按照如下配置修改。

# 将ip设置为*,意味允许任何IP访问
c.NotebookApp.ip = '*'
# 这里的密码就是上边我们生成的那一串
c.NotebookApp.password = u'sha1:1e39d24dcd6c:b265321ca0c4cb798888bcb69b0024983a8ac439'
# 服务器上并没有浏览器可以供Jupyter打开
c.NotebookApp.open_browser = False
# 监听端口设置为8888或其他自己喜欢的端口
c.NotebookApp.port = 8888
# 我们可以修改jupyter的工作目录,也可以保持原样不变,如果修改的话,要保证这一目录已存在
c.MappingKernelManager.root_dir = '/home/ubuntu/.jupyter_run/root'
# 允许远程访问
c.NotebookApp.allow_remote_access = True

好了,保存输入:wq退出vim。

接下来输入jupyter lab启动jupyter服务即可:

$ jupyter lab --allow-root
[W 20:23:23.497 LabApp] WARNING: The notebook server is listening on all IP addresses and not using encryption. This is not recommended.
[I 20:23:23.498 LabApp] The port 8888 is already in use, trying another port.
[I 20:23:23.510 LabApp] JupyterLab extension loaded from /usr/local/lib/python3.6/site-packages/jupyterlab
...

接下来我们打开浏览器测试以下,在地址栏中输入服务器的地址,并访问其8888端口(或自己设置的jupyter监听端口),如:0.0.0.0:8888:

image

可以看到,浏览器自动跳转打开了我们搭建的JupyterLab服务。在这个过程里,需要输入密码,也就是我们自己设置并确认的密码。

接下来,我们导入matplotlib画一个图测试一下,完美。

到了这里问题还没有结束,因为我们和服务器的连接会断开,或者我们会关闭运行jupyter的这个窗口,这样的话就相当于杀死了Jupyter服务,我们在别的地方就无法通过浏览器远程访问了。有没有什么好办法能解决这个麻烦呢?

有,那就是使用强大的screen命令。screen命令可以让我们开启大量的窗口,并灵活控制每个窗口的开启关闭、前台后台状态。那么接下来,我们使用screen命令将Jupyter服务放置在后台运行,这样的话,及时我们本地的电脑关闭了或者断开了与服务器的连接,我们搭建的Jupyter服务依然会正常运行。

我们使用screen命令新开一个窗口,并命名为jupyter(或其他你喜欢的名字):

$ screen -S jupyter

接下来,我们在新开的窗口中打开Jupyter Lab:

$ jupyter lab

程序运行起来之后,我们使用Ctrl + A + D的快捷键将这一窗口放入后台,并回到开启screen窗口之前的状态:

$ screen -S jupyter
[detached from 29957.jupyter]

我们也可以查看目前都有哪些窗口在后台运行:

$ screen -ls
There is a screen on:
    48155.jupyter   (Detached)
1 Socket in /var/run/screen/S-root.

想要返回我们刚才使用的screen窗口,可以这样:

$ screen -r    # 其后可以通过指定窗口名打开特定窗口,默认打开上一个使用的窗口

好了,这样我们就可以随时随地访问并愉快地使用我们的JupyterLab服务了,大家有问题可以留言在下方,随时交流。

相关文章

  • 如何随时随地进行云数据分析

    一、为什么需要一个远程Jupyter服务 熟悉Python的同学应该都知道Jupyter Notebook这一数据...

  • miRNA分析-比对(二)

    本文简单阐述miRNA分析中,如何对其数据进行比对 早先简单介绍如何对miRNA数据进行过滤miRNA分析--数据...

  • 面向云音乐完成一次有趣的数据分析

    2019.03.09, 我决定爬取云音乐的数据, 对云音乐用户进行数据分析 项目地址 Github 演示地址: 云...

  • 2018-11-19

    大数据时代,分析师如何快速抓取分析数据? 大数据时代,大数据分析师进行数据挖掘和分析的时候,面临各种各样的问题。O...

  • 数据分析流程大解析_上海数据分析师哪家好?

    数据分析在我们生活中的应用越来越普遍,那么一个完整的数据分析过程分为哪几步呢?如何进行有效的数据分析呢?如何让数据...

  • 《用大数据分析大众情绪,靠谱吗》

    用大数据分析大众情绪,靠谱吗?如何分析?哪些领域可以用大数据进行分析? 一.用大数据分析大众情绪的意义 用大数据分...

  • 初涉数据分析(二)

    一、数据方法论和数据分析方法 数据分析方法论从宏观层面指导如何进行数据分析,而数据分析方法则是指具体的分析方法,从...

  • 二期ZT Explorer项目大揭秘:IMC

    IMC基因是存储海量健康大数据的云平台,运用区块链技术,对数据进行安全、可增值的银行式管理;运用AI进行云分析。 ...

  • 创建一个大数据平台的正确姿态

    本文来自网易云社区。 面对海量的各种来源的数据,如何对这些零散的数据进行有效的分析,得到有价值的信息一直是大数据领...

  • 企业数据分析的基础知识(二)

    1.数据分析的常规流程 2.数据分析方法论及数据分析法 数据分析方法论:主要是从宏观角度指导如何进行...

网友评论

    本文标题:如何随时随地进行云数据分析

    本文链接:https://www.haomeiwen.com/subject/kinbaftx.html