前一陣子參加了HadoopCon 2016, 有一些議程與jupyter& spark相關,之前只有使用jupyter開發 R 或 python, 原來 spark 也可以在 jupyter上作開發, 所以就想動手玩看看。
我是在 AWS EC2 的 ubuntu 14.04 上完成下面的操作,一開始只設定了 10G 的硬碟,最後空間不足,又重做一次,下面是在 30G 的設定下完成的。

  • 使用Anaconda安装jupyter
    • wget https://repo.continuum.io/archive/Anaconda3-4.1.1-Linux-x86_64.sh
    • bash Anaconda3-4.1.1-Linux-x86_64.sh
    • 預設安裝在 /home/ubuntu/anaconda3
    • jupyter notebook –no-browser –port 8888 –ip={EC2 private IP}
    • 到此 python3版本的 jupyter完成
    • 用下面 command 可以查詢目前 jupyter 已經可使用的 kernel: jupyter kernelspec list

jupyrt_python

jupyrt_scala

  • 新增 spark kernel
    • wget http://d3kbcqa49mib13.cloudfront.net/spark-2.0.0-bin-hadoop2.6.tgz
    • tar -xvf  spark-2.0.0-bin-hadoop2.6.tgz
    • export SPARK_HOME="/home/ubuntu/jupyter_spark/spark-2.0.0-bin-hadoop2.6″
    • cd /home/ubuntu/anaconda3
    • git clone https://github.com/apache/incubator-toree.git
    • cd incubator-toree
    • export APACHE_SPARK_VERSION=2.0.0
    • 在此需安裝 sbt 後再繼續下面步驟
    • 確認已有設定 JAVA_HOME 後可開始執行下面步驟
    • make build
      • 看到 success 就是成功了
    • make dist
    • 在/home/ubuntu/anaconda3/incubator-toree/dist/toree/bin 有一個 run.sh 檔案
    • cd /root/.ipython/kernel/
    • mkdir spark
    • vim kernel.json

json

  • 這時再確認一次 jupyter kernel會已經有 spark

spark

  • 現在可以開始使用 jupyter 開發 spark application 了

final

 

Reference

http://spark.apache.org/downloads.html

http://m.blog.csdn.net/article/details?id=51006075