最近在使用Zeppelin,我理解Zeppelin是一个交互式数据分析工具,像Jupter一样,可以直接执行SQL,Python和Spark等接口, 具体支持哪些可以看interprete的介绍(https://zeppelin.apache.org/docs/0.8.0/usage/interpreter/overview.html)
官网是https://zeppelin.apache.org/
下载准备
http://zeppelin.apache.org/download.html
如果不需要这么多interprete,可以只下载Binary package with Spark interpreter,小很多
如果只是本地的环境,需要先下载Spark(http://spark.apache.org/downloads.html)
安装和启动
先解压
tar -xvf spark-2.3.0-bin-hadoop2.7.tgz
tar -xvf zeppelin-0.8.0-bin-netinst.tgz
设置环境变量
export JAVA_HOME=/installdir/jdk1.8.0_91
export SPARK_HOME=/installdir/spark-2.3.0-bin-hadoop2.7
export LANG=zh_CN.UTF-8
unset LC_ALL
激活pyenv环境
pyenv activate python351
启动
cd /installdir/zeppelin-0.8.0-bin-netinst
bin/zeppelin-daemon.sh start
访问
http://ip:8080/#/
用户权限
conf/shiro.ini
默认权限把#去掉就好了
[users]
# List of users with their password allowed to access Zeppelin.
# To use a different strategy (LDAP / Database / ...) check the shiro doc at http://shiro.apache.org/configuration.html#Configuration-INISections
# To enable admin user, uncomment the following line and set an appropriate password.
admin = admin, admin
user1 = user1, role1, role2
user2 = user2, role3
user3 = user3, role2
具体 role的设置可以参考https://community.hortonworks.com/questions/139082/zeppelin-users-roles.html
安装新的interpreter
这步目前存在问题,可以安装但是没有配置成功。
./bin/install-interpreter.sh --list
./bin/install-interpreter.sh --name md,livy,jdbc
配置Spark需要的packagem,下面加了kafka的jar包和oracle的jdbc
conf/zeppelin-env.sh
export SPARK_SUBMIT_OPTIONS="--packages org.apache.spark:spark-sql-kafka-0-10_2.11:2.3.0 --jars /pythontest/jars/ojdbc7.jar"