安装scala
下载scala-2.11.4
解压
配置环境变量
SCALA_HOME=/home/hadoop-cdh/app/test/scala-2.11.4 PATH=$PATH:$SCALA_HOME/bin
安装spark
下载
spark-1.2.0-bin-hadoop2.3 (需要和hadoop版本对应,不然会有protocal的错)
解压
配置spark-env.sh
export JAVA_HOME=/home/hadoop-cdh/java/jdk1.7.0_06 export SCALA_HOME=/home/hadoop-cdh/app/test/scala-2.11.4 export HADOOP_HOME=/home/hadoop-cdh/app/hadoop-2.3.0-cdh5.1.0 export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop export SPARK_JAR=/home/hadoop-cdh/app/test/spark-1.2.0-bin-hadoop2.3/lib/spark-assembly-1.2.0-hadoop2.3.0.jar export SPARK_CLASSPATH=$SPARK_CLASSPATH:/home/hadoop-cdh/app/hadoop-2.3.0-cdh5.1.0/share/hadoop/common/hadoop-lzo-0.4.20-SNAPSHOT.jar
配置spark-default.conf(先要mkdir spark.eventLog.dir)
spark.eventLog.dir=/home/hadoop-cdh/app/test/spark-1.2.0-bin-hadoop2.3/applicationHistory spark.eventLog.enabled=true spark.yarn.historyServer.address=http://HISTORY_HOST:HISTORY_PORT
配置slaves
host143 host144
启动
start-all.sh
会出现Master Worker进行
运行spark-shell
bin/spark-shell --executor-memory 1g --driver-memory 1g --master spark://host143:7077
测试语句:(需要把word.txt上传到hdfs上,word.txt里是字母,空格隔开)
sc val file = sc.textFile("hdfs://xxx/user/dirk.zhang/data/word.txt") val count = file.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey(_+_)
参考
http://blog.csdn.net/zwx19921215/article/details/41821147
http://www.tuicool.com/articles/BfUR73
相关推荐
基于Linux平台下的Hadoop和Spark集群搭建研究.pdf
Spark集群搭建的完整过程,可参考搭建一个属于自己的Spark集群。非常适合新手,学习spark平台的搭建。
实时计算框架:Spark集群搭建与入门案例。50字50字50字50字50字50字
hadoop与spark集群搭建,了解hadoop分布式、伪分布式等方式集群搭建
基于CDH的spark集群搭建,包括了httpd等服务的部署过程
分布式hadoop与spark集群搭建[汇编].pdf
基于Linux平台下的Hadoop和Spark集群搭建研究.docx
本人搭建Hadoop集群基础之上的Yarn及Spark集群配置过程,及相应的学习文档。对Spark的Python编程指南进行了部分翻译。欢迎大家指正。
六、 机器集群搭建 12 1. 复制机器 13 2. 设置静态IP 13 3. 设置机器名hostname 14 4. ssh免密登录 14 5. hadoop集群测试 16 七、 Spark & Scala 集群安装 18 1. scala安装 18 2. spark安装 19 3. 测试...
hadoop2.2集群搭建遇到的各种问题。
针对新手,因本人也是新手,耗费10天完成,详细到每一个步骤
Spark环境搭建-Windows
Spark standalone 分布式集群搭建,Spark standalone运行模式,Spark Standalone运行架构解析---Spark基本工作流程,Spark Standalone运行架构解析---Spark local cluster模式
。。。
。。。
教你搭建日PV千万级的网站集群架构-绝对的极品教程.zip 阿里P8架构师谈 苏宁六年企业IT架构的演进之路 大并发大型网站架构设计 大型网站架构演化 大型分布式网站架构技术总结 Nginx负载均衡4种策略
spark集群搭建文档,版本号:spark-1.2.1-bin-hadoop2.3.tgz
Spark on Yan集群搭建的详细过程,减少集群搭建的时间