安装spark,见上文
http://blackproof.iteye.com/blog/2182393
配置window开发环境
window安装scala
下载scala http://www.scala-lang.org/files/archive/scala-2.10.4.msi
安装即可
window配置eclipse
下载eclipse
解压即可
写wordcount scala代码
创建scala 项目
新建scala object,命名WordCount
代码如下
package com.dirk.test
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext.rddToPairRDDFunctions
import scala.collection.mutable.ListBuffer
import org.apache.spark.SparkConf
object WordCount {
def main(args: Array[String]){
if(args.length != 3){
println("usage: com.qiurc.test.WordCount <master> <input> <output>")
return
}
val jars = ListBuffer[String]()
jars.+=("/home/hadoop-cdh/app/test/sparktest/aa.jar") //aa.jar发布位置
val conf = new SparkConf()
conf.setMaster(args(0))//设置spark master url
.setAppName("word count")
.setJars(jars)//解决找不到jar包的问题
.set("spark.executor.memory","200m")
val sc = new SparkContext(conf)
val textFile = sc.textFile(args(1))
val result = textFile.flatMap(_.split(" "))
.map(word => (word, 1)).reduceByKey(_ + _)
result.saveAsTextFile(args(2))
}
}
打包scala项目,和java项目打jar相同,名为aa.jar,
jar包发布位置为
/home/hadoop-cdh/app/test/sparktest/aa.jar
发布到spark服务器上
写运行脚本
#!/usr/bin/env bash $SPARK_HOME/bin/spark-submit --name SparkWordCount --class com.dirk.test.WordCount --master spark://host143:7077 --executor-memory 512M --total-executor-cor es 1 aa.jar spark://host143:7077 hdfs://XXX/user/dirk.zhang/data/word.txt hdfs://XXX/user/dirk.zhang/output
遇到的问题
1.参数解释 参数1为spark master url,参数2为hdfs输入,参数3位hdfs输出,xxx为HA的defaultFS
2.找不到class文件的原因是缺少setJars(jars)
参考
http://bit1129.iteye.com/blog/2172164
http://www.tuicool.com/articles/qq2mQj
相关推荐
在spark上运行wordcount程序,可以进行单词计数
亲自测试的
spark local下 WordCount运行示例,maven项目,直接导入eclipse即可
博客配套文件,详细演示了本地和集群模式如何运行Spark程序,演示了一个简单wordCount程序流程。
window 下eclipse远程访问伪分布式hadoop 运行wordcount
大数据实验报告Windows环境下安装Spark及RDD编程和Spark编程实现wordcount.doc
windows eclipse 运行wordcount连接linux hadoop NativeIO YARNRunner 完项目 源码
scala语言和python一样都是交互式的语言,操作简单。这是wordcount的scala实现,简单明了,比java实现简单很多,希望对大家有所帮助
采用java实现的spark的wordcount单词技术的程序.可以跑通。
使用Spark实现对一个文档中的每一行的单词进行词配对计数,要求去标点符号,将大写符号统一转化成为小写单词。
基于Spark的wordcount代码
本例子是让新手熟悉了解如果用idea开发程序,提交到spakr集群上读取hdfs数据这么一个流程。博客讲解链接:https://blog.csdn.net/cuicanxingchen123456/article/details/83573838
利用Spark Streaming实现WordCount 需求:监听某个端口上的网络数据,实时统计出现的不同单词个数。 1,需要安装一个nc工具:sudo yum install -y nc 2,执行指令:nc -lk 9999 -v import os #### 配置spark driver...
第一章 Hortonworks安装 第二章 在Eclipse中运行Hadoop平台的WordCount程序 第三章 在Eclipse中运行Spark平台的WordCount程序
一套eclipse中的hadoop开发环境搭建教程,附带了eclipse中的hadoop的两个demo,一个是wordcount、一个是sort,大家一起学习进步!
使用 netcat 工具向 9999 端口不断的发送数据,通过 SparkStreaming 读取端口数据并统 计不同单词出现的次数 。 二、netcat操作 1、虚拟机中安装netcat [root@hadoop1 spark]# yum install -y nc 2、启动程序并发送...
基于Windows eclipse maven Hadoop 的WordCount源码。下载后需要自己编译jar包,详情请看解压后的README.md
1. 资源包括了eclipse Oxygen版本的hadoop插件,包括winutils 2. 文档详细介绍了windows 下的hadoop版本的配置 3. 实例程序可以跑通,有详细截图
Eclipse+Maven+Scala Project+Spark | 编译并打包wordcount程序 学习用Eclipse+Maven来构建并打包一个简单的单词统计的例程。 第一步 在EclipseIDE中安装Scala插件 在Eclipse中安装Scala插件 第二步 创建Scala ...