`
文章列表
Trident API     partition本地操作,无需网络io 等同于pig的generate mystream.each(new Fields("b"), new MyFunction(), new Fields("d")))   public class MyFunction extends BaseFunction {     public void execute(TridentTuple tuple, TridentCollector collector) {         for(int i=0; i < ...
kafka producer客户端   KafkaProducer的send方法: 1.等待kafka要发送的topic的partition都在线 2.序列化key,value; key:org.apache.kafka.common.serialization.IntegerSerializer value:org.apache.kafka.common.serialization.StringSerializer 3.根据发送数据计算索要发送的topic的partition 使用record记录中的partition,若为空,用paritition类计算 par ...
hbase increase       increase代码 1.将数据封装为increment对象 2.从increment对象中封装get 3.封装新kv 4.对HRegion下的Storm做upsert或add操作 5.查看是否需要flush并添加队列 6.返回kvs   HRegion代码,如下   /** * Perform one or more increment operations on a row. * @param increment * @return new keyvalues after increment ...
 git clone http://git-wip-us.apache.org/repos/asf/kafka.git D:\git\kafka   https://kafka.apache.org/downloads.html    安装gradle    到kafka目录下    运行gradle wrapper,解决找不到类  If you just checked out the code, you don't have the gradle wrapper library and you'll get an error message after running ...

spark编译报错

spark成功之后运行例子报错      问题一:       spark.SparkContext: Added JAR file:/home/hadoop-cdh/app/test/sparktest/EmarOlap-0.0.1-SNAPSHOT.jar at http://192.168.5.143:32252/jars/EmarOlap-0.0.1-SNAPSHOT.jar with timestamp 1428464475056 Exception in thread "main" java.lang.VerifyError: class org.ap ...
    一个很常见的报错log   2015-03-05 03:10:35,461 FATAL [regionserver60020-WAL.AsyncSyncer0] wal.FSHLog: Error while AsyncSyncer sync, request close of hlog org.apache.hadoop.ipc.RemoteException(java.io.IOException): BP-1540478979-192.168.5.117-1409220943611:blk_1098635649_24898817 does not exist or i ...
hbase的优化的一点经验,一直没做这个笔记,是因为hbase自身也有设计缺陷,所以有些配置不能说优化,只能说因为hbase自身缺陷可以将就着用,不说废话了,以下就是优化的一点笔记   hbase配置修改: (split是因为hfile过多,进行split,split之后进行compact   可以可能要有人喷了,hfile多了应该compact才对啦。贴出0.98.1的代码,大致逻辑是region没有block的compact(优先级大于等于1的),则进行split) private boolean flushRegion(final FlushRegionEntry fqe) ...
kafka获得partition下标,需要用到kafka的simpleconsumer   import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.util.Map; import java.util.Properties; import java.util.TreeMap; import java.util.Map.Entry; import ...

kafka参数转

转 http://damacheng009.iteye.com/blog/2087996   metadata.broker.list 默认值:无,必填 格式为host1:port1,host2:port2,这是一个broker列表,用于获得元数据(topics,partitions和replicas),建立起来的socket连接用于发送实际数据,这个列表可以是broker的一个子集,或者一个VIP,指向broker的一个子集。 request.required.acks 默认值:0 用来控制一个produce请求怎样才能算完成,准确的说,是有多少broker必须已经提交数据到lo ...
  MSLAB工作原理,举个例子HStore在add的时候的例子,其他操作也差不多,很简单 MSLAB是解決menstorm的內存碎片,  MemStoreChunkPool是解決full gc頻繁,自己管理chunk数据,避免gc    MemStoreChunkPool使用的是memstorm的limit * chuckpoolpercent ...
转 http://blog.cloudera.com/blog/2012/07/hbase-log-splitting/ cloudera的blog还是挺不错的   In the recent blog post about the Apache HBase Write Path, we talked about the write-ahead-log (WAL), which plays an important role in preventing data loss should a HBase region server failure occur.  This blog pos ...

hbase hlog源码

  HLog线程的启动入口:      HRegionServer启动线程 private void startServiceThreads() throws IOException {..... Threads.setDaemonThreadRunning(this.hlogRoller.getThread(), n + ".logRoller", uncaughtExceptionHandler);//logRoller守护进程,每一个小时生成一个hlog this.splitLogWorker = new Spli ...

hbase mvcc

  MVCC相关源码:   在HBase put源码中 http://blackproof.iteye.com/blog/2197710   有mvcc用hregion的mvcc的write point,在生成mvcc的readpoint   KeyValueHeap类的next获取cell的时候使用keyvalue的mvcc的readpoint,判断是否取当前kv    /** * Gets the next row of keys from the top-most scanner. * <p> * This method takes care ...
  split log过程      在hbase hmaster启动的时候,将hlog移动到split log文件夹下,并处理split log  (在RS加入到dead serverlist的时候,ServerShutdownHandler也会调用 splitlog方法,代码贴在最后)   Master负责分发split log任务到zk上   master处理split log文件,最终写split log到zk上 regionserver从zk上抢split log任务,将split log读入到内存entry,由writer进程写到hdfs上     // we ...
给个源码下载地址:http://www.apache.org/dyn/closer.cgi/hbase/   编译过程:   1.需要安装(必须安装前三个,都非常好安装,直接export就好了) Maven 3.3.1 findbugs 3.0.1 Java 1.7.0_06 Hadoop 2.2.0 HBase 0.98.1     2.生成pom 修改generate-hadoopX-poms.sh中的hbase_home="${HBASE_HOME}" hbase_home="下载的hbase源码路径" 运行生成po ...
Global site tag (gtag.js) - Google Analytics