夜曲章-CSDN博客

原创 hbase几种查询方式对比

数据：9万条1 采用rowfilter查询scan 'testImportCsv',{FILTER => RowFilter.new(CompareFilter::CompareOp.valueOf('EQUAL'), SubstringComparator.new('1130210018008161'))}时间是：0.2400s2 采用值过滤查询scan 'testImportCsv',{FILTER => ValueFilter.new(CompareFilter::Com

2020-12-12 11:37:33 1971

原创数据入hbase几种方式和对应的效率

使用ImportTsv方式导入类： org.apache.hadoop.hbase.mapreduce.ImportTsv小记：使用awk ‘$0=NR"^"$0’ file_name在文档每一列前面加行号，657680行221M数据用了15分钟平均下来每一行数：346byte数据准备：sma.dwd_nb_prem.20190228.001.i.1.dat列名： num int, eventtype_code STRING(32767), grpc

2020-12-11 15:44:40 306

原创 hbase格式小计

我们通过程序往hbase写数据非String的时候而是Long，如：def monitoringSinglePut(hbasetableName: String, topic: String,execTime:Long,schedulingTime:Long,processTime:Long,num_records:Long, family: String,hbaseconf:Configuration): Unit = { //单个插入 val connection: Connect

2020-07-02 14:12:12 131

翻译各种二进制转换

整数有四种类型，byte/short/int/long，分别占1/2/4/8个字节，即分别占8/16/32/64位二进制使用最高位表示符号位，用1表示负数，用0表示正数。byte a = -1，如果只是将最高位变为1，二进制应该是10000001，但实际上，它应该是11111111。byte a=-127，如果只是将最高位变为1，二进制应该是11111111，但实际上，它却应该是10000001。和我们的直觉正好相反，这是什么表示法？这种表示法称为补码表示法，而符合我们直觉的表示称为原码表示法，补码

2020-06-08 13:12:29 5098

原创 shuffle源码解读

如果conf.getNumReduceTasks() == 0也就是没有reduce存在，不会触发任何的sortMaptask内存缓冲区（扇形数据结构即字节数）里存取的有分区public synchronized void collect(K key, V value, final int partition) throws IOException// write accounting info索引里记录的有分区kvmeta.put(kvindex + PARTITION, partitio

2020-06-07 20:01:08 261

原创 demo of mapreduce

package com;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Job;impo

2020-06-05 11:36:33 124

原创 mapreduce中log4j日志打印

控制台出现：log4j:WARN No appenders could be found for logger (org.springframework.context.support.ClassPathXmlApplicationContext).log4j:WARN Please initialize the log4j system properly.1.在main下建立resources文件夹，并标记为resource root2.新建log4j.properties3.粘贴内容log

2020-06-05 11:28:22 625

翻译 Spark解决Map算子中调用自定义方法出现的初始化问题

有一批JSON数据需要被要存成parquet格式，但是这些json数据中有一些数据是脏数据,例如:{‘name’:‘zhangsan’,‘age’:14,‘wo}k’:‘teacher’}如果存在这样的数据的话，当我直接用下面spark代码将json文件转成parquet文件时则会报错代码:spark.read.json(“data/data.json”).write.mode(SaveMode.Overwrite).parquet(“data/data.parquet”)异常:19/08/2

2020-05-25 20:15:40 1048 2

原创 spark动态资源参数在代码设置不生效测试

官方解释Spark属性主要可以分为两种：一种与部署相关，例如“ spark.driver.memory”，“ spark.executor.instances”，SparkConf在运行时通过编程设置时，此类属性可能不会受到影响，或者行为取决于您选择的集群管理器和部署模式，因此建议您通过配置文件或spark-submit命令行选项进行设置；另一个主要与Spark运行时控件有关，例如“ spark.task.maxFailures”，可以用任何一种方式设置这种属性。spark.dynamicAlloc

2020-05-22 15:46:56 1691

原创 hive与parquent

hive Text存储与parquent比较准备数据功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入准备数据orderID INT, CustID INT, OrderTotal FLOAT, OrderNumItems INT

2020-05-21 18:35:29 755

翻译 hive SymlinkTextInputFormat介绍及用法

介绍先摘一段官方介绍，如下：Symlink file is a text file which contains a list of filename / dirname.This input method reads symlink files from specified job input paths and takes the files / directories specified in those symlink files as actual map-reduce input. The

2020-05-21 15:40:37 239

weixin_44736028的博客

原创 hbase几种查询方式对比

原创数据入hbase几种方式和对应的效率

原创 hbase格式小计

翻译各种二进制转换

原创 shuffle源码解读

原创 demo of mapreduce

原创 mapreduce中log4j日志打印

翻译 Spark解决Map算子中调用自定义方法出现的初始化问题

原创 spark动态资源参数在代码设置不生效测试

原创 hive与parquent

翻译 hive SymlinkTextInputFormat介绍及用法

原创 hive内部表与外部表区分

原创 hive 中的location

翻译 kafka数据一致性保证

翻译认识字符流与字节流

翻译序列化与大数据

空空如也

空空如也