3 辣条好辣

尚未进行身份认证

暂无相关简介

等级
TA的排名 3w+

spark 读取hive数据 写入hbase

1,saveAsNewAPIHadoopDataset批量写入(千万级别以下使用)import org.apache.hadoop.hbase.client._import org.apache.hadoop.hbase.io.ImmutableBytesWritableimport org.apache.hadoop.hbase.mapreduce.TableOutputFormatim...

2020-03-22 17:37:25

Collection 和 map 集合底层数据结构介绍

一、集合框架图二、collection集合方法三、collection和map数据结构 Collection(单列集合) List(有序,可重复) ArrayList 底层数据结构是数组,查询快,增删慢 线程不安全,效率高 Vector ...

2020-02-17 20:54:51

使用spark写数据到Hbase的三种方式

方式一:直接使用HBase Table的PUT方法import org.apache.hadoop.hbase.{HBaseConfiguration, TableName}import org.apache.hadoop.hbase.client.{ConnectionFactory, Put, Table}import org.apache.hadoop.hbase.util.Byt...

2020-01-01 23:03:05

快捷键

idea快捷键总结Idea 提示方法参数快捷键 ctrl +p

2019-12-24 16:24:30

kafka生产者以及消费者demo

kafka视频地址这篇文章主要介绍kafka中JAVA API的使用,这里面为了介绍配置,所以使用的是原生的javaapi操作,kafka可以与spring通过xml配置集成,或者更加简单通过spring boot引入starter,通过(AutoConfiguration)自动配置完成集成。但其实无论何种使用方式,其根本都是使用原生pai进行操作。使用maven依赖管理,引入kafka依赖...

2019-12-09 22:57:30

hbase行键过滤器RowFilter

转载地址 https://my.oschina.net/u/3346994/blog/1923976行过滤器视频链接RowFilter是用来对rowkey进行过滤的,比较符如下:OperatorDescriptionLESS小于LESS_OR_EQUAL小于等于EQUAL等于NOT_EQUAL不等于GREATER_OR_EQUAL大于等于...

2019-12-03 22:44:16

hbase 预分区建表以及rowkey设计

hbase 预分区建表create 'table_name',{NAME =>'cf',VERSIONS => '1',COMPRESSION =>'SNAPPY'}, SPLITS_FILE => '/root/data/partition.txt'其中partition.txt是一个本地文件可以看下表的分区情况,如下被分成了十个分区对应rowkey 设计...

2019-10-28 22:44:40

elasticsearch 官方文档阅读指导

elastic官网链接点开文档之后会有很多对我们有帮助的文档然后是ELK方面

2019-10-27 22:24:54

spring boot整合elasticsearch以及elasticsearch相关文档

参考链接:https://blog.csdn.net/chen_2890/article/details/83895646

2019-10-13 14:26:24

Spark分区数、task数目、core数目、worker节点数目、executor数目梳理

转载地址每一个过程的任务数,对应一个inputSplit1, Partition输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。当Spark读取这些文件作为输入时,会根据具体数据格式对应的InputFormat进行解析,一般是将若干个Block合并成一个输入分片,称为InputSplit,注意InputSplit不能跨越文件。随后将为这些输入分片生...

2019-10-14 22:27:02

Hive 外部表关联分区数据

0. 说明已经安装好Hadoop和hive环境,hive把元数据存储在mysql数据库。这里仅讨论外部表和HDFS的关联,并且删掉外部表之后,对HDFS上的文件没有影响1. 在HDFS创建分区,并存有文件手工创建或者由程序在HDFS上生成了分区目录,每个分区目录下有相应的文件。本例中根据day分了两个分区,如下所示:/test/in/day=20/20.txt/test/in/day=...

2019-09-25 17:47:21

读取HDFS文件中的数据写入到HBase的表中

mapperpackage com.shengsiyuan.hdfs_to_hbase;import java.io.IOException;import org.apache.hadoop.hbase.client.Put;import org.apache.hadoop.hbase.io.ImmutableBytesWritable;import org.apache.hadoo...

2019-09-04 23:39:41

spark shuffle调优

1:sparkconf.set(“spark.shuffle.file.buffer”,“64K”) --不建议使用,因为这么写相当于硬编码 --最高2:在conf/spark-defaults.conf —不建议使用,相当于硬编码 --第三3:./spark-submit --conf spark.shuffle.file.buffer=64 --conf spark.reducer.max...

2019-08-05 16:14:49

spark调优

Spark优化参考资料文档下载地址:https://download.csdn.net/download/qq_36306340/11472932分配更多的资源○ 搭建集群(Spark-env.sh)■ SPARK_WORKE_CORES■ SPARK_WORKER_MEMORY○ 提交任务■ ./spark-submit --master node:port --executor-...

2019-08-05 13:14:38

JVM面试总结

JVM面试思考准备一.jvm体系总体分四大块:1.类的加载机制2.jvm内存结构3.GC算法 垃圾回收4.GC分析 命令调优二.类的加载机制1.什么是类的加载类的加载指的是将类的.class文件中的二进制数据读入到内存中,将其放在运行时数据区的方法区内,然后在堆区创建一个java.lang.Class对象,用来封装类在方法区内的数据结构。类的加载的最终产品是位于堆 区中的Class...

2019-07-30 13:39:38

正则表达式

https://www.jb51.net/tools/shell_regex.html链接下方有练习

2019-06-27 09:20:24

HBase shell 命令介绍

HBase shell是HBase的一套命令行工具,类似传统数据中的sql概念,可以使用shell命令来查询HBase中数据的详细情况。安装完HBase之后,如果配置了HBase的环境变量,只要在shell中执行hbase shell就可以进入命令行界面,HBase的搭建可以参考我的上一篇文章:hbase分布式集群搭建HBase介绍HBase简介HBase的名字的来源于Hadoop data...

2019-06-25 19:50:41

Hadoop集群启动命令及相关介绍

出去就用hive ,hbase 和 spark(最好学号Scala,)nc -lk 9999(1)判断是物理机还是虚拟机dmesg | grep -i virtual查看系统版本号和系统位数cat /etc/issue && arch(2)查看隐藏文件ll -la(3)查看目录下的所有文件及大小ll -h(4)查看该目录下的文件及文件大小du -sh *|so...

2019-06-25 10:26:30

hive分区以及动态分区

hive静态分区(hive分区主要是为了提高检索效率,内部表和外部表都可以创建分区)hive静态分区操作静态分区操作数据1,小明1,lol-book-move,beijing:shangxuetang-shanghai:pudong2,小明2,lol-book-move,beijing:shangxuetang-shanghai:pudong3,小明3,lol-book-move,b...

2019-06-06 14:07:55

hive单词统计

需统计的单词hello hadoop hive sparkjava python php c hellojava hadoophello java java需创建的表--创建表wc,用来存储单词,是外部表,上面的数据在hdfs的目录位置为/root/wc/wccreate external table wc(line string)location '/root/wc/'...

2019-06-06 10:49:10

查看更多

勋章 我的勋章
  • 新人勋章
    新人勋章
    用户发布第一条blink获赞超过3个即可获得
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。