自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(122)
  • 资源 (33)
  • 收藏
  • 关注

原创 并发 并行 进程 线程

1)多线程程序在单核上运行,就是并发2)多线程程序在多核上运行,就是并行。

2023-04-07 12:33:17 704 1

转载 spark 读取hive数据 写入hbase

1,saveAsNewAPIHadoopDataset批量写入(千万级别以下使用)import org.apache.hadoop.hbase.client._import org.apache.hadoop.hbase.io.ImmutableBytesWritableimport org.apache.hadoop.hbase.mapreduce.TableOutputFormatim...

2020-03-22 17:37:25 2320 2

原创 Collection 和 map 集合底层数据结构介绍

一、集合框架图二、collection集合方法三、collection和map数据结构 Collection(单列集合) List(有序,可重复) ArrayList 底层数据结构是数组,查询快,增删慢 线程不安全,效率高 Vector ...

2020-02-17 20:54:51 738

转载 使用spark写数据到Hbase的三种方式

方式一:直接使用HBase Table的PUT方法import org.apache.hadoop.hbase.{HBaseConfiguration, TableName}import org.apache.hadoop.hbase.client.{ConnectionFactory, Put, Table}import org.apache.hadoop.hbase.util.Byt...

2020-01-01 23:03:05 1174

原创 idea常用快捷键

2019-12-24 16:24:30 171 1

转载 kafka生产者以及消费者demo

kafka视频地址这篇文章主要介绍kafka中JAVA API的使用,这里面为了介绍配置,所以使用的是原生的javaapi操作,kafka可以与spring通过xml配置集成,或者更加简单通过spring boot引入starter,通过(AutoConfiguration)自动配置完成集成。但其实无论何种使用方式,其根本都是使用原生pai进行操作。使用maven依赖管理,引入kafka依赖...

2019-12-09 22:57:30 979

转载 hbase行键过滤器RowFilter

转载地址 https://my.oschina.net/u/3346994/blog/1923976行过滤器视频链接RowFilter是用来对rowkey进行过滤的,比较符如下:OperatorDescriptionLESS小于LESS_OR_EQUAL小于等于EQUAL等于NOT_EQUAL不等于GREATER_OR_EQUAL大于等于...

2019-12-03 22:44:16 260

原创 hbase 预分区建表以及rowkey设计

hbase 预分区建表create 'table_name',{NAME =>'cf',VERSIONS => '1',COMPRESSION =>'SNAPPY'}, SPLITS_FILE => '/root/data/partition.txt'其中partition.txt是一个本地文件可以看下表的分区情况,如下被分成了十个分区对应rowkey 设计...

2019-10-28 23:26:52 923

原创 elasticsearch 官方文档阅读指导

elastic官网链接点开文档之后会有很多对我们有帮助的文档然后是ELK方面

2019-10-27 22:35:18 425

原创 spring boot整合elasticsearch以及elasticsearch相关文档

参考链接:https://blog.csdn.net/chen_2890/article/details/83895646

2019-10-16 17:23:09 130

转载 Spark分区数、task数目、core数目、worker节点数目、executor数目梳理

转载地址每一个过程的任务数,对应一个inputSplit1, Partition输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。当Spark读取这些文件作为输入时,会根据具体数据格式对应的InputFormat进行解析,一般是将若干个Block合并成一个输入分片,称为InputSplit,注意InputSplit不能跨越文件。随后将为这些输入分片生...

2019-10-14 22:33:41 712

转载 Hive 外部表关联分区数据

0. 说明已经安装好Hadoop和hive环境,hive把元数据存储在mysql数据库。这里仅讨论外部表和HDFS的关联,并且删掉外部表之后,对HDFS上的文件没有影响1. 在HDFS创建分区,并存有文件手工创建或者由程序在HDFS上生成了分区目录,每个分区目录下有相应的文件。本例中根据day分了两个分区,如下所示:/test/in/day=20/20.txt/test/in/day=...

2019-09-25 18:43:56 525

原创 读取HDFS文件中的数据写入到HBase的表中

mapperpackage com.shengsiyuan.hdfs_to_hbase;import java.io.IOException;import org.apache.hadoop.hbase.client.Put;import org.apache.hadoop.hbase.io.ImmutableBytesWritable;import org.apache.hadoo...

2019-09-04 23:41:49 1834 1

原创 spark shuffle调优

1:sparkconf.set(“spark.shuffle.file.buffer”,“64K”) --不建议使用,因为这么写相当于硬编码 --最高2:在conf/spark-defaults.conf —不建议使用,相当于硬编码 --第三3:./spark-submit --conf spark.shuffle.file.buffer=64 --conf spark.reducer.max...

2019-08-05 16:14:49 485

原创 spark调优

Spark优化参考资料文档下载地址:https://download.csdn.net/download/qq_36306340/11472932分配更多的资源○ 搭建集群(Spark-env.sh)■ SPARK_WORKE_CORES■ SPARK_WORKER_MEMORY○ 提交任务■ ./spark-submit --master node:port --executor-...

2019-08-05 13:14:38 172

原创 JVM面试总结

JVM面试思考准备一.jvm体系总体分四大块:1.类的加载机制2.jvm内存结构3.GC算法 垃圾回收4.GC分析 命令调优二.类的加载机制1.什么是类的加载类的加载指的是将类的.class文件中的二进制数据读入到内存中,将其放在运行时数据区的方法区内,然后在堆区创建一个java.lang.Class对象,用来封装类在方法区内的数据结构。类的加载的最终产品是位于堆 区中的Class...

2019-07-30 13:39:38 216

转载 正则表达式

https://www.jb51.net/tools/shell_regex.html链接下方有练习

2019-06-27 09:20:24 98

转载 HBase shell 命令介绍

HBase shell是HBase的一套命令行工具,类似传统数据中的sql概念,可以使用shell命令来查询HBase中数据的详细情况。安装完HBase之后,如果配置了HBase的环境变量,只要在shell中执行hbase shell就可以进入命令行界面,HBase的搭建可以参考我的上一篇文章:hbase分布式集群搭建HBase介绍HBase简介HBase的名字的来源于Hadoop data...

2019-06-25 19:50:41 190

原创 Hadoop集群启动命令及相关介绍

出去就用hive ,hbase 和 spark(最好学号Scala,)nc -lk 9999(1)判断是物理机还是虚拟机dmesg | grep -i virtual查看系统版本号和系统位数cat /etc/issue && arch(2)查看隐藏文件ll -la(3)查看目录下的所有文件及大小ll -h(4)查看该目录下的文件及文件大小du -sh *|so...

2019-06-25 10:26:30 12653

原创 hive分区以及动态分区

hive静态分区(hive分区主要是为了提高检索效率,内部表和外部表都可以创建分区)hive静态分区操作静态分区操作数据1,小明1,lol-book-move,beijing:shangxuetang-shanghai:pudong2,小明2,lol-book-move,beijing:shangxuetang-shanghai:pudong3,小明3,lol-book-move,b...

2019-06-06 14:07:55 1164

原创 hive单词统计

需统计的单词hello hadoop hive sparkjava python php c hellojava hadoophello java java需创建的表--创建表wc,用来存储单词,是外部表,上面的数据在hdfs的目录位置为/root/wc/wccreate external table wc(line string)location '/root/wc/'...

2019-06-06 10:49:10 599

转载 yum源替换成阿里源以及yum源替换成本地源

目录 1.what is yum?2.where is yum?更换国外源为阿里的仓库更换repo为本地目录源:更换国外源为网易的仓库:更换repo为本地目录源1.what is yum?Shell前端软件包管理器。基于RPM包管理,能够从指定的服...

2019-05-06 17:53:05 2368

原创 环境搭建--(1)虚拟机的安装

2019-04-17 21:20:23 234

转载 JobTracker和TaskTracker详解

一 概述:(1)Hadoop MapReduce采用Master/Slave结构。*Master:是整个集群的唯一的全局管理者,功能包括:作业管理、状态监控和任务调度等,即MapReduce中的JobTracker。*Slave:负责任务的执行和任务状态的回报,即MapReduce中的TaskTracker。二 JobTracker剖析:(1)概述:JobTracker是一个后台服务进程...

2019-03-13 11:07:39 21681 2

原创 spark partition 和HDFS的block

hdfs-block位于存储空间;spark-partition位于计算空间;hdfs-block的大小是固定的;spark-partition大小是不固定的;hdfs-block是有冗余的、不会轻易丢失;spark-partition(RDD)没有冗余设计、丢失之后重新计算得到;注意:textFile方法底层封装的是读取MR读取文件的方式,读取文件之前先split,默认split大...

2019-03-11 20:46:05 763

原创 Hadoop之mapreduce

JobTracker和TaskTracker一 概述:(1)Hadoop MapReduce采用Master/Slave结构。*Master:是整个集群的唯一的全局管理者,功能包括:作业管理、状态监控和任务调度等,即MapReduce中的JobTracker。*Slave:负责任务的执行和任务状态的回报,即MapReduce中的TaskTracker。二 JobTracker剖析:概述...

2019-03-07 15:22:45 2043

原创 Hadoop之HDFS

Hadoop简介http://hadoop.apache.org分布式存储系统HDFS (Hadoop Distributed File System )POSIX• 分布式存储系统• 提供了 高可靠性、高扩展性和高吞吐率的数据存储服务-分布式计算框架MapReduce• 分布式计算框架(计算向数据移动)• 具有 易于编程、高容错性和高扩展性等优点-分布式资源管理框架YARN...

2019-03-07 15:16:59 163

转载 Oracle中的wm_concat函数用法

      在日常的数据查询过程中,经常遇到一条信息分多条记录存储,并以同一个ID关联的情况,比如常见的房产证权利人信息,因为共有权人可能有很多,不可能把所有的权利人都放到权利人表的权利人字段,把所有权利人的证件号都放到权利人证件号字段,所以在数据库设计时候,会采用一个权利人一条记录,并以权利ID关联的方式存...

2019-01-30 14:52:34 37899

原创 nginx的安装

nginx的安装其实很简单,写这篇博客的主要原因是想说下nginx的启动配置成服务启动。资源下载:安装步骤1、需要安装的依赖yum -y install gcc zlib zlib-devel pcre-devel openssl openssl-devel2、解压tar -zxvf tengine-2.1.0.tar.gz3、安装修改文件名mv tengine-2.1.0...

2019-01-17 09:52:14 120

原创 设计模式--单例模式

核心作用保证一个类只有一个实例,并且提供一个访问该实例的全局访问点。常见应用场景– Windows的Task Manager(任务管理器)就是很典型的单例模式– windows的Recycle Bin(回收站)也是典型的单例应用。在整个系统运行过程中,回收站一直维护着仅有的一个实例。– 项目中,读取配置文件的类,一般也只有一个对象。没有必要每次使用配置文件数据,每次new一个对象去读取。...

2019-01-11 14:29:47 126

转载 java内存分析

java内存分析参考链接:https://blog.csdn.net/chendeyou5/article/details/79448638java虚拟机内存可以分为三个区域:堆(heap)、栈(stack)、方法区(method area)在Java中,对象实例都是在堆上创建。一些类信息,常量,静态变量等存储在方法区。堆和方法区都是线程共享的。堆是一个不连续的内存空间,速度慢。用于存...

2019-01-10 09:59:57 271 1

原创 hive(1)hive原理

hive的产生非java编程者对HDFS的数据做MapReduce的操作。hive简介hive:数据仓库hive:解释器,编译器,优化器等hive:运行时,元数据存储在关系型数据库里面什么是hiveHive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机...

2019-01-08 14:59:23 187

转载 一套Oracle SQL练习题及答案

create table student(sno varchar2(10) primary key,sname varchar2(20),sage number(2),ssex varchar2(5));create table teacher(tno varchar2(10) primary key,tname varchar2(20));create table cours...

2018-11-15 13:22:25 856 1

转载 022_Hadoop中的数据类型(Writable、WritableComparable、Comparator、RawComparator…)

1、 在hadoop中所有的key/value都必须实现Writable接口,有两个方法,分别用于读(反序列化)和写(序列化)操作。参考代码: 1 package org.dragon.hadoop.mapreduce.app; 2 3 import java.io.DataInput; 4 import java.io.DataOutput; 5 import ja...

2018-10-30 14:08:19 213

转载 MapReduce shuffle过程详解

一、MapReduce计算模型我们知道MapReduce计算模型主要由三个阶段构成:Map、shuffle、Reduce。Map是映射,负责数据的过滤分法,将原始数据转化为键值对;Reduce是合并,将具有相同key值的value进行处理后再输出新的键值对作为最终结果。为了让Reduce可以并行处理Map的结果,必须对Map的输出进行一定的排序与...

2018-10-30 09:46:24 277

转载 Hadoop HDFS高可用(HA)

转载自:https://blog.csdn.net/bingduanlbd/article/details/519465402016-07-19 凌晨 初稿在Hadoop 1.x 中,Namenode是集群的单点故障,一旦Namenode出现故障,整个集群将不可用,重启或者开启一个新的Namenode才能够从中恢复。值得一提的是,Secondary Namenode并没有提供故障转移的能力...

2018-10-23 14:17:32 277

原创 Hadoop2.0中HDFS高可用性的实现原理

在Hadoop1.0中,NameNode在HDFS集群中存在单点故障问题,每一个集群中只存在一个NameNode,如果NameNode所在的机器出现故障,那么整个集群就无法利用,直到NameNode重启或在另一台主机上启动NameNode守护进程。因此,有两个因素影响了HDFS的高可用性:(1)、在不可预知的情况下,如果NameNode所在的机器崩溃了,整个集群将无法利用,直到NameNode被...

2018-10-23 09:34:18 831

原创 HDFS读写流程

一,HDFS简介hdfs(Hadoop Distributed File System)是一个文件系统,用于存储文件,通过统一的命名空间——目录树来定位文件,并且是分布式的,由很多服务器联合起来实现其功能,集群中的服务器各自负责角色(角色即进程);重要特征:1.HDFS中的文件在物理上是分块存储(block),块的大小可以通过配置参数( dfs.blocksize)来规定,默认大小在hado...

2018-10-17 10:31:53 209

原创 linux系统openoffice安装步骤

看清楚自己下载的是rpm还是deb的,我下载的rpm的[root@node001 opt]# ll(1)解压压缩包[root@node001 opt]# tar -zxvf Apache_OpenOffice_4.1.5_Linux_x86-64_install-rpm_zh-CN.tar.gzzh-CN/zh-CN/RPMS/zh-CN/RPMS/openoffice-zh-CN-h...

2018-10-09 16:55:17 3725

原创 Linux免密码登录设置

准备两台服务器,A服务器:192.168.242.21B服务器:192.168.242.22首先在21的机器上生成密钥(如果已经生成可以跳过):$ ssh-keygen -t rsa使用上述命令回车三次即可生成秘钥和公钥;在根目录下使用命令ls -la来查看隐藏文件,如下图所示注意:生成秘钥的算法有三种,分别是ssh-keygen -t dsassh-keygen -t rs...

2018-10-08 09:51:32 404

spring boot.rar

Spring Boot是由Pivotal团队提供的全新框架,其设计目的是用来简化新Spring应用的初始搭建以及开发过程。该框架使用了特定的方式来进行配置,从而使开发人员不再需要定义样板化的配置。通过这种方式,Spring Boot致力于在蓬勃发展的快速应用开发领域(rapid application development)成为领导者。

2020-04-12

大数据资料(Hadoop、spark,hbase、hive、hue等)

大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

2020-03-08

elasticsrarch(ELK文档).rar

1. 能够理解ElasticSearch的作用以及实际生产环境下的应用场景 2. 完成ElasticSearch服务安装--6.8,7 3. 理解ElasticSearch的相关概念以及对数据的存储方式 4. 能够使用Postman、kibana等工具完成ElasticSearch初步数据操作 5. 理解ElasticSearch工作原理(索引、analysis、mapping等) 6. 能够使用ElasticSearch集成IK分词器 7. 完成对ElasticSearch的索引和文档的CRUD操作 8. Request Body Search和Search API(URI)学习 9. 了解ElasticSearch集群优势 10. 完成ElasticSearch集群搭建及集群监控 11. 理解ElasticSearch集群内部运行机制 12. 了解Logstash使用方法 13. 完成Logstash安装以及

2020-02-29

Linux常用命令集合.docx

Linux常用命令集合,最基础的命令,但是一般工作中遇到的都有,欢迎大家下载使用哟,不足的地方欢迎大家指出,谢谢

2020-01-05

Kafka尚硅谷.rar

Kafka 是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域

2019-12-08

Oracle.rar

Oracle基础文档,其中含有Oracle基本语法的使用一些简单的案例,有sql基础练习题可以练习,欢迎初学者下载练习

2019-11-29

hive_elasticsearch_sql面试_大数据面试文档.rar

尚硅谷的hive、sql、elasticsearch、大数据文档,其中sql和hive文档是精髓,sql中包含了各个大公司的面试题,以及面试答案

2019-11-27

ES_SEARCH.rar

代码中的TestEsToFile实现了将elasticsearch中的数据全部写到的本地,并且还有我的一些其他的测试例子

2019-10-07

尚硅谷大数据技术之HBase.docx

含有hbase的原理介绍,从最基础讲起,一步步深入,基本设计了hbase的所有操作

2019-09-24

MySpark.zip

里面包含了sparkcore,sparksql,sparkstreaming以及用java写的

2019-09-16

spark调优.rar

spark调优方法介绍,涉及资源调优,内存,代码,shuffle,数据本地化等等方面的详细介绍,三分文档

2019-08-05

shell自制脚本.rar

本资源是对多台服务器自动升级的脚本,使用expect连接其他服务器,连接后启动各个服务器的脚本,进行杀进程,解压压缩包,在启动服务的操作

2019-05-16

bandicam 2018-09-09 16-49-47-139(rpm安装和yum源配置及安装)

(rpm安装和yum源配置及安装)将yum源替换成阿里源以及将yum源替换成本地源

2019-05-06

expect+tcl工具大合集,用于远程登陆到另外一台linux机器。

expect+tcl工具大合集,用于远程登陆到另外一台linux机器(大家都用的起)。

2019-04-28

tengine-2.1.0.tar.gz

tengine-2.1.0.tar.gz是阿里的开源的软件,和nginx一样,但是并发更好

2019-01-17

Apache_OpenOffice_4.1.5_Linux_x86-64_install-rpm_zh-CN.tar.gz

Apache_OpenOffice_4.1.5_Linux_x86-64_install-rpm_zh-CN.tar.gz安装包

2018-10-09

shell杀服务进程,解压压缩包以及起服务

shell杀weblogic服务进程,解压压缩包以及启动weblogic服务

2018-08-15

shell解压zip压缩包脚本

使用shell写的解压zip压缩包的脚本,可对有规律的文件进行循环解压

2018-07-16

Oracle常用技术

记录了Oracle常用技术,有兴趣的小伙伴可以下载查看,有什么意见也可以评论区分享出来

2018-07-16

dom4j所需jar包

要使dom4j解析xml,必须要有两个jar包,分别是 dom4j-1.6.1.jar 和jaxen-1.1.6.jar,不然会报错。

2018-02-24

Java多线程编程核心技术pdf以及源代码

Java多线程编程核心技术pdf,以及每章节的源代码。欢迎使用,童叟无欺

2018-02-07

quartz所需jar包.rar

quartz所需jar包.rar

2018-01-06

tomcat7_linux

linux系统的tomcat,欢迎大家来下载,不好用找我,在给你找好的

2017-10-24

微信支付 java后端demo

完整的demo,相信很多做微信支付的都会走很多坑,这个demo可以让你少走很多坑

2017-10-16

testspringmvc

测试好的ssm框架,直接打开运行即可

2017-08-27

2017java面试题

2017年大公司java面试题

2017-08-19

AESEncrypt

aes加解密

2017-08-18

sun.misc.BASE64Decoder

base64jar包

2017-08-18

mybatis逆向工程

mybatis逆向工程

2017-08-14

spring+Mybatis+ PageHelper实现分页

spring+Mybatis+ PageHelper实现分页

2017-08-01

ssh for windows

ssh服务

2017-07-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除