辣条好辣-CSDN博客

原创并发并行进程线程

1)多线程程序在单核上运行，就是并发2)多线程程序在多核上运行，就是并行。

2023-04-07 12:33:17 704 1

转载 spark 读取hive数据写入hbase

1，saveAsNewAPIHadoopDataset批量写入（千万级别以下使用）import org.apache.hadoop.hbase.client._import org.apache.hadoop.hbase.io.ImmutableBytesWritableimport org.apache.hadoop.hbase.mapreduce.TableOutputFormatim...

2020-03-22 17:37:25 2320 2

原创 Collection 和 map 集合底层数据结构介绍

一、集合框架图二、collection集合方法三、collection和map数据结构 Collection(单列集合) List(有序,可重复) ArrayList 底层数据结构是数组,查询快,增删慢线程不安全,效率高 Vector ...

2020-02-17 20:54:51 738

转载使用spark写数据到Hbase的三种方式

方式一：直接使用HBase Table的PUT方法import org.apache.hadoop.hbase.{HBaseConfiguration, TableName}import org.apache.hadoop.hbase.client.{ConnectionFactory, Put, Table}import org.apache.hadoop.hbase.util.Byt...

2020-01-01 23:03:05 1174

kafka视频地址这篇文章主要介绍kafka中JAVA API的使用，这里面为了介绍配置，所以使用的是原生的javaapi操作，kafka可以与spring通过xml配置集成，或者更加简单通过spring boot引入starter，通过（AutoConfiguration）自动配置完成集成。但其实无论何种使用方式，其根本都是使用原生pai进行操作。使用maven依赖管理，引入kafka依赖...

2019-12-09 22:57:30 979

转载 hbase行键过滤器RowFilter

转载地址 https://my.oschina.net/u/3346994/blog/1923976行过滤器视频链接RowFilter是用来对rowkey进行过滤的,比较符如下:OperatorDescriptionLESS小于LESS_OR_EQUAL小于等于EQUAL等于NOT_EQUAL不等于GREATER_OR_EQUAL大于等于...

2019-12-03 22:44:16 260

原创 hbase 预分区建表以及rowkey设计

hbase 预分区建表create 'table_name',{NAME =>'cf',VERSIONS => '1',COMPRESSION =>'SNAPPY'}, SPLITS_FILE => '/root/data/partition.txt'其中partition.txt是一个本地文件可以看下表的分区情况，如下被分成了十个分区对应rowkey 设计...

2019-10-28 23:26:52 923

原创 elasticsearch 官方文档阅读指导

elastic官网链接点开文档之后会有很多对我们有帮助的文档然后是ELK方面

2019-10-27 22:35:18 425

原创 spring boot整合elasticsearch以及elasticsearch相关文档

参考链接：https://blog.csdn.net/chen_2890/article/details/83895646

2019-10-16 17:23:09 130

转载 Spark分区数、task数目、core数目、worker节点数目、executor数目梳理

转载地址每一个过程的任务数，对应一个inputSplit1, Partition输入可能以多个文件的形式存储在HDFS上，每个File都包含了很多块，称为Block。当Spark读取这些文件作为输入时，会根据具体数据格式对应的InputFormat进行解析，一般是将若干个Block合并成一个输入分片，称为InputSplit，注意InputSplit不能跨越文件。随后将为这些输入分片生...

2019-10-14 22:33:41 712

转载 Hive 外部表关联分区数据

0. 说明已经安装好Hadoop和hive环境，hive把元数据存储在mysql数据库。这里仅讨论外部表和HDFS的关联，并且删掉外部表之后，对HDFS上的文件没有影响1. 在HDFS创建分区，并存有文件手工创建或者由程序在HDFS上生成了分区目录，每个分区目录下有相应的文件。本例中根据day分了两个分区，如下所示：/test/in/day=20/20.txt/test/in/day=...

2019-09-25 18:43:56 525

原创读取HDFS文件中的数据写入到HBase的表中

mapperpackage com.shengsiyuan.hdfs_to_hbase;import java.io.IOException;import org.apache.hadoop.hbase.client.Put;import org.apache.hadoop.hbase.io.ImmutableBytesWritable;import org.apache.hadoo...

2019-09-04 23:41:49 1834 1

原创 spark shuffle调优

1:sparkconf.set(“spark.shuffle.file.buffer”,“64K”) --不建议使用，因为这么写相当于硬编码 --最高2：在conf/spark-defaults.conf —不建议使用，相当于硬编码 --第三3：./spark-submit --conf spark.shuffle.file.buffer=64 --conf spark.reducer.max...

2019-08-05 16:14:49 485

原创 spark调优

Spark优化参考资料文档下载地址：https://download.csdn.net/download/qq_36306340/11472932分配更多的资源○ 搭建集群(Spark-env.sh)■ SPARK_WORKE_CORES■ SPARK_WORKER_MEMORY○ 提交任务■ ./spark-submit --master node:port --executor-...

2019-08-05 13:14:38 172

原创 JVM面试总结

JVM面试思考准备一.jvm体系总体分四大块：1.类的加载机制2.jvm内存结构3.GC算法垃圾回收4.GC分析命令调优二.类的加载机制1.什么是类的加载类的加载指的是将类的.class文件中的二进制数据读入到内存中，将其放在运行时数据区的方法区内，然后在堆区创建一个java.lang.Class对象，用来封装类在方法区内的数据结构。类的加载的最终产品是位于堆区中的Class...

2019-07-30 13:39:38 216

转载正则表达式

https://www.jb51.net/tools/shell_regex.html链接下方有练习

2019-06-27 09:20:24 98

转载 HBase shell 命令介绍

HBase shell是HBase的一套命令行工具，类似传统数据中的sql概念，可以使用shell命令来查询HBase中数据的详细情况。安装完HBase之后，如果配置了HBase的环境变量，只要在shell中执行hbase shell就可以进入命令行界面，HBase的搭建可以参考我的上一篇文章：hbase分布式集群搭建HBase介绍HBase简介HBase的名字的来源于Hadoop data...

2019-06-25 19:50:41 190

原创 Hadoop集群启动命令及相关介绍

出去就用hive ，hbase 和 spark（最好学号Scala，）nc -lk 9999(1)判断是物理机还是虚拟机dmesg | grep -i virtual查看系统版本号和系统位数cat /etc/issue && arch(2)查看隐藏文件ll -la(3)查看目录下的所有文件及大小ll -h(4)查看该目录下的文件及文件大小du -sh *|so...

2019-06-25 10:26:30 12653

原创 hive分区以及动态分区

hive静态分区（hive分区主要是为了提高检索效率，内部表和外部表都可以创建分区）hive静态分区操作静态分区操作数据1,小明1,lol-book-move,beijing:shangxuetang-shanghai:pudong2,小明2,lol-book-move,beijing:shangxuetang-shanghai:pudong3,小明3,lol-book-move,b...

2019-06-06 14:07:55 1164

原创 hive单词统计

需统计的单词hello hadoop hive sparkjava python php c hellojava hadoophello java java需创建的表--创建表wc,用来存储单词，是外部表，上面的数据在hdfs的目录位置为/root/wc/wccreate external table wc(line string)location '/root/wc/'...

2019-06-06 10:49:10 599

转载 yum源替换成阿里源以及yum源替换成本地源

目录 1.what is yum?2.where is yum?更换国外源为阿里的仓库更换repo为本地目录源：更换国外源为网易的仓库：更换repo为本地目录源1.what is yum?Shell前端软件包管理器。基于RPM包管理，能够从指定的服...

2019-05-06 17:53:05 2368

原创环境搭建--（1）虚拟机的安装

2019-04-17 21:20:23 234

转载 JobTracker和TaskTracker详解

一概述：(1)Hadoop MapReduce采用Master/Slave结构。*Master：是整个集群的唯一的全局管理者，功能包括：作业管理、状态监控和任务调度等，即MapReduce中的JobTracker。*Slave：负责任务的执行和任务状态的回报，即MapReduce中的TaskTracker。二 JobTracker剖析：(1)概述：JobTracker是一个后台服务进程...

2019-03-13 11:07:39 21681 2

原创 spark partition 和HDFS的block

hdfs-block位于存储空间；spark-partition位于计算空间；hdfs-block的大小是固定的；spark-partition大小是不固定的；hdfs-block是有冗余的、不会轻易丢失；spark-partition（RDD）没有冗余设计、丢失之后重新计算得到；注意：textFile方法底层封装的是读取MR读取文件的方式，读取文件之前先split，默认split大...

2019-03-11 20:46:05 763

原创 Hadoop之mapreduce

JobTracker和TaskTracker一概述：(1)Hadoop MapReduce采用Master/Slave结构。*Master：是整个集群的唯一的全局管理者，功能包括：作业管理、状态监控和任务调度等，即MapReduce中的JobTracker。*Slave：负责任务的执行和任务状态的回报，即MapReduce中的TaskTracker。二 JobTracker剖析：概述...

2019-03-07 15:22:45 2043

原创 Hadoop之HDFS

Hadoop简介http://hadoop.apache.org分布式存储系统HDFS （Hadoop Distributed File System ）POSIX• 分布式存储系统• 提供了高可靠性、高扩展性和高吞吐率的数据存储服务-分布式计算框架MapReduce• 分布式计算框架（计算向数据移动）• 具有易于编程、高容错性和高扩展性等优点-分布式资源管理框架YARN...

2019-03-07 15:16:59 163

转载 Oracle中的wm_concat函数用法

      在日常的数据查询过程中，经常遇到一条信息分多条记录存储，并以同一个ID关联的情况，比如常见的房产证权利人信息，因为共有权人可能有很多，不可能把所有的权利人都放到权利人表的权利人字段，把所有权利人的证件号都放到权利人证件号字段，所以在数据库设计时候，会采用一个权利人一条记录，并以权利ID关联的方式存...

2019-01-30 14:52:34 37899

原创 nginx的安装

nginx的安装其实很简单，写这篇博客的主要原因是想说下nginx的启动配置成服务启动。资源下载：安装步骤1、需要安装的依赖yum -y install gcc zlib zlib-devel pcre-devel openssl openssl-devel2、解压tar -zxvf tengine-2.1.0.tar.gz3、安装修改文件名mv tengine-2.1.0...

2019-01-17 09:52:14 120

原创设计模式--单例模式

核心作用保证一个类只有一个实例，并且提供一个访问该实例的全局访问点。常见应用场景– Windows的Task Manager（任务管理器）就是很典型的单例模式– windows的Recycle Bin（回收站）也是典型的单例应用。在整个系统运行过程中，回收站一直维护着仅有的一个实例。– 项目中，读取配置文件的类，一般也只有一个对象。没有必要每次使用配置文件数据，每次new一个对象去读取。...

2019-01-11 14:29:47 126

转载 java内存分析

java内存分析参考链接：https://blog.csdn.net/chendeyou5/article/details/79448638java虚拟机内存可以分为三个区域：堆(heap)、栈(stack)、方法区(method area)在Java中，对象实例都是在堆上创建。一些类信息，常量，静态变量等存储在方法区。堆和方法区都是线程共享的。堆是一个不连续的内存空间，速度慢。用于存...

2019-01-10 09:59:57 271 1

原创 hive(1)hive原理

hive的产生非java编程者对HDFS的数据做MapReduce的操作。hive简介hive：数据仓库hive：解释器，编译器，优化器等hive：运行时，元数据存储在关系型数据库里面什么是hiveHive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机...

2019-01-08 14:59:23 187

转载一套Oracle SQL练习题及答案

create table student(sno varchar2(10) primary key,sname varchar2(20),sage number(2),ssex varchar2(5));create table teacher(tno varchar2(10) primary key,tname varchar2(20));create table cours...

2018-11-15 13:22:25 856 1

转载 022_Hadoop中的数据类型（Writable、WritableComparable、Comparator、RawComparator…）

1、在hadoop中所有的key/value都必须实现Writable接口，有两个方法，分别用于读（反序列化）和写（序列化）操作。参考代码： 1 package org.dragon.hadoop.mapreduce.app; 2 3 import java.io.DataInput; 4 import java.io.DataOutput; 5 import ja...

2018-10-30 14:08:19 213

转载 MapReduce shuffle过程详解

一、MapReduce计算模型我们知道MapReduce计算模型主要由三个阶段构成：Map、shuffle、Reduce。Map是映射，负责数据的过滤分法，将原始数据转化为键值对；Reduce是合并，将具有相同key值的value进行处理后再输出新的键值对作为最终结果。为了让Reduce可以并行处理Map的结果，必须对Map的输出进行一定的排序与...

2018-10-30 09:46:24 277

转载 Hadoop HDFS高可用（HA）

转载自：https://blog.csdn.net/bingduanlbd/article/details/519465402016-07-19 凌晨初稿在Hadoop 1.x 中，Namenode是集群的单点故障，一旦Namenode出现故障，整个集群将不可用，重启或者开启一个新的Namenode才能够从中恢复。值得一提的是，Secondary Namenode并没有提供故障转移的能力...

2018-10-23 14:17:32 277

原创 Hadoop2.0中HDFS高可用性的实现原理

在Hadoop1.0中，NameNode在HDFS集群中存在单点故障问题，每一个集群中只存在一个NameNode，如果NameNode所在的机器出现故障，那么整个集群就无法利用，直到NameNode重启或在另一台主机上启动NameNode守护进程。因此，有两个因素影响了HDFS的高可用性：（1）、在不可预知的情况下，如果NameNode所在的机器崩溃了，整个集群将无法利用，直到NameNode被...

2018-10-23 09:34:18 831

原创 HDFS读写流程

一，HDFS简介hdfs（Hadoop Distributed File System）是一个文件系统，用于存储文件，通过统一的命名空间——目录树来定位文件,并且是分布式的，由很多服务器联合起来实现其功能，集群中的服务器各自负责角色（角色即进程）；重要特征：1.HDFS中的文件在物理上是分块存储（block），块的大小可以通过配置参数( dfs.blocksize)来规定，默认大小在hado...

2018-10-17 10:31:53 209

原创 linux系统openoffice安装步骤

看清楚自己下载的是rpm还是deb的，我下载的rpm的[root@node001 opt]# ll（1）解压压缩包[root@node001 opt]# tar -zxvf Apache_OpenOffice_4.1.5_Linux_x86-64_install-rpm_zh-CN.tar.gzzh-CN/zh-CN/RPMS/zh-CN/RPMS/openoffice-zh-CN-h...

2018-10-09 16:55:17 3725

原创 Linux免密码登录设置

准备两台服务器，A服务器：192.168.242.21B服务器：192.168.242.22首先在21的机器上生成密钥（如果已经生成可以跳过）：$ ssh-keygen -t rsa使用上述命令回车三次即可生成秘钥和公钥；在根目录下使用命令ls -la来查看隐藏文件，如下图所示注意：生成秘钥的算法有三种，分别是ssh-keygen -t dsassh-keygen -t rs...

2018-10-08 09:51:32 404

spring boot.rar

Spring Boot是由Pivotal团队提供的全新框架，其设计目的是用来简化新Spring应用的初始搭建以及开发过程。该框架使用了特定的方式来进行配置，从而使开发人员不再需要定义样板化的配置。通过这种方式，Spring Boot致力于在蓬勃发展的快速应用开发领域(rapid application development)成为领导者。

2020-04-12

大数据资料（Hadoop、spark，hbase、hive、hue等）

大数据（big data），IT行业术语，是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

2020-03-08

elasticsrarch(ELK文档).rar

1. 能够理解ElasticSearch的作用以及实际生产环境下的应用场景 2. 完成ElasticSearch服务安装--6.8，7 3. 理解ElasticSearch的相关概念以及对数据的存储方式 4. 能够使用Postman、kibana等工具完成ElasticSearch初步数据操作 5. 理解ElasticSearch工作原理（索引、analysis、mapping等） 6. 能够使用ElasticSearch集成IK分词器 7. 完成对ElasticSearch的索引和文档的CRUD操作 8. Request Body Search和Search API(URI)学习 9. 了解ElasticSearch集群优势 10. 完成ElasticSearch集群搭建及集群监控 11. 理解ElasticSearch集群内部运行机制 12. 了解Logstash使用方法 13. 完成Logstash安装以及

2020-02-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

spring boot.rar

大数据资料（Hadoop、spark，hbase、hive、hue等）

elasticsrarch(ELK文档).rar

Linux常用命令集合.docx

Kafka尚硅谷.rar

Oracle.rar

hive_elasticsearch_sql面试_大数据面试文档.rar

ES_SEARCH.rar

尚硅谷大数据技术之HBase.docx

MySpark.zip

spark调优.rar

shell自制脚本.rar

bandicam 2018-09-09 16-49-47-139(rpm安装和yum源配置及安装)

expect+tcl工具大合集，用于远程登陆到另外一台linux机器。

tengine-2.1.0.tar.gz

Apache_OpenOffice_4.1.5_Linux_x86-64_install-rpm_zh-CN.tar.gz

shell杀服务进程，解压压缩包以及起服务

shell解压zip压缩包脚本

Oracle常用技术

dom4j所需jar包

Java多线程编程核心技术pdf以及源代码

quartz所需jar包.rar

tomcat7_linux

微信支付 java后端demo

testspringmvc

2017java面试题

AESEncrypt

sun.misc.BASE64Decoder

mybatis逆向工程

spring+Mybatis+ PageHelper实现分页

ssh for windows

空空如也