自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

C_CXY2333的博客

专于技术

  • 博客(52)
  • 收藏
  • 关注

原创 Spark

SparkSpark的特性:1、RDD是什么:RDD时弹性分布数据集,是Spark中最基本的数据抽象概念,代表一个不可变的,可分区的,内部元素可以并行计算的集合。RDD的特性:1)rdd由一组分片组成2)使用一些算子计算RDD中的每个分片的数据3)每次转换生成一个新的RDD4)基于HashParitioner或RangePartitioner进行重分区5)尽可能移动计算而不移动数据2、容错机制1、Lineage(血统)机制:Lineage记录的是粗颗粒度的特定数据Trans

2021-08-02 00:36:03 378

原创 《恶意》读后感

《恶意》读后感-----------------------------------东野圭吾背景&目的:这大概是我真正意义上读的第一本书,虽然之前也零碎的读过一些书,但都是跳跃性的在读。为什么我要开始读书呢?(1)我觉得自己表达能力与周围人相比偏弱,想通过读书提高自己的表达能力;(2)一直很崇拜饱读诗书的朋友,觉得他们有一种气质,深深的吸引着我;(3)自己一直被短视频冲击着,闲暇时间都是在刷短视频,想找一个短视频的替代者;(4)自己性格比较急躁,想通过阅读磨炼自己的性子。引用:

2021-08-02 00:32:39 181

原创 Hive

HiveHive的架构:1、Hive的架构:2、Hive的运行过程:1、用户提交查询任务给Driver。2、Antlr解析器将SQL转换为抽象语法树AST Tree。3、遍历AST Tree,抽出基本的查询单元QueryBlock。4、遍历QueryBlock,翻译为执行操作树OperatorTree。5、逻辑层优化器进行OperatorTree变换,合并不必要的ReduceSinkOperator减少Shuffle。6、遍历OperatorTree,翻译为MapReduce任务。7、

2020-05-25 00:03:18 372

原创 Hadoop知识点整理

HadoopHadoop组件及架构:1、YARN组件:- ResourceManager:全局资源管理器,负责和ApplicationMaster交互和资源调度,资源分配- ApplicationManager:ResourceManager组件,负责接收作业提交,协商启动Container- Scheduler:ResourceManager组件,负责作业调度(公平调度或容器调度)- NodeManager:一台机器上的管理者,负责和ResourceManager与ApplicationMas

2020-05-25 00:00:31 294

原创 JVM知识点整理

JVM知识点整理内存管理机制:1、JVM内存的划分[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0sOTRovc-1590335886006)(.\imgs\JVM体系架构图.png)]JVM内存主要分为:heap(堆)、Method Area(方法区)、Java Stack(Java栈)、Native Method Stack(本地方法栈)、Program Counter Register(程序计数器)。1、heap(堆):一个JVM实例只存在一个堆内存,堆内存

2020-05-24 23:58:56 250

原创 JAVA知识点整理

JAVA知识点整理JAVA关键字:1、static1.1、static的基本使用1、static关键字介绍总结:方便在没有创建对象的情况下进行调用。也就是说,static修饰的不需要创建对象去调用,直接根据类名就可以去调用。因为静态变量随着类加载时被完成初始化,他们在内存中仅有一个,且JVM也会只为他们分配一次内存。使用场景:对象之间共享数据,方便访问。2、static的使用方法: static一般用来修饰成员变量或方法(有一种特殊的用法,用static修饰内部类,普通类时不允许声明位

2020-05-24 23:57:41 447

原创 唯一ID生成器snowflake

唯一ID生成器snowflake/ˈsnəʊfleɪk/1、应用场景很多场景需要使用全局唯一ID,用来标识唯一一条消息,唯一一笔交易,唯一一个用户,唯一一张图片等等。传统数据库表的自增主键是很简单的一种实现方式,前提是你没有分库,也没有分表,如果你分表了,id就会重复,失去唯一性:2、之前了解2.1、时间戳用时间做唯一id,这个在并发比较高或者分布式环境中基本不可行,统一时间...

2020-03-17 10:10:17 188

原创 Flume数据流监控

Flume数据流监控1、Ganglia的安装和部署1.1、安装httpd服务与phpyum -y install httpd php1.2、安装其他依赖yum -y install rrdtool perl-rrdtool rrdtool-develyum -y install apr-devel1.3、安装gangliarpm -Uvh http://dl.fedorapro...

2019-10-24 19:02:13 455

原创 RPC浅谈

RPC浅谈1、概念理解:1.1、RPCRPC, 远程过程调用(Remote Procedure Call,RPC)是一个计算机通信协议,该协议允许运行于一台计算机的程序程调用另一台计算机的上的程序。通俗讲,RPC通过把网络通讯抽象为远程的过程调用,调用远程的过程就像调用本地的子程序一样方便,从而屏蔽了通讯复杂性,使开发人员可以无需关注网络编程的细节,将更多的时间和精力放在业务逻辑本身的实现上...

2019-10-10 09:05:23 318

原创 一致性哈希

一致性哈希1、产生由来:随着时代的发展,数据量与日俱增,相比纵向扩展单机的性能,人们更倾向于横向扩展,将多台一般的廉价机器组成集群来充当超级计算机,节省了大量的成本,代价是极大地增加了系统的复杂性。为了应对这些复杂性,一批又一批分布式领域的技术相继诞生,其中不乏一些看过之后令人拍案叫绝的精彩的想法。从存储来说,数据量大的时候,一台机器不能胜任时,那么通常的做法是将数据分片,存储到多台机器上...

2019-10-07 20:10:07 187

原创 Bloom Filter:布隆过滤器

详解Bloom Filter :布隆过滤器**应用场景:**现在有大量的数据,而这些数据的大小已经远远超出了服务器的内存,现在再给你一个数据,如何判断给你的数据在不在其中。如果服务器的内存足够大,那么用HashMap是一个不错的解决方案,理论上的时间复杂度可以达到O(1),但是现在数据的大小已经远远超出了服务器的内存,所以无法使用HashMap,这个时候就可以使用“布隆过滤器”来解决这个问题。...

2019-10-07 18:03:59 230

原创 bit和byte有什么不同?

bit和byte有什么不同?1、名称不同bit是比特,是英文 binary digit的缩写。而Byte是字节又叫bait。2、意义不同bit是表示信息的最小单位,是二进制数的一位包含的信息或2个选项中特别指定1个的需要信息量。一般来说,n比特的信息量可以表现出2的n次方种选择。而Byte是计算机信息技术用于计量存储容量的一种计量单位,通常情况下一字节等于八位,也表示一些计算机编程语言中...

2019-10-07 14:36:05 1016

原创 哈希函数

哈希函数定义:Hash,一般翻译做散列、杂凑,或音译为哈希,是把任意长度的输入(又叫做预映射pre-image)通过散列算法变换成固定长度的输出,该输出就是散列值。这种转换是一种压缩映射,也就是,散列值的空间通常远小于输入的空间,不同的输入可能会散列成相同的输出,所以不可能从散列值来确定唯一的输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。特点:1、input:是...

2019-09-23 10:53:07 1583

原创 dataX 阿里云开源离线同步工具

dataX 阿里云开源离线同步工具1、Datax 概要DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能1.1设计理念为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源...

2019-09-21 15:45:04 479

原创 自定义UDTF

自定义UDFT函数 (一进多出)实现方法1、继承GenericUDTF2、实现: initizliza() :调一次 process ():一行数据,调一次 close():调一次过程package udtf;//udtf.MyUDTFimport org.apache.hadoop.hive.ql.exec.UDFArgumentException;import...

2019-09-21 10:40:43 251

原创 HDFS Shell命令

HDFSShell命令ps: 无论是 hadoop fs 还是 hdfs dfs 命令效果都是一样   都是操作HDFS文件系统     1.put 从本地文系统中 复制文件到 HDFS系统中(上传文件)hdfs dfs -put 本地文件路径(操作系统中文件所存储的位置) HDFS文件系统路径 例如: hdfs dfs -put /root/insta...

2019-09-21 10:39:19 200

原创 hive静态分区和动态分区的理解

hive静态分区和动态分区的详解需要建立一个备份带分区的数据表,拷贝时若采用静态分区方式需要写 N 行语句,因此可以使用动态分区,节省大量时间。Hive 的分区方式:由于 Hive 实际是存储在 HDFS 上的抽象,Hive 的一个分区名对应一个目录名,子分区名就是子目录名,并不是一个实际字段。一、hive中支持两种类型的分区静态分区 (static partition)动态分...

2019-09-21 10:38:33 768

原创 hive难点以及例子SXT

一、炸裂函数注意点1、只取炸裂字段selectexplode(字段名)from表名2、原表中的字段和炸裂字段select表中字段,列的别名from 表名lateral view explode(字段名) 炸裂开表的别名 as 列的别名二、partition by 与 distribute bypartition by name order by orderdate...

2019-09-21 10:37:02 442

原创 sqoop 完整学习和遇到的错误

sqoop 学习与问题配置问题:centos7 与sqoop1.4.7,使用比较好一些。centos6与sqoop1.4.6一起使用比较好一些。如果在centos6版本中使用sqoop1.4.7会需要修改很多配置。具体会在后面提到1、sqoop原理实现数据的导入导出将导入或到处命令翻译成mapreduce程序来实现的在翻译出的mapreduce中主要是对inputformat和out...

2019-09-21 10:36:27 611

原创 left semi join 和 left join 区别

left semi join 和 left join 联系和区别1、都是左表连接,但是semi join右表关联不左表也不会出来,left join不一样2、semi join只能查询左表信息,left join可以查询所有3、semi join是left join的一种优化4、semi join一般使用查询存在的情况例子:数据准备:1,a2,b3,c4,d7,y8,u...

2019-09-21 10:34:22 1829

原创 hadoop拒绝history通过19888端口连接查看已完成的job的日志

hadoop拒绝history通过19888端口连接查看已完成的job的日志1、查看 mapred_site.xml<property> <name>mapreduce.jobhistory.address</name> <value>hadoop01:10020</value></property><!...

2019-09-20 15:51:54 764

原创 linux设置时间和hdfs上时间同步配置

linux设置时间和hdfs上时间同步配置1.date -s2.配置时间服务器,集群的其他机器都跟namenode所在机器同步时间2.1服务器检查ntp是否安装,如果未安装,则安装 服务器上需要安装ntp服务 同步机器上只要安装ntpdate yum list | grep ntp yun install -y ntp.x86_64 启动ntpd服务,且设置为开机自启 serv...

2019-09-20 11:43:08 596

原创 hadoop完全分布安装思路

hadoop完全分布规划:ip主机名服务192.168.79.7hadoop01namenode\datanode\resourcemanager\nodemanager\jobhistoryserver192.168.79.8hadoop02datanode\nodemanager\secondarynamenode192.168.79.9hado...

2019-09-20 11:42:11 246

原创 HDFS读写流出以及集群安全

HDFS读写流出&集群安全模式&HDFS高可用(HA)1、HDFS读写流出[外链图片转存失败(img-0jDfUFaz-1568857049920)(C:\Users\12847\Desktop\NOTES\Apart03Hadoop\img\20190830130545.png)][外链图片转存失败(img-QtXgxomq-1568857049923)(C:\Users\...

2019-09-20 11:41:16 136

原创 hadoop配置文件解析

hadoop配置1、hadoop-env.sh1、配置堆内存大小HADOOP_HAPHSIZE2、HADOOP_LOG_DIR 配置3、HADOOP_PID_DIR配置2、core-site.xmlrpc:主要用于节点之间的通信http:适量数据 secondatanametcp: 大文件 fs.defaultFS hdfs://hp01:9000 hadoo...

2019-09-19 09:38:36 219

原创 hadoop历史背景&hdfs分布式文件系统&hadoop的集群模式&单机模式&伪分布

hadoop历史背景&hdfs分布式文件系统&hadoop的集群模式&单机模式&伪分布1、hadoop的历史背景lucense ---->nutch---->hadoophadoop的思想来源:google的三大论文(GFS、mapreduce、bigtable)hadoop的分为6块:1、Hadoop Common: The common u...

2019-09-19 09:35:34 562

原创 linux常用指令04--防火墙操作

1.防火墙防火墙是根据配置文件/etc/sysconfig/iptables来控制本机的“出,入”网络访问行为Filter表 主要跟进入Linux本机的数据包有关,过滤数据包,默认表INPUT链 过滤所有目标地址是本机的数据。(对进入本机的数据包进行过滤)OUTPUT链 过滤本机产生的数据(对源地址是本机的数据包进行过滤)FORWARD链 过滤所有路过本机的数据包(源地址和目的地址都不是...

2019-09-12 00:59:52 160

原创 Shell编程基本语法详解

Shell编程介绍:什么是shell脚本编程shell是一个由C语言编写的,shell即是一种语言也是一种命令,是用户和Linux沟通的桥梁,shell脚本(shell script)是一种为shell编写的脚本语言,可以理解为一个可执行的Linux命令集合shell解释器shell编程和java,php等语言一样,只需要一个文本编辑器和一个解释器常见的shell解释器:bo...

2019-09-12 00:58:55 679

原创 linux常用指令02

系统管理操作ll /dev/cdrom:查光驱挂载外部设备:1.挂载光驱,通过挂载可以读取里面的内容创建挂载目录/mkdir /mnt/cdrommount -t iso9660 -o ro /dev/cdrom /mnt/cdrom2.挂载光盘镜像文件secureCRT上传文件:打开sftp工具mkdir /mnt/centosmount -t iso9660 -o loop...

2019-09-12 00:57:56 457

原创 Linux常用指令01

lInux常用指令1.linux帮助命令man command 按q键退出info command 按q键退出tab键自动补全Ctrl+R 查找历史输入过的命令Ctrl+C 终止当前进程Ctrl+Z 挂起当前进程bg 1---- jobid 进程在后台运行fg 1 --挂起的进程在前面运行2.查看系统信息的常用命令uname -a/r/n:显示系统所有信息cat /proc...

2019-09-12 00:55:57 324

原创 学习JSON

一.JSON语法JSON的全称是”JavaScript Object Notation”,意思是javascript对象表示法,它是一种基于文本,独立于语言的轻量级数据交换格式。1.JSON的格式JSON 数据的书写格式是键(名称)/值对。JSON 键值对是用来保存 JS 对象的一种方式,和 JS 对象的写法也大同小异,键/值对包括字段名称(在双引号中),后面写一个冒号,然后是值。JSO...

2019-09-12 00:51:56 1109

原创 CSV简单了解

1.CSV介绍CSV全称是Comma Separate Values,这种文件格式可以作为不同程序之间的数据交互的格式。.csv就是一种纯文本文件(如.txt、.doc等)。即是一组字符序列,字符之间已英文字符的逗号或制表符(Tab)分隔。语法比较简单:1.1.每条记录占一行 以逗号为分隔符1.2.逗号前后的空格会被忽略1.3.字段中包含有逗号,换行符,空格,双引号等,该字段必须用双引...

2019-09-12 00:51:08 1249

原创 mysql 难点SQL题理解

mysql 难点理解1.在雇员表里找出每个组里面薪资排名第二的人SELECT e1.*,COUNT(e2.sal)+1 cs-- SELECT e1.*,e2.ename,e2.salFROM emp e1LEFT JOIN emp e2ON e1.deptno=e2.deptno AND e1.sal < e2.sal-- order BY e1.deptno,e1.empn...

2019-09-12 00:48:36 230

原创 mvc & 注解 & 测试

mvc[外链图片转存失败(img-I37LnLqG-1568220030897)(imgmysql/img02.png)]注解:Java5开始 Java支持对元数据的支持, 就是是Annotation(注解)元数据: metadata描述数据的数据注解:标签 Annotation所有的Annotation都是java.Lang.annotation.Annotation接口的子接口...

2019-09-12 00:46:26 127

原创 tomcat & http & WEB项目 &servlet

tomcat & http & WEB项目 &servlettomcat当你在做web项目的时候,你需要请求和响应,通过网址,服务器通过创建servlet来处理,servlet其实就是java程序,servlet通过配置文件拦截你的请求,并进行相应处理,然后展示给你相应界面,那么servlet如何创建? 这时候tomcat用到了,它就是帮助你创建servlet的东西,...

2019-09-12 00:41:50 278

原创 Mysql事务 &数据库连接池 &DBUtiles

Mysql事务 &数据库连接池 &DBUtiles事务Transaction事物指逻辑上的一组操作,组成这组操作的各个单元,要么全成功,要么全不成功。mysql是默认自动提交事物的,每条语句都在单独的事物中手动控制事物1.开启事物:start trannsaction begin2.提交事物:commit3.回滚事务:rollback事物的特点:原子性...

2019-09-12 00:39:22 171

原创 MySql理解及最常用到的函数

MySql1.关系型的数据库是表结构2.非关系型的是数据库是键值对Delete :一条一条的删,表结构还是在的。删除后的数据可以找回。truncate:创建一个新表,直接把之前的表drop,然后再创建一个同样的新表。删除后数据是找不回的,执行的速度比delete块。NOT 默认不包括nullunique:不认为null是重复自动增长列:(auto_increment)1.只能用于数...

2019-09-10 01:28:57 155

原创 反射 动态代理 线程池

反射 动态代理 线程池反射 动态获取类的字节码文件,并对其进行抽象通过反射可以获取一个类的全部方法和属性,然后进行调用。反射与类之间抽象的理解:Class 将字节码对象进行抽象 出现了:1.属性:表示字节码文件的属性的属性:private Field field;2.属性:表示字节码文件的普通方法的属性:private Mathod method;3.属性:表示字节码文件的构造方法...

2019-09-10 01:25:44 307

原创 NIO& 网络通信 详解

NIO 网络通信NIO概念理解:1.送什么货物:FileInputStream fis = new FileInputStream(“C:\reset.css”);2.货物送到哪里:FileOutputStream fos = new FileOutputStream(“D:\reset.css”);3.需要接收货物的快递员:FileChannel fisChannel = fis.g...

2019-09-10 01:24:37 454

原创 IO流 装饰设计模式 适配器设计模式

IO流   装饰设计模式 适配器设计模式io流(input/output):二进制的数据。源源不断作用:实现两个设备之间数据的传递。设备:磁盘,内存,键盘,文件,网络(主机之外的网络),控制台内存:(在描述数据的时候以内存为参考)内存是核心,将数据放入内存叫读入(input),对应的是输入流。将数据从内存放入网络叫写出,对应的是输出流(Output)。1...

2019-08-09 08:48:03 175

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除