自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(46)
  • 资源 (1)
  • 收藏
  • 关注

原创 springboot进行项目发布

springboot进行项目发布控制层接口层服务层application.yml将项目打包生成jar文件,编写Docker文件FROM java:8MAINTAINER lc <[email protected]> VOLUME /tmp ADD myspt-0.0.1-SNAPSHOT.jar app.jar RUN bash -c 'touch /app.jar'ENTRYPOINT ["java","-Djava.security.egd=file:/dev/

2021-05-12 23:39:41 255

原创 打包

打包 <!--java打包插件--> <plugin> <groupId>org.apache.maven.plugins</groupId> <artifactId>maven-compiler-plugin</artifactId> <version>3.2</version> <configuration>

2021-05-07 18:56:37 132

原创 Oracle基础

Oracle基础Oracle体系架构主要有两大部分组成:数据库实例(Instance)和数据库文件(database)(硬盘文件data files,control files,redo log files,数据文件是数据库的物理存储单位)数据库实例:数据库服务器的内存(SGA)及相关处理程序–SGA包含三个部分:1、数据缓冲区,存放sql运行结果;2、日志缓冲区,存放数据库运行生成的日志,提升了数据增删改的速度,减少磁盘的读写而加快速度;3、共享池,共享SQL区(存放用户SQL命令)和数据字典

2021-05-01 10:00:04 193 1

原创 Kafka数据导入到HBase

Kafka数据导入到HBase#创建HBase配置public class HBaseConf { public static Configuration getConf(){ Configuration conf= HBaseConfiguration.create(); conf.set("hbase.zookeeper.quorum","localhost:2181"); return conf; }}#创建线程池并获取连接对象

2021-04-11 13:28:48 289

原创 使用flume采集数据到kafka中

使用flume采集数据到kafka中Flume Agent配置agent.sources=s1agent.channels=c1agent.sinks=sk1agent.sources.s1.type = spooldiragent.sources.s1.spoolDir = /root/event_attendeesagent.sources.s1.channels = c1#单个事件中包含的最大字符数。如果一行超出此长度,则会被截断,并且该行中的其余字符将出现在后续事件中。agent

2021-04-11 11:40:36 1732

原创 数据仓库基础

数据仓库一个面向主题的、集成的、非易失的且随时间变化的数据集合。主题是在较高层次上将企业信息系统中的数据进行综合、归类和分析利用的一个抽象概念。集成性是指数据仓库中数据必须是一致的非易失:数据仓库中的数据是经过抽取而形成的分析型数据随时间变化:数据仓库以维的形式对数据进行组织,时间维是数据仓库中很重要的一个维度(不断增加新的数据,删去旧的数据)数据仓库和数据库的区别数据库(捕获和存储数据)数据仓库 (分析数据)数据的集合数据的集合事务处理OLTP数据分析OLAP

2021-03-02 21:50:28 193

原创 数据倾斜原因及处理

数据倾斜原因和处理?1原因1)、key分布不均匀2)、业务数据本身的特性3)、建表时考虑不周4)、某些SQL语句本身就有数据倾斜操作情形group bygroup by 维度过小,某值的数量过多Count Distinct某特殊值过多Join大表join小表,其中小表key集中,分发到某一个或几个reduce上的数据远高于平均值2数据倾斜的解决方案2.1参数调节:set hive.map.aggr=true 设置在Map端进行聚合set hive

2021-03-01 22:02:03 9792 2

原创 kafka基础

Kafka一种高吞吐量的分布式发布-订阅消息系统,专为超高吞吐量的实时日志采集、实时数据同步、实时数据计算等场景来设计Kafka架构Topic:维护一个主题中的消息,可视为消息分类 1、主题是已发布消息的类别名称 2、发布和订阅数据必须指定主题 3、主题副本数量不大于Brokers个数Producer:向Kafka主题发布(生产)消息Consumer:订阅(消费)主题并处理消息Broker:Kafka集群中的服务器Partition1、一个主题包含多个分区,默认按Ke

2021-02-07 10:22:20 102

原创 Spark API

Spark APISparkContext1、连接Driver与Spark Cluster(Workers)2、Spark的主入口3、每个JVM仅能有一个活跃的SparkContextimport org.apache.spark.{SparkConf, SparkContext}创建SparkContext对象val conf=new SparkConf().setMaster("local[2]").setAppName("HelloSpark")val sc=SparkCont

2021-01-31 13:59:05 232

原创 XML解析

XML解析可扩展标记语言,XML文档内容由一系列标签元素组成#必须有唯一的根标签<tagName attr="attrValue"...> text <subTag>...</subTag></tagName><tagName attr="attrValue".../>读XML文档private SAXRreader sr= new SAXReader();#文档对象private Document doc = s

2021-01-30 13:13:30 103

原创 Python函数

Python函数内置函数type()、dir()、input()、print()、id()定义函数函数参数类型多样允许嵌套函数无需声明函数返回值类型yield可以作为函数返回值的关键字函数能够被赋值给变量def func_name(参数列表): 函数体 [return/yield 函数返回值] //无参函数def show_log(): print('I am a log')show_log()//位置参数:传入的参数与定义的参数一一对应d

2021-01-27 19:43:22 112 1

原创 Python基础

变量名的命名原则1、以_或字母开头2、变量名以_、数字、字母组成3、变量名大小写敏感4、不能使用Python保留的关键字Python变量的特点1、使用变量前不需要声明2、变量的类型不固定3、Python变量是实际值的引用数值类型十进制:123、1_234_789八进制:0o123、0o_1_234_567、0O_123十六进制:0x123、0x_1_234_567、0X_BAD_BEEF二进制:0b10、0b_0011_1100、0B_11000011float(浮点..

2021-01-25 22:56:26 246

原创 Spark Streaming高级应用

Spark Streaming 集成 FlumeSpark Streaming 通过 Push 和 Pull 两种方式对接 Flume 数据源。Push 方式属于推送(由 Flume 向 Spark 推送)而 Pull 属于拉取(Spark 拉取 Flume 的输出)。Push 和 Pull 两者的差别主要体现在Flume Sink 的不同,而 Flume Source 与 Channel 不会受影响//首先需要额外依赖下面组件:<dependency> <groupId>o

2021-01-20 17:31:30 130

原创 Spark GraphX基础

Spark GraphX图(Graph)的基本概念图是由顶点集合(vertex)及顶点间的关系集合(边edge)组成的一种网状数据结构;通常表示为二元组:Gragh=(V,E)GraphX特点[1] 基于内存实现了数据的复用与快速读取[2] 通过弹性分布式属性图(Property Graph)统一了图视图与表视图[3] 与Spark Streaming、Spark SQL和Spark MLlib等无缝衔接GraphX核心抽象弹性分布式属性图(Resilient D

2021-01-17 16:04:05 213

原创 spark基础

Spark 基础特点 速度快=>基于内存的分布式计算 高兼容=>多模式部署,hdfs,mysql,hive 多模式=>算子,sql,流,图,计算 高容错=>DAG Lineage 高灵活=>持久化(内存+磁盘)Spark技术栈 1.Spark Core 核心组件,分布式计算引擎。其实现了 Spark 的作业调度、内存管理、容错、 与存储系统交互等基本功能,并针对弹性分布式数据集(RDD)提供了丰富的操 作。 2.Spark SQL 基于 Ha

2021-01-10 11:26:53 118

原创 JDBC连接数据库

JDBC连接数据库- 定义JDBC(Java DataBase Connectivity) 称为Java数据库连接,它是一种用于数据库访问的应用程序API,由一组用Java语言编写的类和接口组成- 操作步骤Class.format加载驱动获取数据库连接创建Statement或PreparedStatement对象,执行sql语句返回并处理执行结果(若查询操作,返回ResultSet)释放资源- 具体实现1(java->hive)先导入驱动 Jar 包/*配置文件预览driv

2021-01-09 17:02:39 93

原创 Spark SQL操作外部数据源

Spark SQL操作外部数据源1. Spark SQL与Hive集成方式一:spark-shell访问Hive表1、hive-site.xml拷贝至${SPARK_HOME}/conf下2、mysql驱动至${SPARK_HOME}/jars查询结果:方式二:IDEA访问hive1、hive-site.xml添加到资源文件中2、pom.xml添加依赖 添加spark_hive的jar包依赖和mysql驱动,版本必须一致import org.apache.spark.sql.S

2021-01-08 21:59:53 182

原创 scala/Product$class问题

解决java.lang.NoClassDefFoundError:scala/Product$class问题查看当前idea引入的scala版本号查看pom.xml文件中的版本号将两处修改成一致,重新加载jar包资源即可

2021-01-05 22:23:48 4425

原创 scala函数大全

scala 数组函数大全 数组简介 1、数组的长度是不允许改变的,元素是可以改变的2、var arr:Array[T]=new Array[T](capacity) //声明数组3、var arr:Array[T]=Array(T V1,T v2...) //值已知 var arr:Array[Int]=Array.range(begin,end,step)4、arr.foreach(println) //数组遍历 数组函数汇总 ...

2020-12-27 18:49:06 841

原创 hbase基础大全

hbase概述是一个面向列存储的NoSQL数据库是一个分布式Hash Map,底层数据是Key-Value格式基于Google Big Table论文使用HDFS作为存储并利用其可靠性HBase特点数据访问速度快,响应时间约2-20毫秒支持随机读写,每个节点20k~100k+ ops/s可扩展性,可扩展到20,000+节点高并发HBase物理架构ZooKeeper 1、存储-ROOT-表和.META.表的位置,.META.表记录普通用户表的HRegion标识符的信息(

2020-12-17 21:24:41 104

原创 hive基础20201213

Hive基于Hadoop的数据仓库解决方案将结构化的数据文件映射为数据库表提供类sql的查询语言HQL(Hive Query Language)1. Hive的优势和特点入门简单,HQL类SQL语法统一的元数据管理,可与impala/spark等共享元数据灵活性和扩展性较好:支持UDF,自定义存储格式等支持在不同的计算框架上运行(MR, Tez, Spark)提供了一个简单的优化模型适合离线数据处理,稳定可靠(真实生产环境)有庞大活跃的社区2.Hive架构Hive 底层存

2020-12-13 12:15:58 119

原创 分布式资源调度框架 YARN-2020-12-5

YARN:分布式资源调度框架1. YARN的架构:master/slaves的主从架构ResourceManager 组成ResourceScheduler->资源调度器,根据节点的容量、队列情况,为应用程序分配资源Application Manager->应用程序管理器,负责接受Client端传输的job请求 功能1、处理客户端请求2、监控NodeManager3、启动和监控ApplicationMaster,进行必要的重启4、整个系统的资源分配和调度

2020-12-05 14:19:59 164 1

原创 分布式文件系统HDFS(2020-12-01)

Hadoop 分布式文件系统-HDFS1. HDFS 组成架构架构主要由四个部分组成,分别为 HDFS Client、NameNode、DataNode 和Secondary NameNode。1.Client:就是客户端,自己编写的代码+Hadoop API。其主要功能:(1)进行文件切分。文件上传 HDFS 的时候,Client 将文件切分成一个一个的 Block,然后进行存储。(2)当我们要查询一个文件时,与 NameNode 交互,获取文件的位置信息。(3)与 DataNode 交

2020-12-01 23:04:47 197

原创 shell基础2020

shellshell 脚本 创建->编辑->保存 vi test.sh 创建一个test脚本文件 #!/bin/bash 文本首行 ... esc:x 修改权限 chomd u+x test.sh 给test文件脚本添加一个x执行权限 执行 ./test.sh 注释 单行# 多行注释 :<<! ...... !命令echo [-n]"..." 控制台输出 -n 不换行read VAR 控制台输入echo -n "please

2020-11-24 19:36:13 73

原创 Sqoop迁移Hadoop与RDBMS间的数据2020

Sqoop迁移Hadoop与RDBMS间的数据1–hive->hdfs1、不建议从Hive表到RDBMS表的直接导出,因为当Hive表记录较大时,或者RDBMS有多个分区表时,无法做精细的控制2、从Hive表导出到HDFS时,可以进一步对数据进行字段筛选、字段加工、数据过滤操作,使得HDFS上的数据更"接近"或等于将来实际要导入RDBMS表的数据insert overwrite directory '/kb10/shop1118' row format delimited fields t

2020-11-19 19:01:23 106

原创 hbase安装2020

hbase安装tar -zxvf hbase-1.2.0-cdh5.14.2.tar.gz -C /opt/software/hadoop/ 将hbase安装包先解压到指定路径下mv hbase-1.2.0-cdh5.14.2.tar.gz hbase120 重命名修改文件的所有者和分组权限,输入chown root:root hbase120/修改完成后,切换目录cd /opt/software/hadoop/hbase120/conf/,并输入ls,可查看到如下文件先配置

2020-11-17 19:45:03 96

原创 zookeeper安装2020

zookeeper安装tar -zxvf zookeeper-3.4.5-cdh5.14.2.tar.gz -C /opt/software/hadoop/将zookeeper安装包解压到指定路径下mv zookeeper-3.4.5-cdh5.14.2/ zookeeper345重命名cd zookeeper345/conf/将路径切换到conf目录下,输入ls ,可查看到如下文件cp zoo_sample.cfg zoo.cfg拷贝或者重命名下为zoo.cfg,然后编辑该文件。输入vi

2020-11-17 19:13:02 183

原创 MapReduce的工作原理及实现案例

MapReduce的工作原理1、Client向ResourceManager提交任务申请,RM找到NodeManager并启动一个AppMaster,AM通过获取到的分片信息,向RM申请资源,并启动相应数量的maptask;2、在maptask上读取文件,由TextInputFormat指定读取规则,调用RecordReader方法按行读取,将行号和每行数据组成文件块进行返回,返回的LongWritable和Text将作为Mapper中map方法的入口数据;3、每次获取的行的偏移量和每一行内容通过ma

2020-11-15 15:13:29 473

原创 linux常用命令11-11

lunix常用命令目录pwd #查看当前目录路径ls[-la] #查看目录ll查看列表 -rw-r--r--. -文件 d目录 rw-所有者权限 r--组内用户权限 r--其他用户权限 r read w write x execute - none rwx rw- r-x r-- -wx -w- --x --- 111 110 101 100 011 010 001 000 文件夹的默认权限:755 rwxr-xr-x 文件的默认权限为644

2020-11-11 19:54:49 126

原创 虚拟机下mysql安装流程

yum 安装在命令行输入wget是否安装;若出现如上提示,输入yum search wget;3.输入yum -y install wget.x86_64进行安装,提示Complete!代表安装成功。rpm安装mysql查看是否存在mysql旧版本,输入rpm -qa|grep mariadbum删除旧版本,输入yum -y remove mariadb-libs-5.5.65-1.el7.x86_64,提示Complete!代表删除成功。设置镜像,...

2020-11-11 18:58:37 429

原创 mysql常用函数2020-11-11

mysql系统函数#字符串函数NameDescriptionchar_length(str)字符长度length(str)字节长度concat(s1,s2…)返回连接参数产生的字符串,任意一个为NULL则返回值为NULLconcat_ws(x,s1,s2…)返回多个字符串拼接之后的字符串,每个字符串之间有一个x。group_concat(field_name)从s1指定位置X开始,用s2取代长度len的字符串insert(s1,x,len,s2

2020-11-11 16:43:48 67

原创 hive常用函数大全

#数据类型NameType字符串string/varchar(65536)/char(255)整数smallint/int/bigint小数float/double/decimal(m,n)布尔boolean日期date/timestamp列表array<data_type>结构体struct<col_name:data_type,…>键值map<key_type,value_type>

2020-11-11 15:23:43 1640

原创 JDK安装流程2020-11-09

绿色安装jdk #解压缩配置安装 jdk.tar jdk.tar.gz tar -[z]xvf /srcpath/xxx.tar[.gz] -C /pastDest //-C /pastDest指定解压目录 #配置环境变量 #编辑配置文件 vi /etc/profile export JAVA_HOME=/opt/software/jdk180 export PATH=$JAVA_HOME/bin:$PATH export CLASS_PATH=.:$JAVA_H

2020-11-09 20:00:53 120

原创 虚拟机免密登录2020-11-09

#虚拟机之间相互免密登录步骤:1.切换至根目录 cd ~2.查当前的主机名:hostname3.查当前主机的ip地址:ip addr (另一台也要查ip地址)4.编辑文件:vi /etc/hosts ;5.在上述文件中写入两行,一行为当前主机ip地址 主机名;一行为另一台主机ip地址 主机名比如: 192.168.153.130 single192.168.153.140 master6.生成秘钥:先退回根目录,cd ~;然后 ssh-keygen -t rsa 连续按3下enter键

2020-11-09 16:53:49 351 1

原创 线程20201026

线程:cpu调度的最小单位一个进程中至少包含一条线程:主线程主线程系统创建的java中主线程的入口:public static void main(String[]args){}使用线程的4个步骤:1、定义一个线程。指明所有执行的代码;2、创建线程对象;3、启动线程;4、终止线程java中创建线程的方式:1、创建Thread的子类:重写Thread的run方法public class MyThread extends Thread { @Override public

2020-10-26 19:39:06 66

原创 java IO 2020/10/25

流1、流是一组有序的数据序列;2、以先进先出方式发送信息的通道按流向分输出流 OutputStream InputStream输入流 Reader Writer按处理数据单元分字节流 字节输入流InputStream基类 int read(); int read(byte[ ] b); int read(byte[ ] b,int off,int len); void close(); int available(); FileInputStream

2020-10-25 15:16:37 62

原创 java包装类20201024

包装类的优势1.提供了一系列针对该类型的方法2.包装类型的默认值都为null3.自动装拆箱4.集合中不允许存放基本数据类型包装类和基本类的对应关系基本类型 包装类型 String String char Character byte Byteshort Shortint Integet long Long float Float double Doubleboolean Blooean包装类和基本类的转换基本数据类型->包装类 构造方法(参

2020-10-24 10:56:41 138

原创 java集合基础20201024

JAVA集合存放不定数量的不定类型的内容可变的容器,且可以根据需要自由提取元素,只能存储引用类型-Collection接口(不唯一,无序)List接口(不唯一,有序) ArrayList(线程不安全)常用方法: int size();boolean isEmpty();int indexOf(T t);int lastIndexOf(T t);boolean add(T t);boolean add(int index,T t);boolean add(T[] ts);bool

2020-10-24 09:18:59 81

原创 java面向对象的三大特性2020-10-20

封装步骤 将类的属性私有化 为私有属性设置setter/getter()方法 设置必要的读取限制 继承 【语法】 class A extends B 【子类继承父类的内容】 public/protect修饰的属性和方法 默认修饰符修饰的同包子类和父类 无法继承父类构造方法,可用super调用 【继承关系不同性质代码执行顺序】 父>子/静态>(...

2020-10-20 22:31:37 93

原创 java类与对象2020-10-11

类 属性:静态特征、成员变量、全部变量 作用域:整个类部都可见,如有访问权限,在类外部可使用 初始值:未赋值时有初始默认值0/null 方法:动态特征、函数、行为 入口方法:程序入口 public static void main(String[]args){...} 构造方法:创建对象,初始化(赋值) 语法:public 与类同名([形式参数列表]){} ...

2020-10-11 08:01:31 76

scala_function.sh

scala_function.sh

2021-09-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除