蒙奇D婵-CSDN博客

原创 springboot进行项目发布

springboot进行项目发布控制层接口层服务层application.yml将项目打包生成jar文件，编写Docker文件FROM java:8MAINTAINER lc <[email protected]> VOLUME /tmp ADD myspt-0.0.1-SNAPSHOT.jar app.jar RUN bash -c 'touch /app.jar'ENTRYPOINT ["java","-Djava.security.egd=file:/dev/

2021-05-12 23:39:41 255

原创打包

打包  <plugin> <groupId>org.apache.maven.plugins</groupId> <artifactId>maven-compiler-plugin</artifactId> <version>3.2</version> <configuration>

2021-05-07 18:56:37 132

原创 Oracle基础

Oracle基础Oracle体系架构主要有两大部分组成：数据库实例(Instance)和数据库文件(database)(硬盘文件data files，control files，redo log files，数据文件是数据库的物理存储单位)数据库实例:数据库服务器的内存(SGA)及相关处理程序–SGA包含三个部分：1、数据缓冲区，存放sql运行结果;2、日志缓冲区，存放数据库运行生成的日志,提升了数据增删改的速度，减少磁盘的读写而加快速度;3、共享池，共享SQL区(存放用户SQL命令)和数据字典

2021-05-01 10:00:04 193 1

原创 Kafka数据导入到HBase

Kafka数据导入到HBase#创建HBase配置public class HBaseConf { public static Configuration getConf(){ Configuration conf= HBaseConfiguration.create(); conf.set("hbase.zookeeper.quorum","localhost:2181"); return conf; }}#创建线程池并获取连接对象

2021-04-11 13:28:48 289

原创使用flume采集数据到kafka中

使用flume采集数据到kafka中Flume Agent配置agent.sources=s1agent.channels=c1agent.sinks=sk1agent.sources.s1.type = spooldiragent.sources.s1.spoolDir = /root/event_attendeesagent.sources.s1.channels = c1#单个事件中包含的最大字符数。如果一行超出此长度，则会被截断，并且该行中的其余字符将出现在后续事件中。agent

2021-04-11 11:40:36 1732

原创数据仓库基础

数据仓库一个面向主题的、集成的、非易失的且随时间变化的数据集合。主题是在较高层次上将企业信息系统中的数据进行综合、归类和分析利用的一个抽象概念。集成性是指数据仓库中数据必须是一致的非易失：数据仓库中的数据是经过抽取而形成的分析型数据随时间变化：数据仓库以维的形式对数据进行组织，时间维是数据仓库中很重要的一个维度（不断增加新的数据，删去旧的数据）数据仓库和数据库的区别数据库（捕获和存储数据）数据仓库（分析数据）数据的集合数据的集合事务处理OLTP数据分析OLAP

2021-03-02 21:50:28 193

原创数据倾斜原因及处理

数据倾斜原因和处理？1原因1)、key分布不均匀2)、业务数据本身的特性3)、建表时考虑不周4)、某些SQL语句本身就有数据倾斜操作情形group bygroup by 维度过小，某值的数量过多Count Distinct某特殊值过多Join大表join小表，其中小表key集中，分发到某一个或几个reduce上的数据远高于平均值2数据倾斜的解决方案2.1参数调节：set hive.map.aggr=true 设置在Map端进行聚合set hive

2021-03-01 22:02:03 9792 2

原创 kafka基础

Kafka一种高吞吐量的分布式发布-订阅消息系统，专为超高吞吐量的实时日志采集、实时数据同步、实时数据计算等场景来设计Kafka架构Topic：维护一个主题中的消息，可视为消息分类 1、主题是已发布消息的类别名称 2、发布和订阅数据必须指定主题 3、主题副本数量不大于Brokers个数Producer：向Kafka主题发布（生产）消息Consumer：订阅（消费）主题并处理消息Broker：Kafka集群中的服务器Partition1、一个主题包含多个分区，默认按Ke

2021-02-07 10:22:20 102

原创 Spark API

Spark APISparkContext1、连接Driver与Spark Cluster（Workers）2、Spark的主入口3、每个JVM仅能有一个活跃的SparkContextimport org.apache.spark.{SparkConf, SparkContext}创建SparkContext对象val conf=new SparkConf().setMaster("local[2]").setAppName("HelloSpark")val sc=SparkCont

2021-01-31 13:59:05 232

原创 XML解析

XML解析可扩展标记语言，XML文档内容由一系列标签元素组成#必须有唯一的根标签<tagName attr="attrValue"...> text <subTag>...</subTag></tagName><tagName attr="attrValue".../>读XML文档private SAXRreader sr= new SAXReader();#文档对象private Document doc = s

2021-01-30 13:13:30 103

原创 Python函数

Python函数内置函数type()、dir()、input()、print()、id()定义函数函数参数类型多样允许嵌套函数无需声明函数返回值类型yield可以作为函数返回值的关键字函数能够被赋值给变量def func_name(参数列表)：函数体 [return/yield 函数返回值] //无参函数def show_log(): print('I am a log')show_log()//位置参数:传入的参数与定义的参数一一对应d

2021-01-27 19:43:22 112 1

原创 Python基础

变量名的命名原则1、以_或字母开头2、变量名以_、数字、字母组成3、变量名大小写敏感4、不能使用Python保留的关键字Python变量的特点1、使用变量前不需要声明2、变量的类型不固定3、Python变量是实际值的引用数值类型十进制：123、1_234_789八进制：0o123、0o_1_234_567、0O_123十六进制：0x123、0x_1_234_567、0X_BAD_BEEF二进制：0b10、0b_0011_1100、0B_11000011float(浮点..

2021-01-25 22:56:26 246

原创 Spark Streaming高级应用

Spark Streaming 集成 FlumeSpark Streaming 通过 Push 和 Pull 两种方式对接 Flume 数据源。Push 方式属于推送（由 Flume 向 Spark 推送）而 Pull 属于拉取（Spark 拉取 Flume 的输出）。Push 和 Pull 两者的差别主要体现在Flume Sink 的不同，而 Flume Source 与 Channel 不会受影响//首先需要额外依赖下面组件：<dependency> <groupId>o

2021-01-20 17:31:30 130

原创 Spark GraphX基础

Spark GraphX图（Graph）的基本概念图是由顶点集合(vertex)及顶点间的关系集合（边edge）组成的一种网状数据结构；通常表示为二元组：Gragh=（V，E）GraphX特点[1] 基于内存实现了数据的复用与快速读取[2] 通过弹性分布式属性图（Property Graph）统一了图视图与表视图[3] 与Spark Streaming、Spark SQL和Spark MLlib等无缝衔接GraphX核心抽象弹性分布式属性图（Resilient D

2021-01-17 16:04:05 213

原创 spark基础

Spark 基础特点速度快=>基于内存的分布式计算高兼容=>多模式部署,hdfs,mysql,hive 多模式=>算子,sql,流,图,计算高容错=>DAG Lineage 高灵活=>持久化(内存+磁盘)Spark技术栈 1.Spark Core 核心组件，分布式计算引擎。其实现了 Spark 的作业调度、内存管理、容错、与存储系统交互等基本功能，并针对弹性分布式数据集（RDD）提供了丰富的操作。 2.Spark SQL 基于 Ha

2021-01-10 11:26:53 118

原创 JDBC连接数据库

JDBC连接数据库- 定义JDBC(Java DataBase Connectivity) 称为Java数据库连接，它是一种用于数据库访问的应用程序API，由一组用Java语言编写的类和接口组成- 操作步骤Class.format加载驱动获取数据库连接创建Statement或PreparedStatement对象，执行sql语句返回并处理执行结果（若查询操作，返回ResultSet）释放资源- 具体实现1（java->hive）先导入驱动 Jar 包/*配置文件预览driv

2021-01-09 17:02:39 93

原创 Spark SQL操作外部数据源

Spark SQL操作外部数据源1. Spark SQL与Hive集成方式一:spark-shell访问Hive表1、hive-site.xml拷贝至${SPARK_HOME}/conf下2、mysql驱动至${SPARK_HOME}/jars查询结果：方式二：IDEA访问hive1、hive-site.xml添加到资源文件中2、pom.xml添加依赖添加spark_hive的jar包依赖和mysql驱动，版本必须一致import org.apache.spark.sql.S

2021-01-08 21:59:53 182

原创 scala/Product$class问题

解决java.lang.NoClassDefFoundError:scala/Product$class问题查看当前idea引入的scala版本号查看pom.xml文件中的版本号将两处修改成一致，重新加载jar包资源即可

2021-01-05 22:23:48 4425

原创 scala函数大全

scala 数组函数大全数组简介 1、数组的长度是不允许改变的,元素是可以改变的2、var arr:Array[T]=new Array[T](capacity) //声明数组3、var arr:Array[T]=Array(T V1,T v2...) //值已知 var arr:Array[Int]=Array.range(begin,end,step)4、arr.foreach(println) //数组遍历数组函数汇总 ...

2020-12-27 18:49:06 841

原创 hbase基础大全

hbase概述是一个面向列存储的NoSQL数据库是一个分布式Hash Map，底层数据是Key-Value格式基于Google Big Table论文使用HDFS作为存储并利用其可靠性HBase特点数据访问速度快，响应时间约2-20毫秒支持随机读写，每个节点20k~100k+ ops/s可扩展性，可扩展到20,000+节点高并发HBase物理架构ZooKeeper 1、存储-ROOT-表和.META.表的位置，.META.表记录普通用户表的HRegion标识符的信息(

2020-12-17 21:24:41 104

原创 hive基础20201213

Hive基于Hadoop的数据仓库解决方案将结构化的数据文件映射为数据库表提供类sql的查询语言HQL（Hive Query Language）1. Hive的优势和特点入门简单，HQL类SQL语法统一的元数据管理，可与impala/spark等共享元数据灵活性和扩展性较好：支持UDF，自定义存储格式等支持在不同的计算框架上运行（MR, Tez, Spark）提供了一个简单的优化模型适合离线数据处理，稳定可靠（真实生产环境）有庞大活跃的社区2.Hive架构Hive 底层存

2020-12-13 12:15:58 119

原创分布式资源调度框架 YARN-2020-12-5

YARN：分布式资源调度框架1. YARN的架构：master/slaves的主从架构ResourceManager 组成ResourceScheduler->资源调度器，根据节点的容量、队列情况，为应用程序分配资源Application Manager->应用程序管理器，负责接受Client端传输的job请求功能1、处理客户端请求2、监控NodeManager3、启动和监控ApplicationMaster，进行必要的重启4、整个系统的资源分配和调度

2020-12-05 14:19:59 164 1

原创分布式文件系统HDFS(2020-12-01)

Hadoop 分布式文件系统-HDFS1. HDFS 组成架构架构主要由四个部分组成，分别为 HDFS Client、NameNode、DataNode 和Secondary NameNode。1.Client：就是客户端，自己编写的代码+Hadoop API。其主要功能：（1）进行文件切分。文件上传 HDFS 的时候，Client 将文件切分成一个一个的 Block，然后进行存储。（2）当我们要查询一个文件时，与 NameNode 交互，获取文件的位置信息。（3）与 DataNode 交

2020-12-01 23:04:47 197

原创 shell基础2020

shellshell 脚本创建->编辑->保存 vi test.sh 创建一个test脚本文件 #!/bin/bash 文本首行 ... esc:x 修改权限 chomd u+x test.sh 给test文件脚本添加一个x执行权限执行 ./test.sh 注释单行# 多行注释 :<<! ...... !命令echo [-n]"..." 控制台输出 -n 不换行read VAR 控制台输入echo -n "please

2020-11-24 19:36:13 73

原创 Sqoop迁移Hadoop与RDBMS间的数据2020

Sqoop迁移Hadoop与RDBMS间的数据1–hive->hdfs1、不建议从Hive表到RDBMS表的直接导出,因为当Hive表记录较大时,或者RDBMS有多个分区表时,无法做精细的控制2、从Hive表导出到HDFS时,可以进一步对数据进行字段筛选、字段加工、数据过滤操作，使得HDFS上的数据更"接近"或等于将来实际要导入RDBMS表的数据insert overwrite directory '/kb10/shop1118' row format delimited fields t

2020-11-19 19:01:23 106

原创 hbase安装2020

hbase安装tar -zxvf hbase-1.2.0-cdh5.14.2.tar.gz -C /opt/software/hadoop/ 将hbase安装包先解压到指定路径下mv hbase-1.2.0-cdh5.14.2.tar.gz hbase120 重命名修改文件的所有者和分组权限，输入chown root:root hbase120/修改完成后，切换目录cd /opt/software/hadoop/hbase120/conf/，并输入ls,可查看到如下文件先配置

2020-11-17 19:45:03 96

原创 zookeeper安装2020

zookeeper安装tar -zxvf zookeeper-3.4.5-cdh5.14.2.tar.gz -C /opt/software/hadoop/将zookeeper安装包解压到指定路径下mv zookeeper-3.4.5-cdh5.14.2/ zookeeper345重命名cd zookeeper345/conf/将路径切换到conf目录下，输入ls ,可查看到如下文件cp zoo_sample.cfg zoo.cfg拷贝或者重命名下为zoo.cfg，然后编辑该文件。输入vi

2020-11-17 19:13:02 183

原创 MapReduce的工作原理及实现案例

MapReduce的工作原理1、Client向ResourceManager提交任务申请，RM找到NodeManager并启动一个AppMaster，AM通过获取到的分片信息，向RM申请资源，并启动相应数量的maptask;2、在maptask上读取文件，由TextInputFormat指定读取规则，调用RecordReader方法按行读取，将行号和每行数据组成文件块进行返回，返回的LongWritable和Text将作为Mapper中map方法的入口数据；3、每次获取的行的偏移量和每一行内容通过ma

2020-11-15 15:13:29 473

scala_function.sh

空空如也