自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(41)
  • 资源 (1)
  • 收藏
  • 关注

原创 学习笔记-目录

1.前言1.1Why为什么要学工作中主要是面向需求的sql工程师。但是本人对技术有着无尽的向往和卓越的追求,利用工作之余时间学习了常见的语言和大数据体系为什么要写笔记两方面原因:一者记录笔记加深印象;加上个人记性较差,方便后续查阅使用二者网上学习资料不成体系,此处方便后来者学习1.2How以下的语言(java、scala、python、react)主要根据网上学习教程查阅资料学习;以下大数据框架(hadoop、spark、flink等)主要根据学习视频、网上资料、及官

2020-11-24 00:25:44 471 2

原创 编码和解码

Base64是网络上最常见的用于传输8Bit字节码的编码方式之一,Base64就是一种基于64个可打印字符来表示二进制数据的方法。可查看RFC2045~RFC2049,上面有MIME的详细规范。Base64编码是从二进制到字符的过程,可用于在HTTP环境下传递较长的标识信息。采用Base64编码具有不可读性,需要解码后才能阅读。Base64由于以上优点被广泛应用于计算机的各个领域,然而由于输出内容中包括两个以上“符号类”字符(+,/,=),不同的应用场景又分别研制了Base64的各种“变种”。表单。...

2022-07-28 16:27:52 4633 1

原创 idea 找不到或无法加载主类

1.现象在idea中运行main方法是提示 "找不到或者无法加载主类xxxx"。试了网上各种教程,均无效2.现状2.1 项目简介项目中有多个模块,均属于一个父项目。模块中scala和java进行混用2.2 jdk&scala配置jdk版本为jdk1.8;scala为2.12版本2.3 maven配置maven中打包插件如下<build> <plugins> <!-- 依赖 插件 -->

2022-05-05 21:24:34 2344

原创 spark部署及提交任务

1.提交格式spark-submit \--class com.data.Test \--master yarn-cluster \--executor-memory 1G \--num-executors 8 \--executor-cores 2 \--queue test_queuespark-sql \ --queue test_queue \--deploy-mode client \ --num-executors 10 \--executor-memory

2022-01-19 18:11:12 2262

原创 Flink Kafka

如自定义 KafkaSerializationSchema。且调用 FlinkKafkaProducer(String defaultTopic,KafkaSerializationSchema serializationSchema,Properties producerConfig,FlinkKafkaProducer.Semantic semantic) 构造器。此时分区器为null。此时依次调用了方法。send方法为kafka的发送方法。

2022-01-14 19:41:28 2646

原创 docker学习笔记

docker学习

2021-12-11 17:59:40 57

原创 git学习笔记

-- 本地库初始化git add-- 信息保存位置 ./.git/configgit config user.name tom_progit config user.email [email protected]

2021-08-12 10:51:21 302

原创 SSH总结

ssh高级用法ssh命令

2021-04-20 21:06:21 72

原创 hdfs简介

1.HDFS概述1.1HDFS产生背景及定义1.1.1产生背景随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件系统中的一种1.1.2定义HDFS(Hadoop Distributed File System) 是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,有很多服务器联合起来实现其功能,集群中服务器有各自的角色

2020-12-20 18:57:38 523

原创 flink datastream api

1.Flink 运行模型2.Flink 程序架构3.Environment4.Source5.Sink6.Transformation

2020-12-20 12:22:42 120

原创 kafka简介

1.Kafka概述1.1 定义Kafka 是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于 大数据实时处理领域1.2 消息队列使用消息队列的好处:解耦 :允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。 可恢复性 :系统的一部分组件失效时,不会影响到整个系统。消息队列降低了进程间的耦合度,所以即使一个处理消息的进程挂掉,加入队列中的消息仍然可以在系统恢复后被处理。 缓冲:有助于控制和优化数据流经过系统的速度,解决生产消息和消.

2020-12-20 11:35:29 1299

原创 hbase简介

1.HBase简介1.1 定义HBase 是一种分布式、可扩展、支持海量数据存储的 NoSQL 数据库。1.2 HBase数据模型1.2.1逻辑结构逻辑上,HBase 的数据模型同关系型数据库很类似,数据存储在一张表中,有行有列。但从 HBase 的底层物理存储结构(K-V)来看,HBase 更像是一个 multi-dimensional map实际上逻辑表中的数据是稀疏的,有些cell没有值 稀疏数组参考1.2.2HBase物理存储结构以上即为稀疏数据.....

2020-12-19 18:50:37 31135 4

原创 zookeeper简介

1.Zookeeper简介1.1 概述Zookeeper 是一个开源的分布式的,为分布式应用提供协调服务的 Apache 项目Zookeeper从设计模式角度来理解:是一个基 于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,Zookeeper就将负责通知已经在Zookeeper上注册 的那些观察者做出相应的反应Zookeeper=文件系统+通知机制1.2 特点 Zookeeper特点Zookeeper:一个领导

2020-12-16 01:39:17 169

原创 Flink state&fault tolerant

1.状态(state)简介1.1状态概念在数据流中有一些算子只是一个单独的计算(map,flatmap),而有些算子需要记录跨多个事件的信息(window算子),那么称这个算子为为有状态的参考1.2状态分类➢ 总的说来,有三种类型的状态1.2.1算子状态(Operator State)Operator State(ornon-keyed state) is state that is is bound to one parallel operator instance..

2020-12-13 21:03:56 144

原创 Flink time&watermark&window

1.Time&WaterMark1.1时间分类 事件时间(event time):事件产生的时间,记录的是设备生产(或者存储)事件的时间 摄取时间(ingestion time):Flink 读取事件时记录的时间 处理时间(processing time):Flink pipeline 中具体算子处理事件的时间 默认情况下,使用的是processingtime;实际生产过程中,我们有些时候关注的是 event time如果想要使用event time,需...

2020-12-13 12:02:31 258

原创 递归

1.递归概念简单的说: 递归就是方法自己调用自己,每次调用时传入不同的变量.递归有助于编程者解决复杂的问题,同时可以让代码变得简洁2.递归调用机制我列举两个小案例,来帮助大家理解递归,部分学员已经学习过递归了,这里在给大家回顾一下递归调用机制打印问题 阶乘问题 使用图解方式说明了递归的调用机制3.递归能解决什么问题各种数学问题如: 8 皇后问题 , 汉诺塔, 阶乘问题, 迷宫问题, 球和篮子的问题(google 编程大赛) 各种算法中也会使用到递归,比如快排,归并排序,二分查找,

2020-12-03 21:48:55 157 2

原创 栈简介

1.栈的介绍2.栈的应用场景3.栈的快速入门4.栈实现综合计算器(中缀表达式)5.逆波兰计算器6.中缀表达式转换为后缀表达式7.完整版的逆波兰计算器,功能包括

2020-12-03 21:43:51 1378

原创 hive简介

1.HIVE基本概念1.1 什么是 HiveHive:由 Facebook 开源用于解决海量结构化日志的数据统计 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并 提供类 SQL 查询功能 本质是:将 HQL 转化成 MapReduce 程序Hive 处理的数据存储在 HDFS Hive 分析数据底层的实现是 MapReduce/Spark 执行程序运行在 Yarn 上1.2 Hive 的优缺点1.2.1 优点1) 操作接口采用类 SQ.

2020-11-30 18:41:12 506

原创 排序算法简介

1. 排序算法的介绍排序也称排序算法(Sort Algorithm),排序是将一组数据,依指定的顺序进行排列的过程2.排序的分类内部排序: 指将需要处理的所有数据都加载到内部存储器(内存)中进行排序。外部排序法: 数据量过大,无法全部加载到内存中,需要借助外部存储(文件等)进行排序。3.算法的时间复杂度3.1度量一个程序(算法)执行时间的两种方法:事后统计的方法这种方法可行, 但是有两个问题一是要想对设计的算法的运行性能进行评测,需要实际运行该程序二是所得时间的统计量依赖于计算

2020-11-30 17:59:36 1200

原创 哈希表简介

1.一个栗子 看一个实际需求:有一个公司,当有新的员工来报道时,要求将该员工的信息加入(id,性别,年龄,住址..),当输入该员工的id时,要求查找到该员工的 所有信息. 要求: 不使用数据库,尽量节省内存,速度越快越好=>哈希表(散列) 2.哈希表的基本介绍散列表(Hash table,也叫哈希表),是根据关键码值(Key value)而直接进行访问的数据结构。也就是说,它通 过把关键码值映射到表中一个位置来访问记录,以加快查找的速度。这个映射函数叫做散列函数,存放记录的数组

2020-11-30 09:02:52 157

原创 查找算法简介

常用排序算法冒泡排序选择排序插入排序希尔排序快速排序归并排序时间复杂度性能测试

2020-11-30 00:14:08 219

原创 spark core简介

1.RDD概述1.1 什么是 RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据 抽象。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算 的集合。1.2 RDD 的属性* A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents an immutable,* partitioned

2020-11-24 00:27:15 330

原创 scala学习笔记

1.概述1.1特点Scala 是一门以 java 虚拟机(JVM)为运行环境并将面向对象和函数式编程的最佳特性结合在一起的静态类型编程语言。1) Scala 是一门多范式 (multi-paradigm) 的编程语言,Scala 支持面向对象和函数式编程2) Scala源代码(.scala)会被编译成Java字节码(.class),然后运行于JVM之上,并可以调用现有的 Java 类库,实现两种语言的无缝对接。[案例演示]3) scala 单作为一门语言来看, 非常的简洁高效 (三元运

2020-11-18 02:31:06 338 1

原创 Yarn简介

1.基本架构Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序相当于操作系统上的应用程序YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成,如下图ResouceManager:处理客户端请求 监控NodeManger 启动或监控ApplictionMaster 资源的分配和调度NodeManager:管理单个节点上的资源

2020-11-17 09:32:22 1714

原创 flink部署&运行架构

Flink部署本节主要记录standalone和on yarn两种部署方式Standaloneconf 目录下调整文件主要关注如下文件flink-conf.yam通用配置jobmanager地址jobmanager.rpc.address: localhostjobmanager端口号jobmanager.rpc.port: 6123jobmanager jvm 堆内存jobmanager.heap.size: 1024mTaskManager堆内存taskm

2020-11-03 23:57:14 1302

原创 递归回溯

迷宫问题下图为一个简单的迷宫问题,图中红色的方块都为墙,小球所在位置为起始位置,请问如何能走到终点位置递归以上问题可以利用递归解决。在解决迷宫问题之前,先简单了解下递归。请看如下代码,这是一个简单的递归问题,请问最终打出何种结果?public static void main(String[] args) { test(4); } /** * test n * * @param n */ public static

2020-06-17 01:42:20 134

原创 大数据生态圈

2020-06-17 01:37:55 204

原创 链表简介

约瑟夫问题约瑟夫问题 可问题简单描述为设编号为 1,2,… n 的 n 个人围坐一圈,约定编号为 k(1<=k<=n)的人从 1 开始报数,数 到 m 的那个人出列,它的下一位又从 1 开始报数,数到 m 的那个人又出列,依次类推,直到所有人出列为止,由 此产生一个出队编号的序列链表以上问题可以通过单向循环链表来解决,在解决问题之间,先了解下链表数据结构特点链表是以节点的方式来存储,是链式存储每个节点包含 data 域, next 域:指向下一个节点.如图:发现链表的各个节点

2020-06-17 01:01:40 448

原创 稀疏数组和队列

问题如图所示数组,其中除了2、10两个值外,其余全部为0。现在需要将其写入磁盘,请问用什么方法能够更加节约磁盘空间

2020-06-17 00:27:22 566

原创 数据仓库简介

一图解千愁1.概念1.1.数据仓库概念数据仓库之父比尔·恩门(Bill Inmon)给出数据仓库的定义如下:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)面向主题:面向抽象或者面向业务。比如仓储,速运、财务等业务域 集成:数据仓库相当于一个数.

2018-07-09 23:59:18 1022 1

原创 java和python中函数式编程

本篇文章将基于java和python分别介绍中Lambda表达式,包括定义,使用等java函数式编程自jdk1.8开始,java中引入了函数式编程,使编程更加简洁灵活。接下来通过详细的例子阐述如下知识点函数式接口FunctionStream方法引用引用静态方法引用指定对象的实例方法引用任意对象的实例方法引用构造方法python匿名函数...

2018-07-09 00:32:52 445

原创 oralce&Hive join 简介& 谓词下推

在平时写sql时,join语句可能是使用频率最高语句之一。可是,你真的足够了解join语句吗。接下来以oracle和hive为例子,介绍join相关的基础知识1.Oracle1.1连接类型1.1.1nested loop join嵌套循环连接将驱动表(外表)和被驱动表(内表)进行join,读取外表的每一行,和内表进行比较操作,数据库一般将建有索引的表作为内表。适用范围:当数据集较小,访问列上有索引时例子: SQL> select /*+ leading(t1) use_n

2018-07-09 00:15:08 2667

原创 biee不同条件选择不同对象

OBIEE里,有时需要根据提示器不同值查看不同的报表,具体方法有两种:1.      BIEE内部控制2.      JS控制BIEE内部控制1.      新建提示器区域选择-提示器,选项列表值:SELECT '区域一' FROM"CRM ANALYTICS"UNION ALLSELECT '区域二' FROM"CRM ANALYTICS";默认选择: SELECT '区域一' FROM"CRM...

2018-06-25 22:59:50 522

原创 hive任务优化

hive是基于大数据开发的一组用于数据仓库的api,其主要功能是将HQL(HIVE SQL)转换成mapreduce执行。所以对hive的优化几乎等于对mapreduce的优化,主要在io和数据倾斜方面进行优化。本文主要在一下几个方面进行介绍合并小文件压缩文件join倾斜group by倾斜合并小文件map针对每一个文件产生一个或多个map任务,如果输入小文件过多,则会产生许多map任务处理每个小...

2018-06-25 14:24:10 987

原创 hive中udtf编写及使用

HIVE中udtf可以将一行转成一行多列,也可以将一行转成多行多列,使用频率较高。本篇文章通过实际案例剖析udtf的编写及使用方法和原理。阅读本篇文章前请先阅读UDF编写测试数据 drop table if exists test; create table test ( ind int, col string, col1 string ) ; inser...

2018-06-24 13:57:12 12438 2

原创 oracle、hive分析函数详解

分析函数又名窗口函数,在oracle、hive中使用比较多,包括flink等也会有分析函数什么是分析函数分析函数基于一组数据来计算聚和值,和聚合函数在于对于每一组数据它返回多行记录。这一组数据我们成为窗口,我们可以通过分析子句来进行定义。在每一行数据上可以定义滑动窗口,滑动窗口可以动态的定义使用多少行或者多少范围来进行计算分析函数在一条sql语句中是除了order by外最后执行的操作。语法介绍分...

2018-06-11 00:38:30 503

原创 mapreduce简介

1.Mapreduce概述1.1定义 MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上1.2优缺点优点MapReduce易于编程 良好扩展性 高容错性 适合PB级以上海量数据的离线处理缺点不擅长实时/流式计算 不擅长DAG计算1.3核心思想核心编程思想如下图...

2018-05-31 00:04:42 793

原创 hive中udf编写

Hive中编写udf(User-defined function)需要继承UDF类或者GenericUDF类,至于UDF和GenericUDF类的区别,我们可以从GenericUDF类注释上找到答案 /** * A Generic User-defined function (GenericUDF) for the use with Hive. * * New Gener...

2018-05-23 09:04:05 4377 1

原创 sql优化之面向集合编程

最近重新翻阅oracle资料,有提到在编写sql时需要面向集合思考,这是每一个SQL高手必备技巧。面向集合思考是相对面向过程而言,意在寻找整个结果集的特征,而不是只专注实现逻辑过程,从而写出高效、简洁的代码。先上两个课本上例子,供大家参考(伪代码)任职工龄筛选有一张员工表,记录了员工在各个职位的任职时间,求出在各个岗位任职时间相同的职工staff 表结构 staff_id,job_id,start...

2018-04-28 23:42:54 1327

原创 python分析微信朋友圈

个人兴趣爱好,通过python对微信朋友圈进行了分析,主要对微信好友进行提取,对好友地区分布,签名等进行可视化需要安装包如下: pip3 install itchat pip3 install pandas pip3 install echarts-countries-pypkg pip3 install echarts-china-provinces-pypkg pip3...

2018-03-12 00:43:14 10190 4

map builder

改工具为 map builder,可以导入shp文件,进行地图的编辑

2014-10-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除