自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(36)
  • 收藏
  • 关注

原创 spark代码

【代码】spark代码。

2024-01-13 18:55:24 384

原创 kafka

消息队列:是在消息的传输过程中保存消息的容器。消息在原始的传输过程中是直接传输的,端对端的数据传递,但是有的时候我们需要将消息数据进行部分的缓冲存储,以达到方便使用的目的,中间的组件可以做消息的传输中间介质,这个组件就是消息队列。更像是一个消息的蓄水池一样的功能类比现实中更像是高速公路的休息区那么消息队列在什么场景使用呢interceptor是拦截器,可以拦截到发送到kafka中的数据进行二次处理,它是producer组成部分的第一个组件@Override@Override。

2023-12-13 23:04:45 38

原创 sqoop

Sqoop是Apache旗下的一款“hadoop和关系型数据库服务器之间传送数据”的工具。导入数据:MySQL、Oracle导入数据到hadoop的hdfs、hive、hbase等数据存储系统。导出数据:从hadoop的文件系统中导出数据到关系型数据库中。

2023-12-12 23:36:08 54

原创 flume

​ Flume是cloudera(CDH版本的hadoop) 开发的一个分布式、可靠、高可用的海量日志收集系统。它将各个服务器中的数据收集起来并送到指定的地方去,比如说送到HDFS、Hbase,简单来说flume就是收集日志的。Flume两个版本区别:​ Flume提供了大量内置的Source、Channel和Sink类型,不同类型的Source,Channel和Sink可以自由组合.组合方式基于用户设置的配置文件。flume应用就是学组价的搭配应用,根据各组件的不同,配置内容也不同。

2023-12-09 19:10:08 78

原创 数仓如何保障数据稳定性

文章目录数据故障治理建设目标第一阶段第二阶段第三阶段挖掘数据故障现状建设方案与路径建设效果总结数据故障治理建设目标第一阶段以*故障为中心*的稳定性建设,围绕系统故障的事前、事中、事后系统性落地了一系列的工程能力、流程机制、建设方法论第二阶段第三阶段挖掘数据故障现状建设方案与路径建设效果总结

2023-09-02 11:28:57 166

原创 mysql面试题

待更新。

2023-07-11 10:12:26 45

原创 HIVE优化总结

HIve是基于Hadoop的一个数据仓库管理工具,可以将结构化的数据映射为一张类似关系型数据库的表,这样就可以提供SQL的查询功能,其底层实现就是把SQL转成MR计算任务,数据存储在分布式文件系统HDFS上。Tez基于内存,如果数据量特别大,慎重使用,容易OOM。一般用于快速出结果,数据量比较小的场景。spark基于内存和硬盘,兼顾了可靠性和效率。MR基于磁盘,虽然慢,但一定能跑出结果。

2023-04-03 16:03:48 85

原创 GAUSS数据库

DUASSDB数据库

2023-02-18 16:21:24 2383

原创 组内技术栈:

组内技术栈:高斯mysqlkylinclickhousesparkkafka

2022-02-14 17:17:34 963

原创 DB2语法笔记

DB2db2 基础注释字符串连接字符串的引用语句结束转义字符db2 基础注释“--”(两个减号)字符串连接“||” 如set msg=’aaaa’||’bbbb’,则msg为’aaaabbbb’字符串的引用‘’(一定用单引号),如果需要输入单引号,输入两个单引号即可。语句结束分号;转义字符如果你想查询字符串中包含‘%’或‘_’ ,就得使用转义字符(Escape Characters)。比如,要想查询book_title中包含字符串’99%’的纪录:select * from b

2021-08-19 20:24:35 145

原创 《三体》记录

红岸计划1主角:叶文洁出场,地球三体组织的精神领袖2旺淼的三体游戏之旅3红岸往事:叶文洁利用太阳作为天线放大发射功率,向太空发射出地球的第一声啼鸣,8年后叶文洁收到外太空的回信:“不要回复,不要回复,不要回复”。叶文洁没有听劝,回复到:用你们的力量解救人类的罪恶。4伊文斯:未来三体组织真正的掌舵人,最后被联军消灭故事大概:因为叶文洁向外太空发射信号,导致三体文明发现地球文明,三体文明将地球文明视为威胁,准备发动攻击。黑暗深林主角罗辑:人类面壁计划:1、费里德里克.泰勒2、曼努尔.雷迪亚兹3、

2021-04-24 15:21:29 1111

原创 我的EA

2021年4月:EA思路EA_dsd:不管是设置为sell还是buy,在震荡行情都可以盈利,但是在单边行情时,比如设置为sell,而行情一直上升,或者设置为buy,行情一直下跌,会很容易爆仓。新思路:行情一般为三种走势,上升,下跌和震荡。假设预测未来走势为下跌,可把dsd设置为sell,只要出现震荡或下跌则盈利,假设预测未来走势为上升,可把dsd设置为buy,只要出现上升和震荡则盈利,胜率为2/3,盈利比为2。EA代码常识如何找出属于你程序的订单和识别订单关系密切的有3个属性:1、Ticket

2021-04-14 16:13:28 167

原创 市盈率概念及计算2021-1-19

文章目录1市盈率概念2市净率概念3基金温度概念1市盈率概念2市净率概念3基金温度概念

2021-01-23 17:58:37 400

原创 指数基金温度自娱2021-1-21

300地产(招商沪深300地产等权重指数(161721)红利指数中证红利中证银行建基工程国信价值

2021-01-23 17:22:57 492

原创 2020-10-31

2020.10.31所有时髦的言辞都倾向于分享相同的命运:它们假装能说清的经验越多,它们自身就越发难以理解。它们排挤和取代的传统真理越多,它们就越快地成为无可置疑的信条x光透视我们的身体数据透视我们的灵魂重要的事情只能通过非常缓慢的过程来实现—卡尔维诺...

2021-01-18 22:02:12 111

原创 货币基金投资方法2021-1-18

货币基金投资方法

2021-01-18 22:01:17 96

原创 2021-1-17微淼商学院基金篇

第一大步骤:明确实现财务自由的意义第二大步骤:明确实现财务自由的目标第三大步骤:明确实现财务自由的路径第四大步骤:明确实现财务自由的技能第五大步骤:学习实现财务自由的技能第六大步骤:掌握实现财务自由的技能第七大步骤:制定实现财务自由的计划第八大步骤:执行实现财务自由的计划第九大步骤:调整实现财务自由的计划...

2021-01-18 22:00:56 2586

原创 Mysql重点总结

分组函数功能:用作统计使用,又称为聚合函数或统计函数或组函数分类:sum 求和、avg平均值、max、min、count计算个数特点1、sum,avg用于处理数值型,max,min,count可以处于任何类型2、以上分组函数都忽略null值3、可以和distinct搭配实现去重4、count函数的单独介绍5、和分组函数一同查询的字段要求是group by后的字段6、count计算非空的值分组查询语法:select 聚合函数(max,min这些),列(要求出现在group by后面)

2020-09-22 17:05:03 61

原创 阅读笔记之《守破离》

守破离探知日本剑道学习之法:所谓效法定石,就是以前人所定的规矩为准,将准守规矩作为第一阶段的修炼,这相当于“守”的修行。等这种修炼进步到某种程度,籍自己的用功机智等将它突破,此即相当于第二阶段的“破”的修行。然后修练更进一步时,由想突破的意识、想立异作为念虑,自然开脱,终于不知不觉地升离,但这一切还是不失法不越矩,达到一个独立开拓的境地,这是第三阶段“离”的阶段。守行咬定目标不放松的简单一条道走到黑的坚定把事情做到极致的认真心中有坚定的宏伟目标,无论困难多大,诱惑多强、始终坚定初衷。

2020-09-03 12:46:50 278

原创 MySQL数据基础操作(下)

文章目录一、DML数据操作语言1、insert插入2、update修改3、delete/truncate删除二、DDL数据定义语言1、 库的管理2、 表的管理3、常见的数据类型3.1数值型3.2字符型3.3日期型4、常见约束4.1创建表时添加约束4.2修改表时添加约束4.3修改表时删除约束5、 标识列三、TCL事物控制语言四、视图五、变量六、存储过程和函数七、流程控制结构一、DML数据操作语言数据操作语言插入:insert修改:update删除:delete1、insert插入方式一: in

2020-08-26 19:31:41 90

原创 java算法整理

8月21日第一天递归:计算n!注意:任何能用递归解决的问题也能使用迭代解决在高性能的情况下尽量避免使用递归,递归调用既花时间又耗内存//递归public class digui821 { public static void main(String[] args) { Scanner scanner = new Scanner(System.in); int num = scanner.nextInt(); System.out.printl

2020-08-22 15:21:01 93

原创 你的热爱,只会让你更普通

很多人热爱旅游、美食、穿搭、电影等。这是当下大部分年轻人的真实写照吧!这是热爱吗?还不如直接写我喜欢享受热爱不是消费享受大部分人都误以为热爱等同于享受所以始终被消费主义控制这种热爱只是浅层次的快乐会让你越来越普通因为只要花钱快乐便唾手可得真正的热爱是痛苦和成就感带来的高层次的快乐这种快乐需要全身心的投入需要刻意的练习需要延迟满足读书、健身、早起、存钱这些过程都伴随痛苦但博学、健康、自律和富足这些成就所带来的快乐才是真正的热爱...

2020-08-21 14:55:17 129

原创 MySQL数据库基础查询

文章目录概述基础查询(一)条件查询模糊查询like:between andinis null(is not null)(二)排序查询(三)常见函数字符函数lengthconcatupper,lowersubstrinstr返回子串的起始索引trim去掉首尾的replace替换数学函数round四舍五入ceil向上取整floor 向下取整truncate 截断mod 取余日期函数now:返回当前系统日期加时间curdate 返回当前系统日期,不包含时间curtime() 返回当前时间,不包含日期str_to_

2020-08-17 17:37:29 234

原创 大数据Hadoop目录索引

大数据之hadoop知识梳理

2020-08-12 14:20:40 165

原创 大数据之MapReduce

第1章 MapReduce概述1.1MapRedece定义分布式运算程序的编程框架,基于hadoop的数据分析计算的核心框架MapRedece处理过程分为两个阶段Map:负责把一个任务分解成多个任务Reduce:负责把分解后多个任务的处理结果汇总1.2 MapReduce优缺点优点:易于编程,它简单的实现一些借口,就可以完成一个分布式程序良好的扩展性高容错性,如果其中一台机器挂掉了,他可以把上面的计算任务转移到另外一台节点上运行。适合PB级以上的海量数据的离线处理,可以实现上千台服务

2020-08-12 11:19:44 295

原创 Hadoop之HA搭建

Hadoop如何实现高可用(HA)当主NN挂掉后,备NN会立即启动进而接管主NN为集群不间断的提供服务,保证集群对外是没有任何宕机的情况。接下来,我们根据上图来了解HA的方案是如何实现的?在2.0版本中,Namenode可以部署两个:Active NN和Standly NN。在同一时间永远都是只有一个NN对外提供服务的,即Active NN。Active NN并不永远都是一个固定的状态,当Active NN出现故障后,Standly NN就会切换成Active NN提供服务,而之前的Active NN

2020-08-12 09:26:49 77

原创 大数据之Kafka重点知识及常用优化

定义Kafka是一种高吞吐量的分布式发布订阅消息系统特性提供消息的持久化高吞吐量支持Hadoop并行数据加载架构1)Producer :消息生产者,就是向kafka broker发消息的客户端;2)Consumer :消息消费者,向kafka broker取消息的客户端;5)Broker :一台kafka服务器就是一个broker。一个集群由多个broker组成。一个broker可以容纳多个topic;Kafka集群部署broker的全局唯一编号,不能重复broker.id=0

2020-08-11 15:24:55 160

原创 大数据技术之Flume知识点

定义Flume是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。支持在日志系统中定制各类数据发送方(服务器本地磁盘文件夹、网络端口数据),用于收集数据同时,Flume提供对数据进行简单处理,并写到各种数据接受方(HDFS、Kafka)的能力。主要作用实时读取服务器本地磁盘的数据,将数据写入到HDFS。Flume组成架构你是如何实现Flume数据传输的监控的使用第三方框架Ganglia实时监控Flume。Flume的Source,Si

2020-08-11 11:28:01 285

原创 大数据之zookeeper知识点

作用Zookeeper是一个开源的分布式的,为分布式应用提供协调服务提供的服务包括统一命名服务、统一配置管理、统一集群管理、服务器节点动态上下线、软负载均衡等。Zookeeper选举机制是什么?答:半数机制,集群中半数以上机器存活,集群可用。所以 Zookeeper 适合安装奇数台服务器。ZooKeeper 的监听原理是什么?ZooKeeper的部署方式有哪几种?集群中的角色有哪些?集群最少需要几台机器?(1)部署方式单机模式、集群模式(2)角色:Leader和Follow

2020-08-11 09:48:47 86

原创 数据分析算法之假设检验

先导知识下面介绍一个复杂一些的概率分布图:正态分布的分布图。也就是最开始的那张图:如果你投飞镖均值是5环如果标准差是1,那么你投的飞镖落在4环(5-1)和6环(5+1)之间的概率就是68.3%;如果标准差是2.2,那么你投的飞镖落在2.8环(5-2.2)和7.2环(5+2.2)之间的概率也是68.3%;正态分布下, [公式] 的概率是95%, [公式] 的概率是99%…假设检验简单说,假设检验的思路是:通过“小概率事件在少量实验中是几乎不可能出现的”这一结论,去证明假设是错误的,从而反证假设

2020-08-10 16:30:53 674

原创 Hadoop参数调优

HDFS的参数调优(1)要注意namenode和datanode的通信,有一个参数可以提升他们通信的顺畅度(即20logN,N为集群大小)。(2)注意把HDFS的namenode 文件edits(日志文件)和fsimage(镜像文件)配置在不同目录下。可以提升namenode性能YARN参数调优问题描述:没有数据倾斜,小文件已经做了合并处理,开启的JVM重用,而且IO没有阻塞,内存用了不到50%。但是还是跑的非常慢,而且数据量洪峰过来时,整个集群都会宕掉。基于这种情况有没有优化方案。解决办法:

2020-08-10 11:27:27 121

原创 JavaSE之IO流

第一章 IO概述输入流 :把数据从其他设备上读取到内存中的流。输出流 :把数据从内存中写出到其他设备上的流。格局数据的类型分为:字节流和字符流。顶级父类们第二章 字节流(略)第三章 字符流构造方法FileReader(File file) : 创建一个新的 FileReader ,给定要读取的File对象。FileReader(String fileName) : 创建一个新的 FileReader ,给定要读取的文件的名称。public class FileReaderConst

2020-08-10 10:30:15 118

原创 Java多线程

4多线程Java实现线程有两种方式线程调度

2020-08-10 10:29:34 56

原创 Java基础笔记

day02【基本数据类型】Java基本数据类型整数型:byte short int long浮点型:float double字符型:char布尔型:boolean引用数据类型字符串数组类接口lambda第一章 数据类型转换Java程序中要求参与的计算的数据,必须要保证数据类型的一致性,如果数据类型不一致将发生类型的转换。1.1 自动转换一个 int 类型变量和一个 byte 类型变量进行加法运算, 结果会是什么数据类型?int i = 1; byte b = 2;运算结

2020-07-12 21:36:07 446

原创 hadoop重点笔记

hadoop入门第一章1.1 大数据特点(4V)大量、高速(对数据的处理)、多样性、低价值密度1.2大数据的应用场景物流仓储:大数据分析助力精细化运营,节约成本。零售:通过大数据分析消费者的消费习惯,为用户购买商品提供方便,从而提升商品销量。旅游:结合大数据能力与旅游行业需求,建立旅游产业的智慧管理,智慧服务,智慧营销。商品广告推荐:给用户推荐可能喜欢的商品。保险:海量数据挖掘及风险预测,帮助保险行业精准营销金融:多维度体现用户特征,帮助金融机构推荐一些优质客户人工智能:1.3大数据

2020-07-07 09:36:29 247

原创 Hadoop及MapReduce常见面试题

Hadoop常见面试题1.简要描述如何安装配置一个开源的Hadoop?答:准备一台服务器,设置SSH免密登录(补充:hadoop 的进程之间通信使用ssh 方式,需要每次都要输入密码。为了实现自动化操作,需要配置SSH 的免密码登录方式),关闭防火墙,安装JDK,解压hadoop,之后配置hadoop一些核心文件(hadoop-env.sh,core-site.xml,mapred-site.xml,hdfs-site.xml) ,配置hadoop环境变量,格式化hadoop namenode-form

2020-06-30 11:10:01 268

01大数据项目之Spark实时(数据采集)

01大数据项目之Spark实时(数据采集)

2023-12-17

大数据面试宝典2023整理

大数据面试宝典2023整理

2023-12-14

structure-streaming原理与教程

structure-streaming原理与教程

2023-12-14

spark原理与调优详解

spark原理与调优详解

2023-12-14

azkan大数据项目原理解析

azkan大数据项目原理解析

2023-12-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除