自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(34)
  • 资源 (4)
  • 收藏
  • 关注

原创 数据仓库建设四(表设计)

数据仓库建设四(表设计)

2022-06-26 14:41:59 241 1

原创 数据仓库建设三(维度建设的规范)

数据仓库建设三(维度建设的规范)

2022-06-26 14:30:55 331

原创 数据仓库建设二(业务矩阵的确定)

数据仓库建设二(业务矩阵的确定)

2022-06-26 13:45:41 869

原创 数据仓库建设一(核心概念)

数据仓库建设

2022-06-26 13:17:54 160

原创 快速上手neo4j

neo4j

2022-06-08 00:06:41 76

原创 spark(2.4)复习

...

2022-04-07 09:58:28 127

原创 Flink SQL Streaming Concept -- Join in Continuous Queries

Joins in Continuous QueriesRegular Joinsselect * from Ordersinner join Product on Orders.product_id = Product.id允许在 input tables 进行 updating(insert update delete)缺点:一直保存join两端的表状态Interval Joinsselect * from Orders o , Shipments s w

2022-04-07 09:55:02 73

原创 Flink自定义Source与Sink

User-defined Sources & sinks Dynamic tables 是Flink Table & SQL API的核心概念,对于处理有界与无界数据采用了统一的方式。 Dynamic tables 是一个逻辑概念,Flink自己不拥有数据。相反,dynamic table是被存储在外部系统(databases,key-value,消息队列)或者文件 Dynamic sources 从外部读取数据,和 Dynamic sink 被用于写数据到外部系统。...

2022-04-07 09:54:09 670

原创 k8s :pod has unbound immediate PersistentVolumeClaims

今天测试pvc与pv绑定代码如下:PersistentVolume如下:kind: PersistentVolumeapiVersion: v1metadata: name: pv-01 namespace: test123spec: accessModes: ['RWM'] capacity: storage: 1Gi nfs: path: /opt/k8s/nfs_test1 server: 192.168.5.183Headless

2021-12-09 15:25:25 8199 1

原创 k8s flannel安装以后网络不能ping通的问题解决

场景一:相同的node,不同的pod不能ping的问题k8s安装好以后,获取信息如下:k8s安装好以后,获取信息如下:[root@cent7-102 ~]# kubectl get all -n kube-system -o wideNAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS

2021-11-14 13:42:32 4401

原创 hive数据处理的一些小总结

表设计原则保留源表的字段,添加加工字段,如下 with t1 as (select id ,name ,address from t11 ),t2 as (select id ,name1 ,address1 from t22)select t1.id -- 留下原始值,方便进行数据复原 ,t1.name ,t1.address ,t2.name1 ,t2.addre

2021-05-30 10:35:45 221

原创 堆排序

package com.model.hive.tree;public class MyTree { public static void main(String[] args){ int[] tmp = new int[]{3,1,2,99,12,15,20,11,290,0,1,1,2,2}; heapUp(tmp); for(int i = 0;i<tmp.length;i++){ System.out.println(tmp[i]); } } public.

2021-03-27 12:26:55 74

原创 Flink调优

checkpoint性能的两个重要指标 1.time barrier触发checkpoint的时间很高时,说明System处理一个backpressure中。 2.align duration 应用接收它的第一个barrier到最后一个算子接收到这个barrier的时间。在unalign期间,所有任务不间断的处理数据。对于align的exactly-once checkpoints,已经接收到barrier的channel,将不再接收数据,直至所有的chan.

2021-03-25 22:56:08 601

原创 Git基本操作

git mkdir learngit cd learngit创建本地 git版本库 git init组成: 工作区 暂存区 版本库添加文件 git add read.txt提交文件 git commit -m "this is message"撤销修改 git checkout -- read.txt 进行了 git add read.txt --> 将暂存区的回退到工作区 进行了...

2020-09-10 19:35:15 165

原创 pymysql Can‘t connect to MySQL server on ‘hadoop-master-01‘ ([Errno 8] nodename nor servname provide

今天用python 写了一个获取mysql库表信息的工具,在连接mysql数据库时,代码如下#!/usr/bin/env python# --*--coding:utf-8 --*--import pymysqlimport socketclass MySqlModule: _url = "" _port = 0 _username="" _password="" _db="" _table="" _connectCursor

2020-08-21 22:09:33 735

原创 Hive: Reflect UDF

Reflect UDFJAVA类和方法通常用于处理用户希望在hive中使用的确切的函数。相比与封装一个UDF然后调用这个方法,这些方法主要通过反射UDF去调用。Reflect使用Java反射去实例化, 并且调用对象的方法;也能够调用静态方法。这个方法必须返回一个基础类或者一个hive能序列化的类。 SELECT reflect("java.lang.String", "value...

2019-10-29 09:37:18 726

原创 Hive:join

Hive: Joinhive join的连接方法如下:join_table: table_reference [INNER] JOIN table_factor [join_condition] | table_reference {LEFT|RIGHT|FULL} [OUTER] JOIN table_reference join_condition | table_re...

2019-10-28 17:47:03 217

原创 Spark-debug

Debug your application在yarn模式下,executors和应用的master运行在containers中。yarn有2种模式处理container日志,在应用完成后。首先开启日志收集 yarn.log-aggregation-enable=true,container日志被复制到hdfs,并且删除本地的log,日志查看方式 yarn logs applicationI...

2019-09-27 11:38:57 149

原创 Spark-Streaming+kafka

Spark Streaming + Kafka direct APIdirect 周期查询kafka的最新offset在每个topic + partition,然后定义每个batch的offset范围。当处理数据的job被启动时,kakfa的简单消费API是被用于去读取设定的范围的offset从kafka(类似读取文件从文件系统)。有几个优点相对receiver: Simplifi...

2019-09-27 11:36:57 172

原创 Shuffle 操作

在spark中的主要操作,触发一个叫作shuffle的事件。shuffle是spark对于重新分布数据的机制,因此数据能在partitions上进行不同的分组。Shuffle包含在executors和machines上的数据复制,使得shuffle成为一个复杂的和昂贵的操作。 backgroud 为了理解在shuffle期间发生了什么,参照reduceByKey...

2019-09-25 17:00:27 3386

原创 Shell总结

ShellShell 是指一种应用程序,这个应用程序提供了一个界面,用户通过这个界面访问操作系统内核的服务。变量定义`` 执行符:执行 `command`中的指令'' 单引号:取消'string'中的特殊字符,如$"" 双引号:"xxx xxx"表示一个字符串命名只能使用英文字母[a-zA-Z],数字[0-9]和下划线[_],首个字符不能以数字[0-9]开头中间不能有空格[...

2019-09-19 19:23:31 54

原创 Sqoop自我总结

Sqoop数据导入 input端 output端 工具 Sqoop import mysql hdfs hive -m mr数量控制 增量添加时的配置 --connect --username --password --table --co...

2019-09-19 14:15:49 188

原创 Hive:null

Hive:null字符串为'\N'(默认) 字符串为'NULL' 文本中的内容与hive表定义的字段类型不相符解决方式解决字符串为'\N'的字符串定义表时,指定 NULL为指定的标识符create table if not exists xxxx(id varchar(32) primary key,age int ,name varchar(32)) row fo...

2019-09-07 14:26:12 518

原创 phoenix:Secondary Indexing

Secondary Indexing 二级索引是以一种垂直的方式去访问主表的数据(以前是通过get scan去获取数据的)。在Hbase中,有一个独特的索引,主表的row key,按照字典顺序进行排列 。访问数据的方式不再是通过主表的row key(潜在需要进行值全表扫描)去匹配过滤条件。对于二级索引,你索引的表或者表达式构成了 row key来实现点查询和范围查询。Conver...

2019-08-19 09:39:32 170

原创 phoenix:UDFs

UDFs:Phoenix 4.4.0 引入 UDFsUDFs类型temporary UDFs : session/connectionpermanent UDFs : meta information 存储在系统表 domain-specific scala UDFs : 配置:配置在phoenxi 客户端的hbase-site.xml添加如下配置<pro...

2019-08-19 09:37:34 167

原创 phoenix:Transactions

TransactionsPhoenix依赖Tephra实现了行间,表间的事务支持。Tephra 提供 snapshot 隔离当前事务通过实现多版本并行控制步骤: 一、hbase-site.xml 开启事务 <property> <name>phoenix.transactions.enabled</name> <value>...

2019-08-19 09:31:59 157

原创 phoenix:Explain

Explain1.执行所有的 Hbase 范围查询 2.估算scan的字节数3.估算传输的row数4.以上估算时间5.需要扫描的表6.在服务与客户端的操作如:sort merge scan limitEXPLAIN sql -- 打印执行计划,修改语句使满足如下条件: 1.尽量让操作在server端。服务端的操作是分布在集群上的,并行操作。 2.尽可能使用RANGE SCA...

2019-08-19 09:28:56 290

原创 Phoenix:Tuning

调优Phoenix和hbase适用点查询和小范围scan,能够通过primary key实现。如果是很多全表扫描,不能很好的处理。可能用列式存储格式,如ParquetPrimary Keys:是Phoenix加工的一个重要因素,除非重写Data和Index外,不能被修改。与Hbase的rowkey相关。primary key constraint的columns 的选择和顺序应该与通用的...

2019-08-19 09:26:24 174

原创 Hbase:RegionServer

RegionServer:HRegionServer是RegionServer的实现,负责服务与管理regions。运行在DataNodeHRegionRegionInterface:对外提供了元数据和Region维护方法 1.Data -- get put delete next 等 2.Region -- SplitRegion compactRegion等,如Admi...

2019-08-15 22:28:36 196

原创 Hbase:Coprocessor

Coprocessor:HBase的Coprocessor的实现是以Google的BigTable的Coprocessor为模型(http://research.google.com/people/jeff/SOCC2010-keynote-slides.pdfpages 41-42.).The coprocessor framework提供一种机制直接运行你的常规代码,在Re...

2019-08-14 16:17:06 166

原创 设计模式--创建型模式

设计模式模式之间的关系如下:原文出外https://blog.csdn.net/weixin_42139375/article/details/82503232创建型模式方法 解决的场景 工厂方法模式 实现了同一接口的一些类进行实例的创建 抽象工厂模式 单例模式 建造者模式 原型模式 工厂方法模...

2019-08-05 23:37:17 97

原创 Spark1.6.0学习心得(三):shuffle、persist、cache、shared variable

Shuffle operationsSpark触发事件叫作shuffle,shuffle是spark的对于重新分布式数据机制,因此它在不同的分区分组不相同。其中包含复制数据在executors和机器上,执行shuffle是复杂和耗时的操作。Background为了进一步了解shuffle期间,发生的事情,思考这个reduceByKey操作的例子。reduceByKey操作产生了一个...

2019-08-05 14:30:32 330

原创 Spark1.6.0学习心得(二):RDD操作transformation与action

RDD操作类型 名称 描述 RDD操作类型 transformation 从一个已有的数据集创建一个新数据集。惰性执行 action 返回一个值到driver端,在一个数据集计算后。非惰性执行 persist(cache) 持久化或缓存RDD。惰性执行 Understanding closuresspark的一个重要点,当代码在集...

2019-08-04 18:26:07 266

翻译 Spark1.6.0学习心得(一):RDD创建

关于Spark的组成:名称 抽象 组成 功能 Spark 第一抽象 Driver 运行main函数 Executes 执行并行操作 第二抽象 broadcast variable 共享信息在driver和executor之间 Accumulator 计数在driver和executor之间 原文At a hig...

2019-08-02 21:27:19 370

2020金融行业网络安全等级保护文档

JR-T 0071-2020金融行业网络安全等级保护实施指引 JR-T 0072-2020金融行业网络安全等级保护测评指南

2021-08-27

modelimport.zip

自动从mysql导入数据到hive的脚本,通过sqoop工具,太多也写了不了了!

2020-12-08

dubbo-2.8.4.jar

dubbo资源,本来想免费的,但是选不了,最少要2个C,这个现在太坑了,

2018-03-30

1,2,6)卷码编码器

让你很快知道一些关于 (1,2,6)卷码编码器

2012-01-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除