另一个世界Azure-CSDN博客

原创 Flink SQL Streaming Concept -- Join in Continuous Queries

Joins in Continuous QueriesRegular Joinsselect * from Ordersinner join Product on Orders.product_id = Product.id允许在 input tables 进行 updating(insert update delete)缺点：一直保存join两端的表状态Interval Joinsselect * from Orders o , Shipments s w

2022-04-07 09:55:02 73

原创 Flink自定义Source与Sink

User-defined Sources & sinks Dynamic tables 是Flink Table & SQL API的核心概念，对于处理有界与无界数据采用了统一的方式。 Dynamic tables 是一个逻辑概念，Flink自己不拥有数据。相反，dynamic table是被存储在外部系统（databases，key-value，消息队列）或者文件 Dynamic sources 从外部读取数据，和 Dynamic sink 被用于写数据到外部系统。...

2022-04-07 09:54:09 670

原创 k8s ：pod has unbound immediate PersistentVolumeClaims

今天测试pvc与pv绑定代码如下：PersistentVolume如下：kind: PersistentVolumeapiVersion: v1metadata: name: pv-01 namespace: test123spec: accessModes: ['RWM'] capacity: storage: 1Gi nfs: path: /opt/k8s/nfs_test1 server: 192.168.5.183Headless

2021-12-09 15:25:25 8199 1

原创 k8s flannel安装以后网络不能ping通的问题解决

场景一：相同的node，不同的pod不能ping的问题k8s安装好以后，获取信息如下：k8s安装好以后，获取信息如下：[root@cent7-102 ~]# kubectl get all -n kube-system -o wideNAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS

2021-11-14 13:42:32 4401

原创 hive数据处理的一些小总结

表设计原则保留源表的字段，添加加工字段，如下 with t1 as (select id ,name ,address from t11 ),t2 as (select id ,name1 ,address1 from t22)select t1.id -- 留下原始值，方便进行数据复原 ,t1.name ,t1.address ,t2.name1 ,t2.addre

2021-05-30 10:35:45 221

原创堆排序

package com.model.hive.tree;public class MyTree { public static void main(String[] args){ int[] tmp = new int[]{3,1,2,99,12,15,20,11,290,0,1,1,2,2}; heapUp(tmp); for(int i = 0;i<tmp.length;i++){ System.out.println(tmp[i]); } } public.

2021-03-27 12:26:55 74

原创 Flink调优

checkpoint性能的两个重要指标 1.time barrier触发checkpoint的时间很高时，说明System处理一个backpressure中。 2.align duration 应用接收它的第一个barrier到最后一个算子接收到这个barrier的时间。在unalign期间，所有任务不间断的处理数据。对于align的exactly-once checkpoints，已经接收到barrier的channel，将不再接收数据，直至所有的chan.

2021-03-25 22:56:08 601

原创 Git基本操作

git mkdir learngit cd learngit创建本地 git版本库 git init组成：工作区暂存区版本库添加文件 git add read.txt提交文件 git commit -m "this is message"撤销修改 git checkout -- read.txt 进行了 git add read.txt --> 将暂存区的回退到工作区进行了...

2020-09-10 19:35:15 165

原创 pymysql Can‘t connect to MySQL server on ‘hadoop-master-01‘ ([Errno 8] nodename nor servname provide

今天用python 写了一个获取mysql库表信息的工具，在连接mysql数据库时，代码如下#!/usr/bin/env python# --*--coding:utf-8 --*--import pymysqlimport socketclass MySqlModule: _url = "" _port = 0 _username="" _password="" _db="" _table="" _connectCursor

2020-08-21 22:09:33 735

原创 Hive: Reflect UDF

Reflect UDFJAVA类和方法通常用于处理用户希望在hive中使用的确切的函数。相比与封装一个UDF然后调用这个方法，这些方法主要通过反射UDF去调用。Reflect使用Java反射去实例化，并且调用对象的方法；也能够调用静态方法。这个方法必须返回一个基础类或者一个hive能序列化的类。 SELECT reflect("java.lang.String", "value...

2019-10-29 09:37:18 726

原创 Hive:join

Hive: Joinhive join的连接方法如下：join_table: table_reference [INNER] JOIN table_factor [join_condition] | table_reference {LEFT|RIGHT|FULL} [OUTER] JOIN table_reference join_condition | table_re...

2019-10-28 17:47:03 217

原创 Spark-debug

Debug your application在yarn模式下，executors和应用的master运行在containers中。yarn有2种模式处理container日志，在应用完成后。首先开启日志收集 yarn.log-aggregation-enable=true,container日志被复制到hdfs,并且删除本地的log,日志查看方式 yarn logs applicationI...

2019-09-27 11:38:57 149

原创 Spark-Streaming+kafka

Spark Streaming + Kafka direct APIdirect 周期查询kafka的最新offset在每个topic + partition，然后定义每个batch的offset范围。当处理数据的job被启动时，kakfa的简单消费API是被用于去读取设定的范围的offset从kafka(类似读取文件从文件系统)。有几个优点相对receiver： Simplifi...

2019-09-27 11:36:57 172

原创 Shuffle 操作

在spark中的主要操作，触发一个叫作shuffle的事件。shuffle是spark对于重新分布数据的机制，因此数据能在partitions上进行不同的分组。Shuffle包含在executors和machines上的数据复制，使得shuffle成为一个复杂的和昂贵的操作。 backgroud 为了理解在shuffle期间发生了什么，参照reduceByKey...

2019-09-25 17:00:27 3386

原创 Shell总结

ShellShell 是指一种应用程序，这个应用程序提供了一个界面，用户通过这个界面访问操作系统内核的服务。变量定义`` 执行符:执行 `command`中的指令'' 单引号:取消'string'中的特殊字符，如$"" 双引号:"xxx xxx"表示一个字符串命名只能使用英文字母[a-zA-Z]，数字[0-9]和下划线[_]，首个字符不能以数字[0-9]开头中间不能有空格[...

2019-09-19 19:23:31 54

原创 Sqoop自我总结

Sqoop数据导入 input端 output端工具 Sqoop import mysql hdfs hive -m mr数量控制增量添加时的配置 --connect --username --password --table --co...

2019-09-19 14:15:49 188

原创 Hive：null

Hive：null字符串为'\N'（默认）字符串为'NULL' 文本中的内容与hive表定义的字段类型不相符解决方式解决字符串为'\N'的字符串定义表时，指定 NULL为指定的标识符create table if not exists xxxx(id varchar(32) primary key,age int ,name varchar(32)) row fo...

2019-09-07 14:26:12 518

原创 phoenix:Secondary Indexing

Secondary Indexing 二级索引是以一种垂直的方式去访问主表的数据（以前是通过get scan去获取数据的）。在Hbase中，有一个独特的索引，主表的row key,按照字典顺序进行排列。访问数据的方式不再是通过主表的row key（潜在需要进行值全表扫描）去匹配过滤条件。对于二级索引，你索引的表或者表达式构成了 row key来实现点查询和范围查询。Conver...

2019-08-19 09:39:32 170

原创 phoenix:UDFs

UDFs:Phoenix 4.4.0 引入 UDFsUDFs类型temporary UDFs : session/connectionpermanent UDFs : meta information 存储在系统表 domain-specific scala UDFs : 配置：配置在phoenxi 客户端的hbase-site.xml添加如下配置<pro...

2019-08-19 09:37:34 167

原创 phoenix:Transactions

TransactionsPhoenix依赖Tephra实现了行间，表间的事务支持。Tephra 提供 snapshot 隔离当前事务通过实现多版本并行控制步骤：一、hbase-site.xml 开启事务 <property> <name>phoenix.transactions.enabled</name> <value>...

2019-08-19 09:31:59 157

原创 phoenix:Explain

Explain1.执行所有的 Hbase 范围查询 2.估算scan的字节数3.估算传输的row数4.以上估算时间5.需要扫描的表6.在服务与客户端的操作如：sort merge scan limitEXPLAIN sql -- 打印执行计划，修改语句使满足如下条件： 1.尽量让操作在server端。服务端的操作是分布在集群上的，并行操作。 2.尽可能使用RANGE SCA...

2019-08-19 09:28:56 290

原创 Phoenix:Tuning

调优Phoenix和hbase适用点查询和小范围scan，能够通过primary key实现。如果是很多全表扫描，不能很好的处理。可能用列式存储格式，如ParquetPrimary Keys:是Phoenix加工的一个重要因素，除非重写Data和Index外，不能被修改。与Hbase的rowkey相关。primary key constraint的columns 的选择和顺序应该与通用的...

2019-08-19 09:26:24 174

原创 Hbase:RegionServer

RegionServer:HRegionServer是RegionServer的实现，负责服务与管理regions。运行在DataNodeHRegionRegionInterface：对外提供了元数据和Region维护方法 1.Data -- get put delete next 等 2.Region -- SplitRegion compactRegion等，如Admi...

2019-08-15 22:28:36 196

原创 Hbase:Coprocessor

Coprocessor:HBase的Coprocessor的实现是以Google的BigTable的Coprocessor为模型（http://research.google.com/people/jeff/SOCC2010-keynote-slides.pdfpages 41-42.).The coprocessor framework提供一种机制直接运行你的常规代码，在Re...

2019-08-14 16:17:06 166

原创设计模式--创建型模式

设计模式模式之间的关系如下：原文出外https://blog.csdn.net/weixin_42139375/article/details/82503232创建型模式方法解决的场景工厂方法模式实现了同一接口的一些类进行实例的创建抽象工厂模式单例模式建造者模式原型模式工厂方法模...

2019-08-05 23:37:17 97

原创 Spark1.6.0学习心得（三）：shuffle、persist、cache、shared variable

Shuffle operationsSpark触发事件叫作shuffle，shuffle是spark的对于重新分布式数据机制，因此它在不同的分区分组不相同。其中包含复制数据在executors和机器上，执行shuffle是复杂和耗时的操作。Background为了进一步了解shuffle期间，发生的事情，思考这个reduceByKey操作的例子。reduceByKey操作产生了一个...

2019-08-05 14:30:32 330

原创 Spark1.6.0学习心得（二）：RDD操作transformation与action

RDD操作类型名称描述 RDD操作类型 transformation 从一个已有的数据集创建一个新数据集。惰性执行 action 返回一个值到driver端，在一个数据集计算后。非惰性执行 persist(cache) 持久化或缓存RDD。惰性执行 Understanding closuresspark的一个重要点，当代码在集...

2019-08-04 18:26:07 266

翻译 Spark1.6.0学习心得（一）：RDD创建

关于Spark的组成：名称抽象组成功能 Spark 第一抽象 Driver 运行main函数 Executes 执行并行操作第二抽象 broadcast variable 共享信息在driver和executor之间 Accumulator 计数在driver和executor之间原文At a hig...

2019-08-02 21:27:19 370

huang358468的博客

原创数据仓库建设四（表设计）

原创数据仓库建设三（维度建设的规范）

原创数据仓库建设二（业务矩阵的确定）

原创数据仓库建设一（核心概念）

原创快速上手neo4j

原创 spark(2.4)复习