海南中剑1989-CSDN博客

原创数据仓库主要功能？

数据仓库主要功能？ETL设计：数据的抽取同步、数据清洗、数据转换。涉及关系型数据库（mysql、mariadb、oracle等），文档型数据库（mongodb、elasticsearch等）。数据分层：一般划分为ODS层、CM层、ML层。ODS层表示未进行加工的数据。CM层表示清洗合并层的数据。数据初步建模：对应数据分层ML层，一般采用关系模型（雪花模型）或星型模型，形成宽表对外提供数据...

2019-10-01 17:57:54 4999

原创 phoenix与squirrel-sql结合或phoenix-sqlline.py启动后展示查询时区Timezone差8个小时问题

场景（1）：spark程序中使用java.sql.Timestamp插入phoenix表结构为register_time(Timestamp)。（2）：squirrel-sql中使用此种方式查询select register_time,register_date from user where register_time= to_timestamp(‘2016-01-21 12:15:34’...

2019-02-26 11:46:06 1678

原创 spak-submit提交参数

spark-submit参数说明参数名格式参数说明–masterMASTER_URLspark://host:port, mesos://host:port, yarn, yarn-cluster,yarn-client, local–deploy-modeDEPLOY_MODEClient或者master，默认是client–classCLASS_...

2019-01-29 15:37:24 452

原创 ClassNotFoundException: Class org.apache.phoenix.mapreduce.PhoenixOutputFormat not found

问题ClassNotFoundException: Class org.apache.phoenix.mapreduce.PhoenixOutputFormat not found详细展示Exception in thread "main" java.lang.RuntimeException: java.lang.ClassNotFoundException: Class org.ap...

2019-01-24 15:27:45 1160 2

原创 SYSTEM:CATALOG is found but client does not have phoenix.schema.isNamespaceMappingEnabled enabled

问题Inconsistent namespace mapping properties. Cannot initiate connection as SYSTEM:CATALOG is found but client does not have phoenix.schema.isNamespaceMappingEnabled enabled详细展示java.sql.SQLExcepti...

2019-01-24 12:12:48 7081

原创 CDH5.12.2安装phoenix

前提操作系统： CentOS 7.4 64位阿里云实例*6台准备JDK环境欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器...

2018-09-27 14:08:18 690

原创 kafka consumer zookeeper 交互逻辑

consumer操作 1. kafka各组件通信采用TCP协议。broker端口号：9092，zookeeper端口号：2181。 2. consumer启动时（绿色虚线），与brokers建立一个TCP长连接，生成SimpleConsumer实例，并返回broker配置文件中的域名。 3. consumer根据域名访问brokers获取topic、partition、offset...

2018-09-12 19:58:25 4330 3

原创为什么互金平台资金存管了，就安全了？

最近多家互金平台接连“爆雷”，引起投资人恐慌性情绪蔓延，监管层和互金协会接连发出合规信号，合规内容中经常提到“资金存管”。今天咱们就聊聊，什么是资金存管？资金存管了就安全吗？那什么是资金存管呢？投资人的资金不直接充值到互金平台，而是在存管银行开设账户。资金充值到该账户中，平台通过债券匹配的方式，将该笔资金出让给借款人。资金存管主要是防止平台自融资金，避免用户资金损失。估计说的有些绕，咱们用...

2018-08-05 19:19:36 646

原创 YARN--CapacityScheduler 多用户资源隔离

前提采用Cloudera Manager管理集群yarn.resourcemanager.scheduler.class 选择CapacityScheduler配置截图配置&lt;configuration&gt; &lt;!-- root队列下default、hive两个队列 --&gt; &lt;property&gt; &lt;nam

2018-06-28 18:50:16 1176

原创调度--Airflow--webserverUI delete dag

前提条件 airflow目前采用version=1.9。查看官方版本，airflow 1.8 要想删除dag还是非常麻烦的，1.9版本相对容易删除一些，官网描述从1.0版本开始，支持airflow delete_dag 命令行删除。下面介绍一种1.9版本删除dag的方式删除/usr/lib/python2.7/site-packages/airflow/example_dags下 .py...

2018-06-11 14:58:01 1994

原创网络原理--物理层

物理层接口与协议物理层接口物理层只关心比特流的传输，而不涉及比特流的控制。 DTE:数据终端设备，DCE：数据通信设备物理层功能机械特性电气特性信号的功能特性规程特性物理层协议EIA RS-232C接口EIA RS-449接口100系列和200系列接口标准X.21传输介质双绞线同轴电缆光纤无线传输介质数据通信技术通信信道数据传输速率信道容...

2018-05-29 23:02:09 347

原创 HDFS--unable to create new native thread

Exception展示unable to create native thread引发，读取block，stream closed引发，发生一系列io异常引发，namenode kill datanode分析发生此种情况，因为需要写入hdfs的进程数多于linux分配给hdfs可操作的进程数，分配的进程数都被占用了，不够重新创建。现在提供两种解决思路： ...

2018-05-29 10:49:40 640

原创 HIVE--NoSuchMethodException: org.apache.hadoop.hive.ql.metadata.Hive.loadDynamicPartitions

Exception展示Exception in thread "main" java.lang.NoSuchMethodException: org.apache.hadoop.hive.ql.metadata.Hive.loadDynamicPartitions(org.apache.hadoop.fs.Path, java.lang.String, java.util.Map, boo...

2018-05-10 11:44:25 6272 1

原创 maven 命令

usage: mvn [options] [

2018-04-26 11:22:48 123

原创互联网金融行业认知

社会总资产端==等于==社会总资金端注释：社会上全部理财资金理论上等于社会上全部贷款资金假如银行的储蓄资金少了，会发生什么事情？银行以3%吸收社会资金，再向社会提供贷款。以标准公积金年利率为准为4.9%。互联网金融行业同样以5%~12%年化利率吸收社会资金，再向社会公众贷款，参考年利率9%~36%。可以知道银行相对其他渠道面相社会（企业和大众群众）能够提供较低的贷款。从而企业和个人拿到...

2018-04-25 23:40:20 1810

原创数据抽象过程和数据模型

- 数据抽象过程【1】：概念模型设计阶段，分析用户需求，设计概念模型。【2】：逻辑模型设计阶段，将概念模型转换为逻辑模型【3】：物理模型设计阶段，数据库/数据仓库实现时，根据逻辑模型设计物理模型- 概念模型：数据的整体逻辑结构关系模型：关系型数据库、数据仓库一般采用实体建模法- 逻辑模型：层次模型：网状模型：关系模型：关系型数据库采用关系模型，使用范式...

2018-04-23 23:23:57 5656

原创数据仓库发展过程

参考文档：https://yq.aliyun.com/articles/154348（1）：前期一般先启动olap服务，数据仓库存储，使用hadoop集群（2）：小型期，引入oltp，执行实时计算。hbase、hadoop集群使用一个集群（数据级别非重复数据10T级别）（3）：中期，伴随olap压力的增大，影响oltp实时计算，顾数据仓库拆分为olap数据仓库（一般采用hadoop...

2018-04-03 12:04:48 645

原创构建数据仓库考虑哪些问题

构建数据仓库考虑哪些问题？数据粒度问题目前ODS层数据粒度在行记录级别，粒度级别越低，查询范围越广，粒度越高，查询越少。数据仓库技术问题管理大量数据并且能够将其管理好的能力。管理多种介质，磁盘–》近线存储（光盘，磁带等）–》存档存储索引及监控数据，能够支持灵活和不可预测的数据访问。例如索引、二级索引等。多种技术的接口，操作型环境抽取到数据仓库，从数据仓库集成数据集市。甚至包换...

2018-04-02 18:54:03 2160

原创 apache hbase 官方翻译版

hbase官方文档：http://hbase.apache.org/欢迎来到 Apache hbasehbase是hadoop数据库，一个分布式的、可伸缩的、大数据存储系统。 hbase应用在随机、实时读写大量数据的业务场景下，这个项目目标在集群上支持非常大的表（10亿级别的行数、百万级别的列数）。hbase是一个开源的、版本化的、非关系型的数据库。hbase依赖在hdfs之上。...

2018-04-02 11:38:33 695

原创关系型数据库的隔离级别

脏读一事务对记录做了增删改操作，还未提交，另外一个事务产生读操作。此时第一个事务发生回滚，导致第二个事务产生脏读。不可重复读事务中发生两次读取同一条记录操作，第一次读取和第二次读取之间，另一个事务对该记录修改了，则两次读取记录不一样。幻读第一个事务对一定范围内的批量记录做了修改，第二个事务此时对该范围增加了一条数据，导致第一个数据批量修改没有完全修改。数据库的隔离级别 ...

2018-03-10 15:32:05 439

原创时间复杂度 O(n)

时间复杂度基本操作重复执行的次数是问题规模n的某个函数f(n)，算法的时间度量可以记为：T(n) = O(f(n))。理解：基本操作重复执行的次数。前提，算法的执行时间和基本操作重复执行次数成正比。

2018-03-07 16:42:29 540

原创 APP端请求设定

请求参数：crontroller名a，方法名b，密文，时间戳timestamp，金额（可选），参数密文：a + b + timestamp + “标记” RSA公钥加密/MD5加密服务端：不涉及资金数据，MD5加密相应字段数据，只需要对比时间戳和密文设计资金数据，需要RSA私钥解密，对比解密之后的明文各个字段。

2018-03-06 18:52:03 260

原创 Spring IOC 和 AOP理解

IOC（控制反转）：是一种思想，对象的实例化从开发者自己构建转移到启动spring容器时，该容器来构造实例。常见方式有bean注入和使用注解两种方式。容易发生循环注入的问题。AOP（面向切面编程）：使用代理模式 + 反射技术实现，主要用于日志管理，事务处理等。AOP参考文档：http://blog.csdn.net/db2china/article/details/53318526

2018-03-06 15:57:28 173

原创 Apache Hadoop YARN

YARN架构结构yarn是基于Master/Slave模式的分布式架构，yarn的架构结构如图：【1】：client【2】：ResourceManager(RM)，主要有两个组件，Scheduler和ApplicationManager(AM)。2.4.0版本后新增了RM HA特性。 Scheduler：调度器，负责将内存、cpu、磁盘、网络IO分配给各个NM。 Applica

2018-03-01 15:09:18 346 1

原创 jvm--jstat

简介jvm虚拟机统计信息监视工具语法jstat [options] [vmid] [interval[s|ms]] [count]选项-class:监视类加载、卸载以及消耗的时间-gc:监视JAVA 堆、gc情况-gcutil:监视JAVA 堆、gc情况关注占用空间百分比-gc

2017-11-23 17:00:29 177

原创 STORM-消息一致性保证

storm提供几个不同的保证消息处理的机制（1）：尽最大努力处理（2）：至少一次处理（3）：只有一次处理tuple树，处理消息过程中，关注消息的超时时间Config.TOPOLOGY_MESSAGE_TIMEOUT_SECS spout 从kafka读取消息（需要一个队列） bolt 从spout读取消息（需要一个队列）而不是spout消息发送给boltspout 调用nextTu

2017-11-23 16:40:10 709

原创 Mysql 实时数据同步到 kafka、hdfs

Mysql 实时数据同步到分布式存储系统

2017-08-14 18:12:02 6815 4

原创 Elasticsearch

参考文档：https://es.xiaoleilu.com/010_Intro/10_Installing_ES.html参看文档（建议）：https://www.elastic.co/guide/cn/elasticsearch/guide/current/index.htmles client文档参考：http://blog.csdn.net/geloin/article/details/844

2017-08-03 15:15:40 397

原创 docker常用命令

docker命令：docker 容器exit:退出docker容器。容器命名：docker run --name bob_the_container -i -t ubuntu /bin/bash docker run --name bob_the_container -i -t ubuntu:12.04 /bin/bash

2017-08-03 15:06:06 306

原创数据库、文件系统

数据库、文件系统的区别1：数据重复（冗余）文件与文件之间没有任何联系，举例子，一个学生选了双专业——计算机和金融，学校每个专业都有自己的管理方式，在C盘，建立了两个文件夹，一个叫计算机专业，里面存放了该学生的资料（电话住址身高体重三围），另外一个文件夹叫金融专业，里面把学生的资料（电话住址身高体重三围）又重新记录一遍，这造成了数据的重复（冗余），如果一个学霸选了4个专业，那相同的信息就要重

2017-06-29 11:09:20 943

原创数据结构--树形结构

平衡二叉树这是个平衡树，一个节点下只有小于两个子叶节点。该树想要达成有效查找，势必需要维持如下一种结构：树的子叶节点中，左子树一定小于等于当前节点，而当前节点的右子树则一定大于当前节点。只有这样，才能够维持全局有序，才能够进行查询。这也就决定了只有取得某一个子叶节点后，才能够根据这个节点知道他的子树的具体的值情况。这点非常之重要，因为二叉平衡树，只有两个子叶节点，所以如果想找到

2017-06-27 18:29:39 2677

原创数据结构--概述

线性表数组： eg:String[] strs = new String[] ();链表：单链表、双链表 eg:List<?> list = new ArrayList<>();基本操作：添加元素、修改元素、删除元素栈与队列栈： eg:JVM运行时数据区域本地方法栈、虚拟机栈队列： eg:参考java中队列基本操作：数据进出问题【栈：先进后出

2017-06-27 18:00:36 210

原创大数据--计算引擎分类

第一代计算引擎首先第一代的计算引擎，无疑就是 Hadoop 承载的 MapReduce。这里大家应该都不会对 MapReduce 陌生，它将计算分为两个阶段，分别为 Map 和 Reduce。对于上层应用来说，就不得不想方设法去拆分算法，甚至于不得不在上层应用实现多个 Job 的串联，以完成一个完整的算法，例如迭代计算第二代计算引擎由于这样的弊端，催生了支持 DAG 框架的产生。因此，支持 D

2017-06-27 15:16:43 5736

原创 linux--wget

简介wget命令从指定的url下载文件语法wget [options] [url]选项【options】-a<日志文件>：在指定的日志文件中记录资料的执行过程； -A<后缀名>：指定要下载文件的后缀名，多个后缀名之间使用逗号进行分隔； -b：进行后台的方式运行wget； -B<连接地址>：设置参考的连接地址的基地地址； -c：继续执行上次终端的任务； -C<标志>：设置服务器数据

2017-06-27 09:10:42 237

原创 linux--软件依赖管理工具

yum软件依赖工具 1.使用YUM查找软件包命令：yum search 2.列出所有可安装的软件包命令：yum list 3.列出所有可更新的软件包命令：yum list updates 4.列出所有已安装的软件包命令：yum list installed 5.列出所有已安装但不在 Yum Repository 內的软件包命令：yum list extras 6.列

2017-06-23 17:58:38 447

原创 linux--chgrp

命令功能：改变文件或者目录的组语法： chgrp [选项] [组] [文件]选项【option】： -c 当发生改变时输出调试信息 -f 不显示错误信息 -R 处理指定目录以及其子目录下的所有文件 -v 运行时显示详细的处理信息 –dereference 作用于符号链接的指向，而不是符号链接本身 –no-dereference

2017-06-23 16:02:37 185

原创 linux--chown

命令功能：改变文件或者文件夹的用户和组语法： chown [选项]… [所有者][:[组]] 文件选项【option】： -c 显示更改的部分的信息 -f 忽略错误信息 -h 修复符号链接 -R 处理指定目录以及其子目录下的所有文件 -v 显示详细的处理信息 -deference 作用于符号链接的指向，而不是链接文件本身实例

2017-06-23 15:56:40 186

原创 linux--su

描述：该命令用于用户切换。语法： su [-fmp] [-c command] [-s shell] [–help] [–version] [-] [USER [ARG]]选项： -f 或 –fast 不必读启动档（如 csh.cshrc 等），仅用于 csh 或 tcsh -m -p 或 –preserve-environment 执行 su 时不改变环境变数 -c comman

2017-06-23 15:39:35 158

原创 linux--user/group/passwd

linux系统：是多用户多任务分时操作系统linux–group命令groupadd：添加用户组语法： groupadd 【option】【用户组】选项【option】： g GID 指定新用户组的组标识号（GID）。 o 一般与-g选项同时使用，表示新用户组的GID可以与系统已有用户组的GID相同。案例： groupadd hadoopgroupdel：删除用户组语法：

2017-06-23 15:21:21 261

原创 linux-ps

介绍： ps命令：进程管理工具命令。语法： ps [option]选项[option] -A 显示所有进程（等价于-e）(utility) -a 显示一个终端的所有进程，除了会话引线 -N 忽略选择。 -d 显示所有进程，但省略所有的会话引线(utility) -x 显示没有控制终端的进程，同时显示各个命令的具体路径。dx不可合用。（utility） -p pid 进程使用

2017-06-22 19:56:22 293

负载均衡mod_jk及mod_proxy方式

jQuery 包

空空如也