3 Mr.ChowSit

尚未进行身份认证

专注大数据数据仓库

等级
TA的排名 19w+

Swagger快速入门

添加依赖<dependency> <groupId>com.spring4all</groupId> <artifactId>swagger-spring-boot-starter</artifactId> <version>1.7.0.RELEASE</version></dependency...

2019-11-06 20:17:08

Hive Merge详解

说明Hive在2.2版本之后开始支持Merge操作,并且Merge只能在支持ACID的表上执行语法MERGEINTO<targettable>ASTUSING<sourceexpression/table>ASSON<booleanexpression1>WHENMATCHED[AND<booleanexp...

2019-10-28 14:23:44

基于Zookeeper客户端Curator监听节点上下线

ApacheCurator是ApacheZooKeeper(一种分布式协调服务)的Java/JVM客户端库。它包含一个高级的API框架和实用程序,使ApacheZooKeeper的使用更加容易和可靠。它还包括常见用例和扩展(如服务发现和Java8异步DSL)的方法。效果展示:代码如下:packageha;importorg.apache.curator.fram...

2019-10-24 21:40:12

数据仓库@缓慢变化维(拉链算法)

前言维度表中的数据来源于操作型系统。在多维数据仓库或独立型数据集市中,数据直接来源于操作型系统。在企业信息化工厂中,来自于操作型系统的数据首先移到企业数据仓库中,然后进入多维数据集市。进入到维度表的信息,在操作型系统中仍然有可能发生改变。例如:客户的生日出现错误可能需要更新以纠正,客户的地址发生变化也需要更新等。由于下游的星型模式使用代理键作为每个维度表的主键,因此不需要像原系统那样处理信...

2019-10-08 21:09:14

Spark on Hive

一、复制Hadoop配置文件(core-site.xml,hdfs-site.xml,hive-site.xml)到Spark的conf下二、复制Hive的mysql-connector-java-5.1.40-bin.jar到Spark的jars中三、启动Spark下的thriftserver服务sbin/start-thriftserver.sh\--...

2019-10-04 12:19:46

MyBatis Generator在Maven聚合项目中的最佳实践

在配置文件mybatis-generator.xml中新增一张数据库表配置(shop_map)<?xmlversion="1.0"encoding="UTF-8"?><!DOCTYPEgeneratorConfigurationPUBLIC"-//mybatis.org//DTDMyBatisGeneratorConfiguration1...

2019-09-27 16:44:03

修改SpringBoot中RedisTemplate默认序列化为Json

最近在使用redis保存对象时发现,对象是被序列化之后存入到redis中的,这样就不能直观的看到对象的属性信息,所以还是希望使用简单的json格式来保存对象到redis中。那让我们来查看一下SpringBoot中默认的RedisTemplate的实现是什么/***HelperclassthatsimplifiesRedisdataaccesscode.*<...

2019-09-25 20:32:51

Java进程查看命令之jps

语法结构:C:\Users>jps-helpusage:jps[-help]options:命令选项,用来对输出格式进行控制jps[-q][-mlvV][<hostid>]hostid:指定特定主机,可以是ip地址和域名,也可以指定具体协议,端口。Definit...

2019-09-23 23:12:57

Spark优化总结

Spark优化主要分为两个方面的优化,一是代码逻辑的优化,二是资源配置的优化1.代码逻辑1.1.RDD优化RDD优化主要也有两个方面的考虑,一是RDD的复用,二是RDD的持久化。那么主要针对RDD的持久化进行说明。在Spark中多次对同一个RDD执行算子时,每次都会对这个RDD的父RDD重新计算一次,所以要避免这种重复计算的资源浪费,那么就需要对RDD进行持久化。Memory_...

2019-09-23 20:23:06

SparkCore实现分类计数|分组TopN|分组平均

packageexerciseimportorg.apache.spark.{SparkConf,SparkContext}objectExec03{ defmain(args:Array[String]):Unit={ valconf=newSparkConf().setAppName(Exec03.getClass.getSimpleName).se...

2019-09-19 22:08:41

Java集合操作(交集|差集|并集)

packagelist.list;importjava.util.ArrayList;importjava.util.Arrays;importjava.util.List;importjava.util.Set;importjava.util.stream.Collectors;publicclassJavaListOps{ publicstaticvo...

2019-09-18 19:42:09

Maven总结

介绍ApacheMaven是一个软件项目管理和理解工具。基于项目对象模型(POM)的概念,Maven可以从中心信息段管理项目的构建、报告和文档。下载http://maven.apache.org/download.cgi安装下载安装包解压到磁盘配置环境变量M2_HOME=C:\ProgramFiles\apache-maven-3.3.9Path=...

2019-09-18 19:14:19

Flink入门案例(Word Count)

Flink安装包下载【flink-1.9.0-bin-scala_2.11.tgz】略启动[hadoop@hadoopflink-1.9.0]$./bin/start-cluster.shStartingcluster.Startingstandalonesessiondaemononhosthadoop.Startingtaskexecutordae...

2019-09-02 23:14:16

Java(Scala)排序总结(选择|冒泡|插入|快速|归并)

Java版本packagesort;importjava.util.Arrays;publicclassSort{ publicstaticvoidmain(String[]args){ int[]arr={8,6,4,2,1,3,5,7,9}; System.out.println(Arrays.toString(arr));/...

2019-09-01 20:41:55

MongoDB的对象存入和取出

什么是MongoDBMongoDB是当前最受欢迎的新一代数据库。相比于传统关系数据库,MongoDB对于大数据,高并发以及高可靠性有强大的支持。相比于其他的NoSQL数据库,MongoDB的基于文档的数据模型及其动态建模的特性使得它更加自由灵活,适用于各种应用场景如CRM,内容管理,事件纪录,商情分析,手机应用,社交等等JavaAPI的简单操作importcom.alib...

2019-09-01 16:29:07

Hive自定义聚合函数UDAF(计算中位数)

背景需求中位数(Median)又称中值,统计学中的专有名词,是按顺序排列的一组数据中居于中间位置的数,代表一个样本、种群或概率分布中的一个数值,其可将数值集合划分为相等的上下两部分。对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。准备1~7个乱序数字奇数个数字经过排序【1,2,3,4,5,6,7...

2019-08-24 22:30:11

Phoenix(SQL on HBase)

什么是Phoenix简单科普一下Phoenix其实就是SQLonHBase,也就是说我们可以使用简单的SQL来操作HBase,类比SQLonHadoop的Hive。然后我们就快速体验一下官方的入门案例,我这里已经有了HBase的集群,所以HBase的安装略过,以下只针对Phoenix的安装进行说明源码包编译详见我的另外两篇博客:HBase源码编译:https://blog...

2019-08-21 18:52:01

Phoenix4.10.0源码编译(Centos6.10)

源码包准备【apache-phoenix-4.10.0-HBase-1.2-src.tar.gz】我的HBase版本是1.2.6,所以这里选择的是HBase-1.2,HBase的源码编译可以参考我的另一篇博客:HBase编译:https://blog.csdn.net/DataIntel_XiAn/article/details/99874230因为之前编译过Hadoop所以整个环...

2019-08-21 17:57:25

HBase1.2.6源码编译(Centos6.10)

源码包准备【hbase-1.2.6-src.tar.gz】略因为之前编译过Hadoop所以整个环境基本不需要新增什么配置,关于hadoop源码编译可以参考我的另一篇博客:Centos下编译:https://blog.csdn.net/DataIntel_XiAn/article/details/98106631Windows下编译:https://blog.csdn.net/D...

2019-08-20 19:22:43

Hive自定义函数UDF(统计字符串个数)

需求统计一个字符串在另一个字符串中出现的次数,比如:"aorborc"中出现了多少个"or"分析Hive内置函数中并没有可以直接使用的函数,嵌套起来比较麻烦,所以需要自定义实现代码packageudf;importorg.apache.hadoop.hive.ql.exec.UDFArgumentException;importorg.apache.had...

2019-08-19 19:06:48

查看更多

勋章 我的勋章
  • 新人勋章
    新人勋章
    用户发布第一条Blink获赞超过3个即可获得
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。