7 AmazingJadeWu

尚未进行身份认证

我要认证

Github:https://github.com/amazingWu 开源中国:https://git.oschina.net/WU_QI

等级
TA的排名 6w+

跨网络以及跨文件系统之间的文件同步

问题近期遇到以下问题:跨网络的Hadoop集群数据同步。背景因为一些安全性原因,内部在大集群之外搭建了一套网络隔离的Hadoop集群,而且需要从大集群同步数据到该网络隔离的Hadoop集群上去。在不存在网络问题的情况下,可以使用Distcp跨集群拷贝,但是因为网络的问题,Distcp就失效了。在起初,使用了Datax来实现数据的同步,但缺陷也比较明显:配置复杂,需要配置字段级的信息,而这种在文件拷贝的场景下其实是不需要的对文件的压缩格式要求很高无法支持hive的动态分区。此外,可能会有人

2020-07-09 15:53:46

docker的container秒退问题处理

问题描述最近本地开发用的mysql docker容器挂了,原因是windows系统死机了(mmp),我强制关机了下,导致mysql实例拉不起来了,异常的原因大概是下面这样的:2017-11-15T11:44:46.562061+08:00 0 [ERROR] InnoDB: Ignoring the redo log due to missing MLOG_CHECKPOINT between the checkpoint 63593957 and the end 63593472.2017-11-1

2020-05-20 19:59:37

徒手写一个简单的RPC框架

徒手撸一个简单的RPC框架RPC(远程过程调用)简单来说就是调用远程的服务就像调用本地方法一样,其中用到的知识有序列化和反序列化、动态代理、网络传输、动态加载、反射这些知识点。发现这些知识都了解一些。所以就想着试试自己实现一个简单的RPC框架,即巩固了基础的知识,也能更加深入的了解RPC原理。当然一个完整的RPC框架包含了许多的功能,例如服务的发现与治理,网关等等。本篇只是简单的实现了一个调用的...

2020-03-01 21:44:26

Apache Spark DataSource V2 介绍及入门编程指南

Apache Spark DataSource V2 介绍及入门编程指南(1)Apache Spark DataSource V2 介绍及入门编程指南(2)

2019-11-15 15:58:12

一种传统数仓中的数据源管理解决方案的构想

背景描述大数据+AI是时代的必然走向,很多企业已经初步或较为完整的建立了数据仓库,数仓能力是数据驱动的必要能力。日渐庞大的数据量,要求企业必须能够有效地管理自己拥有的数据,那围绕这个领域,很多公司或开源组织都有所尝试,典型的如数据血缘,而今天讨论的内容也是这个问题的一个子集。就一个企业而言,其使用的数据承载平台可能是多样化的。目前很多企业的数仓是以HDFS+Hive的技术栈来实现,并且其数据血...

2019-07-21 14:19:41

java性能调优攻城利器-JMH

简介JMH即Java Microbenchmark Harness.是由开发JVM的那些大佬开发出的Micro Benchmark Framework.理论上支持各种在JVM上运行的语言。何为Micro Benchmark Framework?简单的说就是在方法级层面的benchmarck。通常来说,随着系统整体复杂性的不断提升,精准的衡量系统的一个单元的性能愈加困难(如单独进行测试系统的某个...

2019-06-12 17:25:32

redis分布式锁

加锁代码如下:/** * @param key 要加锁的key * @param expireAt millis 加锁时间戳 * @return 加锁成功返回true */public boolean lock(String key, long expireAt) { long now = ensure(expireAt); Boolean open = re...

2019-04-17 15:36:21

centos 二进制安装docker以及docker-compose

docker二进制方法安装以下命令都在root用户下查看内核版本uname -r版本越新的docker对内核的要求越高。但最低的内核版本不能低于3.2可以使用17.12.0-ce版本的docker,如果没有找到该版本,较高点也没有什么问题,对于17.xxx–18.03.1-ce的docker,3.10.0-957.10.1.el7.x86_64版本的内核是足够了下载二进制资源h...

2019-03-21 17:39:58

CronScheduledThreadPoolExecutor的实现

应该在不少场景中都会有这种需求,需要Java原生的ScheduleThreadPool支持Cron表达式来指定调度时间,为了满足这种需求,实现了CronScheduledThreadPool。在实现初,构想了下实现方案,最后觉得将Java8中的ScheduledThreadPoolExecutor进行拓展比较简单高效。那么如果按照这个方案实现会遇到哪些问题呢?

2019-03-17 19:44:10

理解java双亲委派模式

双亲委派模式简介双亲委派模式的工作原理的是;如果一个类加载器收到了类加载请求,它并不会自己先去加载,而是把这个请求委托给父类的加载器去执行,如果父类加载器还存在其父类加载器,则进一步向上委托,依次递归,请求最终将到达顶层的启动类加载器,如果父类加载器可以完成类加载任务,就成功返回,倘若父类加载器无法完成此加载任务,子加载器才会尝试自己去加载,这就是双亲委派模式,即每个儿子都不愿意干活,每次有活...

2019-03-17 16:16:54

BTrace-Java应用的动态监控工具

引子最近看了美团的一篇文章Java动态追踪技术探究,产生了一种强烈的共鸣,卧槽,这也太炫酷了吧。好吧,各位看官请放下手中的屠刀,原谅我这个菜鸡。简介看到这里的,应该原谅我这个小菜鸡了,既然如此就来说说这个BTrace。BTrace github地址https://github.com/btraceio/btraceBTrace是Java的安全可靠的动态跟踪工具。 它的工作原理是通过...

2019-03-01 22:08:10

统计学习方法课后习题

第2章 感知机2.1第三章 K近邻算法3.13.3第五章5.1第2章 感知机2.1模仿例题2.1,构建从训练数据求解感知机模型的例子。例题 2.1 的数据集如下:x = [3 3; 4 3; 1 1];y = [1; 1; -1];感知机的训练过程为:(1)选取初值w和b (2)从训练集中选取数据(xi,yi)(xi,...

2018-05-17 21:02:32

Hive order by、sort by、distribute by

ORDER BYHive中的ORDER By和其他的SQL中的定义时一样的,用于对查询结果进行一个统一的排序。在Hive中,该语句会将所有的数据都通过一个reducer进行处理,对于大数据集会是一个瓶颈。Hive中的order by语句有一些限制,在strict模式下(hive.mapred.mode=strict),order by语句后面需要跟上limit 语句,原因在于order b...

2018-04-13 15:58:19

Hive Group By的实现原理

group by多字段select rank, isonline, count(*) from city group by rank, isonline;将GroupBy的字段组合为map的输出key值,利用MapReduce的排序,在reduce阶段保存LastKey区分不同的key。MapReduce的过程如下(当然这里只是说明Reduce端的非Hash聚合过程)group...

2018-04-09 15:13:18

个人博客说明

  又开始弄些花里胡哨的东西了,去年用GitPage弄了一个个人博客,使用了一段时间之后,才深刻的明白为什么个人博客的时代过去了,个人博客像一个荒岛,真的很难引流,作为一个小白,在没有影响力的时候还是老老实实的在我们的CSDN大家庭学习分享新东西吧!但是这并不能阻挡我作的脚步~,最近新建了一个个人导航页amazingwu.top,愿我的孤岛能和世界搭建起桥梁。  此外想吐槽的是走出原创的脚步挺...

2018-04-06 19:58:21

Hive Join的实现原理

JOINhive执行引擎会将HQL“翻译”成为map-reduce任务,如果多张表使用同一列做join则将被翻译成一个reduce,否则将被翻译成多个map-reduce任务。如: hive执行引擎会将HQL“翻译”成为map-reduce任务,如果多张表使用同一列做join则将被翻译成一个reduce,否则将被翻译成多个map-reduce任务。 eg: SELECT a.val, b.va

2018-03-31 13:03:24

Hive DDL详解

OverViewHiveQL DDL statements are documented here, including: CREATE DATABASE/SCHEMA, TABLE, VIEW, FUNCTION, INDEXDROP DATABASE/SCHEMA, TABLE, VIEW, INDEX TRUNCATE TABLE ALTER DATABASE/SCH...

2018-03-30 12:05:37

netty 原理分析

之前在github上发现了一篇非常棒的 netty 原理说明,分享一下 netty 原理分析

2018-03-16 15:19:11

spring-cloud系列-Eureka

一、Eureka介绍与使用服务注册与发现对于微服务系统来说非常重要。有了服务发现与注册,你就不需要整天改服务调用的配置文件了,你只需要使用服务的标识符,就可以访问到服务。代码可参考:https://github.com/amazingWu/Spring-Cloud-AG-Admin/tree/master/ace-center  服务注册管理器原理如下图所示:

2017-11-23 10:44:12

极大似然估计和贝叶斯估计

极大似然概估计使用情况:模型已定,参数未知 f(x1,x2,...,xn|Θ) 假设所有采样独立同分布,f为模型,θ为模型参数 定义似然函数: L(Θ|x1,x2,...,xn)=f(x1,x2,...,xn|Θ) 使函数值最大化(对Θ取一阶导数)的Θ值就是 Θ的最大似然估计 求法: 因为独立同分布 L(Θ|x1,x2,...,xn)=f(x1,x2,...,x

2017-11-15 14:34:30

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。