DerekJiang-CSDN博客

转载 [转载]Delta Lake、Iceberg 和 Hudi 三大开源数据湖不知道如何选？那是因为你没看这篇文章

转自：https://www.sohu.com/a/378604987_315839这篇文章是一年多之前的了，很多方面有些变化，比如说，目前Hudi也已经能够支持Flink，Presto等查询框架。但是这篇文章还是很好的帮我理解了Delta，Iceberg和Hudi各自的情况和起源。另外，附上一个更新版（2021/04/25），社区对比：很奇怪的一点，Hudi现在github watch的数量竟然比之前少了。。。---------------------目前市面上流行的三大开源数据湖

2021-04-25 14:39:45 643

原创对CTO这个角色的一些个人看法

前言：为什么写这篇文章很多做技术的同学，都会将CTO作为自己人生阶段性目标之一。本人也是技术出身，也曾写过多年的代码，也就仰望CTO这个role多年，随着年龄的不断增长，视野也在逐步扩展，对CTO的认识也从原来的无限敬仰到现在的合理尊重、敬佩。前段时间网因为丁香园和冯大辉的事情，网上对CTO这个角色展开了非常多的争论，在看了很多人的很多说法之后，想找个机会梳理一下我对于CTO的认知，也算是帮自己梳理

2016-11-28 13:51:55 13486

转载核心流程 - 【Dr.Elephant源码分析系列文章-2】

转自：http://blog.csdn.net/qsc0624/article/details/51594141---------------关于如何开始代码部分的分析，我思考了许久。原因如下：Dr.Elephant的核心代码不多，截止到我读代码时，一共1万行左右。核心代码部分比较集中，可以通过一篇文章来分析完。Dr.Elephant的扩展性非常好，在介绍源码时，扩展性也是非常值得介绍的。

2016-07-06 09:37:35 3197

转载综述 - 【Dr.Elephant源码分析系列文章-1】

转自：http://blog.csdn.net/everstring_china/article/details/51504777--------------Dr.Elephant是LinkedIn于2016年4月开源的一个Hadoop平台性能调优工具。我们可以从这个链接获取源码：https://github.com/linkedin/dr-elephant。Dr.Elep

2016-05-26 10:17:34 3958

转载 NoSQL 比较 - Cassandra vs MongoDB vs Redis vs ElasticSearch vs HBase

Cassandra vs MongoDB vs CouchDB vs Redis vs Riak vs HBase vs Couchbase vs OrientDB vs Aerospike vs Neo4j vs Hypertable vs ElasticSearch vs Accumulo vs VoltDB vs Scalaris vs RethinkDB 对比

2016-05-17 16:38:10 10169

转载史上最全“大数据”学习资源整理

史上最全“大数据”学习资源整理

2016-05-17 15:48:29 7817

转载机器学习中分类评估方法简介 - 1

机器学习中分类评估方法简介

2016-05-16 11:09:33 5500

转载 Dr.Elephant 官方文档翻译汇总

Dr.Elephent 官方文档翻译汇总

2016-05-13 01:03:38 4092

转载 Dr.Elephant FAQ 常见问题

这篇文章列举了一些Dr.Elephant常见的问题，以及一些建议来帮助我们解决实际遇到的问题。

2016-05-12 15:33:08 4103

转载 Dr.Elephant Rest API

有的情况下，用户可能不能访问Dr.Elephant的UI界面，但是需要和Dr.Elephant进行交互来获得Dr.Elephant的一些分析结果。Dr.Elephant提供了Rest API来满足用户的这个需求。根据ID获得应用信息根据任务的ID，可以获得任务的详细信息以及启发式算法的分析结果。

2016-05-09 02:37:18 3182

转载用Dr.Elephant对于Hadoop任务进行优化建议

使用Dr.Elephant来分析我们的任务，可以知道有哪些地方可以进行优化。加速你的任务流程对于特定的任务，最好有特定的参数配置。对于很多的应用场景来说，默认的任务配置并不能保证每个任务都有最好的性能。尽管对这些任务进行调优会花费一些时间，但是这些调优带来的性能提升是非常可观的。

2016-05-09 02:35:34 4342

转载 Dr.Elephant启动过程问题汇总

转载自：http://blog.csdn.net/qsc0624/article/details/51335607---------------------------在首次启动Dr.Elephant时，因为配置不当或者环境因素可能会导致启动失败。当启动失败后，我们可以从Dr.Elephant的日志文件（默认的启动日志是dr.log）中查看启动过程日志，找到Error和Except

2016-05-07 01:56:26 3623

转载 Dr.Elephant 部署启动详细流程

转载自：http://blog.csdn.net/qsc0624/article/details/51335070------------------最近尝试在测试环境安装部署了Dr.Elephant，花了不少时间，碰到一些问题。借助于官方文档和LinedIn akshayrai大神的帮助，最终成功启动Dr.Elephant。鉴于国内还没有类似的文章详细介绍Dr.Elephant的部署启动

2016-05-07 01:54:08 4954

转载 Dr.Elephant启发式算法指南

这篇文章介绍了Dr.Elephant中默认提供的对于MapReduce任务和Spark任务的启发式算法。分别介绍了每个启发式算法的一些概念以及计算方法。

2016-05-06 03:18:08 4387

转载 LinkedIn开源Dr. Elephant:Hadoop和Spark性能监控工具

转载自：http://developer.51cto.com/art/201604/509314.htm?utm_source=tuicool&utm_medium=referral-----------------------------我们今天很荣幸的宣布项目Dr.Elephant的开源，这是一个强大的工具，可以帮助Hadoop和Spark用户理解、分析、以及改善系统的性能。在

2016-05-05 04:18:36 4896

转载 Dr.Elephant部署指南

收录自：http://blog.csdn.net/qsc0624/article/details/51274559----------------------系统环境要求Dr.Elephant通过Yarn的资源管理器和历史任务服务来获取任务的详细信息。Dr.Elephant对历史任务进行分析，然后把分析结果保存到后台的数据库中，Dr.Elephant默认使用

2016-05-05 02:33:36 3617

转载 Dr.Elephant开发者指南

收录自：http://blog.csdn.net/qsc0624/article/details/51274145------------------------创建Dr.Elephant项目获取源代码从Github仓库中获取代码，dr-elephant。编译代码Dr.Elephant项目基于Play框架开发，所以开发Dr.Eleph

2016-05-05 02:32:34 5522

转载 Dr.Elephant用户指南

收录自：http://blog.csdn.net/qsc0624/article/details/51258955--------------------------这篇文章介绍怎么样使用Dr.Elephant来进行任务分析。UI首页Dr.Elephant启动后，首页如下：集群统计信息首页的灰色部分包含了最新的集群信息。这

2016-05-05 02:29:07 3683

转载 Dr.Elephant简介

收录自http://blog.csdn.net/qsc0624/article/details/51249020---------Dr.Elephant被定位成一个对Hadoop和Spark任务进行性能监控和调优的工具，它能够自动收集Hadoop平台所有的度量标准，并对收集的数据进行分析，并将分析结果以一种简单且易于理解的形式展示出来。Dr.Elephant的设计目的是

2016-05-05 02:25:20 3733

原创 [翻译]Druid 开篇－大数据实时探索性分析平台

最近在研究Druid，而且项目组中也有应用Druid的需求，本着勤奋好学勇于总结的想法，打算写个Druid的专辑，从翻译Druid的官方文档开始，夹杂些个人的总结，帮助自己去更好的理解和记忆————翻译自http://druid.io/docs/0.6.143/--------什么是DruidDruid 是一个开源的，能够在大型数据集 (100’s

2015-01-09 10:00:05 9893 2

转载 Spark：一个高效的分布式计算系统

转自：http://tech.uc.cn/?p=2116----------------------------------------------概述什么是SparkSpark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapR

2014-03-07 15:17:58 5332 1

原创 20131231-回顾2013，展望2014

今天是2013的最后一天，今晚也正好是跨越1314的时刻，趁这个机会回顾一下我的2013，顺便也展望一下2014.------------回顾2013工作方面：1. 年初回到了加入公司时第一个接触的项目当中，老板对我不错，对我比较信任和器重。被信任的感觉很好，也因此拒绝了无数猎头同学的邀请，碰到个不错的老板不容易，希望把我们这个team的事情做好，是帮他也是帮我自己。2.

2013-12-31 23:40:53 1433 2

转载 [转]Java文件映射[mmap]全接触

转自： http://site.douban.com/161134/widget/articles/8506170/article/18487141/---------------------------------------------------------------------------------------------------------------------------

2013-11-12 14:27:43 4467

原创 [翻译][Trident] Storm Trident state 原理

原文地址：https://github.com/nathanmarz/storm/wiki/Trident-state-----------------------------Trident在读写有状态的数据源方面是有着一流的抽象封装的。状态即可以保留在topology的内部，比如说内存和HDFS，也可以放到外部存储当中，比如说Memcached或者Cassandra。这些都是使用

2013-08-16 12:53:25 12327 5

转载 Agile in the Small

转自：http://pragprog.com/magazines/2012-12/agile-in-the-small---------------Most problems these days seem large, or at least most of the interesting ones do. Some of these problems are programmi

2013-08-02 10:18:32 1561

原创 [翻译][Trident] Storm Trident 教程

英文原址：https://github.com/nathanmarz/storm/wiki/Trident-tutorial----------------Trident是在storm基础上，一个以realtime 计算为目标的高度抽象。它在提供处理大吞吐量数据能力的同时，也提供了低延时分布式查询和有状态流式处理的能力。如果你对Pig和Cascading这种高级批量处理工具很了

2013-06-24 16:00:45 32504 11

转载【Storm总结-6】Twitter Storm: DRPC简介

转自：http://xumingming.sinaapp.com/756/twitter-storm-drpc/-------------------------Storm里面引入DRPC主要是利用storm的实时计算能力来并行化CPU intensive的计算。DRPC的storm topology以函数的参数流作为输入，而把这些函数调用的返回值作为topology的输出流。

2013-06-18 18:51:14 7299

转载分布式发布订阅消息系统 Kafka 架构设计 - 目前见到的最好的Kafka中文文章

转自：http://www.oschina.net/translate/kafka-design参与翻译(4人)：fbm, 飞翔的猴子, Khiyuan, nesteaa感谢这些同志们的辛勤工作，翻译的真不错，目前见到的最好的Kafka中文文章-------------------------------我们为什么要搭建该系统Kafka是一个消息系统，原本开

2013-06-08 10:40:51 38026

转载【Storm总结-5】Twitter Storm: Transactional Topolgoy简介

转自： http://xumingming.sinaapp.com/736/twitter-storm-transactional-topolgoy/----------------------------概述Storm通过保证每个tuple至少被处理一次来提供可靠的数据处理。关于这一点最常被问到的问题就是“既然tuple可能会被重写发射(replay),

2013-06-07 15:22:44 2720 1

转载【Storm总结-4】Storm 中acker的工作流程

转自http://xumingming.sinaapp.com/410/twitter-storm-code-analysis-acker-merchanism/---------------------------概述我们知道storm一个很重要的特性是它能够保证你发出的每条消息都会被完整处理，完整处理的意思是指：一个tuple被完全处理的意思是：这个

2013-06-07 15:12:17 6941

转载【Storm总结-3】Storm如何保证消息不丢失 (Guaranteeing-message-processing)

转自： http://xumingming.sinaapp.com/127/twitter-storm如何保证消息不丢失/---------------------------------本文翻译自： https://github.com/nathanmarz/storm/wiki/Guaranteeing-message-processingstorm

2013-06-07 14:43:32 8106 2

原创【Storm总结-2】关于Storm 中Topology的并发度的理解

主要思想来源于storm的项目页面： https://github.com/nathanmarz/storm/wiki/Understanding-the-parallelism-of-a-Storm-topology其中加入了一些个人的理解，所以就把文章mark成原创了，实际上大部分还是人家的东西。其实翻译这个文章的人也挺多，我看了几个，总是感觉有点绕，所以干脆自己总结一下。目标是简单明了的

2013-06-06 17:05:56 17881 2

转载【Storm总结-1】Storm 简介 -- 转一个我认为总结的比较好的介绍

第一次接触Storm还是在1年半以前了，当时在做S4，找Storm来进行对比，慢慢的对storm也有了越来越多的了解，到后来在项目中也用到了storm。随着了解的深入和使用的增加，一直想写一系列关于storm的文章，结果发现很多勤奋努力的同学们已经写了很多，所以慢慢转一个系列过来，中间也许夹杂一些个人的理解吧。-----------------转自： http://www.cnbl

2013-06-06 16:10:16 6645

转载 ZooKeeper典型使用场景总结

ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得zookeeper能够应用于很多场景。网上对zk的使用场景也有不少介绍，本文将结合作者身边的项目例子，系统的对zk的使用场景进行归类介绍。值得注意的是，zk并不是生来就为这些场景设计，都是后来众多开发者根据框架的特性，摸索出来的典型使用方法

2013-04-02 13:51:40 2835

原创 20130131 - 回顾2012，展望2013

回顾2012：工作方面：仍然呆着同一个公司，不过做的项目前前后后换了几次，从swordfish到CORE，到C项目的content部分，到S项目的content部分，再到S项目的Data Quality部分，很累，也很充实。虽然自己已经31岁了，不过依然每天都能感觉到自己在进步，也得到了周围同事的一些认可，这是个很好的信号，说明自己的努力没有白费。生活方面：

2013-01-31 20:21:03 1401 1

原创 Google-Guice入门介绍

一. 概述Guice是一个轻量级的DI框架。本文对Guice的基本用法作以介绍。本文的所有例子基于Guice 3.0本文的很多代码来源于Guice主页：http://code.google.com/p/google-guice/wiki/GettingStarted考虑到是入门介绍，本文中并未涉及到AOP相关内容，如有需要还请参考上面链接。二. 举例说明Guice的用法

2012-02-03 15:08:35 43887

原创关于选择Spring还是Google-Guice的一些想法

Spring已经出来好多年了，当年是作为轻量级J2EE容器和EJB抗衡的，不过随着技术和时间的发展，Spring越来越全面，越来越强大，也就越来越Heavy了。而且，在使用Spring的过程中，因为所有Bean直接的关联都是在XML配置文件中完成的，于是当系统变大之后，XML配置中的内容会非常的多，感觉会很乱。Google－Guice是最近几年刚刚出来的一种DI框架，它的好处就是简单，轻量级，

2012-01-22 13:23:07 21101 2

转载 Yahoo! s4和Twitter storm的粗略比较

转自：http://www.blogjava.net/killme2008/archive/2011/11/10/363238.html-----------------------------------------------------Yahoo! s4和Twitter storm的粗略比较Items\ProjectsYahoo! s4Twitte

2012-01-16 09:54:27 2419

转载 S4 - 分布式流计算平台

最近一直在研究S4，所以就想要写点什么，不过发现已经有人写了，于是我就偷个懒，直接转贴了：）本文转自：http://www.cofftech.com/thread-4429-1-1.html－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－s4的论文： S4: Distributed Stream Computing Platfor

2012-01-15 22:20:48 2608

原创深入研究Java虚拟机的类加载机制

说到Java虚拟机的类加载机制，很多朋友第一反应想到的应该就是ClassLoader，我也如此，不过ClassLoader其实只是Java虚拟机加载机制中的一部分，最近在看《深入理解Java虚拟机》，对Java虚拟机的类加载机制有了更深入的了解，不吐不快。JVM中类的整个生命周期如下：加载＝》验证＝》准备＝》解析＝》初始化＝》使用＝》卸载使用和卸载这两个步骤不在今天的讨论范围之

2012-01-15 15:00:01 2970 1