• 等级
  • 212938 访问
  • 47 原创
  • 3 转发
  • 19292 排名
  • 70 评论
  • 98 获赞

如何快速地把HDFS中的数据导入Clickhouse

如何快速地把HDFS中的数据导入Clickhouse ClickHouse是面向OLAP的分布式列式DBMS。我们部门目前已经把所有数据分析相关的日志数据存储至ClickHouse这个优秀的数据仓库之中,当前日数据量达到了300亿。 之前介绍的有关数据处理入库的经验都是基于实时数据流,数据存储在Kafka中,我们使用Java或者Golang将数据从Kafka中读取、解析、清洗之后写入ClickHo...

2018-11-09 17:17:14

Waterdrop帮你快速玩转Spark数据处理

Waterdrop 是一个非常易用,高性能,能够应对海量数据的实时数据处理产品,构建于Apache Spark之上。

2018-02-28 00:14:38

每秒百万级流式日志处理架构的开发运维调优笔记

荣幸之至,我们团队在实时日志分析、搜索项目中曾经应对过百万级的挑战,在这方面有长足的进步。本文以笔记和问答的形式记录了我们曾经遇到过的实际问题及解决方案,而非小白式的大数据科普文章。相信只有真正做过每秒近百万以上的实时日志处理业务,遇到过棘手问题,才能深刻感受我们当时越不过高坎的窘境与解决问题后的狂喜。 本文首发于我们的团队博客,文章内容详见:每秒百万级流式日志处理架构的开发运维调优笔记

2017-07-30 20:13:38

python coding style guide 的快速落地实践

机器和人各有所长,如coding style检查这种可自动化的工作理应交给机器去完成,故发此文帮助你在几分钟内实现coding style的自动检查。

2016-01-02 21:37:56

测试

这是一个测试

2015-11-13 17:28:50

为什么容器技术将主宰世界

为什么容器技术将主宰世界由于本文篇幅较长(我竟然写了7千多字),为了帮助你快速理解,我先列出核心思想: 先讲一个集装箱改变全球运输业的生动故事, 再拿容器技术与集装箱做联系与对比,说明笔者是如何通过集装箱参悟了容器技术的发展命脉 —— Docker实现了应用发布和运行的集装箱化。 说说容器技术,尤其是Docker的诱人之处, 预测容器技术的未来发展。 正文:请允许我先做一个大胆的预测:容器将统治世界

2015-11-03 14:54:04

Better ELK, 新浪实时日志分析服务进化

我从2014年初入职新浪后就开始接触实时日志分析相关的技术,主要是ELK(Elasticsearch, Logstash, Kibana),当时是学习+ELK优化,接一些日志,小打小闹。从2015年起,我们正式得把实时日志分析分析作为服务提供给公司的其他部门。今天要给大家分享的是在服务化的道路上,我们的想法,方案和疑问。服务介绍随着实时分析技术的发展及成本的降低,用户已经不仅仅满足于离线分析。目前我

2015-07-15 21:35:49

Tutorial: 使用rsyslog向kafka, elasticsearch推送日志

本文介绍了一种简单易行的使用rsyslog向kafka,elasticsearch推送日志的方法;rsyslog的omkafka插件的安装、使用方法;rsyslog的omelasticsearch插件的安装、使用方法。

2015-03-20 17:24:53

Elasticsearch 2014年12月简报

Elasticsearch 1.4.2, 1.3.7发布了, Logstash 1.5.0 Beta 1发布了, Kibana 4 Beta3 发布了,Marvel 1.3.0 发布了, 还有一大堆好内容来袭。

2015-01-30 12:53:33

Elasticsearch 2014年11月简报

Elasticsearch 1.4.0发布了, Elasticsearch 安全工具Shield即将发布, kibana 4 beta 2发布了,The ELK Stack in a DevOps Environment

2014-12-16 15:07:31

Elasticsearch 2014年10月简报

Elasticsearch 2014年10月简报:发展动态,重要更新,社区新闻。

2014-11-12 11:33:08

读过几百份简历后,我对求职和写简历的新感悟

最近由于帮助朋友做了一些内推工作的缘故,期间阅过几百份应聘研发、数据分析、运营、设计等职位的简历,与HR有过沟通接触,再结合我上次求职的经历,作了一些总结,关于求职和简历。

2014-09-13 16:49:24

github开源项目介绍-使用pygrok轻松解析字符串(log, event..)

Pygroks是一个开源的Python字符串解析库,github地址:https://github.com/garyelephant/pygrok。正如其项目主页所述,它可以用来解析字符串形式的log, event等,将字符串中有用信息提取出来。这个字符串解析库支持正则表达式匹配,它提供了众多预定义的字符串匹配模式,既有正则表达式的超强匹配能力,又有简单的易用性。pygrok底层也是利用正则表达式实现的。

2014-07-26 17:32:52

AWS s3 python sdk code examples

Yet another easy-to-understand, easy-to-use aws s3 python sdk code examples.

2014-05-09 14:36:23

开源分布式搜索平台ELK(Elasticsearch+Logstash+Kibana)入门学习资源索引

Github, FogCreek, Stackoverflow, Foursquare,等公司通过elasticsearch提供搜索或大规模日志分析可视化等服务。博主甄选了以下有用的中英文slides以及blogs或相关的学习网站分享出来, 内容包括分布式索引与搜索服务Elasticsearch, logstash,数据可视化服务Kibana的学习资源,可以极大减少入门ELK的时间成本。

2014-04-15 12:35:01

面试你的面试官

* 如果你想找到适合你的公司 * 如果你想找到适合你的职位. 记得面试你的面试官,没错!做出很重要的职业决定前,面试你的所求职的公司及你的面试官,做什么事不重要,跟谁一起做才重要。

2014-01-15 22:14:27

使用Redis bitmaps进行快速、简单、实时统计

getspool.com的重要统计数据是实时计算的。Redis的bitmap让我们可以实时的进行类似的统计,并且极其节省空间。在模拟1亿2千8百万用户的模拟环境下,在一台MacBookPro上,典型的统计如“日用户数”(dailyunique users) 的时间消耗小于50ms, 占用16MB内存。Spool现在还没有1亿2千8百万用户,但是我们的方案可以应对这样的规模。我们想分享这是如何做到的,也许能帮到其它创业公司。

2013-07-31 18:30:50

如何判断一个Http Message的结束——python源码解读

HTTP/1.1 默认的连接方式是长连接,不能通过简单的TCP连接关闭判断HttpMessage的结束。以下是几种判断HttpMessage结束的方式: 1.      HTTP协议约定status code 为1xx,204,304的应答消息不能包含消息体(Message Body), 直接忽略掉消息实体内容。[适用于应答消息] Http Message =Http Header 2. 如果请求消息的Method为HEAD,则直接忽略其消息体。[适用于请求消息] Http Message =Ht

2013-07-02 05:31:14

SVN Hook + Python实现commit后自动发送邮件

svn 的hook机制方便了用户根据svn动作自定义一些操作,post-commithook是当用户执行commit后执行的用户自定义操作。如用户commit后,自动调用post-commit hook script群发邮件到项目组。实现过程是Commit后post-commithook 自动调用,发送邮件。          我自己写了一个功能简单的sendmail.py来辅助发送邮件。

2013-05-04 16:46:13

浅出C++对象模型——理解构造函数、析构函数执行顺序

本文主要说明对象创建时构造函数的执行顺序,对象成员的初始化顺序;对象销毁时析构函数的执行顺序,对象成员的销毁顺序。        “对象的构造从类层次的最根处开始,在每一层中,首先调用基类的构造函数,然后调用成员对象的构造函数。析构则严格按照与构造相反的次序执行,该次序是唯一的,否则编译器将无法自动执行析构过程。       一个有趣的现象是,成员对象初始化的次序完全不受它们在初始

2013-04-11 21:04:08

Gary的影响力

本人目前在新浪做微博图片、CDN、云计算等业务的海 量日志实时分析,主要使用Elasticsearch, Logstash, Kibana, Spark, Docker等技术。有事请联系:garygaowork@gmail.com ...展开 收起
关注
  • 互联网·电子商务/开发组长/高级工程师/技术专家
  • 北京 海淀区