自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(453)
  • 收藏
  • 关注

转载 开源日志系统比较:scribe、chukwa、kafka、flume

1. 背景介绍许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需要具有以下特征:(1) 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦;(2) 支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统;(3) 具有高可扩展性。即:当数据量增加时,可以通过增加节点进行水平扩

2015-05-15 17:21:45 3543

转载 kafka和flume的对比

摘要: (1)kafka和flume都是日志系统。kafka是分布式消息中间件,自带存储,提供push和pull存取数据功能。flume分为agent(数据采集器),collector(数据简单处理和写入),storage(存储器)三部分,每一部分都是可以定制的。比如agent采用RPC(Thrift-RPC)、text(文件)等,storage指定用hdfs做。           (2

2015-05-15 17:20:21 24160

转载 elasticsearch简介

elasticsearchElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是第二流行的企业搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。我们建立一个网站或应用程

2015-05-14 21:59:51 3142

转载 elasticsearch快照和恢复

快照和恢复Snapshot and restore 模块允许创建单个索引或者整个集群的快照到远程仓库. 在初始版本里只支持共享文件系统的仓库,但是现在通过官方的仓库插件可以支持各种各样的后台仓库。仓库在进行任何快照或者恢复操作之前必须有一个快照仓库注册在Elasticsearch里。下面的这个命令注册了 一个名为my_backup 的共享文件系统仓库,快照将会存储在

2015-05-14 21:48:03 17077 5

原创 log4cxx 使用代码进行配置

(1)官网的一个例子#include #include #include #include #include int main() { log4cxx::FileAppender * fileAppender = newlog4cxx::FileAppender(log4cxx::LayoutPtr(new log4cxx::SimpleLayout()),"

2015-04-22 15:14:10 5911

转载 RocketMQ与Kafka对比(18项差异)

转自:https://github.com/alibaba/RocketMQ/wiki/rmq_vs_kafka淘宝内部的交易系统使用了淘宝自主研发的Notify消息中间件,使用Mysql作为消息存储媒介,可完全水平扩容,为了进一步降低成本,我们认为存储部分可以进一步优化,2011年初,Linkin开源了Kafka这个优秀的消息中间件,淘宝中间件团队在对Kafka做过充分Review之后,

2015-04-15 19:13:05 2794

转载 md5

php中md5函数与linux中md5sum结果不同的问题  2014-05-05 11:04:40|  分类: 技术相关 |  标签:php  linux  md5  md5sum  |举报|字号 订阅简而言之,linux中用echo “123”| md5sum或md5sum 文件名方式来计算某串的md5值,串中都有隐含的字符串\0终止符或换行符的存在

2015-03-30 11:09:47 2777

原创 http header cache-control (request和response区别)

摘要:(1)网络服务会根据 request的header中的 cache-control策略设置response的cache-control策略1 response cache-control 和 request cache-control关系CacheIgnoreCacheControl DirectiveDescription:Ignore requ

2015-03-20 21:06:24 13481

转载 spark第二篇--基本原理

==是什么 == 目标Scope(解决什么问题) 在大规模的特定数据集上的迭代运算或重复查询检索 官方定义aMapReduce-like cluster computing framework designed for low-latency iterativejobs and interactive use from an interpre

2015-03-20 14:56:30 8909

转载 spark第一篇--简介,应用场景和基本原理

解析Spark在腾讯、雅虎、优酷的成功应用2014-06-09 14:44 佚名 36大数据 字号:T | TSpark作为Apache顶级的开源项目,项目主页见http://spark.apache.org。在迭代计算,交互式查询计算以及批量流计算方面都有相关的子项目,如Shark、Spark Streaming、MLbase、GraphX、SparkR等。从13

2015-03-20 14:39:11 34929

原创 一个Cmake的例子

命令查询列表:http://www.cmake.org/cmake/help/v3.2/manual/cmake-commands.7.html## Official dependency number 0: CMake.# Obviously, we must have it if we are here but test version.#CMAKE_MINIMUM

2015-03-17 16:59:02 5721

转载 storm 使用过程中遇到的问题

1 bolt不停重启,excutor无法启动。nimbus日志类似如下(), 2014-03-12 10:55:06 b.s.d.nimbus [INFO] Executor MITAS3-74-1394565794:[3434] not alive2014-03-12 10:55:06 b.s.d.nimbus [INFO] Executor MITAS3-74-1394565794

2015-03-13 17:21:34 4510

转载 storm安装

CentOS 5.8 x64 maketar xf zeromq-2.1.7.tar.gzcd zeromq-2.1.7./configure --prefix=/opt/zeromqmake && make installunzip jzmq-master.zipcd jzmq-master./autogen.sh./configure --prefix=

2015-03-13 10:47:36 1525

转载 git的理念

集中式vs分布式4924次阅读Linus一直痛恨的CVS及SVN都是集中式的版本控制系统,而Git是分布式版本控制系统,集中式和分布式版本控制系统有什么区别呢?先说集中式版本控制系统,版本库是集中存放在中央服务器的,而干活的时候,用的都是自己的电脑,所以要先从中央服务器取得最新的版本,然后开始干活,干完活了,再把自己的活推送给中央服务器。中央服务器就好比是一个图书馆,你要改

2015-03-11 11:44:42 3183

转载 Beanstalkd

摘要by ck:beanstalkd  和  kafka的本质区别是什么?Beanstalkd,一个高性能、轻量级的分布式内存队列系统,最初设计的目的是想通过后台异步执行耗时的任务来降低高容量Web应用系统的页面访问延迟,支持过有9.5 million用户的Facebook Causes应用。中文名beanstalkd类    型

2015-03-03 12:05:42 2695

转载 word2vec c代码使用说明

摘要:1 分词将文本语料进行分词,以空格,tab隔开都可以。生成分词后的语料2 训练对分词后的语料test.txt 进行训练得到模型文件vectors.bin /word2vec -train test.txt -output vectors.bin -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sampl

2015-02-03 15:17:33 8910 1

转载 使用Python实现Hadoop MapReduce程序

使用Python实现Hadoop MapReduce程序分类: Python Hadoop2013-03-10 21:35 8933人阅读 评论(4) 收藏 举报HadoopMapreducePython转自:使用Python实现Hadoop MapReduce程序英文原文:Writing an Hadoop MapReduce Program in P

2015-01-30 11:10:29 3194

转载 美团推荐算法实践

摘要:query-based方法 “用户的搜索点击结果建立权重”的方法可以用在优化搜索上。graph-based方法  "打破一般cf只衡量两度关系,建立全局的实体相似性" 对于一般协同过滤也是一个有益的补充。location-based 对于团购等类型网站还是比较重要的。美团推荐算法实践Idealist2015-01-22 13:00前

2015-01-23 14:58:48 4809

原创 redis第一篇--综述

1 redis里边有数据库的概念。可分为1-255这些表。在存储或者查找的时候要指明。redis_sentinel 集群里边封装成了namespace这样的概念。与db是不一样的。

2015-01-21 13:00:57 1466

转载 git fetch pull checkout区别

Git中从远程的分支获取最新的版本到本地有这样2个命令:1. git fetch:相当于是从远程获取最新版本到本地,不会自动merge    git fetch origin mastergit log -p master..origin/mastergit merge origin/master    以上命令的含义:   首先从远程的origin的master主分支下载最新的版本到

2015-01-15 17:50:42 15870 2

转载 git config配置文件

一.Git已经在你的系统中了,你会做一些事情来客户化你的Git环境。你只需要做这些设置一次;即使你升级了,他们也会绑定到你的环境中。你也可以在任何时刻通过运行命令来重新更改这些设置。      Git有一个工具被称为git config,它允许你获得和设置配置变量;这些变量可以控制Git的外观和操作的各个方面。这些变量可以被存储在三个不同的位置:   1./etc/

2015-01-07 15:12:18 871

转载 ice调通过iceReplica用所有server instance的方法---客户端控制服务端的负载均衡

I使用此方法,可以增量的通知Ice服务配置的改变,刷新每个服务进程的数据可以手动控制客户端调用的负载均衡,客户端程序决定将请求发往那个进程上代码:import loggingimport Ice,IceGridimport timefrom company.service import Handler, HandlerPrxREC_LOCATOR = "****

2014-12-31 12:04:01 1000

转载 LD_LIBRARY_PATH vs LIBRARY_PATH

LIBRARY_PATH is used by gcc before compilation to search for directories containing libraries that need to be linked to your program.LD_LIBRARY_PATH is used by your program to search for direc

2014-12-14 21:41:49 877

转载 C/C++定义全局变量/常量几种方法的区别

摘要:使用全局变量最稳妥的方法,就是在common.h中声明,在common.cpp中定义;其他文件include “common.h”来使用全局变量在讨论全局变量之前我们先要明白几个基本的概念:1. 编译单元(模块):    在IDE开发工具大行其道的今天,对于编译的一些概念很多人已经不再清楚了,很多程序员最怕的就是处理连接错误(LINK ERROR), 因为它不像编译错误那

2014-12-12 14:48:51 2715

原创 ice使用过程遇到的问题

1 想要设置请求时间过长则超时MyAdapter.Endpoints=tcp –p 9999 –t 5000

2014-12-10 21:15:05 10982

转载 Slice到C++映射

按:本文是DPWI第6章的笔记。 客户端Slice到C++映射定义的是:怎样把Slice数据类型翻译成C++类型,客户怎样调用操作、传递参数、处理错误。C++映射线程安全,不存在内存管理问题。不建议查看slice2cpp生成的C++映射文件,但建议掌握C++映射规则。1、模块映射 module M{...}映射为namespace M{...}2、类型映

2014-12-10 15:27:54 1548

转载 为什么要预估点击率

想到这个题目是因为 @lijiefei 某天跟我说他有师弟面淘宝时被问到 "点击率预估的目标到底是什么", 笨狗当时胡乱扯了一通, 发现要把这个似乎已经是真理的事情掰清楚还没那么容易, 于是有此念想写文一篇详细分析下原因我和 jiefei 认识是在百度做搜索广告的时候, 那就从搜索广告开始说为什么要预估点击率, 以及预估点击率的目标. 先申明一些名词和假定:1) 每个广告 (Ad) 有

2014-11-13 15:41:13 1865

转载 个性化推荐系统技术总结

参考自《机器学习,数据挖掘在个性化推荐系统中的应用》--项亮

2014-11-13 11:51:50 4298

原创 python zookeeper 在 uwsgi中 watcher不生效

def code_watcher(handle,type, state, path):    print "zk code watcher,path is: ",path#data = zk.get(settings.ZKPATH_CODE,code_watcher)    data = zookeeper.get(zk,settings.ZKPATH_CODE,code_watche

2014-11-10 18:35:41 1282

原创 elastic

elastic vs solr;优点:1)天然的分布式

2014-11-07 19:07:27 678

转载 信号量,锁,条件变量的区别

互斥锁[plain] view plaincopypthread_mutex_t mutex=PTHREAD_MUTEX_INITIALIZER;  或  pthread_mutex_t mutex;  int pthread_mutex_init(pthread_mutex_t *mutex, const pthread_mutexat

2014-11-07 15:57:14 5255

转载 python多线程--theading模块

使用Condition对象可以在某些事件触发或者达到特定的条件后才处理数据,Condition除了具有Lock对象的acquire方法和release方法外,还有wait方法,notify方法,notifyAll方法等用于条件处理。条件变量保持线程同步:threading.Condition()wait():线程挂起,直到收到一个notify通知才会被唤醒继续运行n

2014-11-07 15:56:49 1834

转载 linux top 命令---VIRT,RES,SHR,虚拟内存和物理内存(

VIRT,RES,SHR,虚拟内存和物理内存(转)VIRT:1、进程“需要的”虚拟内存大小,包括进程使用的库、代码、数据,以及malloc、new分配的堆空间和分配的栈空间等;2、假如进程新申请10MB的内存,但实际只使用了1MB,那么它会增长10MB,而不是实际的1MB使用量。3、VIRT = SWAP + RESRES:1、进程当前使用的内存大小,包括使用中的m

2014-11-04 17:41:35 20197

原创 爬虫/抓取工具汇总

(1)casperjs   内置完整的浏览器引擎,可以抓取(wangy),交互

2014-10-24 10:28:51 1077

转载 python socket编程---从使用Python开发一个Socket示例说到开发者的思维和习惯问题

今天主要说的是一个开发者的思维和习惯问题。思维包括编程的思维和解决一个具体问题的分析思维,分析思路,分析方法,甚至是分析工具。无论是好习惯还是不好的习惯,都是在者一天一天的思维中形成的。那些不好的习惯,久了确实不好改。所以说,如果今天你认识到了,那么就从今天开始改,早改早受益,晚改痛苦一生。先说一下今天的引子,那就是使用Python开发一个简单的Socket应用,就是一个c

2014-10-23 15:40:41 1420

原创 debug经验汇总

(1)使用pstack(2)调试corewen

2014-10-22 22:27:11 763

原创 storm的并发

一个运行中的拓扑是由什么组成的:worker进程,executors和tasks。Storm是按照下面3种主要的部分来区分Storm集群中一个实际运行的拓扑的:Worker进程Executors (线程)Tasks下图简单的展示了它们的关系:  上图中的3段话依次如下:Storm集群中的其中1台机器可能运行着属于多个拓扑(可能为1个)的多个w

2014-10-20 14:52:36 11082 1

原创 storm第一篇--概念,例子,参数优化

1 如何优化性能

2014-10-15 18:30:25 15118 3

转载 maven 教程一 入门

Maven是一个采用纯Java编写的开 源项目管理工具。Maven采用了一种被称之为project object model (POM)概念来管理项目,所有的项目配置信息都被定义在一个叫做POM.xml的文件中,通过该文件,Maven可以管理项目的整个声明周期,包括编 译,构建,测试,发布,报告等等。目前Apache下绝大多数项目都已经采用Maven进行管理。而Maven本身还支持多种插件,可以方

2014-10-14 17:20:45 827

转载 回归分析之线性回归

1概念回归分析(regression analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如

2014-10-14 16:00:06 18921

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除