tuohuangs-CSDN博客

原创 Mysql5.7 免安装安装配置

之前都用的5.6版本的安装版，好久不用发现5.7都是免安装版了，不过也走了弯路，关键的两步一个是加上 my.ini; 一个是在cmd里面指向my.ini;[mysql]# 设置mysql客户端默认字符集default-character-set=utf8[mysqld]#安装目录basedir =D:\Program Files\MySQL\mysql-5.7.19-win

2017-08-06 10:27:47 520

原创 Pig学习记录

Pig 常用操作http://blog.csdn.net/zythy/article/details/18426347拿student和teacher的例子說明了常用的操作及如何把python嵌入到pig中

2017-05-08 23:18:05 548

原创 Flume相关知识链接

大数据采集常用工具 http://developer.51cto.com/art/201601/504888.htm Flume概念http://www.jb51.net/article/53542.htm 附带的例子很好

2017-05-08 23:05:02 526

原创修改表的主键

把原先的自增主键id去掉，新增auto_pk字段为自增主键，并把id作为唯一索引

2017-05-08 22:50:27 2489

原创 hadoop hive的lzo总结

hive中指定压缩编解码器：hadoop集群启用了压缩，就需要在Hive建表的时候指定压缩时所使用的编解码器，否则Hive无法正确读取数据。Gzip和Bzip2由于是hadoop默认支持的，所以无需指定特殊的编解码器，只要指定Text类型即可。

2016-11-01 18:50:56 1109

原创 Hive开发例子- lzo方式存储

lzo的设置：set mapred.output.compress=true; set hive.exec.compress.output=true; set mapred.output.compression.codec=com.hadoop.compression.lzo.LzopCodec; set io.compression.codecs=com.hadoop.compr

2016-11-01 18:46:22 1021

转载京东库房数据接入方法

数据仓库作为数据采集、数据加工和数据输出工厂，支撑了数据分析、报表、挖掘等多种数据需求，发挥了数据驱动价值的作用。其中从分布式数据库服务器采集数据是数据进入数据仓库的关键步骤，接入数据的质量和时效，将直接影响到数据在数据仓库的加工和输出质量。

2016-10-18 14:17:20 1550

转载数据仓库基本知识你了解多少

数据仓库是商业智能系统的基础，以往的数据库系统主要用于事务处理，很难或无法实现分析处理。近年来，越来越多的数据分析与决策信息支持在被企业所重视，数据仓库技术应运而生。

2016-10-17 20:36:26 1452

转载数据仓库系统的实现与使用(含OLAP重点讲解)

前言上一篇重点讲解了数据仓库建模，它是数据仓库开发中最核心的部分。然而完整的数据仓库系统还会涉及其他一些组件的开发，其中最主要的是ETL工程，在线分析处理工具(OLAP)和商务智能(BI)应用等。本文将对这些方面做一个总体性的介绍(尤其是OLAP)，旨在让读者对数据仓库的认识提升到一个全局性的高度。创建数据仓库数据仓库

2016-10-17 20:32:21 1088

转载数据仓库与数据集市建模

前言数据仓库建模包含了几种数据建模技术，除了之前在数据库系列中介绍过的ER建模和关系建模，还包括专门针对数据仓库的维度建模技术。本文将详细介绍数据仓库维度建模技术，并重点讨论三种基于ER建模/关系建模/维度建模的数据仓库总体建模体系：规范化数据仓库，维度建模数据仓库，以及独立数据集市。维度建模的基本概念维度建模(dim

2016-10-17 20:21:47 5743

转载京东实时大数据平台

JRDW(JD Realtime Data Warehouse)是京东大数据部为了解决公司越来越广泛的实时业务需求，而推出的一整套技术解决方案，包括数据的实时接入、实时解析、实时传输、实时计算和实时查询等技术环节。通过JRDW来解决实时业务开发中各环节的技术难点，在流程上统一业务开发需求，使业务方只专注于业务开发，不用过多关心技术上的问题，极大地降低了实时业务开发的技术难度。

2016-10-17 19:53:44 17754

Tips消息：Tips消息是一种腾讯特有的消息精准告知方式，是在QQ用户在线时，不定时触发的一个图文并茂的消息框，该消息框在屏幕窗口右下角弹出，用户不主动点击则不会在桌面消失，保持时间长，点击效率高，宣传效果好。Tips消息是点对点定向QQ号码发送，因此能够很精确地定向发到目标用户。同时，配合网络的本身优势，可以很好地实现商家与客户之间的直接互动。如推出QQ炫舞活动信息，可锁定QQ炫舞的用户发送。

2016-10-16 17:45:32 1591

原创 2016京腾计划战略会分享

京腾魔方是京腾计划推出的基于京东和腾讯海量用户画像体系的创新营销产品。基于京东1.88亿高价值购买用户与腾讯10亿高价值社交用户的大数据分析，通过京东的购物大数据，先挖掘出对品牌感兴趣的人群，然后根据用户社交等属性分析在腾讯的大数据中进行人群扩展，从而找到符合品牌营销需求的那部分用户群体，事项精准定向、效果分析和用户洞察。可以说，京腾魔方是实现精准投放的DMP营销工具。

2016-10-16 17:42:50 1477

原创 Jmeter压力测试-http的post请求实例

（来自baidu）Apache JMeter是Apache组织开发的基于Java的压力测试工具。用于对软件做压力测试，它最初被设计用于Web应用测试，但后来扩展到其他测试领域。它可以用于测试静态和动态资源，例如静态文件、Java 小服务程序、CGI 脚本、Java 对象、数据库、FTP 服务器，等等。JMeter 可以用于对服务器、网络或对象模拟巨大的负载，来自不同压力类别下测试它们的强度

2016-10-10 14:09:11 9649

原创信息流zt_使用json参数拼接sql语句

信息流zt项目中,server端接收前端发送的http json请求,解析后来拼接sql，如果单纯string拼接就比较麻烦，因此使用并改写了SqlHandle代码

2016-10-05 14:55:09 1610

原创 JSON格式串以CSV格式保存

在报表项目开发过程中，UI端显示的数据用户想通过界面的”下载“按钮保存下来，而数据已经以JSON格式得到了，这是只需要把json格式的文件转化为excel，怎么转化，开源的有org.json.CDL,但这个东东的缺点是转化后就不能UI上的顺序保持一致。

2016-10-05 14:43:39 5625

原创信息流zt_bin脚本

bin脚本主要是mysql建表语句和上端数据源同步

2016-10-05 14:21:31 1053

原创信息流zt_maven的pom.xml详解

一个项目里总会有很多配置文件。而且一般都会有多套环境。开发的、测试的、正式的。而在这些不同的环境这些配置的值都会不一样。比如mail的配置、服务的url配置这些都是很常见的。所以在打包的时候就要根据environment来选不同的值或者配置文件。比较常用的办法就是为不同的环境建立不同的配置文件目录。在打包的时候用对应的文件目录下的配置文件。

2016-10-05 13:46:40 762

原创信息流zt报表服务端summary

最近上线了一个服务端数据response的开发，比较简单，该服务端的作用是响应前端(nodejs是实现的)发送的httpjson格式的数据请求，返回json数据。新建maven Dynamic web 项目使用maven进行package（http://blog.csdn.net/remote_roamer/article/details/51724378）。码管理是git

2016-10-05 13:45:04 444

转载曝光量点击量反馈量具体意思是什么

曝光量点击量反馈量具体意思是什么？当买家在阿里巴巴中文站上找到您的供求信息以及公司介绍后，您的信息被展示在页面上，都会被计算入曝光量。常见的有：1）买家通过关键词搜索，您的信息展示在搜索结果页面中，即会被统计进入曝光量，2）当买家查看供应信息详细页面的时候，下面会有其他公司产品推荐在这里出现，也计入曝光量，3）当买家搜索到您的公司介绍，您的公司展示在公司库的搜索结果中，也会计

2016-10-05 13:40:32 8067

原创 sh脚本例子指定日期的rerun

#!/bin/bashis_cr=0sources=$1START_DATETEN=$2END_DATETEN=$3[[ $sources =~ "-cr" || $sources =~ "-all" || $sources =~ "-report" ]] && is_cr=1sleep_30mins=1800sleep_20mins=1200sleep

2016-08-04 19:19:33 432

原创 linux sheel脚本里面“$? -eq o”

数据处理中上下游任务之间的依赖关系有事是根据上游任务的完成标识(文件)是否存在去判断如下面的例子：hadoop fs -ls ssss.db/__progress__/complete/$todayTen/account-hierarchy-group hierarchy_group=$?$?是shell变量,表示"最后一次执行命令"的退出状态.0为成功,非0为失败.

2016-07-13 10:54:11 1109

原创关于异常 java.lang.NoSuchMethodError: scala.Predef$.ArrowAssoc(Ljava/lang/Object;)的处理

接上个blogpost-http://blog.csdn.net/lzlchangqi/article/details/50631341环境配置好后进行了开发查询，下面是写了一个函数查询hive的两column，把这两列以key value的形式放入map返回,但是出现了如标题的异常def get_repage_clicks(data_day_str : String) = {

2016-02-19 17:58:34 17603

原创 sbt构建scala工程并导入scala-eclipse开发spark

本文介绍sbt构建Scala工程的步骤，以及导入scala-eclipse后如何开发spark项目和编译打包部署程序的。参考：http://www.tuicool.com/articles/f26Bjqhttp://www.itnose.net/detail/6156147.html一、sbt构建scala工程1.环境准备scala：http://www.scala

2016-02-04 11:06:33 7558

转载 HTTP浏览器缓存机制

1、HTTP浏览器缓存机制清晰明了的介绍http://www.cnblogs.com/sunxucool/p/3342790.html2、HTTP 头缓存Last-Modified，ETag，Expires附加代码介绍了如何使用http://www.cnblogs.com/sunxucool/p/3342758.html3、Http头介绍:Expires

2014-12-26 09:38:21 655

原创 ZooKeeper应用场景-分布式锁实现范例

1、下载zookeeper-3.4.*.tar.gz源码包2、新建一个java Project，例如TestProject3、看到里面的zookeeper-3.4.*/recipes/lock目录，按照源码package路径paste到TestProject。4、下载zookeeper的范例lock

2014-12-24 21:03:41 1371

原创 ZooKeeper应用场景-分布式锁设计

分布式锁，这个主要得益于ZooKeeper为我们保证了数据的强一致性。锁服务可以分为两类，一个是保持独占，另一个是控制时序。所谓保持独占，就是所有试图来获取这个锁的客户端，最终只有一个可以成功获得这把锁。通常的做法是把zk上的一个znode看作是一把锁，通过create znode的方式来实现。所有客户端都去创建 /distribute_lock 节点，最终成功创建的那个客户端也即拥有了这把锁。控制时序，就是所有视图来获取这个锁的客户端，最终都是会被安排执行，只是有个全局时序了。做法和上面基本类似，只是这里

2014-12-24 21:02:50 1715

原创 ZooKeeper使用场景-Leader选举

Leader选举又称为master选举是zookeeper中最为经典的应用场景了。在分布式环境中，相同的业务应用分布在不同的机器上，有些业务逻辑（例如一些耗时的计算，网络I/O处理），往往只需要让整个集群中的某一台机器进行执行，其余机器可以共享这个结果，这样可以大大减少重复劳动，提高性能，于是这个Leader选举便是这种场景下的碰到的主要问题。 ZooKeeper需要在所有的服务(可理解为服务器)中选举出一个Leader，然后让这个Leader来负责管理集群。此时，集群中的其他服务器则成了此Leade

2014-12-24 21:01:55 6770

原创 ZooKeeper应用场景-集群管理

集群机器监控：这通常用于那种对集群中机器状态，机器在线率有较高要求的场景，能够快速对集群中机器变化作出响应。这样的场景中，往往有一个监控系统，实时检测集群机器是否存活。过去的做法通常是：监控系统通过某种手段（比如ping）定时检测每个机器，或者每个机器自己定时向监控系统汇报“我还活着”。这种做法可行，但是存在两个比较明显的问题：1）集群中机器有变动的时候，牵连修改的东西比较多。2）有一定的延时

2014-12-24 21:01:00 1717

原创 ZooKeeper应用场景-配置管理

拿董老师的案例：设计一个基于 Zookeeper 的 Hadoop 配置管理服务，该服务由两个功能模块组成：1）配置文件更新组件 HadoopConfigUpdater （管理员修改配置文件后，执行该组件，将数据写入 Zookeeper），可将管理员修改的 Hadoop conf 目录打包成 conf.zip，并写入 Zookeeper 中/conf 节点（znode）中；2）客户端监听者 HadoopConfigWatcher（运行在各个节点上），可监听/conf 节点，一旦得知节点数

2014-12-24 20:58:28 822

原创 ZooKeeper的特性

本篇包括以下内容：1、ZooKeeper的数据模型2、ZooKeeper会话及状态3、ZooKeeper watches4、ZooKeeper ACL5、ZooKeeper的一致性保证

2014-12-23 09:23:41 4757

原创 Zookeeper的配置

ZooKeeper的功能特性是通过ZooKeeper配置文件（Zoo.cfg）来进行控制管理的。这样的手机其实有其自身的原因。通过前面对ZooKeeper的配置可以看出，在ZooKeeper集群进行配置的时候，他的配置文档是完全相同的(对于集群伪分布式来说，只有很少的部分是不同的)。这样的配置方式使得在部署ZooKeeper服务的时候非常方便。如果服务器使用不同的配置文件，必须要确保不同配置文件中

2014-12-23 08:10:40 1101

原创 ZooKeeper的简单操作

1、使用ZooKeeper命令2、ZooKeeper API的简单使用Zook

2014-12-23 08:09:08 710

原创 Zookeeper的安装和配置

为更好了解Zookeeper，对书本和网上资料汇总本章首先介绍如何在不同的环境下安装并配置ZooKeeper服务、然后具体介绍如何通过ZooKeeper配置文件对ZooKeeper进行配置管理；最后介绍如何在不同环境下启动ZooKeeper服务。安装ZooKeeperZooKeeper有不同的运行环境，包括，单机环境、集群环境和集群伪分布式环境。这里，我们将分别介绍不同环境下如何安

2014-12-23 08:08:29 688

原创 Win7 自定义路径配置路径 cygwin部署hadoop

之前xp下使用cygwin搭建伪分布式环境，namenode和datanode的路径采用的都是默认，这样format后会自动生成数据，启动也没问题。hadoop路径：C:\cygwin\home\thinkpad\hadoop-1.0.4今天尝试自定义配置文件路径，不默认。发现1、路径不会自动创建 2、手动创建后jps 发现datanode和tasktracker启动不起来出现文件权限的问题3、启动后自动生成的目录如下：

2014-12-19 18:48:07 1493

原创 netty5.0之 ChannelPipeline和ChannelHandler

Netty的ChannelPipeline和ChannelHandler机制类似于Servlet和Filter过滤器，这类拦截器实际上上职责链模式的一种变形，主要是为了方便时间的拦截和用户业务逻辑的定制。Netty的Channel过滤器将Channel的数据管道抽象为ChannelPipeline，消息在ChannelPipeline中流动和传递。ChannelPipe持有I/O事件拦截器ChannelHandler的链表，由ChannelHandler对I/O时间进行拦截和处理，可以方便地通过新增和删除C

2014-12-19 18:43:29 1428

原创 netty5.0之Future和Promise

1、Future功能Future最早来源于JDK的java.util.concurent.Future，它用于代表异步操作的结果。相关API如下：可以通过get方法获取操作结果，如果操作尚未完成，则会同步阻塞当前调用的线程；如果不允许阻塞太长时间或者无限期阻塞，可以通过带超时时间的get方法获取结果；如果到达超时时间操作仍然没有完成，则跑出TimeoutException.isDone

2014-12-19 18:41:53 2447

原创 netty5.0之SingleThreadEventLoop & NioEventLoop

SingleThreadEventLoop继承自SingleThreadEventExecutor这是一个标准的线程池的实现。和JDK中线程池的实现大同小异。主要的用处就是执行任务。 NioEventLoop继承自SingleThreadEventLoop，作为NIO框架的Reactor线程，需要处理网络IO读写事件，因此他必须聚合一个多路复用器。

2014-12-19 18:30:40 2076 3

原创 netty5.0之EventLoop

1、EventExecutorGroup使用它的next()方法负责提供EventExecutor，除此之外,负责生命周期的任务处理，允许以全局方式关闭所有任务。2、EventLoopGroup 继承自EventExecutorGroup, 并提供EventLoop的生成方法next()（Special EventExecutorGroup which allows to register Channel's that get processed for later selection during th

2014-12-19 18:27:17 989

原创 netty5.0之Client端与Server端通信

待续

2014-12-19 18:17:24 1128

Hadoop rpc源码

Hadoop rpc源码是从Hadoop分离出的ipc,去掉了认证部分,附录使用文档.使用前请add lib包commons-logging-*.*.*.jar(我用的是1.0.4)和log4j-*.*.*.jar(我的1.2.13) 相关blog post: http://blog.csdn.net/lzlchangqi/article/details/41280781 http://blog.csdn.net/lzlchangqi/article/details/41312299 http://blog.csdn.net/lzlchangqi/article/details/41344761 http://blog.csdn.net/lzlchangqi/article/details/41278599

2014-11-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Hadoop rpc源码

Java自实现Socket服务

高质量指南.pdf 电子书

eclipse 的propedit插件

linux操作系统讲义

空空如也