自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(76)
  • 收藏
  • 关注

原创 MySql编码问题

一、mysql中的编码mysql> show variables like 'collation_%';  mysql> show variables like 'character_set_%';  缺省是latin1编码,会导致中文乱码。修改库的编码:mysql> alter database db_name character set utf8;修改表的编码:mysql&g...

2018-05-21 21:05:16 2370

原创 sqoop各类命令示范笔记

/** 将mysql的表导入 hdfs **/bin/sqoop import \--connect jdbc:mysql://hdp-04:3306/userdb \--username root \--password root \--target-dir \/sqooptest \--fields-terminated-by ',' \--table emp \--spl...

2018-05-21 21:00:35 2157

原创 sqoop数据迁移工具

sqoop数据迁移工具1.1 概述sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统;导出数据:从Hadoop的文件系统中导出数据到关系数据库mysql等 1.2 工作机制将导入或导出命令翻译成mapreduce程序来实现在翻译出的mapreduce中主要是对i...

2018-05-21 20:56:14 2369

原创 APP数据模拟处理流程—[窗口分析函数]

2018-05-19,唐尼,钢铁侠,360应用,纽约,v2.02018-05-19,唐尼,钢铁侠,360应用,纽约,v1.22018-05-19,唐尼,钢铁侠,360应用,纽约,v2.02018-05-19,唐尼,钢铁侠,360应用,纽约,v1.22018-05-19,唐尼,钢铁侠,安卓市场,纽约,v1.62018-05-19,唐尼,钢铁侠,360应用,纽约,v1.32018-05-1...

2018-05-21 20:49:19 2126

原创 APP数据模拟处理流程—[次日留存用户]

APP数据模拟处理流程—[次日留存用户]/*留存用户分析概念:昨日新增,今天还活跃逻辑思路:昨天在新用户表,今天在活跃用户表之中 ---->今日的次日留存用户 昨天在新用户表的人,今天还在活跃用户表中*/--数据建模 -->> 纪录跟活跃用户表相同的字段--建次日留存etl信息表:纪录跟活跃用户表相同的字段create tabl...

2018-05-21 20:40:20 1595

原创 APP数据模拟处理流程—[shell脚本]

#!/bin/bashday_str=`date -d '-1 day' +'%Y-%m-%d'`inpath=/app-log-data/data/$day_stroutpath=/app-log-data/clean/${day_str}-cleanhive_exec=/root/apps/hive-1.2.1/bin/hiveecho "准备清洗$day_str数据......"/root/...

2018-05-20 23:10:01 3966

原创 APP数据模拟处理流程—[总结篇]

1.进行数据清理 MapReduce#!/bin/bashday_str=`date -d '-1 day' + '%Y-%m-%d'`inpath=/app-log-data/data/$day_stroutpath=/app-log-data/clean/${day_str}-cleanecho "准备清洗$day_str数据..."/root/apps/hadoop-2.8.3/bin/ha...

2018-05-20 23:07:11 2891

原创 flume两级串联配置案例

 flume两级串联配置案例tail-avro.conf:从tail命令获取数据发送到avro端口另一个节点可配置一个avro源来中继数据,发送外部存储################### Name the components on this agenta1.sources = r1a1.sinks = k1a1.channels = c1# Describe/config...

2018-05-20 01:18:57 1955

原创 flume配置案例

flume配置案例dir-hdfs.conf:#定义三大组件的名称ag1.sources = source1ag1.sinks = sink1ag1.channels = channel1# 配置source组件ag1.sources.source1.type = spooldirag1.sources.source1.spoolDir = /root/log/ag1.sourc...

2018-05-20 01:16:09 1262

原创 flume多级串联示意图

2018-05-20 01:13:54 1563

原创 flume工作机制示意图

2018-05-20 01:12:09 2273

原创 HBASE客户端API操作

HBASE客户端API操作DDL代码:package cn.edu360.hbase.demo;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop....

2018-05-20 01:01:45 727

原创 HBASE精炼笔记总结—[基础篇]

1.  HBASE1.1. 1/ 什么是HBASE1.1.1.  概念特性HBASE是一个数据库----可以提供数据的实时随机读写 HBASE与mysql、oralce、db2、sqlserver等关系型数据库不同,它是一个NoSQL数据库(非关系型数据库)l  Hbase的表模型与关系型数据库的表模型不同:l  Hbase的表没有固定的字段定义;l  Hbase的表中每行存储的都是一些key-v...

2018-05-20 00:58:37 2830

原创 布隆过滤器的思想示意图

2018-05-20 00:51:43 1494

原创 HBASE整体工作机制示意图

2018-05-19 00:51:21 3878

原创 HBASE数据表的结构示意图

2018-05-19 00:49:54 3561

原创 一张图解释分布式中各种数据库之间的差别比较

2018-05-19 00:48:42 4778

原创 编程必会单词v2

error 错误while 当compiling 编译过程中statement: 语句failed 失败的semantic 语法的exception 异常line  行table 表not found 找不到tiny 微小的char 字符Loading 加载中data 数据from 从....file 文件fire 火,开火,发射recognize 识别<EOF>  没有正确结束pro...

2018-05-19 00:43:52 3343

原创 HIVE精炼笔记总结——[函数篇]

1.  hive函数使用小技巧:测试函数的用法,可以专门准备一个专门的dual表create table dual(x string);insert into table dual values(''); 其实:直接用常量来测试函数即可select substr("abcdefg",1,3); hive的所有函数手册:https://cwiki.apache.org/confluence/disp...

2018-05-19 00:38:56 3615

原创 HIVE精炼笔记总结——[查询篇]

1.  hive查询语法提示:在做小数据量查询测试时,可以让hive将mrjob提交给本地运行器运行,可以在hive会话中设置如下参数:hive> set hive.exec.mode.local.auto=true;1.1. 基本查询示例select * from t_access;select count(*) from t_access;select max(ip) from t_ac...

2018-05-19 00:34:40 3804

原创 HIVE精炼笔记总结——[类型篇]

1.1. 数据类型1.1.1.  数字类型TINYINT (1-bytesigned integer, from -128 to 127)SMALLINT (2-bytesigned integer, from -32,768 to 32,767)INT/INTEGER(4-byte signed integer, from -2,147,483,648 to 2,147,483,647)BIGI...

2018-05-19 00:30:43 3329

原创 HIVE精炼笔记总结——[建导篇]

1. hive建库建表与数据导入1.1. 建库hive中有一个默认的库:库名: default库目录:hdfs://hdp20-01:9000/user/hive/warehouse 新建库:create database db_order;库建好后,在hdfs中会生成一个库目录:hdfs://hdp20-01:9000/user/hive/warehouse/db_order.db 1.2. 建...

2018-05-19 00:26:31 3752

原创 HIVE精炼笔记总结——[使用篇]

hive使用方式1.1. 最基本使用方式启动一个hive交互shellbin/hivehive> 设置一些基本参数,让hive使用起来更便捷,比如:1、让提示符显示当前库:hive>set hive.cli.print.current.db=true;2、显示查询结果时显示字段名称:hive>set hive.cli.print.header=true;  但是这样设置只对当前会...

2018-05-19 00:19:28 3346

原创 HIVE精炼笔记总结——[启示篇]

1.什么是hivehive基本思想Hive是基于Hadoop的一个数据仓库工具(离线),可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。Ø  直接使用hadoop所面临的问题 人员学习成本太高项目周期要求太短MapReduce实现复杂查询逻辑开发难度太大  Ø  为什么要使用Hive 操作接口采用类SQL语法,提供快速开发的能力。 避免了去写MapReduce,减少开发人员的学习...

2018-05-19 00:14:10 3333

原创 HIVE简单快速入门——[开端篇]

1/ HIVE是什么?HIVE是一个可以将sql翻译为MR程序的工具HIVE支持用户将HDFS上的文件映射为表结构,然后用户就可以输入SQL对这些表(HDFS上的文件)进行查询分析HIVE将用户定义的库、表结构等信息存储hive的元数据库(可以是本地derby,也可以是远程mysql)中2/ HIVE的用途?解放大数据分析程序员,不用自己写大量的mr程序来分析数据,只需要写sql脚本即可HIVE可...

2018-05-17 20:25:11 4552

原创 编程必会单词v1

编程必会单词v1exception   异常bound 边界out of bounds  越界index  索引amount 总量serialize  序列化deserialize 反序列化serializable  可序列化的general  通常的exist 存在的project 工程workspace  工作空间error 错误Failed 失败了dependencies 依赖complet...

2018-05-17 20:12:15 3995

原创 hadoop-2.6.4-HA集群搭建

hadoop-2.6.4-HA集群搭建hadoop2.0已经发布了稳定版本了,增加了很多特性,比如HDFS HA、YARN等。最新的hadoop-2.6.4又增加了YARN HA前期准备就不详细说了,1.修改Linux主机名2.修改IP3.修改主机名和IP的映射关系 /etc/hosts ######注意######如果你们公司是租用的服务器或是使用的云主机(如华为用主机、阿里云主机等) /etc...

2018-05-17 19:38:00 4046

原创 一张图解释hadoop的HA工作机制

2018-05-17 19:24:31 4581 1

原创 利用ZooKeeper开发分布式应用系统案例--服务端与客户端实现

利用ZooKeeper开发分布式应用系统案例--服务端与客户端实现服务端代码:package cn.edu360.zk.distributesystem;import java.io.IOException;import org.apache.zookeeper.CreateMode;import org.apache.zookeeper.KeeperException;import ...

2018-05-17 00:27:46 4403

原创 ZooKeeper的java客户端api的监听功能代码示范

ZooKeeper的java客户端api的监听功能代码示范package cn.edu360.zk.demo;import java.util.List;import org.apache.zookeeper.KeeperException;import org.apache.zookeeper.WatchedEvent;import org.apache.zookeeper.Wa...

2018-05-17 00:24:21 3289

原创 ZooKeeper的java客户端api基本功能代码

ZooKeeper的java客户端api基本功能代码package cn.edu360.zk.demo;import java.io.IOException;import java.io.UnsupportedEncodingException;import java.util.List;import org.apache.zookeeper.CreateMode;import or...

2018-05-17 00:14:36 4175

原创 在Linux中ZooKeeper集群启动或者暂停的脚本

#!/bin/bashfor host in hadoop1 hadoop2 hadoop3doecho "${host}:$1ing...."ssh $host "source /etc/profile;/root/apps/zookeeper-3.4.6/bin/zkServer.sh $1"donesleep 2for host in hadoop1 hadoop2 h...

2018-05-17 00:12:26 5345

原创 轻松上手ZooKeeper集群搭建

Step1:首先给Linux上传ZooKeeper安装包,然后解压;Step2:进入到你所安装的包的路径里面,进入conf配置文件的目录,把zoo_sample.cfg改成zoo.cfg修改conf/zoo.cfg# The number of milliseconds of each tick tickTime=2000 # The number of ticks that the init...

2018-05-16 23:24:33 4840

原创 ZooKeeper集群结构示意图

2018-05-16 23:14:10 2451

原创 一张ZooKeeper案例示意图

2018-05-16 23:12:47 4476

原创 ZooKeeper的功能和应用场景图示

2018-05-16 23:09:38 5029

原创 一张图解释mapreduce程序在YARN上启动-运行-注销的全流程

2018-05-16 23:01:05 4340

原创 一张图复习MapReduce知识要点

2018-05-16 22:45:20 5547 1

原创 MapReduce编程小案例.11th—数据倾斜场景part2

MapReduce编程小案例.11th—数据倾斜场景数据:a a a a a a b b b a a aa a a a c c b c a a a ca b b c a a d d e e f ff g a a a b a b h h g j 需求:需要做wordcount但是,会有一个问题存在:a特别多,负责处理a这个单词数据的reduce worker就会很累(负载不均衡,过大)思考:如何处理...

2018-05-16 22:40:43 2126

原创 MapReduce编程小案例.11th—数据倾斜场景part1

MapReduce编程小案例.11th—数据倾斜场景数据:a a a a a a b b b a a a a a a a c c b c a a a c a b b c a a d d e e f f f g a a a b a b h h g j  需求:需要做wordcount但是,会有一个问题存在:a特别多,负责处理a这个单词数据的reduce worker就会很累(负载不均衡,过大...

2018-05-16 22:36:24 2169

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除