王者的路注定孤独-CSDN博客

原创大数据系列全套学习路线图

Cloudera ManagerCloudera Manager平台部署说明书Hadoop大数据Hadoop系列之Hadoop分布式集群部署大数据Hadoop系列之Hadoop机架感知配置大数据Hadoop系列之HDFS命令讲解大数据Hadoop系列之Hadoop服务开机自启动配置大数据Hadoop系列之Hadoop Web控制台添加身份验证Hive大数据Hiv...

2018-09-03 18:39:24 458630

原创大数据Phoenix系列之Phoenix基本操作

phoenix表操作、索引操作、表结构调整方式

2023-02-11 10:00:00 980

原创大数据HBase系列之HBase进阶操作

Normalizer操作、命令空间、replication、强制删表、快照操作

2023-02-03 22:30:00 279

1）启动实例db2start2）停止实例db2stop3）列出所有实例db2ilist4）列出所有数据库db2 list db directory5）连接数据库db2 connect to DBCTL user db2inst1 using edc1234566）查看数据库所有表db2 "select TABNAME from syscat.tables"7）查看数据库所有表和表大小db2 "select TABNAME,NPAGES from syscat.ta..

2021-12-31 17:08:16 1594

原创大数据Spark系列之Spark深入原理解析

1、spark的shuffle过程父RDD中同一分区中的数据按照算子要求重新进入子RDD的不同分区中；中间结果写入磁盘；由子RDD拉取数据，而不是由父RDD推送；默认情况下，shuffle不会改变分区数量。2、spark的宽窄依赖窄依赖：一个父RDD的分区被子RDD的一个分区使用。1个子RDD的分区对应于1个父RDD的分区，比如map，filter，union等算子。宽依赖：一个父RDD的分区被子RDD的多个分区使用。宽依赖一般是对RDD进行groupByKey，reduceByKey，sor

2021-10-24 22:37:47 676

原创 linux操作当前分区磁盘容量升级

1. 需求目的因当前/home目录所在分区，磁盘容量饱和，需要进行分区扩容，使服务器正常运行。2. 升级步骤1）创建目录mkdir -p /media/home2）把/dev/sdb挂载到/media/homemount /dev/sdb /media/home3）同步/home到/media/home，同步时间根据数据量大小决定，建议在系统空闲时操作rsync -aXS /home/. /media/home/.4）同步完成后删除/homeumount -lf /h

2020-10-24 22:53:53 12365

原创 MySQL通过远程方式上传数据

1. 用户授权create user 'test'@'%' identified by 'test123456';grant all privileges on testdb.* to test@'%';flush privileges;2. 远程上传授权查询远程上传是否开启：show global variables like 'local_infile';远程上传授权：set global local_infile='ON';3. 远程登录启用mysql --lo

2020-10-24 22:38:53 12449

原创大数据Hadoop系列之Map-ETL实战开发

1. 输入数据122.245.205.218^A1450572279.254^Ahadoop-master.volitation.com^A/BEIfeng.gif?u_nu=1&u_sd=DFBFABA3-9F0B-451F-B47C-782EDBFB5D90&c_time=1450572272695&ver=1&en=e_l&p...

2020-04-03 18:37:03 19327

原创大数据Impala系列之初识Impala

一、impala 概述1、什么是Impala？Impala是用于处理存储在Hadoop集群中的大量数据的MPP（大规模并行处理）SQL查询引擎。它是一个用C ++和Java编写的开源软件。与其他Hadoop的SQL引擎相比，它提供了高性能和低延迟。2、为什么选择Impala？使用Impala，与其他SQL引擎（如Hive）相比，用户可以使用SQL查询以更快的方式与HDFS或HBa...

2020-04-03 18:13:14 31232

原创大数据Spark系列之Spark基本概念解析

1）Application用户在 spark 上构建的程序，包含了 driver 程序以及在集群上运行的程序代码，物理机器上涉及了 driver，master，worker 三个节点。2）Driver Program创建 sc ，定义 udf 函数，定义一个 spark 应用程序所需要的三大步骤的逻辑：加载数据集，处理数据，结果展示。3）Cluster Manager集群...

2020-04-03 17:41:43 19041

原创大数据Spark系列之Spark单机环境搭建

1. 下载spark与scalaSpark下载地址http://mirrors.hust.edu.cn/apache/spark/spark-2.4.5/spark-2.4.5-bin-hadoop2.7.tgzScala下载地址http://www.scala-lang.org/files/archive/scala-2.10.4.tgz2. 解压安装$ tar ...

2020-04-03 17:23:33 31178

原创大数据Kafka系列之Kafka监听方式实现消费者

1. kafka监听接口MessageListener接口：使用MessageListener接口实现时，当消费者拉取消息之后，消费完成会自动提交offset，即enable.auto.commit为true时，适合使用此接口； AcknowledgingMessageListener接口：使用AcknowledgeMessageListener时，当消费者消费一条消息之后，不会自动提交o...

2020-04-02 15:50:29 23167

转载 Linux系列之Nginx安装

1. 下载nginx本次安装采用nginx-1.15.6版：http://nginx.org/download/nginx-1.15.6.tar.gz2. 安装依赖yum install -y pcre pcre-develyum install -y zlib zlib-develyum install -y openssl openssl-devel3. 解压安装包...

2018-11-26 21:58:35 81714

原创 Linux系统DB2数据库安装手册

1. 下载网址http://happyqing.iteye.com/blog/20823052. 安装DB22.1 下载解压安装包wget ftp://public.dhe.ibm.com/software/hk/cobra/db2exc_970_LNX_x86_64.tar.gzmkdir -p /home/db2tar -zxvf db2exc_970_LNX_x86_...

2018-11-22 15:52:04 83713

翻译大数据Hadoop系列之Hadoop Web控制台添加身份验证

1. 背景介绍本文档介绍如何配置Hadoop HTTP Web控制台以要求用户身份验证。默认情况下，Hadoop HTTP Web控制台（ResourceManager，NameNode，NodeManagers和DataNodes）允许访问而无需任何形式的身份验证。可以将Hadoop HTTP Web控制台配置为使用HTTP SPNEGO协议（Firefox和Internet Exp...

2018-11-08 17:00:32 95618 5

转载大数据Hive系列之Hive性能优化（全面）

一、介绍首先，我们来看看Hadoop的计算框架特性，在此特性下会衍生哪些问题？数据量大不是问题，数据倾斜是个问题。 jobs数比较多的作业运行效率相对比较低，比如即使有几百行的表，如果多次关联多次汇总，产生十几个jobs，耗时很长。原因是map reduce作业初始化的时间是比较长的。 sum,count,max,min等UDAF，不怕数据倾斜问题,hadoop在map端的汇总合并优...

2018-11-07 12:08:46 423400

原创大数据HBase系列之HBase基本操作

1. hbase命令版本查看hbase version连接Zookeeper客户端hbase zkcli连接HBase客户端hbase shell2. CRUD2.1 创建表-- 语法：create '表名','列族名'create 'student','info'2.2 显示所有表-- 语法：list 或 list '表名'lis...

2018-11-01 18:04:52 88992

原创大数据Zookeeper系列之Zookeeper服务开机自启动配置

1. 编写运行脚本$ sudo cd /etc/init.d$ sudo vi zookeeper#!/bin/bash#chkconfig:2345 20 90#description:zookeeper#processname:zookeepersu - hadoop <<!case $1 instart)sh /opt/apache/zookeep...

2018-10-31 15:10:35 11351

转载大数据Hadoop系列之Hadoop服务开机自启动配置

1. 编写运行脚本$ sudo cd /etc/init.d$ sudo vi hadoop#!/bin/bash#chkconfig:35 95 1#description:script to start/stop hadoopsu - hadoop <<!case $1 instart)sh /opt/apache/hadoop/hadoop-2.7....

2018-10-30 20:22:40 14325

原创 Zabbix监控系统（二）：Zabbix管理之自动发现服务

1. 创建自动发现配置->自动发现->创建发现规则设置名称配置IP范围设置延迟时间设置IP地址为唯一性准则启用发现规则2. 创建动作配置->动作->创建动作2.1 设置执行动作基本信息设置名称启用动作2.2 设置动作的执行条件配置动作执行条件配置触发条件2.3 配置具体的执行动作将发现的主机添加至...

2018-10-25 15:25:08 12540

原创 Zabbix监控系统（一）：初识Zabbix

一、Zabbix简介Zabbix 是由 Alexei Vladishev 开发的一种网络监视、管理系统，基于 Server-Client 架构。可用于监视各种网络服务、服务器和网络机器等状态。使用各种 Database-end 如 MySQL, PostgreSQL, SQLite, Oracle 或 IBM DB2 储存资料。Server 端基于 C语言、Web 管理端 frontend...

2018-10-23 13:28:30 14135

原创 MySQL JDBC

一、连接MySQL数据库1. MySQL JDBC四大参数private static String driver = "com.mysql.jdbc.Driver";private static String url = "jdbc:mysql://127.0.0.1:3306/local_test?characterEncoding=UTF-8&useSSL=false...

2018-09-19 19:32:27 429018 1

原创大数据HBase系列之HBase分布式数据库部署

一、部署准备1. 依赖框架大数据Hadoop系列之Hadoop分布式集群部署：https://blog.csdn.net/volitationLong/article/details/80285123 大数据Zookeeper系列之Zookeeper集群部署：https://blog.csdn.net/volitationLong/article/details/827062102. ...

2018-09-17 15:09:01 442069

原创大数据Zookeeper系列之Zookeeper分布式协调服务部署

一、部署准备1. 安装介质zookeeper-3.4.13：http://mirror.bit.edu.cn/apache/zookeeper/zookeeper-3.4.13/zookeeper-3.4.13.tar.gz2. 主机规划192.168.233.134 host14 192.168.233.133 host15192.168.233.136 host16二、...

2018-09-14 17:27:04 439099

转载 Java实现获取随机字符串

1. 代码块import java.util.Random;/** * 随机字符串工具 * * @author volitation * */public class RandomString { /** * 获取指定长度随机字符串 * * @param length * @return */ public static String getR...

2018-09-13 10:23:07 18133 1

转载大数据Hive系列之Hive MapReduce

1. JOIN1.1 join操作INSERT OVERWRITE TABLE pv_users SELECT pv.pageid, u.age FROM page_view pv JOIN user u ON (pv.userid = u.userid); 1.2 MR过程Mapa. 以 JOIN ON 条件中的列作为 Key，如果有多个列，则 Key 是这些列的...

2018-09-11 16:32:56 18681

原创 Linux系列之离线安装Apache HTTP

1. 安装准备1.1 下载介质链接: https://pan.baidu.com/s/1R1iaKfHbeLUQuJcGn9kNrA 密码: iceg1.2 上传介质 scp -r /opt/tools/httpd 192.168.233.130:/opt/tools/httpd2. 安装HTTP2.1 编译安装aprcd /opt/tools/httpd...

2018-09-07 23:59:24 18729 2

原创 Cloudera Manager平台部署说明书

一、基础环境1. 修改主机名# vim /etc/sysconfig/networkNETWORKING=yesHOSTNAME=master1# vim /etc/sysconfig/networkNETWORKING=yesHOSTNAME=master2# vim /etc/sysconfig/networkNETWORKING=yesHOSTNAME...

2018-09-06 14:53:41 446993

原创大数据HBase系列之初识HBase

1. HBase简介1.1 为什么使用HBase传统的RDBMS关系型数据库（MySQL/Oracle）存储一定量数据时进行数据检索没有问题，可当数据量上升到非常巨大规模的数据（TB/PB）级别时，传统的RDBMS已无法支撑，这时候就需要一种新型的数据库系统更好更快的处理这些数据。我们可以选择HBase。1.2 HBase的地位HBase占有举足轻重的作用，它居于HDFS之上...

2018-09-04 16:54:20 14102

转载 IDEA常用快捷键

快捷键快捷键说明 Alt+回车导入包，自动修正 Shift+Alt+R 修改文件名 Ctrl+N 查找类 Shift+Alt+T 打开类 Ctrl+Shift+N 查找文件 Ctrl+Alt+L 格式化代码 Ctrl+Alt+O 优化导入的类和包 Alt+Insert 生成代码(如get，s...

2018-08-30 16:04:40 433679

原创 Linux系列之挂载磁盘

1. 查看磁盘# fdisk -l2. 创建分区# fdisk /dev/sda命令命令说明 n 创建 p 选择 1,2,3,4 分区号 w 保存 3. 格式化分区为ext4格式mkfs.ext4 /dev/sda4. 挂载磁盘mkdir -p /data/hdfsmount ...

2018-08-30 11:10:01 11057

转载大数据Flume系列之Flume集群搭建

1. 概念集群的意思是多台机器，最少有2台机器，一台机器从数据源中获取数据，将数据传送到另一台机器上，然后输出。接下来就要实现Flume集群搭建。集群如下图所示。2. Flume搭建2.1 部署准备部署主机192.168.9.139 host14 192.168.9.128 host15 host14主机下载flume软件包 # cd /opt/t...

2018-08-29 17:35:48 442426

原创大数据Hive系列之Hive API

Maven依赖配置<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/x...

2018-08-23 14:12:14 14454

原创大数据Hive系列之Hive常用SQL

1. hive导出数据到hdfs语法：export table 表名 to '输出路径';例子：export table cloud.customer to '/tmp/hive/customer';2. beeline连接$ beeline语法：beeline> !connect jdbc:hive2://主机名:10000 用户名密码例子：beeline&g...

2018-08-22 16:04:52 11862

原创大数据Hive系列之Hive用户权限管理

1. 角色* 创建角色create role role_name;* 显示角色show roles;* 删除角色drop role role_name;2. 用户* 用户进入admin角色权限set hive.users.in.admin.role;set role admin;* 查看某用户的所有角色show role grant user user_n...

2018-08-21 17:30:40 30961 1

原创 Linux系列之SAR命令使用详解

1. CPU利用率sar -p （查看全天）sar -u 1 10 （1：每隔一秒，10：写入10次）1.1. CPU输出项说明输出项详细说明 CPU all 表示统计信息为所有 CPU 的平均值。 %user 显示在用户级别(application)运行使用 C...

2018-08-16 15:08:15 59567 4

翻译通过ODBC连接PostgreSQL

一、ODBC安装1）UnixODBC安装* yum安装 # yum install -y unixODBC.x86_64* 验证安装 # rpm -qa | grep unixODBC unixODBC-2.3.1-11.el7.x86_642）PostgresqlODBC安装* yum安装 # yum install -y po...

2018-08-15 17:17:44 20888 2

原创 PostgreSQL入门简介

一、PostgreSQL数据库安装1）yum安装# yum install postgresql2）验证postgresql安装# rpm -qa | grep postgresqlpostgresql-9.2.23-3.el7_4.x86_64postgresql-libs-9.2.23-3.el7_4.x86_643）登录数据库* 登录postgre...

2018-08-14 16:36:01 11878

原创大数据Sqoop系列之Sqoop导入导出数据

一、Sqoop介绍Sqoop是一个用来将关系型数据库和Hadoop中的数据进行相互转移的工具，可以将一个关系型数据库(例如Mysql、Oracle)中的数据导入到Hadoop(例如HDFS、Hive、Hbase)中，也可以将Hadoop(例如HDFS、Hive、Hbase)中的数据导入到关系型数据库(例如Mysql、Oracle)中。Sqoop工具接收到客户端的shell命令或者Java...

2018-06-14 18:01:14 15649 1

原创大数据Kafka系列之Kafka集群部署

1. kafka集群搭建规划搭建主机slave61 192.168.9.61slave62 192.168.9.62slave63 192.168.9.632. kafka安装包下载http://mirrors.hust.edu.cn/apache/kafka/1.0.0/kafka_2.12-1.0.0.tgz3. 创建工作目录，解压安装 cd /app...

2018-06-14 11:07:21 12169

大数据平台之用户行为分析平台

用户行为分析平台是基于大数据Hadoop生态构建的平台，本文档包括的内容如下： 1. 大数据基础知识介绍 2. Hadoop介绍 3. Hive介绍 4. Flume介绍 5. 用户行为分析平台介绍

2018-08-24

Apache Hadoop生态圈平台部署说明书

本文档包括的内容如下： 1. Hadoop 的安装与配置 2. Hive 的安装与配置 3. Flume 的安装与配置 4. Kettle 的安装与配置 5. Mysql 的安装与配置 6. Zookeeper 的安装与配置 7. Otter 的安装与配置

2018-08-24

Hadoop系列书籍五本

内含Hadoop系列之《Hadoop YARN 基本架构和发展趋势》、《Hadoop实战》、《Hadoop海量数据处理技术详解与项目实战》、《Hadoop官网帮助手册》、《Hadoop源代码分析》五本书籍，你值得拥有。

2018-08-21

cxf-ws.zip

CXF与Spring搭建WebService是目前最流行的方式。本资源讲述如何用Java创建一个简单的WebService接口，并构建客户端调用这个WebService接口。

2018-05-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人