1 暗东方

尚未进行身份认证

暂无相关简介

等级
TA的排名 24w+

opentsdb使用

1.maven导入<dependency> <groupId>com.github.eulery</groupId> <artifactId>opentsdb-java-sdk</artifactId> <version>1.1.6</version></dependency>2.编写Op...

2020-01-17 17:10:06

java使用Kerberos认证

import java.io.File;import java.io.FileInputStream;import java.io.InputStream;import java.util.HashMap;import java.util.Map;import java.util.Properties;import javax.security.auth.Subject;impo...

2020-01-16 17:59:26

CDH6.2.1安装步骤

1.CM部署准备1.1 连接服务器1.2 修改hosts文件[root@hadoop001 ~]# vim /etc/hosts127.0.0.1 localhost localhost::1 localhost localhost.localdomain localhost6 localhost6.localdomain6172.17.138.24...

2020-01-05 16:57:49

DbSearcher解析ip地址

1.maven导入<dependency> <groupId>org.lionsoul</groupId> <artifactId>ip2region</artifactId> <version>1.7.2</version></de...

2019-12-29 14:59:41

spark操作hive工具类

import org.apache.spark.sql.SparkSessionobject HiveUtil { /** * 调大最大分区个数 * * @param spark SparkSession * @return */ def setMaxpartitions(spark: SparkSession): ...

2019-12-29 14:46:48

sqoop的安装和使用

1.导出脚本#!/bin/bash#cdhexport HADOOP_USER_NAME=hivedb_name=gmallexport_data() {/opt/module/sqoop/bin/sqoop export \--connect "jdbc:mysql://hadoop102:3306/${db_name}?useUnicode=true&charact...

2019-12-29 14:37:20

hive常用命令和压缩

1.创建数据库1)创建一个数据库,数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db。hive (default)> create database db_hive;2)避免要创建的数据库已经存在错误,增加if not exists判断。(标准写法)hive (default)> create database db_hive;FAILED...

2019-12-29 14:16:55

canal安装(HA)使用

1.canal 入门1.1 什么是 canal阿里巴巴B2B公司,因为业务的特性,卖家主要集中在国内,买家主要集中在国外,所以衍生出了杭州和美国异地机房的需求,从2010年开始,阿里系公司开始逐步的尝试基于数据库的日志解析,获取增量变更进行同步,由此衍生出了增量订阅&消费的业务。Canal是用java开发的基于数据库增量日志解析,提供增量数据订阅&消费的中间件。目前,Cana...

2019-12-28 23:26:53

scala安装使用

1.Scala环境搭建1)安装步骤(1)首先确保JDK1.8安装成功(2)下载对应的Scala安装文件scala-2.11.8.zip(3)解压scala-2.11.8.zip,我这里解压到E:\02_software(4)配置Scala的环境变量注意1:解压路径不能有任何中文路径,最好不要有空格。注意2:环境变量要大写SCALA_HOME2.Scala插件安装默认情况下IDE...

2019-12-28 22:13:39

Flume框架

第1章 Flume概述1.1 Flume定义Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。1.2 Flume基础架构Flume组成架构如图1-1所示:下面我们来详细介绍一下Flume架构中的组件:1.2.1 AgentAgent是一个JVM进程,它以事件的形式将数据从源头送至目的。Agent主要...

2019-12-26 22:11:35

sparkStreaming手动维护offset

1.导入maven<dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>5.1.47</version></dependency><dependency&...

2019-12-12 19:32:00

spark提交脚本及优化

1.释放缓存与缓存方法DataFrame//默认使用MEMORY_AND_DISKdataFrame.cache()//释放缓存dataFrame.unpersist()RDD//默认使用MEMORY_ONLYRDD.cache()//自定义使用RDD.persist()//释放缓存RDD.unpersist()SqlsparkSession.catalog.cac...

2019-12-10 11:52:12

Datax使用

下载地址下载地址:https://github.com/alibaba/DataX实际使用python datax.py --jvm="-Xms5G -Xmx5G" ../job/test.json -p "-Ddt=20190722 -Ddn=webA"hive到mysql的配置文件{ "job": { "setting": { "speed": { "chann...

2019-12-10 11:36:40

Hive 函数详解

1.数学函数Return TypeName (Signature)DescriptionDOUBLEround(DOUBLE a)返回对a四舍五入的BIGINT值DOUBLEround(DOUBLE a)返回对a四舍五入的BIGINT值DOUBLEround(DOUBLE a, INT d)返回DOUBLE型d的保留n位小数的DOUBLW型的近似值...

2019-12-10 11:19:44

Spark Sql 函数详解

1.聚合函数approx_count_distinctcount_distinct近似值avg平均值collect_list聚合指定字段的值到listcollect_set聚合指定字段的值到setcorr计算两列的Pearson相关系数count计数countDistinct去重计数 SQL中用法select count(distinct class)...

2019-12-10 10:19:53

IDEA中log4j详解

### 配置根 ###log4j.rootLogger = debug,console ,fileAppender,dailyRollingFile,ROLLING_FILE,MAIL,DATABASE### 设置输出sql的级别,其中logger后面的内容全部为jar包中所包含的包名 ###log4j.logger.org.apache=dubuglog4j.logger.java.s...

2019-12-06 18:15:32

spark读取hive和写入hive

1.导入maven<properties> <spark.version>2.1.1</spark.version> <scala.version>2.11.8</scala.version></properties><dependencies> <dep...

2019-12-06 18:09:15

jdk1.8安装

1.在/opt目录下创建module和software文件夹[root@hadoop100 opt]# mkdir module[root@hadoop100 opt]# mkdir software2.将jdk-8u144-linux-x64.tar.gz导入到/opt/software目录3.解压JDK到/opt/module目录下,并修改文件的所有者和所有者组为root[root...

2019-12-06 11:32:16

linux集群整体操作脚本

1.在/root/bin目录下创建脚本xcall.sh[root@hadoop100 bin]$ vim xcall.sh2.在脚本中编写如下内容#! /bin/bashfor i in hadoop100 hadoop101 hadoop102do echo --------- $i ---------- ssh $i "$*"done3.修改...

2019-12-06 10:37:06

linux集群同步脚本

1.在/root目录下创建bin目录,并在bin目录下创建文件xsync[root@hadoop100 ~]$ mkdir bin[root@hadoop100 ~]$ cd bin/[root@hadoop100 bin]$ vim xsync2.在该文件中编写如下代码#!/bin/bash#1 获取输入参数个数,如果没有参数,直接退出pcount=$#if((pcount==...

2019-12-06 10:19:48

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv3
    勤写标兵Lv3
    授予每个自然周发布7篇到8篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。