Wang·Br-CSDN博客

原创 Hive学习笔记

Hive概述Hive安装与配置数据类型与文件格式HQL操作之 – DDL命令HQL操作之–数据操作HQL操作之–DQL命令【重点】函数HQL操作之–DML命令元数据管理与存储Hive调优策略Hive案例个人总结hive命令...

2020-11-21 14:51:52 209

原创 BigData学习笔记

01- hadoop02-hive03-hue04-flume05-sqoop

2020-11-18 11:13:13 130

主要内容第 1 部分 Impala概述（Impala是什么，优势，劣势，与Hive对⽐）第 2 部分 Impala的安装(制作本地Yum源⽅式安装)第 3 部分 Impala的架构原理(有哪些组件，组件的作⽤，查询流程，查询计划)第 4 部分 Impala的使⽤（使⽤与Hive类似，编写sql⽅式；Impala的DDL,查询语法，导⼊数据）第 5 部分 Impala的Java 开发(Java+C++,使⽤JDBC⽅式查询Impala)第 6 部分 Impala的优化(负载均衡，Impala中的J

2020-11-16 08:31:39 88

原创 MYSQL语句

MySQL语句SQL整理连接数据库导入*.sql数据到数据库数据库相关的SQL1.查看所有数据库2.创建数据库，并指定字符集3.删除数据库4.查看数据库详情5.使用数据库表相关SQL1.创建表并约束2.查看所有表3.查看表详细4.查看表字段信息5.修改表名6.修改表引擎和字符集7.添加表字段8.删除表字段9.修改字段名称和类型10.修改字段类型和位置11.删除表数据相关1.插入数据2.查询数据：3...

2020-02-11 21:24:44 173

原创 hive中文注释乱码解决方案

①在Hive元数据存储的Mysql数据库中，执行以下SQL：#修改字段注释字符集alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8;#修改表注释字符集alter table TABLE_PARAMS modify column PARAM_VALUE varchar(20000) character set utf8;#修改分区参数，支持分区建用中文表示alter table PARTITION

2022-03-30 11:06:35 160

原创大数据集群参数信息

hdfs-site.xmldfs.replicationhdfs 副本数<property> <name>dfs.replication</name> <value>3</value></property>dfs.blocksizehdfs 存储块大小根据最佳传输消耗理论，一次传输中寻址时间为总传输时间的1%为最佳状态。一般机器磁盘寻址时间为10ms，一次写入数据总传输时间为1

2021-12-07 13:55:12 986

原创 hive实现树形结构展开

结果样式-- sql原qSELECT SYS_CONNECT_BY_PATH(T.C_AREANAME, '-->') AS RESULT, T.C_AREACODE, T.C_AREANAME, T.C_PARENTCODE, LEVELFROM CRM_TAREAINFOTREE TSTART WITH T.C_AREACODE = '0001'CONNECT BY PRIOR T.C_AREACODE = T.C_PARENTCODEORDE

2021-09-03 09:47:18 3105

原创 HQL操作语句

(返回hive笔记)[https://blog.csdn.net/weixin_44847293/article/details/109897984]HQL-DDL命令参考：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDLDDL（data definition language）：主要的命令有CREATE、ALTER、DROP等。DDL主要是用在定义、修改数据库对象的结构或数据类型。第 1 节数据库操作

2021-09-01 10:22:23 1478

原创 HIVE函数

函数Hive内置函数官网：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-Built-inFunctions第 1 节系统内置函数查看系统函数-- 查看系统自带函数 show functions; -- 显示自带函数的用法 desc function upper; desc function extended upper; 日期函数【重要】-- 当前前日期

2021-08-09 17:39:31 245

原创 hive元数据管理与存储

第 1 节 Metastore在Hive的具体使用中，首先面临的问题便是如何定义表结构信息，跟结构化的数据映射成功。所谓的映射指的是一种对应关系。在Hive中需要描述清楚表跟文件之间的映射关系、列和字段之间的关系等等信息。这些描述映射关系的数据的称之为Hive的元数据。该数据十分重要，因为只有通过查询它才可以确定用户编写sql和最终操作文件之间的关系。Metadata即元数据。元数据包含用Hive创建的database、table、表的字段等元信息。元数据存储在关系型数据库中。如hive内置的Derby

2021-06-29 18:44:15 478

原创 Hive 数据类型与文件格式

第三部分数据类型与文件格式Hive支持关系型数据库的绝大多数基本数据类型，同时也支持4种集合数据类型。第 1 节基本数据类型及转换Hive类似和java语言中一样，会支持多种不同长度的整型和浮点类型数据，同时也支持布尔类型、字符串类型，时间戳数据类型以及二进制数组数据类型等。详细信息见下表：大类类型Integers(整型)TINYINT – 1字节的有符号整数SAMLINT – 2字节的有符号整数INT – 4字节的有符号整数BIGINT – 8字节的有符号整数

2021-06-23 11:10:38 137

原创 Hive安装与配置

第 1 节 Hive安装配置介绍Hive官网：http://hive.apache.org下载网址：http://archive.apache.org/dist/hive/文档网址：https://cwiki.apache.org/confluence/display/Hive/LanguageManual安装前提：3台虚拟机，安装了Hadoop安装软件：Hive(2.3.7) + MySQL (5.7.26)备注：Hive的元数据默认存储在自带的 derby 数据库中，生产中多采用MySQL

2021-06-21 10:58:34 576

原创 hive优化

一架构优化1.1 执行引擎hive执行引擎： MapReduce、Tez、Spark、Flink在hive-site.xml中hive.execution.engine属性控制1.2 优化器与关系型数据库类似，Hive会在真正执行计算之前，生成和优化逻辑执行计划与物理执行计划Hive有两种优化器：Vectorize(向量化优化器)Cost-Based Optimization (CBO 成本优化器)1.2.1 矢量化查询执行矢量化查询(要求执行引擎为Tez)执行通过一次批量执

2021-05-17 16:09:02 213

原创 VMware搭建centOS7环境

需要软件CentOS-7-x86_64-DVD-1810.iso1 VMware虚拟机环境创建1.1 创建虚拟机然后点击’开启此虚拟机’选择install centos 7 回车即可选择英文选择date&Time选择亚洲上海，后点击Done选择INSTALLATION DESTINATION 设置目录结构选择I will configure partitioning自定义分区选择+ 添加分区后选择 Add mount point添加 .

2021-05-13 15:25:21 281

原创 CDH数仓-ClouderaManager搭建

第1章数仓之ClouderaManager1.1 CM简介1.1.1 CM简介Cloudera Manager是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具，使得安装集群从几天的时间缩短在几个小时内，运维人员从数十人降低到几人以内，极大的提高集群管理的效率。1.2 服务器准备1.2.1 SSH免密登录配置hadoop102对hadoop102、hadoop103、hadoop104三台服务器免密登录。CDH服务开启与关闭是通过server和agent来完成的，所以这里不需要配

2021-04-24 22:34:20 427

原创 excel导入erwin数据模块

学习中… …模板路径D:\software\ERwin Data Modeler r7.3\MetaIntegration\conf\MIRModelBridgeTemplate\MIRMicrosoftExcel\Standard-Blank.xlsx模板对应内容1 Model / Catalog1.1 Name解释：model名字查看：1.2 Type解释：…的类型查看：model根目录右键 -> properties -> udp2 Package未.

2021-04-22 00:55:41 617

原创 spark-zk 服务起不来

情况1场景[root@linux01 logs]# start-all.sh starting org.apache.spark.deploy.master.Master, logging to /opt/servers/spark-2.4.5/logs/spark-root-org.apache.spark.deploy.master.Master-1-linux01.outfailed to launch: nice -n 0 /opt/servers/spark-2.4.5/bin/spar

2021-04-02 18:26:43 170

原创 scala 作业

第一题、百元喝酒作业要求：每瓶啤酒2元，3个空酒瓶或者5个瓶盖可换1瓶啤酒。100元最多可喝多少瓶啤酒？（不允许借啤酒）思路：利用递归算法，一次性买完，然后递归算出瓶盖和空瓶能换的啤酒数package com.wangbr.homework/** * @author: wangbr * @date: 2021-01-29 21:40 * 作业要求：每瓶啤酒2元，3个空酒瓶或者5个瓶盖可换1瓶啤酒。100元最多可喝多少瓶啤酒？ * （不允许借啤酒）思路：利用递归算法，一次性买完，然后递归

2021-01-29 23:10:08 1264 1

原创数仓练习-下

题一用拉链表实现核心交易分析中DIM层商家维表，并实现该拉链表的回滚（自己构造数据，编写SQL，并要有相应的文字说明）-- 创建表-- 创建商家信息维表drop table if exists dim.dim_trade_shops;create table dim.dim_trade_shops( `shopid` int COMMENT '商铺ID', `userid` int COMMENT '商铺负责人', `areaid` int COMMENT '区域ID', `

2021-01-10 13:17:40 220

原创数仓练习（上）

在会员分析中计算最近七天连续三天活跃会员数-- 添加gidselect device_id, dt, date_sub(dt, row_number() over(partition by device_id order by dt)) gid from dws.dws_member_start_day where dt between date_sub(current_date, -7) and current_date;-- 求出大于等于3天的记录select de

2021-01-04 22:25:37 418 1

原创使用Kafka做日志收集

使用Kafka做日志收集需求需要收集的信息：1、用户ID（user_id）2、时间（act_time）3、操作（action，可以是：点击：click，收藏：job_collect，投简历：cv_send，上传简历：cv_upload）4、对方企业编码（job_code）1、HTML可以理解为拉勾的职位浏览页面2、Nginx用于收集用户的点击数据流，记录日志access.log3、将Nginx收集的日志数据发送到Kafka主题：tp_individual架构：HTML+Nginx+ng

2021-01-01 03:29:33 1343

原创 RedisCluster的安装、部署、扩容和 Java客户端调用

Redis下载官网地址：http://redis.io/中文官网地址：http://www.redis.cn/下载地址：http://download.redis.io/releases/安装# （三台）安装 C 语言需要的 GCC 环境yum install -y gcc-c++ yum install -y wget# 下载并解压缩 Redis 源码压缩包wget http://download.redis.io/releases/redis-5.0.5.tar.gz

2020-12-22 13:19:00 214

原创 azkaban统计每日活跃用户

环境现有用户点击行为数据文件，每天产生会上传到hdfs目录，按天区分目录，现在我们需要每天凌晨两点定时导入Hive表指定分区中，并统计出今日活跃用户数插入指标表中。clickloguserId click_time index uid1 2020-06-21 12:10:10 a.html uid2 2020-06-21 12:15:10 b.html uid1 2020-06-21 13:10:10 c.html uid1 2020-06-21 15:10:10 d.html uid

2020-12-16 17:09:35 244

原创 azkaban踩坑

错误一Exception in thread "main" java.lang.NoClassDefFoundError: Could not initialize class org.apache.derby.jdbc.AutoloadedDriver40 at java.lang.Class.forName0(Native Method) at java.lang.Class.forName(Class.java:348) at java.sql.DriverManager.isDriverAl

2020-12-15 23:25:50 244

原创 hbase练习-好友关系表

开发环境在社交网站，社交APP上会存储有大量的用户数据以及用户之间的关系数据，比如A用户的好友列表会展示出他所有的好友，现有一张Hbase表，存储就是当前注册用户的好友关系数据1.rowkey：为用户uid2.列族friends:列名为好友的uid，列值同样为uid需求使用Hbase相关API创建一张结构如上的表删除好友操作实现（好友关系双向，一方删除好友，另一方也会被迫删除好友）例如：uid1用户执行删除uid2这个好友，则uid2的好友列表中也必须删除uid1添加数据-- 创建

2020-12-15 13:50:12 918

原创 impala练习——对用户的日志数据打上会话内序号

需求业务：会话概念：用户的一次会话含义是指用户进入系统开始到用户离开算作一次会话，离开或者重新开始一次会话的概念是指用户的两次行为事件差值大于30分钟例如：-- 第一次会话A,2020-05-15 01:30:00A,2020-05-15 01:35:00A,2020-05-15 02:00:00-- 第二次会话A,2020-05-15 03:00:10A,2020-05-15 03:05:00-- 结果：对用户的日志数据打上会话内序号A,2020-05-15 01:30:00,1

2020-12-06 21:15:41 549

原创 Address already in use when trying to bind to ‘/var/lib/hadoop2.9.2-hdfs/dn_socket‘

错误样式2020-12-01 21:05:21,444 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: Exception in secureMainjava.net.BindException: bind(2) error: Address already in use when trying to bind to '/var/lib/hadoop2.9.2-hdfs/dn_socket' at org.apache.hadoop.net

2020-12-02 00:41:21 796 5

原创 Impala的架构原理

第 1 节 Impala的组件Impala是⼀个分布式，⼤规模并⾏处理(MPP)数据库引擎，它包括多个进程。Impala与Hive类似不是数据库⽽是数据分析⼯具；#在linux123执⾏ps -ef | grep impala#结果impala 29212 1 0 Jul02 ? 00:01:06/usr/lib/impala/sbin/statestored -log_dir=/var/log/impala -state_store_port=24000impala 29249 1 0 J

2020-11-30 16:10:30 125

原创 java.net.BindException: Problem binding to [node01:9000] java.net.BindException: Cannot assign req

出错环境在云服务上搭建hadoop集群起集群时namenode起不来报错java.net.BindException: Problem binding to [node01:9000] java.net.BindException: Cannot assign req...Caused by: java.net.BindException: Cannot assign requested address...解决方法<!-- 在$HADOOP_HOME/etc/hadoop/c

2020-11-28 16:22:35 1537 1

原创 java.net.ConnectException: Call From node03/127.0.0.1 to node01:9000 failed on connection except

环境三台云服务搭建hive是出现的错一台阿里云，两台腾讯云错误内容Exception in thread "main" java.lang.RuntimeException: java.net.ConnectException: Call From node03/127.0.0.1 to node01:9000 failed on connection exception: java.net.ConnectException: Connection refused; For more detai

2020-11-26 10:54:16 1095

原创 Hadoop学习笔记

1、什么是Hadoop2、Apache Hadoop的重要组成3、Apache Hadoop 完全分布式集群搭建完全分布式集群搭建4、HDFS分布式文件系统5、MapReduce编程框架6、YARN资源调度7、Hadoop 3.x新特性概述

2020-11-21 10:45:10 89

原创 Hadoop完全分布式集群搭建

软件和操作系统版本Hadoop框架是采⽤Java语⾔编写，需要java环境（jvm）JDK版本：JDK8版本集群：知识点学习：统⼀使⽤vmware虚拟机虚拟三台linux节点，linux操作系统：Centos7项⽬阶段：统⼀使⽤云服务器，5台云服务器节点Hadoop搭建方式单机模式：单节点模式，⾮集群，⽣产不会使⽤这种⽅式单机伪分布式模式：单节点，多线程模拟集群的效果，⽣产不会使⽤这种⽅式完全分布式模式：多台节点，真正的分布式Hadoop集群的搭建（⽣产环境建议使⽤这种⽅式）.

2020-11-21 10:44:09 330

原创云主机中Linux准备

本篇为云主机配置网络静态IP配置– 暂时不需要配置vi /etc/sysconfig/network-scripts/ifcfg-eth0# ONBOOT改为yes开启⾃动启⽤⽹络连接# BOOTPROTO改为静态static# IPADDR改为你⾃⼰设置的ip (ip可以通过命令 ip addr来获得)# GATEWAY设置⽹关# 设置DNS1作为主DNS，也可以加个DNS2作为备⽤。# 常⻅的DNS1=8.8.8.8 DNS2=8.8.4.4配置hostname与IP映射## h

2020-11-19 16:09:29 121

原创 Impala 安装与入门案例

2.1 集群准备2.1.1 安装Hadoop,HiveImpala的安装需要提前装好Hadoop，Hive这两个框架，hive需要在所有的Impala安装的节点上⾯都要有，因为Impala需要引⽤Hive的依赖包hadoop的框架需要⽀持C程序访问接⼝，查看下图，如果有该路径有.so结尾⽂件，就证明⽀持C 接⼝。2.1.2 准备Impala的所有依赖包Cloudera公司对于Impala的安装只提供了rpm包没有提供tar包；所以我们选择使⽤Cloudera的rpm包进⾏Imp

2020-11-18 19:41:08 535

原创 Impala概述

1.1 Impala是什么Impala是Cloudera提供的⼀款开源的针对HDFS和HBASE中的PB级别数据进⾏交互式实时查询(Impala 速度快)，Impala是参照⾕歌的新三篇论文当中的Dremel实现而来，其中旧三篇论⽂分别是（BigTable，GFS，MapReduce）分别对应我们即将学的HBase和已经学过的HDFS以及MapReduce。Impala最⼤卖点和最⼤特点就是快速，Impala中⽂翻译是⾼⻆羚⽺。1.2 Impala优势回顾前⾯⼤数据课程路线其实就是⼀个⼤数据从业者

2020-11-18 10:35:08 431

空空如也

空空如也