自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

cllblogs

Java/大数据

  • 博客(29)
  • 收藏
  • 关注

原创 数仓_范式建模/维度建模

范式建模Third Normal Form,3NF是数据模型常用的一个方法,主要解决关系型数据库的数据存储。目前关系型数据库的建模方法,大部分采用三范式建模,即通过实体关系(Entity Relationship,ER)模型描述企业业务。是数据仓库之父Inmon提出的集线器的自上而下(EDW-DM)的数据仓库架构,即从数据源到数据仓库再到数据集市的(先有数据仓库再有数据市场)一种瀑布流开发方法。第三范式定义基本上是围绕主键与非主属性之间关系做的,必须满足以下三个条件:1.每个属性的值唯一,不具有

2021-01-26 09:35:20 821 2

原创 Kafka之ACK机制

acks一般常设置三种值request.required.acks = 0、1和-1(all)acks=0KafkaProducer把消息发送出去,不需要等待任何确认收到的消息,没有任何保障可以保证此种情况下server已经成功接收到数据,同时重试配置也不会发生作用(因为KafkaProducer并不知道此次发送是否失败)。该情况,当数据已经发送出去,还在半路,此时lead...

2019-11-21 10:27:38 2749

原创 Spark Kryo serialization

准备测试数据[hadoop@hadoop000 logs]$ ls -lh总用量 150M-rw-r--r--. 1 root root 150M 10月 22 00:29 access.log测试rdd.persist(StorageLevel.MEMORY_ONLY)缓存占存储空间为 590.9MB ,接近原始数据大小的4倍(具体倍数不好说,但是起码2倍以上)rdd.p...

2019-10-23 13:00:23 231

原创 Spark on Yarn-cluster 和 Yarn-client 区别

Yarn-cluster 和 Yarn-client 区别SparkContext 初始化不同,这也导致了 Driver 所在的位置不同,Yarn-cluster 的 Driver 是在集群的某一台 NodeManager 上,但是 Yarn-client 是在 Driver 所在的机器上Driver 会和 Executors 进行通信,这也导致了 Yarn-cluster 在提交a...

2019-10-16 16:15:57 248

原创 hadoop支持lzo压缩测试

1.环境准备jdk1.8/maven3.6.2/hadoop伪分布式安装需要的库yum -y install lzo-devel zlib-devel gcc autoconf automake libtool2.安装 lzo2.1.下载并解压lzo# 下载lzo压缩包[hadoop@hadoop000 software]$ wget www.oberhumer.com...

2019-10-10 09:17:20 412

原创 调试ssh信任关系过程

1.问题描述虚拟机搭建hadoop伪分布式,已经正常运行很长一段时间了,ssh信任关系也没有任何问题,今天尝试安装了lzo,安装完毕准备重启hadoop使其生效,一直提示需要输入密码,测试了下 ssh localhost date,一样提示需要输入密码,问题就出在了ssh信任关系上2.解决过程2.1.个人尝试解决删除hadoop用户家目录下的.ssh[hadoop@hadoop0...

2019-10-08 21:19:27 141

原创 Hive中like,rlike区别与使用详解

hive中like,rlike,not like 的区别与使用详解

2019-10-07 21:50:13 3941

原创 awk、grep、sed命令

概述linux文本三剑客:awk、grep、sed**其功能都是处理文本,但是各自的适用场景不同awk : 功能最强大,但是使用起来也是最复杂的,适用于格式化文本,对文本进行比较复杂的格式处理grep : 适用于查找或者匹配文本sed : 适用于编辑匹配到的文本1.grep1.1.简介grep全称是:Global Regular Expression Print是一种强...

2019-10-06 21:46:15 134

原创 Hadoop HA架构简述

HDFS HA架构图

2019-10-05 13:21:41 1163 2

原创 Hive自定义UDF函数

1.简介UDF函数分类UDF : User-Defined Function 一进一出,eg. substrUDAF : User-Defined Aggregation Function 多进一出,eg.UDTF : User-Defined Table-Generating Function 一进多出,eg.2.非源码级别自定义UDF函数2.1.准备自定义函数2...

2019-09-27 15:40:33 241

原创 akaban常见问题总结

Cannot request memoryCannot request memory (Xms 0 kb, Xmx 0 kb) from system for job first, sleep for 60 secs and retry, attempt 6 of 720报错原因:azkaban默认执行任务需要3GB内存,需要修改executor下的plugin/jobtype/com...

2019-09-25 11:13:53 271

转载 VMware虚拟机中CentOS7的硬盘空间扩容

VMware虚拟机中CentOS7的硬盘空间扩容

2019-09-24 15:16:14 432

原创 Hadoop伪分布式部署

1.环境准备centos7安装JDK1.8+ :可参考 Hadoop集群搭建(三台) 中JDK安装步骤下载hadoop安装包,本文使用版本为 hadoop-2.6.0-cdh.5.15.12.部署配置无密码认证# 按步骤操作即可1.ssh-keygen # 三次回车2.cd ~/.ssh cat id_rsa.pub >> authorize...

2019-09-24 12:56:49 119

原创 谷歌浏览器查看github开源项目插件Octotree

安装步骤下载插件:进入谷歌浏览器扩展程序界面:chrome://extensions/然后将下载的插件拖到该界面即可效果展示

2019-09-21 08:53:37 2993 1

转载 CentOS7设置时间同步

详情请见:https://blog.csdn.net/qq_20989105/article/details/86253380

2019-09-21 08:10:06 167

原创 hive常用日期函数梳理

to_date : 时间转日期select to_date("2019-09-19 00:00:00");输出:2019-09-19from_unixtime : 转化unix时间戳到当前时区的时间格式,格式可指定select from_unixtime(1568778184, 'yyyy-MM-dd HH:mm:ss');输出:2019-09-18 11:43:04un...

2019-09-20 16:32:59 184

转载 大数据的特征(4V+1O)

Volume(数据量大) + Variety(类型繁多) + Value(价值密度低) + Velocity(速度快时效高) + Online(数据是在线的)详情请见原文链接:https://blog.csdn.net/jxq0816/article/details/88370854...

2019-09-20 14:19:16 1643

原创 chmod命令

说明 linux 文件调用权限分为三级:文件拥有者、群组、其他。利用 chmod 可以控制文件如何被他人所调用语法用法:chmod [选项]... 模式[,模式]... 文件... 或:chmod [选项]... 八进制模式 文件... 或:chmod [选项]... --reference=参考文件 文件...Change the mode of each FILE to MODE....

2019-09-17 10:57:11 151

原创 hdfs ha脚本邮件预警failover

1.脚本编写#!/bin/bashNN1_HOSTNAME=""NN2_HOSTNAME=""NN1_SERVICEID=""NN2_SERVICEID=""NN1_SERVICESTATE=""NN2_SERVICESTATE=""[email protected]#CDH_BIN_HOME=/opt/cloudera/parcels/CDH/binCDH_B...

2019-09-16 08:10:13 187

原创 mail 465邮件配置

1.开启QQ邮箱SMTP服务然后点击图片右下角生成授权码 ,获取到授权码2.停止服务此操作是在root用户下进行[root@hadoop000 ~]# service sendmail stopRedirecting to /bin/systemctl stop sendmail.serviceFailed to stop sendmail.service: Unit sendma...

2019-09-16 08:06:55 986

原创 启动hadoop时,datanode未能正常启动

启动hdfs时,查看进程发现没有datanode进程[hadoop@hadoop001 sbin]$ start-dfs.sh Starting namenodes on [hadoop001]hadoop001: starting namenode, logging to /home/hadoop/app/hadoop-2.6.0-cdh5.15.1/logs/hadoop-hadoo...

2019-09-14 21:07:42 659

原创 Flume采集nginx日志到HDFS

1.环境准备jdk+hadoop:搭建伪分布式nginx安装参考:https://blog.csdn.net/qq_34651991/article/details/100726599flume安装很简单,下载解压即可2.Nginx修改nginx配置 nginx.conf [root@hadoop000 conf]# vi nginx.conf ...... # 将该部分注释放...

2019-09-11 11:09:55 1014 3

原创 centos7安装nginx

1.安装编译工具及库文件1.1.安装编译工具一键安装所有相关组件[root@hadoop000 ~]# yum -y install make zlib zlib-devel gcc-c++ libtool openssl openssl-devel pcre pcre-devel组件说明:Nginx的rewrite模块和HTTP核心模块会用到 PCRE 正则表达式语法...

2019-09-11 09:25:29 319 2

原创 shell脚本编程(进阶)

以三台机器搭建的集群为例1.查看三台机器的进程[hadoop@hadoop001 hadoop]$ vi jps.sh#!/bin/bashecho "-----------------hadoop001 process---------------"ssh hadoop001 "$JAVA_HOME/bin/jps"echo " ...

2019-09-10 10:00:40 259

原创 shell脚本编程(基础)

输出字符串hello world[root@hadoop001 learn_shell]# vi test.sh#!/bin/bashecho "hello world!"# 默认是没有可执行权限的[root@hadoop001 learn_shell]# ll总用量 4-rw-r--r-- 1 root root 34 8月 24 07:53 test.sh# 修改文...

2019-09-09 08:08:18 96

原创 Hadoop集群搭建(三台)

1.组件版本组件名版本备注Centos7.2 64-bitlsb_release -a 命令查看操作系统版本 file /bin/ls 命令查看操作系统位数Jdkjdk-8u45-linux-x64.gzHadoophadoop-2.6.0-cdh5.15.1.tar.gzZookeeperzookeeper-3.4.6.tar.gz...

2019-09-06 08:58:53 510

原创 hadoop压缩方式

压缩种类压缩格式工具算法扩展名多文件可分割性DEFLATE无DEFLATE.deflate不不GZIPgzipDEFLATE.gzp不不ZIPzipDEFLATE.zip是是,在文件范围内BZIP2bzip2BZIP2.bz2不是LZOlzopLZO.lzo不是gzip压缩优点:压缩...

2019-09-06 08:56:26 184

原创 spark2.4.2源码编译集成hadoop-2.6.0-cdh5.15.1

1.准备工作1.1 组件及源码下载组件名称组件版本centoscentos6.4jdkjdk-8u80-linux-x64.tar.gzmavenapache-maven-3.6.1-bin.tar.gzscalascala-2.11.6.tgzhadoopHadoop-2.6.0-cdh5.15.1-src.tar.gz⚠️ 版本要...

2019-09-06 08:43:07 546

原创 hadoop-2.6.0-cdh5.15.1源码编译

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...

2019-09-06 08:41:34 257

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除