7 gjggw123

尚未进行身份认证

我要认证

技术博客: http://gjggw123.blog.163.com/ hadoop\storm\spark\scala\python QQ群: 142931657 / QQ群: 275079200 数据采集与数据抓取QQ群296920753

等级
TA的排名 29w+

如何深入浅出的理解数据仓库建模

如何深入浅出的理解数据仓库建模一 数据仓库建模的意义如果把数据看作图书馆里的书,我们希望看到它们在书架上分门别类地放置;如果把数据看作城市的建筑,我们希望城市规划布局合理;如果把数据看作电脑文件和文件夹,我们希望按照自己的习惯有很好的文件夹组织方式,而不是糟糕混乱的桌面,经常为找一个文件而不知所措。数据模型就是数据组织和存储方法,它强调从业务、数据存取和使用角度合理存储数据。...

2020-03-26 11:42:03

数据仓库系列:初识数仓

数据仓库系列:初识数仓前言: 本节是数据仓库系列文章的第一篇,本系列的目的在于快速的构建一套最小化可运行的基础数据体系,过程中也会涉及一些数仓的理论知识,但更偏重的是数仓的实现和背后的思考逻辑、所以在开发实施过程中会提供相对多的代码示例和具体的实现细节。 另外需要对数仓的界限做下限制,本系列所讨论的数仓是从数据接入后到数据结果表生成。最后需要指明的是本系列只涉及离线数...

2020-03-26 10:51:32

数据仓库系列:一种通用数据仓库分层方法

数据仓库系列:一种通用数据仓库分层方法 前言 数据仓库系列:图标跟以前保持一致,数据分层是数据仓库设计中十分重要的一个环节,优秀的分层设计能够让整个数据体系更易理解和使用。而目前网络中大部分可以被检索到相关文章只是简单地提及数据分层的设计,或缺少明确而详细的说明,或缺少可落地实施的方案,或缺少具体的示例说明。 因此,本文将指出一种通用的数据仓库分层方法,具体包含如下内...

2020-03-26 10:47:16

Elasticsearch 7.6.0 最详细安装及配置(HA)安装与启动

Elasticsearch 7.6.0 最详细安装及配置(HA)安装与启动Elasticsearch是一个非常好用的搜索引擎,和Solr一样,他们都是基于倒排索引的。今天我们就看一看Elasticsearch如何进行安装。下载和安装今天我们的目的是搭建一个有3个节点的Elasticsearch集群,所以我们找了3台虚拟机,ip分别是:192.168.73.130 192.1...

2020-03-05 16:57:14

Elasticsearch 7.6.0 最详细安装及配置(单节点)

Elasticsearch 7.6.0 最详细安装及配置Elasticsearch 7.x 最详细安装及配置一、Elasticsearch 7.x小马哥说过,学习技术栈得看版本,那么 Elasticsearch 7.x 有什么好的特性呢?ES 7.0 是 2019 年 4 月份发布的,底层是 Lucene 8.0。其他还有需要了解的是:废除单个索引下多 Type 的支持 ES...

2020-03-05 14:18:36

国内开源软件镜像站收藏

国内开源软件镜像站收藏阿里云 http://mirrors.aliyun.com/pypi/simple/豆瓣(douban) http://pypi.douban.com/simple/中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/清华大学 https://pypi.tuna.tsinghua.edu.cn/simple/中国科学...

2020-03-04 09:34:25

hive 笔记(有点乱,凑合看)

hive 笔记(有点乱,凑合看)set hive.map.aggr=true;set hive.groupby.skewindata=true;set hive.merg.mapfiles=true;set hive.mergejob.maponly=true;set hive.merge.mapfiles=true;set hive.merge.mapredfiles=t...

2020-03-04 09:19:55

shell / pyhton脚本处理时间

shell / pyhton脚本处理时间--------------------------------#环境 beta、dev、pre、proBDPP="`cat ${ads}/config/args.properties|grep "hdfs_dir="|awk -F "_" '{print$NF}' `"#环境 beta、dev、pre、proBDPP="`cat ${ad...

2020-03-04 09:19:24

在shell里面,“%”、“#”、“*” 是什么意思,如${a%%.*}、${a##*.}

在shell里面,“%”、“#”、“*” 是什么意思,如${a%%.*}、${a##*.}在shell里面,“%”、“#”、“*” 是什么意思,如${a%%.*}、${a##*.}${varible##*string} 从左向右截取最后一个string后的字符串${varible#*string} 从左向右截取第一个string后的字符串${varible%%string*} ...

2020-03-04 09:15:50

hive性能调优

hive性能调优转存失败重新上传取消转存失败重新上传取消下载LOFTER我的照片书|hive性能调优修改文件$HOME/.hiverc文件(长期,当前用户):优先级:参数声明>命令行参数>.hiverc文件>配置文件设定1. 参数声明:在hive的CTL环境中设置(临时)比如:set hiv...

2020-03-04 09:11:03

Hive函数大全-完整版

Hive函数大全-完整版Hive函数大全–完整版现在虽然有很多SQL ON Hadoop的解决方案,像Spark SQL、Impala、Presto等等,但就目前来看,在基于Hadoop的大数据分析平台、数据仓库中,Hive仍然是不可替代的角色。尽管它的相应延迟大,尽管它启动MapReduce的时间相当长,但是它太方便、功能太强大了,做离线批量计算、ad-hoc查询甚至是实现数据挖掘算...

2020-03-04 09:10:14

CDH6.2安装手册

CDH6.2安装手册一、系统信息:1.系统配置及软件环境:cpu:16cmem:47g+swap2gdisk:/ 17g xfs /data 500g xfsnet:10000M/sCentOS Linux release 7.4.1708 (Core)CDH6.2.0CDSW1.6.0mysql5.7jdk1.8.0_221mysql-co...

2020-03-04 08:58:10

技术博客迁移(个人)

技术博客迁移(个人)163网站技术博客地址:1、旧地址(不在使用):http://gjggw123.blog.163.com/2、新地址(不在使用):http://ggjggw123.lofter.com/目前就职于XX银行开发中心:大数据生产环境负责人★===★请加hadoop\spark\storm\scala\pythonQQ群:275079200QQ群:142...

2020-03-03 15:56:04

hadoop中4种压缩格式的特征的比较

hadoop中4种压缩格式的特征的比较1 gzip压缩优点:压缩率比较高,而且压缩/解压速度也比较快;hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一样;有hadoop native库;大部分linux系统都自带gzip命令,使用方便。缺点:不支持split。应用场景:当每个文件压缩之后在130M以内的(1个块大小内),都可以考虑用gzip压缩格式。譬如说一天...

2020-03-03 15:38:24

linux压缩和解压缩命令大全

linux压缩和解压缩命令大全 tar命令   解包:tar zxvf FileName.tar   打包:tar czvf FileName.tar DirName gz命令   解压1:gunzip FileName.gz   解压2:gzip -d FileName.gz   压缩:gzip FileName   .tar.gz 和 .tgz...

2020-03-03 15:37:19

flume 框架

flume 框架flume 数据采集框架 和telnet相同,都是监听数据,采集数据 缺点:数据容易丢失,在机器死机就会丢失数据 是一个分布式的对日志进行海量数据收集框架。(就是把数据收集回来后加工下再发出去)在hadoop0上部署一个flume agent(使用flume把数据从linux的文件夹上传到hdfs中)总结:flume部署到每台服务器中去...

2020-03-03 15:26:46

关于几种压缩算法以及hadoop和hbase中的压缩配置说明

关于几种压缩算法以及hadoop和hbase中的压缩配置说明文章不错哇,转载下Hadoop中常用的压缩算法有bzip2、gzip、lzo、snappy,其中lzo、snappy需要操作系统安装native库才可以支持下面这张表,是比较官方一点的统计,不同的场合用不同的压缩算法。bzip2和GZIP是比较消耗CPU的,压缩比最高,GZIP不能被分块并行的处理;Snappy和LZO差不...

2020-03-03 15:23:58

Hadoop Job Scheduler 作业调度器

Hadoop Job Scheduler 作业调度器作业的调度器Hadoop Job Scheduler 作业调度器,常见的有三种:默认调度算法FIFO 队列策略计算能力调度算法Capacity Scheduler(Yahoo 开发)(容量调度器)公平份额调度算法Fair Scheduler(Facebook开发)作业的调度 调度器:默认调度算...

2020-03-03 15:22:20

启动hadoop 2.7.3 datanode启动后又宕机, 遇到的datanode启动不了

启动hadoop 2.7.3 datanode启动后又宕机, 遇到的datanode启动不了启动hadoop2.7.3datanode启动后又宕机,遇到的datanode启动不了官方安装手册:https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.6.0/bk_support-matrices/content/ch_ma...

2020-03-03 15:21:05

数据仓库之--ETL(转载、分享)

数据仓库之--ETL(转载、分享)ETL,Extraction-Transformation-Loading的缩写,中文名称为数据抽取、转换和加载。大多数据仓库的数据架构可以概括为:数据源–>ODS(操作型数据存储)–>DW–>DM(data mart)ETL贯穿其各个环节。?一、数据抽取:可以理解为是把源数据的数据抽取到ODS或者DW中。1. ...

2020-03-03 15:19:35

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv4
    勤写标兵Lv4
    授予每个自然周发布9篇以上(包括9篇)原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 学习力
    学习力
    《原力计划【第二季】》第一期主题勋章 ,第一期活动已经结束啦,小伙伴们可以去参加第二期打卡挑战活动获取更多勋章哦。