自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(45)
  • 收藏
  • 关注

原创 kettle的行转列主键用法详解

前言:              工作需要,目前常常使用到kettle,我也是第一次用kettle来工作,在使用中遇到一些问题!我分享出来,希望对你们有所帮助的同时也是属于我自己的一份笔记,加深影响!废话不多说,kettle小白,勿喷!! 使用场景:         一会实例演示的场景是将一同一个人的数据拆分为多条数,废话不多说,看图:                  ...

2018-11-14 14:53:55 4262 2

原创 事实表和维度表的定义

 一个典型的例子是,把逻辑业务比作一个立方体,产品维、时间维、地点维分别作为不同的坐标轴,而坐标轴的交点就是一个具体的事实。也就是说事实表是多个维度表的一个交点。而维度表是分析事实的一个窗口。        首先介绍下数据库结构中的星型结构,该结构在位于结构中心的单个事实数据表中维护数据,其它维度数据存储在维度表中。每个维度表与事实数据表直接相关,且通常通过一个键联接到事实数据表中。星型架构是...

2018-08-26 23:29:46 14758 4

转载 什么是数据分层,数据分层的作用!

 大数据环境下该如何优雅地设计数据分层0x00 前言最近出现了好几次同样的对话场景:问:你是做什么的?答:最近在搞数据仓库。问:哦,你是传统行业的吧,我是搞大数据的。答:......发个牢骚,搞大数据的也得建设数据仓库吧。而且不管是传统行业还是现在的互联网公司,都需要对数据仓库有一定的重视,而不是谈一句自己是搞大数据的就很厉害了。数据仓库更多代表的是一种对数据的管理和使...

2018-08-25 11:04:36 22335

转载 kafka能不能作为数据存储,你不知道的秘密!

Kafka你不知道的秘密! 人们总是问是否可以把 Kafka 作为长期的数据存储来使用,很显然,如果把数据保留策略设置为“永久”或者启用主题的日志压缩功能,那么数据就可以被永久保存下来。但我觉得人们其实真正想知道的是,这样做是不是很疯狂。简而言之,这样做不算疯狂。实际上,人们一直都在这么做,而且 Kafka 的设计意图之一就是要将它作为数据存储系统。不过问题是,为什么我们要把 Kafk...

2018-08-21 16:48:01 11117

转载 Hive性能优化(全面)解决数据倾斜等问题

Hive性能优化(全面)1.介绍首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题? 数据量大不是问题,数据倾斜是个问题。 jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的。 sum,count,max,min等UDAF,不怕数...

2018-07-31 08:39:14 3828 1

原创 Hbase的简介和它的分布式安装

一.Hbase的简介HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。H...

2018-07-16 22:45:06 173

原创 Scala 集合之 Tuple

元组:简而言之:就是数组总存储的是不同类型的值,一个元组中最多能存22个元素package com.huadian.bigdata.gather//元组:简而言之:就是数组总存储的是不同类型的值,一个元组中最多能存22个元素object TupleDemo { def main(args: Array[String]): Unit = { //创建一个元组 var firs...

2018-07-15 23:39:43 1586

原创 Scala 集合之 Map

Map Map同Set一样,默认个的定义是不可变类型,想要可变的类型需要引包 不可变(默认:): scala.collection.immutable Map() 可变: scala.collection.mutable mutable.Map()pack...

2018-07-15 23:37:15 1408

原创 Scala 集合之 Set

Set 对于Set而言,可变和不可变的定义包不同: 不可变Set的包名(默认); scala.collection.immutable Set()可变Set的包名: scala.collection.mutable...

2018-07-15 23:33:17 644 1

原创 Scala 集合之 List

List 不可变的类名称 List 可变的类名称: ListBufferlist的组成:head,tail list = head(Element) +tail(Element),除了头部以外的元素都是尾object ListDemo { def main(args: Array[String]): Un...

2018-07-15 23:29:07 343

原创 Scala 集合之 Array

scala语言中,数组或者集合都是有分为可变集合和不可变集合两类: 可变集合:当添加集合中的元素时,就是直接在原有的集上添加, 不可变集合:就是当添加新的元素的时候,将老的元素和新的元素一同添加到一个新的集合中->Array 不可变的类名称: Array 可变的类名称: ArrayBuffer...

2018-07-15 23:25:44 419

原创 MVC,MVP和MVVM的简介与区别

1     MVC全名:model + view + controller       (模型) + (视图) + (控制器)简介:       MVC是一种使用MVC设计创建的web应用程序的模式:1.    model:表示应用层核心!(比如数据库记录列表)2.    view 表示显示数据(web界面)3.    controller:处理输入.它强制性的使应用程序的输入,处理,和输出分开,...

2018-07-06 18:01:44 382

原创 hive的MetaStore

hive的元数据!==1==>为什么需要开启hive的metastore service    应用有像spark这样需要用到hive元数据的框架存在!所以就要给它们开放服务!    ==2==>metaStore:    metaStore,默认存储在 derby 数据库中,但是derby数据库不能支持我们开启多个窗口,所以我们会将metaStore存放到MySql中;    met...

2018-07-02 22:55:14 2720

原创 HIVE文件格式和压缩(附带翻译官方文档!)

对应官方文档:https://cwiki.apache.org/confluence/display/Hive/FileFormats==1==>Parquet存储数据:  Parquet文件格式简介:    Parquet文件格式是Hadoop的生态系统范围的柱状格式(列存储!)原文件大小:  parquet 文件格式的使用:    它的使用很简单,只要在建表的时候将文件类型处的参数从 该...

2018-07-02 22:00:41 540

原创 HIVE基础入门学习(必会!!附带jar包)

hive介绍 Apache的顶级项目,(是一个java程序) Facebook公司(2008年)开源给Apache基金会! hive官网: http://hive.apache.org/ hive到底是干什么的 将SQL转换成MapReduce程序,并将程序提交到YARN集群运行,不会自动生成结果文件, 直接读取HDFS上的数据进行处理. sql query(查询):它的查询类似于MySQL...

2018-06-26 13:51:19 2222 1

原创 Hadoop分布式集群环境部署!

1.  机器准备1.1三台机器的目录结构,用户,用户权限都必须完全一致!且在同一网段      为了方便管理,ip等用一下设置:           ip                hostname                                               192.168.59.162bigdata-hpsk02.com bigdata-hpsk02     ...

2018-06-21 00:23:02 336

原创 Linux免密远程登录!

Linux远程登录Linux系统作为一款安全稳定的操作系统,被广泛应用于如金融、通讯等行业的信息系统建设。随着科技的不断创新,系统应用不断深入,实现linux ssh免密码登录也越来越多的被涉及到,其中比较典型的是hadoop大数据平台的搭建中,就不可避免的应用到ssh免密码登录。那么如何实现linux ssh的免密码登录呢?下面根据自己的亲身经历及验证测试对其做了详细的介绍.首先我们看一下没有配...

2018-06-20 19:20:36 775

原创 linux集群的时间同步

    Linux系统一般用作服务器,当然,一台服务器是万万不够的,所以就需要很多,机器多了就会出现时间不同步的问题,所以就需要设置时间同步!    那么需要怎么设置时间同步?一般集群中只会有一台机器拥有访问外网的权限!这台可以访问外网的机器同步外网的时间,!那么所有的没有访问外网权限的节点机器,都去同步拥有访问外网权限的节点机器!    这样的好处是:就算外网断网了,拥有访问外网权限的节点机器时...

2018-06-20 17:58:36 1050

原创 SVN的学习.SVN的使用方式!TortoiseSVN以及TortoiseSVN汉化包下载和使用!

一.SVN是什么:SVN是Subversion的简称,是一个开放源代码的版本控制系统,说得简单一点SVN就是用于多个人共同开发同一个项目,共用资源的目的。二.SVN的工作流程:集中式管理的工作流程: 集中式代码管理的核心是服务器,所有开发者在开始新一天的工作之前必须从服务器获取代码,然后开发,最后解决冲突,提交。所有的版本信息都放在服务器上。如果脱离了服务器,开发者...

2018-06-12 15:03:23 7576 3

原创 大数据环境安装!Linux系统上的Hadoop伪分布式!

一、伪分布式安装 2.7.6版本 官网安装过程 http://hadoop.apache.org/docs/r2.7.6/hadoop-project-dist/hadoop-common/SingleCluster.html#Pseudo-Distributed_Operation 下图中,配置各个模块时的键值对书写的地方:<configur...

2018-06-12 09:29:18 155 1

原创 学习大数据,你必须知道的(学习基础,需要学习,的存储机制,行存储和列存储的对比)

一、学习大数据需要的基础 java SE,EE(SSM) 90%的大数据框架都是java写的 MySQL SQL on Hadoop Linux 大数据的框架安装在Linux操作系统上二、需要学什么 2.1:大数据离线分析 一般处理T+1数据 (T+1:T表示处理时间(一天,一周,或者一月,一般不会一年处理一次数据) +1:表示处理一次数据) Hadoop :(common、HDF...

2018-06-09 00:21:24 752

原创 大数据,这些你了解了么?

一.Hadoop的起源    谈到大数据,就不得不提Google的三驾马车:Google FS、MapReduce、BigTable。虽然Google没有公布这三个产品的源码,但是他发布了这三个产品的详细设计论文,奠定了风靡全球的大数据算法的基础! Google FS---------> HDFS MapReduce-------> MapReduce BigTable------...

2018-06-09 00:07:32 223 2

原创 创建maven的Java web项目

1.新建一个项目:2.选择Maven项目,和模板的选择!3.设置组织名,项目名和版本号4.设置你的包名,和存储地址!以及项目格式!5.进入项目后,在你的idea右下角有这样一个选项,一定要选择!6.选择后,在它加载的时候,去配置Maven7.配置Java项目结构!创建一个com.组织名.maven.servlet这样的包组这里创建servlet需要导入jar包才能创建,所以先导入包!导入包的详细请...

2018-06-08 01:15:35 215

原创 Maven入门(Maven的jar包导入;maven工程目录中各个文件的作用!)

一.pom.xml设置:要添加的jar包在:  http://mvnrepository.com    找!如:切记,这个并不是直接输入的,而是拷贝的,如果直接设置,可能会出错!二.Maven的常用命令:--> mvn -version        作用:显示Maven的版本,和jdk的版本(应为Maven是纯Java编译的)--->mvn  clean         作用:清楚编...

2018-06-07 23:23:59 1292

原创 Maven的介绍,下载,安装!

一.Maven的简单介绍!    1.Maven的意思: "专家;行家"             2.Maven简介:          maven它是一个项目的管理工具;是存Java开发的,Maven的作用是对于Java项目进行构建,和依赖管理(管理原本lib包中的东西)    3.使用Maven的好处,        1).依赖管理:  对Java同一管理,节省空间,             ...

2018-06-07 21:36:21 146

转载 shell编程学习(创建;执行;变量;转义;取消转义;控制台输入)

一.创建一个shell的可执行文件    #!开头:             是一个约定的标记,它告诉系统这个脚本需要什么解释器来执行,即使用哪一种 Shell。二.执行shell的可执行文件sh 可执行文件名称:三:shell编程的变量声明:注意,变量名和等号之间不能有空格,这可能和你熟悉的所有编程语言都不一样。同时,变量名的命名须遵循如下规则:命名只能使用英文字母,数字和下划线,首个字符不能以...

2018-06-06 01:14:04 5035

原创 VMware的克隆和导入克隆(修改ip,mac,hosts,hostname)

第一步:关机第二步:在VMware中选择克隆:第三步:跟着克隆向导一步一步操作:第四步:配置克隆虚拟机:  克隆完成后还不能完全使用,还要去开机修改它的机器属性,应为计算机的属性都是唯一的!(如mac地址)4.1开启虚拟机:4.2修改mac地址:如果修改后 用wq不能保存:那么,就选择强制保存:   wq!4.3修改ip和hostName    IP修改:  ip修改后需要重新启动network服...

2018-06-05 16:15:07 3811

原创 VMware的快照和恢复

第一步:    关机: init 0第二步:    在VMware中选择拍摄快照第三步:    给你将要拍摄的快照取名,完成后单击拍摄快照就有快照了第四步:    拍摄快照后我们也可以去管理它们:第五步:选中以前的快照可以恢复:                       作者:唐平时间:20118-6-5...

2018-06-05 14:31:16 17319

原创 Linux的解压和压缩!(gzip;bzip2;tar)

一.常见的压缩格式:1.zip:             gzip:            后缀名:.gz           压缩命令: gzip  要压缩的文件路径           解压命令:gunzip 要解压的文件路径           特点:                不能对文件夹进行压缩                 压缩后源文件没有2.bzipbzip2:适合压缩大文件 ...

2018-06-05 14:10:11 254

原创 Linux系统管理命令(硬盘;网络;服务;端口:进程)

一.硬盘管理1.常见的硬盘分类:            IDE: hda, hdb, hdc,            SAS: (SCSI) --> SATA: sda,sdb            SSD       2.管理命令                     df  -h                             作用:显示硬盘详细信息:             ...

2018-06-05 11:19:00 470

原创 Linux的权限管理;Linux的用户管理,Linux的用户组管理

Linux的用户分为两种:    1.管理员用户:        管理员用户只有一个,UID=0,的就是管理员用户;         一般情况下,默认它的用户名root        家目录: /root        root        :x       :0      :0     :root    :/root    :/bin/bash       用户名    密码   UID   ...

2018-06-05 01:09:31 281

原创 Linux的常见命令和操作示范!

      cd                      作用:跳转到指定路径                    用法:  cd+空格+要跳转的路径 ---------------------------------------------------------------------       ls -l                   作用:显示详细信息 简写: ll      ...

2018-06-04 23:27:27 2405 1

原创 通过SecureCRT远程操作Linux服务器控制台,和文件传输!以及部分Linux控制台命令!

1.配置远程控制台连接:为了让这个远程操作能接近原版的控制台操作样式,我们可以设置一下它的样式:2.配置远程文件上传程序:为了跳过繁琐的配置连接过程,SecureCRT提供了一个方便的类似于连接共享的功能:用户密码验证:                                                     作者:唐平时间:2018-6-3 ...

2018-06-03 00:04:29 2488 1

原创 配置Linux系统的网络,以便于其他电脑远程操作服务器!

1.启动创建好的虚拟机(具体创建步骤请看本人同一天发布的另一条关于虚拟机创建的博客!)2.第一次启动创建好的虚拟机,会出现这样一个弹框(该硬件不受CITOS的支持。有关支持的硬件信息,请参考http/www. www.)单击图中的ok就好,但是现在的鼠标并不能进行操作,所以    ( 鼠标单击一下这个界面,然后按下 enter) 这样就能点击到ok按键了3.耐心等待进度条结束(Ctrl+Alt 是...

2018-06-02 23:15:18 2970

原创 关于Linux的虚拟机创建,和Linux系统的简单介绍!

Linux的简介    1.简介:    Linux是一套免费使用和自由传播的类Unix操作系统,是一个基于POSIX和UNIX的多用户、多任务、支持多线程和多CPU的操作系统。它能运行主要的UNIX工具软件、应用程序和网络协议。它支持32位和64位硬件。Linux继承了Unix以网络为核心的设计思想,是一个性能稳定的多用户网络操作系统。    2.特点:            多用户、多任务、支...

2018-06-02 21:06:44 860 3

原创 面向对象的四大基本特征和五大基本原则

面向对象主要有四大特性·        抽象o    忽略一个主题中与当前目标无关的东西,专注的注意与当前目标有关的方面.(就是把现实世界中的某一类东西,提取出来,用程序代码表示,抽象出来的一般叫做类或者接口).抽象并不打算了解全部问题,而是选择其中的一部分,暂时不用部分细节.抽象包括两个方面,一个数据抽象,而是过程抽象.o    数据抽象 -->表示世界中一类事物的特征,就是对象的属性.比...

2018-05-28 10:32:05 16059 1

原创 面向对象:类的概念和定义!

面向对象的概念:    对象:                    Object,含有“物体”的概念,一切皆物体(对象)。对象由静态的属性和动态的行为组成。                                                                           属性:行为:存储、保温    类:      一组具有相同属性和行为的对象的抽象。杯子:  ...

2018-05-28 10:16:37 19547 2

原创 函数(方法)的概述和应用场景!

函数的概述:       为了提高代码的复用性,就把该功能独立封装成一段独立的小程序,当下次需要执行加法运算的时候,就可以直接调用这个段小程序即可,那么这种封装形形式的具体表现形式则称作函数。    举例1:地铁自动售票机,接收纸币或硬币,返回车票,该售票机具有独立功能,可以理解为函数。有未知内容参与运算(要投币,纸币硬币,多少钱)。有返回值(返回车票)    举例2:手机,手机具备打电话功能,有...

2018-04-23 00:04:11 814 1

原创 for,while,do....while,三大循环结构的用法和对比!

循环三要素: 起始值, 终点值, 步长 循环体中定义的变量都是局部变量,尤其是for结构要注意for() 括号中的也是局部变量 while while(判断条件){循环操作}1>,判断while 后面的条件是否成立(true / false)2>,当条件成立时,执行循环内的操作代码,然后重复循环1>,2>,直到循环不成立为止.特点:先判断,后执行!wh...

2018-04-22 23:26:48 2130 1

原创 switch 多分支语句,及其流程图,和if的对比和运行机制

switch : 在编程中常见的问题就是检测一个变量是否符合某个条件,如果条件不符合,再用另一个值来检测,以此类推.当然也可以用if语句来完成也可以,如输入月份判断一年的季节,代码如下:public static void main(String[] args) { System.out.println("请输入一个月份:"); Scanner scanner = new Scan...

2018-04-20 01:30:32 43232 4

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除