1 ho_ll_ow

尚未进行身份认证

暂无相关简介

等级
TA的排名 15w+

Kafka

1.什么是KafkaKafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统(消息被广播给所有的用户),它可以处理消费者在网站中的所有动作流数据。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息。2.特性:1>Kafka采用的磁盘数据结构稳定性很...

2019-11-19 21:35:51

Spark

Spark:加州大学伯克利分校的AMP实验室于2009年基于scala语言编写(部分用JAVA)的基于内存的分布式快速计算框架引擎。能够满足离线计算,实时计算,机器学习,图计算等各类场景,提供一站式解决方案,可以运行多种模式,支持多语言开发,推荐用Scala(代码简洁优雅,高效,复用性强)spark特点:1.计算快速Hadoop 的MapReduce计算框架受限于磁盘读/写性能和网络I/...

2019-11-06 21:04:43

scala计算词频

计算一个单词出现次数并排序:val arr=Array(“hello,word,hello,haokz,hello,haokz”,“haokz,hello,wang,kong,kong,haokz,hello”,“wang,haokz,hello”)1.用Array模拟多行内容,每行内容中字符以,号间隔val arr=Array(“hello,word,hello,haokz,hello,h...

2019-11-02 14:59:25

scala函数和方法

方法的定义:方法总结:1.对于只有一行代码的方法体,可以省略{}2.可以不写返回值类型(定义递归方法时除外,必须带返回值类型,否则不知道返回值类型)def qiuhe = (x:Int,x:Int) = {x+y}3.定义的方法若没有返回值,则不用写=号,(若不写=号,即使有返回值也不返回):返回值类型为Unit,其实()是Unit的一个实例对象,如上图标注14.若定义的方法,要求有...

2019-11-02 11:13:37

Scala

Scala:是一门现代的多范式编程语言(面向对象+函数式编程),运行于Java平台(JVM,Java 虚拟机。后续会有自己的虚拟机),并兼容现有的Java程序。JAVA8通过Lambda表达式开始支持函数式编程,功能不够强大。Scala具有如下特性:1:语法简介优雅,对开发人员来说,能用极其少量精简的代码完成其它语言多行完成的功能,开发效率高,且易于理解;2:Scala兼容JAVA(Sca...

2019-10-28 21:25:08

Sqoop应用

Sqoop 是Apache下一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传输,可以实现关系型数据库(例如 : MySQL ,Oracle ,Postgres等)与Hadoop的HDFS之间数据互相导入、导出。概括起来:该层充当“搬运工”的角色,主要做两件事1:负责外部数据(多是关系型库数据)导入到分布式文件系统(HDFS);...

2019-10-19 16:45:35

Flume基础

Flume:是Cloudera提供的一个高可用的、高可靠的、分布式的海量日志收集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写道各种数据接收方(可定制)的能力。Flume有两个重要版本:Flume 0.9X版本的统称Flume-og,Flume 1.X版本的统称Flume-ng。由于Flume-ng经过重大重构,...

2019-10-17 20:01:42

Hbase集群的安装和配置(高可用验证)

1.解压下载的Hbase安装包cd /opt/mysofttar -zxvf hbase-1.2.3-bin.tar.gzmv hbase-1.2.3 hbase2.配置环境变量vi /etc/profile :export HBASE_HOME=/opt/mysoft/hbaseexport HBASE_OPTS=-XX:+UseConcMarkSweepGCexport HB...

2019-10-14 20:31:07

Hbase

Hbase(Hadoop database:Hbase)概念:是一个基于Hadoop的分布式,高可靠、高性能、面向列(含义:一个列簇对应一个文件:HFile),可伸缩的数据库。Hbase不同于一般的关系数据库,他是一个适合于**非结构化或者半结构化数据存储(每天记录数据字段都不确定)**的数据库。另一个不同的是Hbase基于列的而不是基于行的模式。特点:1.基于Hadoop HDFS进行分...

2019-10-14 19:49:28

Pig

Pig概念:Apache Pig是建立在Hadoop之上的一个数据管理工具(类似Hive),用于分析较大的数据集,Pig通常与Hadoop 一起使用;我们可以使用Pig在Hadoop中执行所有的数据处理操作。用户只需要借助 Pig Latin 的高级语言,编写对应的业务逻辑即可提交执行作业到Yarn上执行。Apache Pig 为不熟悉MR编程的人降低管理大数据集的门槛。也为大数据高效管理提...

2019-10-11 21:33:51

Hive2.X 整合执行引擎Tez (DAG)

Hive2.X 整合执行引擎Tez (DAG)解压压缩包:tar -zxvf apache-tez-0.9.2-bin.tar.gz重命名:mv apache-tez-0.9.2-bin tez替换tez里的两个jar包如上图,将/opt/mysoft/hadoop/share/hadoop/mapreduce 里的覆盖掉tez/lib里的对应JAR包。配置环境变量:vi...

2019-10-11 21:13:21

Hive自定义函数

Hive自定义函数自定义函数的三种类型:UDF输入单行,输出单行(最为常用)类似Hive自带的部分函数,如substr例子:select substr(name,0,2) from order3;要求自定义类继承UDF,重写evaluate方法。UDTFuser define table-gen function,输入单行,输出多行,类似于 explode(array);UDAF...

2019-10-10 21:19:36

Hive四种表的应用

Hive四种表的应用:1.内部表:Hive默认创建的表类型为内部表特点:当表定义被删除的时候(如:drop table stu),表中的数据一并被删除(HDFS数据目录,源数据库表文件一并被删除);使用场景:多用来存储一些非业务类型数据,如:各省及对应区号表,全球每个国家及对应代码表。而每天收集的业务数据尽量不要定义成内部表,这样即使表删除了,数据还在。创建内部表,并加载数据:c...

2019-10-09 20:56:20

基于shell命令行基本操作(DDL/DML)

安装并启动hive后1.查看当前Hive中有哪些数据库hive> show databases; //hive初始化,会生成一个默认的default数据库;往往根据项目不同,会建立不同业务的hive数据库如果show databases 或者show tables;hive命令出现问题Failed with exception Java.io.IOException:java.la...

2019-10-08 21:55:03

Hive基础

hive:基于Hadoop的一个数据仓库管理工具,可以将结构化的数据文件映射为数据库表,提供sql查询统计功能(Hive定义了简单的类SQL查询语言,称为HQL),其底层实现是:将SQL语句转换为MapRecuce程序任务执行对应的查询功能(Yarn集群启动)。实现同样的查询统计功能,Hive只要简单的SQL语句(通过Hive框架转换为对应的MapReduce程序,并对其优化,最后提交Hadoo...

2019-10-08 21:08:19

HDFS动态扩容

HDFS动态扩容待扩容机器前置工作1.创建一个新的虚拟机修改计算机名称vi /etc/sysconfig/network设置IPvi /etc/sysconfig/network-scripts/ifcfg-eth0配置待扩容机器上(qiku5)的域名映射:vi /etc/hosts彻底关闭防火墙chkconfig iptables off重启网络服务ser...

2019-09-21 14:59:43

安装和配置hadoop2.7.4集群

安装和配置Hadoop2.7.4集群首先将Windows上的两个压缩包上传到虚拟机的/opt/mysoft/ 下第一步:解压:tar -zxvf hadoop-2.7.4.tar.gz重命名:mv hadoop-2.7.4 hadoop第二步: cd /opt/mysoft/hadoop mkdir logs mkdir tmp mkdir -p tmp...

2019-09-18 20:26:43

大数据环境搭建

首先在VMware创建至少3台linux虚拟机,4台最好!1.设置本地网络环境和虚拟网络环境VMware中左上角点击编辑中点击虚拟网络编辑器,将虚拟网络编辑器下面的子网IP地址设为如图![虚拟网络编辑器然后点击NAT设置,将网关设置为192.168.110.1。创建虚拟机后,会生成两个虚拟网卡(取VMnet8),设置 本机网络环境,网段一定要和的虚拟网络编辑器中设置的网段相同。2....

2019-09-17 21:24:08

大数据

什么是大数据:通过收集本行业或者多个行业(智慧城市大数据平台需要收集交通行业,银行,工商,医院等相关多行业信息)海量数据,借助分布式储存系统及各类计算框架,提炼或者分析有价值的东西,提供满足企业需要的解决方案。简单总结为:根据企业需求场景(离线计算或者流计算),利用大数据生态对应技术解决企业对大数据(已有的或者不断生成)分析需求的方案。大数据特点:1.数据产生快,数据量大;(前所未有,尤其...

2019-09-16 19:09:42

SpringBoot框架

1.框架:框架是为了简化项目开发而形成的通用的开发架构2.MVC开发模型对应的开发框架:SSH:Struts2 + Spring + HibernateSSM: Spring + SpringMVC + MyBatis3.SpringBoot是一个容器框架,具有很强的包容性MVC开发模型:1.M:Model数据模型层数据模型框:Hibernate框架ORM对象关系映射模型,数据持久...

2019-09-15 16:38:44

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。