ho_ll_ow-CSDN博客

原创 Kafka

1.什么是KafkaKafka是由Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统（消息被广播给所有的用户），它可以处理消费者在网站中的所有动作流数据。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理，也是为了通过集群来提供实时的消息。2.特性：1>Kafka采用的磁盘数据结构稳定性很...

2019-11-19 21:35:51 260

原创 Spark

Spark：加州大学伯克利分校的AMP实验室于2009年基于scala语言编写（部分用JAVA）的基于内存的分布式快速计算框架引擎。能够满足离线计算，实时计算，机器学习，图计算等各类场景，提供一站式解决方案，可以运行多种模式，支持多语言开发，推荐用Scala(代码简洁优雅，高效，复用性强)spark特点：1.计算快速Hadoop 的MapReduce计算框架受限于磁盘读/写性能和网络I/...

2019-11-06 22:01:42 182

计算一个单词出现次数并排序:val arr=Array(“hello,word,hello,haokz,hello,haokz”,“haokz,hello,wang,kong,kong,haokz,hello”,“wang,haokz,hello”)1.用Array模拟多行内容,每行内容中字符以,号间隔val arr=Array(“hello,word,hello,haokz,hello,h...

2019-11-02 15:19:25 771

原创 scala函数和方法

方法的定义:方法总结:1.对于只有一行代码的方法体,可以省略{}2.可以不写返回值类型(定义递归方法时除外,必须带返回值类型,否则不知道返回值类型)def qiuhe = (x:Int,x:Int) = {x+y}3.定义的方法若没有返回值,则不用写=号,(若不写=号,即使有返回值也不返回):返回值类型为Unit,其实()是Unit的一个实例对象,如上图标注14.若定义的方法,要求有...

2019-11-02 14:50:59 259

原创 Scala

Scala：是一门现代的多范式编程语言(面向对象+函数式编程)，运行于Java平台（JVM，Java 虚拟机。后续会有自己的虚拟机），并兼容现有的Java程序。JAVA8通过Lambda表达式开始支持函数式编程，功能不够强大。Scala具有如下特性：1：语法简介优雅，对开发人员来说，能用极其少量精简的代码完成其它语言多行完成的功能，开发效率高，且易于理解；2：Scala兼容JAVA（Sca...

2019-10-28 21:35:01 102

原创 Sqoop应用

Sqoop 是Apache下一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传输，可以实现关系型数据库（例如： MySQL ,Oracle ,Postgres等）与Hadoop的HDFS之间数据互相导入、导出。概括起来：该层充当“搬运工”的角色，主要做两件事1：负责外部数据（多是关系型库数据）导入到分布式文件系统（HDFS）；...

2019-10-26 15:00:38 312

原创 Flume基础

Flume：是Cloudera提供的一个高可用的、高可靠的、分布式的海量日志收集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写道各种数据接收方(可定制)的能力。Flume有两个重要版本：Flume 0.9X版本的统称Flume-og，Flume 1.X版本的统称Flume-ng。由于Flume-ng经过重大重构，...

2019-10-17 20:44:40 150

原创 Hbase集群的安装和配置（高可用验证）

1.解压下载的Hbase安装包cd /opt/mysofttar -zxvf hbase-1.2.3-bin.tar.gzmv hbase-1.2.3 hbase2.配置环境变量vi /etc/profile :export HBASE_HOME=/opt/mysoft/hbaseexport HBASE_OPTS=-XX:+UseConcMarkSweepGCexport HB...

2019-10-14 21:16:53 924

原创 Hbase

Hbase(Hadoop database:Hbase)概念：是一个基于Hadoop的分布式，高可靠、高性能、面向列(含义：一个列簇对应一个文件：HFile)，可伸缩的数据库。Hbase不同于一般的关系数据库，他是一个适合于**非结构化或者半结构化数据存储(每天记录数据字段都不确定)**的数据库。另一个不同的是Hbase基于列的而不是基于行的模式。特点：1.基于Hadoop HDFS进行分...

2019-10-14 20:21:26 315

原创 Pig

Pig概念：Apache Pig是建立在Hadoop之上的一个数据管理工具（类似Hive），用于分析较大的数据集，Pig通常与Hadoop 一起使用；我们可以使用Pig在Hadoop中执行所有的数据处理操作。用户只需要借助 Pig Latin 的高级语言，编写对应的业务逻辑即可提交执行作业到Yarn上执行。Apache Pig 为不熟悉MR编程的人降低管理大数据集的门槛。也为大数据高效管理提...

2019-10-11 22:06:18 446

原创 Hive2.X 整合执行引擎Tez （DAG）

Hive2.X 整合执行引擎Tez （DAG）解压压缩包：tar -zxvf apache-tez-0.9.2-bin.tar.gz重命名：mv apache-tez-0.9.2-bin tez替换tez里的两个jar包如上图，将/opt/mysoft/hadoop/share/hadoop/mapreduce 里的覆盖掉tez/lib里的对应JAR包。配置环境变量：vi...

2019-10-11 21:31:51 1204

原创 Hive自定义函数

Hive自定义函数自定义函数的三种类型：UDF输入单行，输出单行(最为常用)类似Hive自带的部分函数，如substr例子：select substr(name,0,2) from order3;要求自定义类继承UDF，重写evaluate方法。UDTFuser define table-gen function，输入单行，输出多行，类似于 explode(array);UDAF...

2019-10-10 21:40:40 176

原创 Hive四种表的应用

Hive四种表的应用：1.内部表：Hive默认创建的表类型为内部表特点：当表定义被删除的时候（如：drop table stu）,表中的数据一并被删除(HDFS数据目录，源数据库表文件一并被删除)；使用场景：多用来存储一些非业务类型数据，如：各省及对应区号表，全球每个国家及对应代码表。而每天收集的业务数据尽量不要定义成内部表，这样即使表删除了，数据还在。创建内部表，并加载数据：c...

2019-10-09 21:40:12 446

原创基于shell命令行基本操作（DDL/DML）

安装并启动hive后1.查看当前Hive中有哪些数据库hive> show databases; //hive初始化，会生成一个默认的default数据库；往往根据项目不同，会建立不同业务的hive数据库如果show databases 或者show tables；hive命令出现问题Failed with exception Java.io.IOException:java.la...

2019-10-08 22:07:34 418

原创 Hive基础

hive:基于Hadoop的一个数据仓库管理工具，可以将结构化的数据文件映射为数据库表，提供sql查询统计功能(Hive定义了简单的类SQL查询语言，称为HQL)，其底层实现是：将SQL语句转换为MapRecuce程序任务执行对应的查询功能(Yarn集群启动)。实现同样的查询统计功能，Hive只要简单的SQL语句(通过Hive框架转换为对应的MapReduce程序，并对其优化，最后提交Hadoo...

2019-10-08 21:50:59 160

原创 HDFS动态扩容

HDFS动态扩容待扩容机器前置工作1.创建一个新的虚拟机修改计算机名称vi /etc/sysconfig/network设置IPvi /etc/sysconfig/network-scripts/ifcfg-eth0配置待扩容机器上(qiku5)的域名映射:vi /etc/hosts彻底关闭防火墙chkconfig iptables off重启网络服务ser...

2019-09-21 15:43:48 608

原创安装和配置hadoop2.7.4集群

安装和配置Hadoop2.7.4集群首先将Windows上的两个压缩包上传到虚拟机的/opt/mysoft/ 下第一步：解压：tar -zxvf hadoop-2.7.4.tar.gz重命名:mv hadoop-2.7.4 hadoop第二步： cd /opt/mysoft/hadoop mkdir logs mkdir tmp mkdir -p tmp...

2019-09-18 21:28:32 957

原创大数据环境搭建

首先在VMware创建至少3台linux虚拟机，4台最好！1.设置本地网络环境和虚拟网络环境VMware中左上角点击编辑中点击虚拟网络编辑器，将虚拟网络编辑器下面的子网IP地址设为如图![虚拟网络编辑器然后点击NAT设置，将网关设置为192.168.110.1。创建虚拟机后，会生成两个虚拟网卡(取VMnet8),设置本机网络环境，网段一定要和的虚拟网络编辑器中设置的网段相同。2....

2019-09-17 21:50:37 128

原创大数据

什么是大数据：通过收集本行业或者多个行业(智慧城市大数据平台需要收集交通行业，银行，工商，医院等相关多行业信息)海量数据，借助分布式储存系统及各类计算框架，提炼或者分析有价值的东西，提供满足企业需要的解决方案。简单总结为：根据企业需求场景(离线计算或者流计算)，利用大数据生态对应技术解决企业对大数据(已有的或者不断生成)分析需求的方案。大数据特点：1.数据产生快，数据量大；(前所未有，尤其...

2019-09-17 09:04:01 227

原创 SpringBoot框架

1.框架：框架是为了简化项目开发而形成的通用的开发架构2.MVC开发模型对应的开发框架：SSH：Struts2 + Spring + HibernateSSM: Spring + SpringMVC + MyBatis3.SpringBoot是一个容器框架，具有很强的包容性MVC开发模型：1.M：Model数据模型层数据模型框：Hibernate框架ORM对象关系映射模型，数据持久...

2019-09-15 21:52:15 275

原创 jsp

1.动态的网页交互技术1>页面元素a>html:主要内容的展示b>css:主要用于样式的修饰c>js:主要用于动态操作2>脚本元素a>指令元素page 引入需要使用的jar包作用域：只在本页面有效taglib：引入第三方插件jar包引入JSTL包include:引入公共的页面b>声明元素语法格式：<%! //声明元素：声...

2019-08-31 16:15:38 77

原创 Servlet

tomcat:1.tomcat是一个免费的开放源代码的web服务器。servlet容器：servlet运行于tomcat web服务器中2.tomcat的下载安装配置Tomcat服务器的下载地址：https://tomcat.apache.org安装：直接解压压缩文件tomcat在eclipse中的配置：window ->preferences -> server -&g...

2019-08-31 14:47:54 99

原创 Java API 操作redis数据库

1.导入6个包2.package redis;import java.util.HashMap;import java.util.List;import java.util.Map;import java.util.Set;import redis.clients.jedis.Jedis;public class RedisDemo { public static void ...

2019-08-13 20:05:00 316

原创 redis主从配置及安全配置

主从配置：一个master可以拥有多个slave，一个slave又可以拥有多个slave，如此下去，就形成了强大的多级服务器集群架构。1.找到redis的安装目录2.复制一个或多个redis的安装目录，可以放在其他的盘符，也可以放在同一个盘符，原安装目录作为主主服务器，复制的文件夹为从服务器。3.可以修改第二个redis目录中redis.conf的文件第41行：修改端口号为63806...

2019-08-13 19:43:40 204

原创 redis数据库

redis帮助文档：http://redisdoc.com/set/index.htmlmysql和oracle是关系型数据库，redis非关系数据库，nosql数据库。nosql数据库：redis，mongodb…内存数据库：速度快，分布式redis：key-value进行操作的数据库，类似于mapmysql端口号：3306oracle端口号：1521SQLserver端口号：14...

2019-08-12 21:22:00 98

原创 orcl数据库

登录时指定数据库：sqlplus system/orcl@orcl as sysdba;查看当前数据库名：select instance_name from v$instance;show parameter instance_name;添加用户：创建用户时，需要具有管理员权限。sys system语法：create user 用户名 identified by 用户密码修改密码：...

2019-08-10 18:25:23 364

原创获取数组里的最大值以及最小值

package tast1;//获取数组中的最大值以及最小值public class Task3 { public static void main(String[] args) { // int[] arr = { 43, 23, 12, 58, 79, 32, 17 }; int max = arr[0]; for (int i = 0; i < arr.leng...

2019-08-04 15:52:46 1181

原创注解和XML

注解：在java程序中，主要提供解释说明的作用。接口的定义：public interface test{}注解的定义方式：public @interface test{}1.定义的关键字不同接口：interface 注解：@interface2.定义方法的语法不同public void test();String className();3.相似之处：都可以定义常量都...

2019-08-01 14:07:00 102

原创数据库

数据库：市场上比较流行的数据库管理系统软件：关系型数据库：1.mysql：免费，开源，比较小，容易上手，入门2.Oracle ：甲骨文商用数据库管理系统3.DB2：IMB公司的数据库管理系统4.sqlserver 2008：微软的数据库5.达梦made in china 中国自己研发，独立知识产权的数据库6.progres非关系数据库nosql：sqlLite ，re...

2019-08-01 11:32:58 209

原创反射机制

反射：反射机制是使程序具有动态特性的非常关键的一种机制需求1：通过类名或者对象获取类内部信息需求2：根据指定的类名，类字段名和所对应的数据，得到该类的实例需求3：根据指定的任意(Object)对象，获取其属性值或者调用其方法反射用到的包：java.lang.reflect反射核心类：java.lang.Class1>使用Class类可以访问任何给定数据类型的信息2>使用...

2019-07-29 21:58:51 99

原创网络编程

计算机网络：把不同区域的计算机以网络形式连接起来，形成能够互相通信的计算机群。主要作用：1.资源共享2.信息的传输与集中处理3.均衡负荷，分布处理网络分类：1>局域网2>校园网3>城域网4>广域网(互联网)IP地址：IPV4：网络中每台计算机的唯一标识 0-255IPV6：16进制的表示方式域名：www.baidu.com //com:公司，国际...

2019-07-29 21:33:55 100

原创多线程

多线程：1.软件2.程序：程序是代码的集合3.进程：安装后的软件在操作系统中运行的表现一个运行中的软件，就是一个活动进程概念：进程是一个具有独立功能的程序关于某个数据集合的一次运行活动进程的组成:进程由程序、数据和进程控制块三部分组成4.线程：进程的子单位，进程是由线程组成的线程(Thread)是操作系统进程中能独立执行的实体，是处理器调度和分派的基本单位线程是进程的组成...

2019-07-29 15:09:24 90

原创 IO流处理2

字符流：字符编码：常见的字符编码集：ASCLL：美国信息互换代码ISO-8859-1:欧洲国家使用的字符编码，单字节字符编码Big5：台湾主要使用的字符编码集繁体字GBK：中国汉字的字符编码集GB2312：对GBK字符编码集的扩展SHIFT-J：日文字符编码集Unicode：通用字符编码集又称国际码UTF-8：软件开发通用的字符编码集字符流：Reader：抽象类Inpu...

2019-07-24 22:20:59 87

原创 IO流处理1

IO流处理：文件的读写操作处理。 in/out文件：文件是一些具有永久存储及特定顺序的字节组成的一个有序的、具有名称的集合。流的分类：按照方向分类：输入流和输出流输入流：是从文件或磁盘等存储介质读取到程序中输出流：从程序输出到存储介质或显示设备上按照读写单位来分类：字节流和字符流字节流：每次读写一个字节，以字节为单位进行流处理操作字符流：每次读写一个字符，以字符为单位进行读写处理...

2019-07-24 21:40:19 114

原创面向对象回顾以及继承

this 关键字：1.区分成员变量和同名局部变量2.构造里面可以调用其他的构造函数 this();访问修饰符：public ：公共的：无论内部或外部都能访问protected ：受保护的default ：默认的private ：私有的，只有在该类的内容才能访问封装：主要是针对成员变量的封装封装的实现：通过访问修饰符的限制实现。把成员变量设置为私有的，并且为成员变量提...

2019-07-22 22:22:48 63

原创面向对象

this关键字：1.区分成员变量和同名局部变量2.构造里面可以调用其他的构造函数this（）；访问修饰符： public：公共的：无论内部或外部都能访问； protected：受保护的； default：默认的； private：私有的，只有在该类的内容才能访问。封装：主要是针对成...

2019-07-22 22:19:16 62

原创修饰符

stat：用static修饰的成员称为类成员。成员变量：用static关键字修饰的成员变量称为类变量。语法： [访问修饰符] static 类型变量名; public static int id = 100;静态变量的调用方式：类的内部可以直接使用；类名.变量名：来调用静态变量（类变量）成员方法：用static关键字修饰的成员方法称为类方法。静态...

2019-07-22 22:15:12 110

原创接口

接口：接口是开发过程中的一种规范。面向对象的开发–>面向接口的开发接口定义的语法： public interface 接口名 [extends 接口] { 1.定义变量 2.可以定义静态方法 3.可以定义默认方法 4.可以定义抽象方法 }继承：Java类是单继承，接口可...

2019-07-22 22:06:47 82

原创控制语句

Java 控制语句分为顺序语句，选择语句，循环语句。选择语句：有选择的执行代码块，选择语句可以多层嵌套。–选择语句：if语句：特性：1.当条件为真时，语句块会执行，否则跳过不执行2.可以嵌套任意层以构成更复杂的判断选择结构注意：{}来限定选择执行的语句块的范围。–if-else语句：适配双分支语句，无论如何，必然会有一个分支执行。–if else if语句：如果分支大于两个，可以使用多...

2019-07-22 22:02:34 79

原创数据结构

数据结构：1.概念：数据结构分类：线性数据结果：数组，文件，线性表，栈…非线性数据结构：散列表…2.java中数据结构的架构：Collection接口：–List–ArrayList–LinkedList–Vector–Set–HashMap–TreeMao–HashTable3.java数据结构相关的类和接口：List接口：实现类：ArrayListLin...

2019-07-21 19:54:52 94

空空如也

空空如也