IT影风-CSDN博客

原创 Java当中使用TreeMap进行WordCount并且排序

注：JDK要使用1.8以上的package com.lyl.it;import static com.lyl.it.Common.getValueComparator;import java.util.ArrayList;import java.util.Collections;import java.util.List;import java.util.Map;import...

2018-08-30 11:37:25 375

原创 Spark的RDD操作和描述_2

本次博客分发三大部分一，Spark的RDD用JAVA的实现二，Spark的RDD的说明三，Spark的Scala的实现1， Cartesian算子1.1，Java代码实现package com.lyl.it;import java.util.Arrays;import java.util.List;import org.apache.spark.SparkCon...

2018-08-02 15:55:23 397

转载 Flume的描述和使用

一，Flume的描述1、Flume的概念Flume是分布式的日志收集系统，它将各个服务器中的数据收集起来并送到指定的地方去，比如说送到HDFS，Kafka,MySql;简单来说flume就是收集日志的。 2、Event的概念 Flume中event的相关概念：Flume的核心是把数据从数据源(source)收集过来，在将收集到的数据送到指定的目的地(sink)。为了保证输送...

2018-07-26 09:55:28 1122

Spark共享变量的描述（http://spark.apache.org/docs/1.6.3/programming-guide.html#shared-variables） Normally, when a function passed to a Spark operation (such as map or reduce) is executed on a remote cluste...

2018-07-25 10:19:10 3015

原创 Strom的描述和安装

一，Strom的特点1，架构：1.1，Nimbus1.2，Supervisor1.3，Worker2.2，编程模型：2.1，DAG2.2，Spout2.3，Bolt3，数据传输：3.1，Zmq Zmq也是开源的消息传递的框架，虽然叫mq，但它并不是一个message queue，而是一个封装的比较好的3.2，Netty netty是NIO...

2018-07-23 23:11:01 847

原创 Kafka的描述和安装

一，Kafka的特性1，消息列队的特点2，生产者消费者模式3，先进先出（FIFO）顺序保证4，可靠性保证 4.1,自己不丢数据 4.2,消费者不丢数据：“至少一次，严格一次”5，至少一次就是可能会有两次，会重6，严格一次机制就会负责一点二，Kafka的架构1，producer：消息生存者2，consumer：消息消费者3，broker：...

2018-07-23 12:10:57 510

原创 Spark的RDD操作和描述_1

本次博客分发三大部分一，Spark的RDD用JAVA的实现二，Spark的RDD的说明三，Spark的Scala的实现1，Map算子1.1 Java代码实现package com.lyl.it;import java.util.Arrays;import java.util.List;import org.apache.spark.SparkConf;impo...

2018-07-19 11:14:50 438

原创 Spark DAG优化的解读

一，Spark专业术语的解析1，Application基于Spark的用户程序，包含了driver程序和集群上的executor2，Driver Program运行main函数并且新建SparkContext的程序3，Cluster Manager在集群上获取资源的外部服务(例如standalone,Mesos,Yarn)4，Worker Node是集群中任何可以运行用代码的节点5...

2018-07-15 16:15:08 2126

原创 Spark RDD容错率描述

1，Spark RDD如果其中的RDD计算错误，重算它会找与之前的RDD2，Spark RDD如果RDD做了缓存策略，计算错误的RDD重算就会从缓存里面找3，Spark RDD如果Lineage过长对RDD做doCheckpoint()，计算错误的RDD重算就会从磁盘里面找到...

2018-07-14 16:44:53 472

原创 Spark缓存策略的优化

一，Spark缓存优化的方案class StorageLevel private( private var _useDisk:Boolean,//缓存磁盘 private var _useMemory:Boolean,//缓存内存 private var _useOffHead:Boolean,//缓存远离堆内存 private var _deserialized:Bool...

2018-07-14 09:12:22 510

原创 Spark运行时程序调度

一，Spark运行时程序调度 1，Spark应用程序会在一个物理节点上有驱动程序（Driver） 2，驱动程序（Driver）会分发每个tasks到Worker节点 3，Worker节点就会返回result到Dirver节点二，Spark程序运行流程 1，分布式文件系统（File system）--加载数据集（RDD） 2，transform...

2018-07-13 22:41:52 223

原创 Spark RDD的概念

Resilient Distributed Dataset ：弹性分布式数据集五大特性：1，A list of partitions 是由一系列一片连续的数据组成的；一个partitions只能是在一个节点上；一个节点可以有多个partitions；每个partitions的数据是不一样的；2，A function for computing each split 一般情...

2018-07-11 21:59:51 593

原创 Spark并不都是基于内存计算

大多数的人会认为Spark都是基于内存的计算的，但是基于如下两个情况，Spark会落地于磁盘1，Spark避免不了shuffle2，如果数据过大（比服务器的内存还大）也会落地于磁盘...

2018-07-11 21:06:48 2615

原创 Hadoop角色的作用

NameNode（NN）作用：主要是接受客户端的读写服务但同时也保存metadate信息。 NameNode保存metadate信息包括 1，文件owership和permissions 2，文件包含哪些块 3，Block保存在哪个DataNod...

2018-07-10 20:27:31 817

原创如何编写高效的SQL

1，在select子句中只指定必须的列，不要滥用*2，避免在索引列上用函数或表达式避免在索引列上用函数或表达式3，避免使用前置通配符4，若可以用union all，就避免用union若可以用union all，就避免用union5，避免对索引列用not,<>,!=6，尽量用where代替having（需要过滤分组结果时，尽量用Where而非having子句，但where子句中不能使用分...

2018-07-09 13:02:15 248

原创 MapReduce计算框架

下面是MapReduce的流程架构图：下面是MapReduce简单的word count的流程下面是MapReduce简单的word count的代码1，主类import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;im...

2018-07-09 11:26:13 280

原创 Spark on Yarn和MapReduce on Yarn区别

Apache Spark的高性能一定程度上取决于它采用的异步并发模型（这里指server/driver端采用的模型），这与Hadoop 2.X（包括YARN和MapReduce）是一致的。Hadoop2.X自己实现了类似Actor的异步并发模型，实现方式是epoll+状态机，而Apache Spark则直接采用了开源软件Akka，该软件实现了Actor模型，性能非常高。尽管二者在server端...

2018-07-09 10:04:05 911

原创 Hadoop2.X中的描述

一，Hadoop 2.x产生背景1，Hadoop 1.0中HDFS和MapReduce在高可用、扩展性等方面存在问题2，HDFS存在的问题 NameNode单点故障，难以应用于在线场景 NameNode压力过大，且内存受限，影响系统扩展性3，MapReduce存在的问题 JobTracker单点故障 JobTracker访问压力大，影响系统扩展性难以支持除...

2018-07-08 10:03:57 325

原创 HDFS读写流程

2018-07-07 22:52:55 134

原创 Spark的安装和测试

部署是环境为3台服务器，里面安装了相关的hadoop集群，安装的spark1.6.3总共分为如下安装方式1，单机模式测试安装2，Standalone集群模式3，Standalone集群HA模式4，Yarn集群模式一，单机模式测试安装1，解压安装包[root@hadoop01 bigdata]# pwd/home/tools/bigdata[root@h...

2018-07-07 18:21:08 4471

原创 Liunx保持源数据5天的定时任务

例如：对/home/tuomingftp/data/alarm/目录下的tm_alarm_开头的数据进行的5天的保存1，创建shell脚本[tuomingftp@hadoop02 sh]$ vi auto_del_day5.sh [tuomingftp@hadoop02 sh]$ cat auto_del_day5.sh find /home/tuomingftp/data/alarm -mt...

2018-07-05 21:47:09 196

原创 HDFS中的一些缺点和优点

HDFS优点：一，高容错性1，数据自动保存多个副本2，副本丢失后，自动恢复二，适合批处理1，移动计算而非数据2，数据位置暴露给计算框架三，适合大数据处理1，GB，TB，甚至PB级数据2，百万规模以上的文件数量3，10K+节点四，可构建在廉价机器上1，通过多副本提高可靠性2，提供了容错和恢复机制HDFS缺点：一，低延迟数据访问1，比如毫秒级2，低延迟与高吞吐率二，小文件存取1，占用NameNode大...

2018-07-03 11:20:17 8134

原创 Sqoop的安装和基本应用

本次大数据环境有三个节点，所扮演的角色如下：hadoop01所扮演的角色如下：[root@hadoop01 ~]# jps18186 DataNode18606 DFSZKFailoverController5780 Jps17905 QuorumPeerMain18708 ResourceManager18068 NameNode18400 JournalNode192...

2018-07-03 08:30:54 190

转载 Hbase shell的基本操作

HBase Shell一些基本操作命令的说明：base shell命令描述 alter修改列族（column family）模式count统计表中行的数量create创建表describe显示表相关的详细信息delete删除指定对象的值（可以为表，行，列对应的值，另外也可以指定时间戳的值）deleteall删除指定行的所有元素值disable使表无效drop删除表enable使表有效exist...

2018-07-02 17:25:33 2462

原创 Hive中关于表join....on....的问题

Hive中关于表join....on....的问题1，判断每张表关联的字段是否唯一或者是多个字段组合关联是否是唯一2，判断每张表关联的字段是否有空值和null 帅选字段为空值的的操作关联的字段 index is not null 关联的字段 index!='' 关联的字段 index!='null' 关联的字段 index!='NULL'如果字段join...on...用不好...

2018-07-02 10:41:59 1376

原创大数据Hadoop+Hive+Hbase的部署

1.基础环境的准备1.1 准确4台服务器，尽量不要安装中文环境。1.2 服务器的静态的IP的设置1.3 系统安装的centos6.52.基础环境的部署2.1 主机名映射vi /etc/hosts192.168.100.11 node1192.168.100.12 node2192.168.100.13 node3192.168.100.14 node42.2 关闭防火墙 iptables...

2018-06-29 12:21:16 2247 1

原创 Hbase中Rowkey设计对入库效率的影响

Rowkey是Hbase每一行记录的唯一标识，在设计Rowkey时，不仅要考虑业务需求，也需要考虑Hbase本身的特性。如果Rowkey设计不合理，不仅不能充分发挥Hbase集群并行处理的优势，还会造成数据倾斜、Region热点等影响读写效率的问题。 Rowkey设计原则Rowkey设计一般遵循以下三个原则：1、唯一性原则Rowkey在设计时必须保持唯一性，如果两条记录Rowkey相同，H...

2018-06-29 11:03:47 2090 3

原创 Linux服务状态的基本查询

1，linux查看基于redhat服务器的系统版本 cat /etc/redhat-release 2，linux查看服务器的查看硬盘和分区分布[root@hadoop01 ~]# lsblkNAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINTsda 8:0 0 ...

2018-06-23 00:24:04 2047

原创基于Centos7.2的CDH5.7.2的部署

1 本次是基于centos7.2的CDH5.7.2的部署，希望能给大家做个参考2 前置说明2.1 服务器的配置说明系统：建议使用centos7.x2.2 CDH架构平台 2.3 本次搭建软件和角色说明使用了3台服务器系统使用的是：centos7.2JDK使用的：jdk-7u79-linux-x64.tar.gzCDH： cloudera-ma...

2018-06-20 23:23:45 658 1

原创 Hive导入数据的3种方式

1，通过hadoop -put的方式hadoop fs -put student.txt /user/hive/warehouse/tuoming.db/temp_student/查看2，在hive中通过 load data local inpath 从本地服务器导入load data local inpath '/home/tuoming/test/student1.txt' into tabl...

2018-05-09 17:20:45 11818

原创 HDFS基本命令的使用

hdfs文件的相关操作主要使用hadoop fs、hadoop dfs、hdfs dfs 命令，以下对最常用的相关命令进行简要说明。hadoop fs -ls 显示当前目录结构，-ls -R 递归显示目录结构hadoop fs -mkdir 创建目录hadoop fs -rm 删除文件，-rm -R 递归删除目录和文件hadoop fs -put [localsrc] [dst] 从本...

2018-05-09 16:35:39 43028

原创 Hive分区表的分区操作

为了对表进行合理的管理以及提高查询效率，Hive可以将表组织成“分区”。一个分区实际上就是表下的一个目录，一个表可以在多个维度上进行分区，分区之间的关系就是目录树的关系。1、创建分区表通过PARTITIONED BY子句指定，分区的顺序决定了谁是父目录，谁是子目录。创建有一个分区的分区表：CREATE TABLE IF NOT EXISTS part_test( c1 ...

2018-05-09 11:11:34 53687 1

原创离线服务器linux的时间同步设置

如：本地有3台服务器需要时间同步分别是hadoop01，hadoop02,hadoop031，安装ntp服务器（每台到需要安装）yum install ntp -y2，在hadoop01做如下设置vi /etc/ntp.conf添加如下：server 127.127.1.0fudge 127.127.1.0 stratum 10systemctl restart ntpdchkconfig ntp...

2018-05-07 16:43:03 3035

原创 Centos7 的离线yum的部署

本次是基于CentOS-7-x86_64-DVD-1511.iso镜像来部署的首先把CentOS-7-x86_64-DVD-1511.iso上传到系统/home/tools例如我的服务器节点是hadoop01:cd /etc/yum.repos.d/ rm -rf *vi local.repo[centos]name=centosbaseurl=file:///opt...

2018-05-04 16:28:00 4027

原创基于centos7安装MariaDB

在官方下载指定的MariaDB相关的安装包本次使用版本的是10.2.14 需要的安装包如下：MariaDB-10.2.14-centos73-x86_64-client.rpmMariaDB-10.2.14-centos73-x86_64-common.rpmMariaDB-10.2.14-centos73-x86_64-compat.rpmMariaDB-10.2.14-centos73-x86...

2018-05-04 16:09:38 219

原创 CDH 5.7.2 的Hive tez0.71 安装测试报如下错误是为什么？

hive> set hive.execution.engine=tez;hive> use tuoming;OKTime taken: 1.751 secondshive> select count(*) from temp_student;Query ID = tuoming_20180504145050_268f9f88-3567-47ab-887c-2b0cc6cec18f...

2018-05-04 15:58:24 757 1

原创 Java实现向Alluxio集群写数据的代码样例

代码样例所需的Jar

2017-09-20 09:53:15 959 3

原创 Hadoop的伪分布式的部署

部署环境 :VMware-workstation-full-12 部署CentOS-6.5-x86_64-bin.iso 所需软件:hadoop-2.5.2.tar.gz,jdk-7u79-linux-x64.tar.gz注意：本人的主机名的IP是192,168.100.15 主机名是node5第一步：主机名映射和配置yum源和关闭防火墙主机名映射vi /etc

2017-01-16 16:06:29 419

原创 VMwareWorkstation自定义安装虚拟机的步骤

首先，打开VMwareWorkstation 点击创建虚拟机然后按照下面的图片进行安装(软件配置VMware-workstation-full-12.1.1-3770994，虚拟机：CentOS-6.5-x86_64-bin.iso)

2017-01-13 15:57:40 927

XFTP_XSHELL的客户端工具

SecureCRT工具

空空如也