harveybd-CSDN博客

原创 hive 常用统计分析函数

前言： hive中提供了很多的的统计分析函数，实际中经常用来进行统计分析，如下笔者整理了常用的一些分析函数，并附以相关实例.博客参考连接：http://lxw1234.com/archives/2015/07/367.htm1.基础函数window 子句 rows betweenpreceding：往前...

2019-11-28 17:52:13 2151

原创 mysql 连接查询

数据准备学生表（字段：主键ID、学生编号、科目编号、学生姓名）create table if not exists `students_test` ( `id` int(11) not null auto_increment, `stuid` int(11) not null, `subid` int(11) default null, `stuname` varchar(...

2019-11-21 19:27:52 288

原创 hive join 查询

beeline 方式连接hive$ beeline -u jdbc:hive2://localhost:10000/test_db -n harvey -p数据准备customers 表0: jdbc:hive2://localhost:10000/test_db> create table if not exists `customers`(. . . . . . . . ...

2019-11-21 18:42:07 322

原创 hive 中 order by、sort by、distribute by 、cluster by 区别

1. select 语法Hive 中的 SELECT 基础语法和标准SQL语法基本一致，支持 WHERE、DISTINCT、GROUP BY、ORDER BY、HAVING、LIMIT、子查询等。语法如下：[WITH CommonTableExpression (, CommonTableExpression)*] (Note: Only available starting with ...

2019-11-21 18:09:00 490

原创 Python 操作 MySQL 之 PyMySQL

1.pymysql 介绍 Python 中连接 MySQL 服务器有两个库，分别为 PyMySQL 和 MySQLdb， PyMySQL 是在 Python 3.x 版本中用于连接 MySQL 服务器的一个库，MySQLdb 只支持...

2019-10-31 19:44:39 393

Spark RDD 检查点机制Spark 中对于数据的保存除了持久化操作之外，还提供了一种检查点的机制，类似于快照，就是将 DAG 中比较重要的中间数据做一个检查点将结果存储到一个高可用的地方(通常这个地方就是HDFS 里面。为什么要使用 checkpoint？例如在 Spark 计算里面计算流程 DAG 特别长,服务器需要将整个 DAG 计算完成得出结果。但是如果在这很长的计算流程中突然中...

2019-02-28 20:20:53 587

原创 6.Spark Core 应用解析之RDD持久化

1.概述Spark是分布式基于内存的数据处理引擎，它的一个基本功能是将RDD持久化到内存中。巧妙使用RDD持久化，甚至在某些场景下，可以将spark应用程序的性能提升10倍。对于迭代式算法和快速交互式应用来说，RDD持久化，是非常重要的。Spark中最重要的功能之一是操作时在内存中持久化(缓存)数据集。默认情况下当使用action 在RDD上时Spark会重新计算刷新RDD.但也可以通过持久化...

2019-02-27 22:49:06 304

原创 5.Spark Core 应用解析之RDD常用行动操作

        RDD 中的Action是数据执行部分，其通过执行count，reduce，collect等方法真正执行数据的计算部分1.reduce(func)通过func函数聚集RDD中的所有元素，这个功能必须是可交换且可并联的scala> val rdd1 = sc.parallelize(1 to ...

2019-02-27 18:56:41 385

原创 4.Spark Core 应用解析之RDD常用转换操作

        RDD中的所有转换都是延迟加载的，也就是说，它们并不会直接计算结果。相反的，它们只是记住这些应用到基础数据集（例如一个文件）上的转换动作。只有当发生一个要求返回结果给Driver的动作时，这些转换才会真正运行。这种设计让Spark更加有效率地运行1.map(func)返回一个新的RDD，该RDD由每...

2019-02-27 18:36:51 600

原创 3.Spark Core 应用解析之RDD概念及创建

1.RDD为什么会产生?&amp;amp;amp;amp;amp;nbsp;&amp;amp;amp;amp;amp;nbsp;&amp;amp;amp;amp;amp;nbsp;&amp;amp;amp;amp;amp;nbsp;&amp;amp;amp;amp;amp;nbsp;&amp;amp;amp;amp;amp;nbsp;&amp;amp;amp;amp;amp;nbsp;&

2019-02-20 20:39:48 311

原创 2.Spark 基础解析之执行Spark程序

1 执行第一个Spark程序该算法是利用蒙特·卡罗算法求PI/home/hadoop/software/spark/bin/spark-submit \--class org.apache.spark.examples.SparkPi \--master spark://harvey:7077 \--executor-memory 1G \--total-executor-cores ...

2019-02-20 19:18:55 844

原创 1.Spark 基础解析之概述及集群安装

1.Spark 概述1.1什么是Spark?官网：http://spark.apache.org&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;Spark是一种快速、通用、可扩展的大数据分析引擎，2014年2月成为Apache顶级项目，由Scala语言编写&a

2019-02-20 18:21:07 374

原创 Scala 编程—第七节：类和对象(二)

前言：        类和对象第二节，主要介绍：单例对象、伴生对象与伴生类、apply方法、抽象类1.单例对象Java语言中，如果想直接使用类名点的方式调用方法或属性，直接用static修饰即可。但Scala语言不支持静态成员，而提供了object对象，这个object对象类似于Java的静态类，object对象的成员、方...

2018-10-16 11:05:51 313

原创 Scala 编程—第六节：类和对象(一)

前言： &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;类和对象的相关知识比较多，笔者分为两篇来介绍，本篇即第一篇主要介绍类定义及对象创建、getter/setter、类主构造器、辅助构造器。1.类定义及创建对象1.1 类定义类// 采用关键字class定义class Person { // 类成员必须初始化，否则会报错 // 这

2018-09-07 17:35:24 448

原创 Scala 编程

前言： &amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;近期在总结Scala编程的相关知识，弄一个Scala编程专题，俗话说：好记心不如烂笔头，时间长容易忘，写成了博客，方便自己以后查看。如果你是个小白，通过对scala的学习，达到使用scala语言

2018-08-31 10:43:08 242

原创 Scala 编程—第五节：函数与闭包

1.函数定义如下，定义一个函数，用来比较两数大小得出最大值def max(x: Int, y: Int): Int = { if (x&gt; y) x else y}以上述定义的函数为例，看下scala函数的基本构成 max 函数可以简写为如下def max(x: Int, y: Int) = if (x &gt; y) x else y函数调用...

2018-08-30 18:48:37 335

原创 Scala 编程—第四节：集合操作(List、Set、Map、Tuple、Option)

1.列表1.1 List定义及特点// 字符串类型Listscala&amp;amp;gt; val language = List(&amp;quot;java&amp;quot;, &amp;quot;scala&amp;quot;, &amp;quot;python&amp;quot;)language: List[String] = List(java, scala, py

2018-08-30 18:24:11 659

原创 Scala 编程—第三节：数组 Array

Scala 语言中提供的数组是用来存储固定大小的同类型元素，数组对于每一门编辑应语言来说都是重要的数据结构之一。数组的第一个元素索引为0，最后一个元素的索引为元素总数减1。1.定长数组// 定义一个长度为10的数值数组scala&amp;amp;amp;amp;amp;amp;gt; val numArr = new Array[Int](10)numArr: Array[Int] = Array(0, 0, 0, 0, 0...

2018-08-30 17:56:52 606

原创 Scala 编程—第二节：数据类型及操作、流程控制

1.Scala 数据类型Scala 与 Java有着相同的数据类型，下表列出了 Scala 支持的数据类型数据类型描述 Byte 8位有符号补码整数。数值区间为 -128 到 127 Short 16位有符号补码整数。数值区间为 -32768 到 32767 Int 32位有符号补码整数。数值区间为 -2147483648 到 21...

2018-08-30 17:46:17 256

原创 RocketMQ 核心概念部署结构数据结构集群部署模式

1.RocketMQ 简介是一个队列模型的消息中间件，具有高性能、高可靠、高实时、分布式特点。Producer、Consumer、队列都可以分布式。Producer 向一些队列轮流发送消息，队列集合称为 Topic，Consumer 如果做广播消费，则一个 consumer实例消费这个 Topic 对应的所有队列，如果做集群消费，则多个 Consumer实例平均消费这个 topic...

2018-08-16 20:04:57 599

原创 Azkaban 使用问题记录

Cannot request memory (Xms 0 kb, Xmx 0 kb) from system for job hello, sleep for 60 secs and retry, attempt 1 of 720 错误原因：azkaban默认需要3G的内存，剩余内存不足则会报异常解决方法：在azkaban-exec/servcer/plugin/azkaban-...

2018-06-06 11:10:27 4656

原创 Azkaban 使用

Azkaban 安装请参考博客： https://blog.csdn.net/hg_harvey/article/details/80342396登录Azkaban，首页有四个菜单 projects：最重要的部分，创建一个工程，所有flows将在工程中运行。 Scheduling:显示定时任务 Executing:显示当前运行的任务 History:显示历史运行任务主要介绍P...

2018-05-31 14:06:57 3911

原创 Azkaban 简介及安装(3.x)

1.Azkaban 简介官网：https://azkaban.github.io/&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;Azkaban 一个批量工作流任务调度器，使用Java语言开发。用于在一个工作流内以一个特定的顺序运行一组工作和流

2018-05-16 20:38:26 9298 3

原创 Java 使用Pipeline对Redis批量读写

Redis是一种基于客户端-服务端模型以及请求/响应协议的TCP服务。这意味着通常情况下一个请求会遵循以下步骤：客户端向服务端发送一个查询请求，并监听Socket返回，通常是以阻塞模式，等待服务端响应。服务端处理命令，并将结果返回给客户端。因此，例如下面是4个命令序列执行情况：Client: INCR XServer: 1Client: INCR XServer: 2...

2018-04-25 16:56:54 11227

原创 CentOS7 安装 Python3

CentOS7 默认已经安装了Python2，笔者CentOS版本如下[root@harvey ~]# cat /etc/redhat-releaseCentOS Linux release 7.4.1708 (Core) 默认已安装的Python版本如下[root@harvey ~]# python --versionPython 2.7.5CentOS7默认安装的P...

2018-04-10 22:56:48 811

原创 HBase 伪分布式搭建（使用外部ZK）

环境说明： (1).JDK 1.8 (2).ZooKeeper 3.4.9 (3).Hadoop 3 (4).HBase 1.3.1以上一到三，笔者已经完成，HBase伪分布式安装配置如下配置环境变量# HBase Environment Variableexport HBASE_HOME=/home/hadoop/software/hbaseexport PATH...

2018-03-17 18:43:23 3740 1

原创 MapReduce 工作机制

       MapReduce是一种分布式计算模型，由Google 2004年提出，主要用于搜索领域，解决海量数据的计算问题.       MR由两个阶段组成：Map和Reduce，用户只需要实现map()和reduce()两个函数，即可实现分布式计算，

2018-03-08 16:23:56 2045

原创 CentOS7 安装IDEA及创建快捷方式

1.安装IDEA官网下载解压安装官网下载idea安装包：https://www.jetbrains.com/idea/ 然后上传到CentOS中的某个目录下，输入命令解压tar -xzvf 文件名.tar.gz进入idea的安装目录执行脚本文件./bin/idea.sh安装过程中右键打开终端在/etc/hosts文件中添加如下内容，保存退出vi /etc/

2018-02-01 14:47:36 8077

原创 Flume 整合 Kafka 使用

实现需求：整合 Flume 和 Kafka 完成实时数据收集，即使用 Flume 中的 Kafka Sink 将 Flume 实时收集到的日志信息输出到 Kafka笔者使用的Flume版本为1.6，Kafka版本为0.11.0.0，Flume 中的Kafka Sink的使用参见Flume官方文档： http://flume.apache.org/releases/content/1.6.0/

2018-01-30 11:49:47 973

原创虚拟机Vmware 转移克隆卸载及移除Linux系统

1.虚拟机 VMware CentOS 转移在一台电脑的虚拟机中成功安装CentOS系统后，如果想在别的电脑的虚拟机上运行，无需重新安装，通过如下步骤即可完成。(1).找到虚拟机的安装目录，复制所有的.vmx和.vmdk文件vmx文件：虚拟机系统的配置文件 vmdk文件：虚拟磁盘文件vmx为隐藏文件，通过如下方法即可查看到组织->文件夹和搜索选项 (2).点击打开虚拟机

2018-01-30 10:38:31 5573

原创将Log4j日志实时写入Kafka

1.创建maven项目，引入依赖dependency> groupId>org.apache.kafkagroupId> artifactId>kafka_2.11artifactId> version>0.11.0.0version>dependency>dependency> groupId>log4jgroupId> artifactId

2018-01-29 18:42:38 3675 1

原创 Kafka 生产者消费者 Java API 编程

我们先创建一个topic，然后启动生产者和消费者，进行消息通信，然后在使用Kafka API编程的方式实现，笔者使用的ZK和Kafka都是单节点，你也可以使用集群方式。启动ZookeeperzkServer.sh start启动Kafkakafka-server-start.sh $KAFKA_HOME/config/server.properties创建topickafk

2018-01-29 18:33:46 1342

原创 Kafka 安装部署及使用(单节点/集群)

导读：本篇博客，笔者会介绍三种安装Kafka的方式，分别为：单节点单Broker部署、单节点多Broker部署、集群部署（多节点多Broker）。实际生产环境中使用的是第三种方式，以集群的方式来部署Kafka。 Kafka强依赖ZK，如果想要使用Kafka，就必须安装ZK，Kafka中的消费偏置信息、kafka集群、topic信息会被存储在ZK中。有人可能会说我在使用

2018-01-26 18:06:54 26083 9

原创 Kafka 概述核心组件及特性

1.Kafka 简介(1).Apache Kafka是一个开源消息系统，由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。(2). Kafka最初是由LinkedIn开发，并于2011年初开源。2012年10月从Apache Incubator毕业。该项目的目标是为处理实时数据提供一个统一、高通量、低等待的平台。(3). Kafka是一个分布式消息队列：生产者、消

2018-01-26 16:14:12 1578

原创 Linux Crontab 定时执行shell脚本

前面的博客中，笔者说了，如何在shell脚本中执行maven生成的可执行jar，博客地址：maven 生成可执行jar并使用shell脚本运行下面，笔者说下，如何使用Linux 中的Crontab来定时执行shell脚本，也是工作中实际遇到需要定时执行shell脚本，在这做个记录，以后可以方便查看，如果你也遇到类似的，可以做个参考。打开上面的博客链接，可以看到有个HelloWorld.ja

2018-01-24 13:59:53 1140

原创 maven 生成可执行jar并使用shell脚本运行

创建maven项目，利用maven项目生成可执行jar，需要使用maven-assembly-plugin插件来完成，pom.xml文件配置如下project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" x

2018-01-16 17:44:26 3981

转载 Java汉字转汉语拼音工具类

Java汉字转成汉语拼音工具类,需要用到pinyin4j.jar包，笔者使用的是Maven项目，在pom.xml中引入依赖dependency> groupId>com.belerwebgroupId> artifactId>pinyin4jartifactId> version>2.5.0version>dependency>工具类：package

2018-01-11 16:36:27 3446 2

原创 Flume 使用exec及avro方式实现数据收集

导读：本篇博客笔者主要介绍如何使用exec实现数据收集到HDFS、使用avro方式实现数据收集及整合exec和avro实现数据收集。Flume 官方文档：http://flume.apache.org/FlumeUserGuide.html1.使用exec实现数据收集到HDFS需求：监控一个文件，将文件中新增的内容收集到HDFS Agent选型：exec source + memo

2017-10-26 20:26:54 4920

原创使用Log4j将日志实时写入Flume

需求：使用Flume实时收集WebServer或者其它服务器上通过log4j产生的日志Agent选型：Log4jAppender的使用创建一个maven项目，pom.xml文件中引入依赖dependency> groupId>log4jgroupId> artifactId>log4jartifactId> version>1.2.16version>depe

2017-10-26 19:11:32 3280 3

原创 Flume 架构及部署

1.Flume概述Flume是由 Cloudera 提供的一个分布式、高可靠、高可用的服务，用于分布式的海量日志的高效收集、聚合、移动系统。简单来说，Flume 就是一个针对日志数据进行采集和汇总的一个工具（把日志从A地方移动到B地方）Flume 官网：http://flume.apache.org/ Flume 官方文档：http://flume.apache.org/FlumeUse

2017-10-26 18:36:18 797

hadoop 2.6.x 2.7.x 2.8.x 3.0 winutils

python2.7.8_win64绘图安装包

空空如也