huangyinzhao-CSDN博客

转载 hive的知识补充-----hive类型的显示转换cast

Hive的类型层次中，可以根据需要进行隐式的类型转换，例如TINYINT与INT相加，则会将TINYINT转化成INT然后INT做加法。隐式转换的规则大致可以归纳如下：任意数值类型都可以转换成更宽的数据类型（不会导致精度丢失）或者文本类型。所有的文本类型都可以隐式地转换成另一种文本类型。也可以被转换成DOUBLE或者DECIMAL，转换失败时抛出异常。BOOLEAN不能做任何的类型转换。时间戳和日...

2018-06-20 23:23:39 44516 1

转载 hive应用知识补充----时间处理函数

1.日期函数 to_date(string expr)返回类型：string描述：返回时间字符串日期部分to_date(expr) - Extracts the date part of the date or datetime expression expr实例：hive> select to_date('2014-09-16 15:50:08.119') from default.dua...

2018-06-20 23:17:25 864

转载 GitHub添加配置SSH图文详细简单教程

GitHub是一个面向开源及私有软件项目的托管平台，因为只支持git 作为唯一的版本库格式进行托管，故名GitHub。一般来说，clone项目有两种方式：Https和SSH，两者的区别这里不作介绍，本文主要讲解如何添加SSH。1.首先我们要生成一个新的SSH密钥，打开终端并输入下面命令并回车： ssh-key...

2018-06-20 21:32:27 967

转载 MyEclipse上传项目到github(详细)

提交项目本文参考：点击打开链接第一步：在github上注册一个账号：点击打开链接第二步：登陆github并创建一个仓库a.点击右上角‘’+‘’号，开始创建一个新的仓库b.给仓库起个名字，设置权限为公共的，点击创建c.获取仓库的URL第三步：在MyEclipse中右击项目------->Team------->Share Project第六步：选中Git 点击Next第七步：一定记得勾选...

2018-06-20 21:04:19 2482 1

转载 SQL的内连接和外连接

内连接外连接交叉连接 PDF下载地址：SQL-内连接与外连接.pdf连接查询在关系型数据库中经常用到，是多表联合查询的基础。主要包含：内连接，外连接，交叉连接。 SQL - 内连接与外连接内连接等值连接不等值连接自然连接外连接左连接右连接全连接交叉连接内连接内连接又分为等值连接，不等值连接，自然连接。连接查询中使用的比较运算符有:=, >, <, <>, >=, &...

2018-06-20 00:07:34 609

转载 linux应用之crontab定时任务的设置（补充说明）

linux应用之crontab定时任务的设置实现Linux定时任务有:cron、anacron、at等，这里主要介绍cron服务。名词解释： cron是服务名称，crond是后台进程，crontab则是定制好的计划任务表。软件包安装：要使用cron服务，先要安装vixie-cron软件包和crontabs软件包，两个软件包作用如下：vixie-cron软件包是cron的主程序。crontabs...

2018-06-19 22:42:40 188

转载 linux应用之crontab定时任务的设置（简单操作）

前述：linux应用之crontab定时任务的设置实现Linux定时任务有:cron、anacron、at等，这里主要介绍cron服务。名词解释： cron是服务名称，crond是后台进程，crontab则是定制好的计划任务表。1、 crontab命令概念 crontab命令用于设置周期性被执行的指令。该命令从标准输入设备读取指令，并将其存放于“crontab”文件中，以供之后读取和执行。 ...

2018-06-19 22:41:30 3515

转载 MySQL与Oracle的数据类型对照表

MySQL与Oracle两种数据库在工作中，都是用的比较多的数据库，由于MySQL与Oracle在数据类型上有部分差异，在我们迁移数据库时，会遇上一定的麻烦，下面介绍MySQL与Oracle数据库数据类型的对应关系。一、常见数据类型在MySQL与Oracle数据库中的表现形式说明mysqloracle变长字符串VARCHAR[0-65535]定义长度默认按字符长度计算，如果是GBK编码的汉字将占用...

2018-06-19 21:23:16 33918 5

转载 Hive支持原始数据类型和复杂类型

Hive支持原始数据类型和复杂类型，原始类型包括数值型，Boolean，字符串，时间戳。复杂类型包括array，map，struct，union。一，原始数据类型类型名称大小示例TINYINT1字节整数45YSMALLINT2字节整数12SINT4字节整数10BIGINT8字节整数244LFLOAT4字节单精度浮点数1.0DOUBLE8字节双精度浮点数1.0DECIMAL任意精度带符号小数DECI...

2018-06-19 21:19:10 3627

转载 SQL常用函数--待补充

--==================================--SQL 基础-->常用函数--==================================/*一、函数的分类 SQL函数一般分为两种单行函数基于单行的处理，一行产生一个结果多行函数基于多行的处理，对多行进行汇总，多行产生结果二、函数形式 function_name [(arg...

2018-06-13 10:09:37 1142

转载 kafka直连的代码和解释（还有几个类没有搞明白）

1 .KafkaUtils.createDirectStream[ 这四个泛型：k就是topic，v就是topic对应的内容从kafkKd （解码器）vd（解码器）] 这个方法是在各个分区没有偏移量时的用的。后面的参数是（ssc，kafkaparam，topics）是怎么回事，尤其是kafkaparam这个参数？？？答：我们直接KafkaUtils.createDirectStream...

2018-06-12 10:47:32 2812

原创大数据采集，运算，存储的一系列软件

2018-06-11 21:39:30 1065

原创 DataFrame 创建方式和操作（Spark 中的核心知识，用来计算结构化数据）

一、 scala版本1.1:用javabean类型的rdd创建 val sparkConf = new SparkConf().setMaster("local").setAppName("adaa") val sc = new SparkContext(sparkConf) var sqlcontext = new SQLCont...

2018-06-11 21:38:57 1126

转载 jdbc使用说明

JDBC 使用说明分类编程技术JDBC API 允许用户访问任何形式的表格数据，尤其是存储在关系数据库中的数据。执行流程：连接数据源，如：数据库。为数据库传递查询和更新指令。处理数据库响应并返回的结果。JDBC 架构分为双层架构和三层架构。双层作用：此架构中，Java Applet 或应用直接访问数据源。条件：要求 Driver 能与访问的数据库交互。机制：用户命令传给数据库或其他数据源，随之结...

2018-06-11 17:24:26 354

转载 JDBC之连接池

JDBC之连接池有这样的一种现象：用java代码操作数据库，需要数据库连接对象，一个用户至少要用到一个连接。现在假设有成千上百万个用户，就要创建十分巨大数量的连接对象，这会使数据库承受极大的压力，为了解决这种现象，一种技术出现了，这就是数据库连接池。什么是数据库连接池（原理）所谓数据库连接池，可以看作：在用户和数据库之间创建一个”池”，这个池中有若干个连接对象，当用户想要连接数据库，就要先...

2018-06-11 17:18:48 326

转载 spark调优之基础篇--算子调优和资源调优

前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算作业的执行速度更快、...

2018-06-10 15:42:24 941 1

转载 spark性能优化指南---数据倾斜和shuffle调优

前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的...

2018-06-10 11:52:15 303

转载 Hive和SQL的窗口函数

分析窗口函数应用场景：（1.2重要，其他的了解就行）（1）用于分区排序（2）动态Group By（3）Top N（4）累计计算（5）层次查询Hive分析窗口函数(一) SUM,AVG,MIN,MAXHive中提供了越来越多的分析函数，用于完成负责的统计分析。抽时间将所有的分析窗口函数理一遍，将陆续发布。今天先看几个基础的，SUM、AVG、MIN、MAX。用于实现分组内所有和连续累积的统计。数据准备...

2018-05-30 11:42:20 2833

转载 Scala中Json解析String，获得多级key

代码块导入包import scala.util.parsing.json._def main(args: Array[String]): Unit = { def regJson(json:Option[Any]) = json match { case Some(map: Map[String, Any]) => map// case None =>...

2018-05-29 21:47:09 3539

转载 SparkSQL中UDF和UDAF

UDF: User Defined Function，用户自定义的函数，函数的输入是一条具体的数据记录，实现上讲就是普通的Scala函数；UDAF：User Defined Aggregation Function，用户自定义的聚合函数，函数本身作用于数据集合，能够在聚合操作的基础上进行自定义操作；实质上讲，例如说UDF会被Spark SQL中的Catalyst封装成为Expression，最终会...

2018-05-29 19:43:00 418

转载 UUID 用法

UUID含义是通用唯一识别码 (Universally Unique Identifier)，这是一个软件建构的标准. UUID 的目的，是让分布式系统中的所有元素，都能有唯一的辨识资讯，而不需要透过中央控制端来做辨识资讯的指定。如此一来，每个人都可以建立不与其它人冲突的 UUID。在这样的情况下，就不需考虑数据库建立时的名称重复问题。目前最广泛应用的 UUID，即是微软的 Micro...

2018-05-29 13:55:03 34149 1

转载 Spark的RDD操作之Join大全！

一、RDD的Join操作有哪些？（一）Join：Join类似于SQL的inner join操作，返回结果是前面和后面集合中配对成功的，过滤掉关联不上的。源代码如下：[plain] view plain copy/** * Return an RDD containing all pairs of elements with matching keys in `this` and `other`...

2018-05-29 11:59:31 2298

原创 Spark RDD 整理

目录 Spark计算模型... 1 1. 课程目标... 1 1.1. 熟练使用RDD的算子完成计算... 1 1.2. 掌握RDD的原理... 1 2. 弹性分布式数据集RDD.. 1 2.1. RDD概述... 1 2.1.1. 什么是RDD.. 1 2.1.2. RDD的特性... 1...

2018-05-28 00:15:56 191

转载 sparkstreaming读取kafka的两种方式

spark streaming提供了两种获取方式，一种是同storm一样，实时读取缓存到内存中;另一种是定时批量读取。这两种方式分别是：Receiver-baseDirect一、Receiver-base：Spark官方最先提供了基于Receiver的Kafka数据消费模式。不过这种方式是先把数据从kafka中读取出来，然后缓存在内存，再定时处理。如果这时候集群退出，而偏移量又没处理好的话，数据...

2018-05-24 15:55:35 617

转载 DataFrame和DataSet和RDD

简介：官网： DataFrames are just Dataset of Rows in Scala and Java API. These operations are also referred as “untyped transformations” in contrast to “typed transformations” come with strongly typed Scala/...

2018-05-24 11:11:16 374

转载 CSV

CSV是一种通用的、相对简单的文件格式，被用户、商业和科学广泛应用。最广泛的应用是在程序之间转移表格数据，而这些程序本身是在不兼容的格式上进行操作的（往往是私有的和/或无规范的格式）。因为大量程序都支持某种CSV变体，至少是作为一种可选择的输入/输出格式。例如，一个用户可能需要交换信息，从一个以私有格式存储数据的数据库程序，到一个数据格式完全不同的电子表格。最可能的情况是，该数据库程序可以导出数据...

2018-05-23 10:52:06 439

转载 ETL

ETL讲解（很详细！！！） ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程，目的是将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。通常情况下，在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。　　ETL的设计分三部分：数据抽取、数据的清洗转换、数据的加载。在设...

2018-05-22 20:03:55 94

转载 spark 多文件输出

　MultipleOutputFormat allowing to write the output data to different output files. MultipleOutputFormat可以将相似的记录输出到相同的数据集。在写每条记录之前，MultipleOutputFormat将调用generateFileNameForKeyValue方法来确定需要写入的文件名。通常，我...

2018-05-20 15:57:05 1630

原创 spark数据缓存到内存中的方法

RDD.cache()一般用法： sc.textFile(" 路径").cache 数据就已经缓存到内存中，可以提高运算速度，当然要注意，我们的内存容量

2018-05-18 19:18:44 5976

转载 spark中wordcount执行的数据流向

2018-05-18 13:42:41 257

原创 RDD 直接存入MySQL，以及直接读取MySQL中数据

在spark中，直接把RDD文件存到数据库中。 object IPLocation { //每个分区连接一次MySQL，并且存储数据。 val data2MySQL =(iterator: Iterator[(String, Int)]) => { var conn: Connection =null var ps :PreparedStatement = null //这...

2018-05-17 21:46:06 3312

转载 Scala中高级算子，combineByKey

为什么单独讲解combineByKey？因为combineByKey是Spark中一个比较核心的高级函数，其他一些高阶键值对函数底层都是用它实现的。诸如 groupByKey,reduceByKey等等如下给出combineByKey的定义，其他的细节暂时忽略(1.6.0版的函数名更新为combineByKeyWithClassTag)[java] view plain copydef combi...

2018-05-16 19:32:32 1096

转载 Scala泛型及限定

1 Scala泛型1.1 泛型函数 ClassTag[T]保存了泛型擦除后的原始类型T,提供给被运行时的。[java] view plain copy /* * 泛型[]，中括号F、S、T都表示运行时参数类型， * ClassTag[T]保存了泛型擦除后的原始类型T,提供给被运行时的。 */ class Triple[F: ClassTag, S...

2018-05-15 22:25:38 1054

转载 java高级特性增强

目录java高级特性增强... 1Ø java多线程增强... 1.1. java多线程基本知识... 1.1.1. 进程介绍... 1.1.2. 线程介绍... 1.1.3. 多线程介绍... 2.1.4. 多线程运行的原理... 2.1.5. 实现线程的两种方式... 2.2. java同步关键词解释... 2.2.1. syn...

2018-05-14 11:32:10 478

转载 scala中常用的10个方法

操作 Scala 集合时，一般会进行两类操作：转换操作（transformation ）和行动操作（actions）（有些人喜欢叫他为聚合操作）。第一种操作类型将集合转换为另一个集合，第二种操作类型返回某些类型的值。1、mapmap 是 Scala 集合最常用的一个函数。它的功能十分强大：[html] view plain copyvalnumbers= Seq(1,2,3,4,5,6) /...

2018-05-10 15:39:26 3051 1

转载 Hadoop中namenode和seconderynamenode 分离在不同的主机上

1、停止hadoopstop-all.sh 2、修改vim masters 文件其实，master文件不决定哪个是namenode，而决定的是secondarynamenode（决定谁是namenode的关键配置是core-site.xml中的fs.default.name这个参数）。所以，这里直接写上作为secondnamenode的IP或机器名称（可以是集群中任一个datanode节点）就...

2018-05-10 13:22:00 1564

原创 scala 整理重点版

在scala中，变量方法函数都是对象，都可以调用方法在scala中，没有运算符，都是方法：1.+（2）简写成 1+2 =3； 1.-（2）简写成 1-2 =-11、定义变量var/val x={if (y>0) 1 else if (y<-2) -1 else 0} 这是块表达式，大括号可以省略2、循环for和while循环，for常用for循环语法结构：for...

2018-05-09 20:34:29 380

转载 kafka配置文件参数详解

kafka的配置分为 broker、producter、consumer三个不同的配置一 BROKER 的全局配置最为核心的三个配置 broker.id、log.dir、zookeeper.connect 。------------------------------------------- 系统相关 -------------------------------------------##每...

2018-05-09 11:45:57 340

转载 kafka的文件存储机制

目录：1、Kafka是什么2、前言3、Kafka文件存储机制–实际运行效果4、总结————————————————————————————————–1、Kafka是什么Kafka是最初由Linkedin公司开发，是一个分布式、分区的、多副本的、多订阅者，基于zookeeper协调的分布式日志系统(也可以当做MQ系统)，常见可以用于web/nginx日志、访问日志，消息服务等等，Linkedin于2...

2018-05-09 11:00:32 1011

转载 kafka常用命令

Kafka常用命令感觉最近有一阵子没有玩Kafka了，都有点生疏了，我们今天就来讲解如何使用命令操作Kafka：启动命令创建Topic查看Topic列表删除TopicProducer和Consumer 写入和消费数据其他命令根据前一篇如何在阿里云上构建Kafka系统，想必大家都已经知道了如何配置Kafka了，但是有了Kafka后应当如何进行下一步的操作呢？这便是本节的主要内容了。1. 启动命令启动...

2018-05-08 19:37:35 407

空空如也

空空如也