3 花和尚也有春天

尚未进行身份认证

会收集一些不错的文章,时常品读,也学着自己总结一些东西,坚持努力的方向!

等级
TA的排名 4k+

hive:几种排序的区别

排序6.5.1 全局排序(Order By)Order By:全局排序,只有一个Reducer1.使用 ORDER BY 子句排序ASC(ascend): 升序(默认)DESC(descend): 降序2.ORDER BY 子句在SELECT语句的结尾3.案例实操(1)查询员工信息按工资升序排列hive (default)> select * from ...

2020-02-25 01:55:12

hive:join语句

等值JoinHive支持通常的SQL JOIN语句,但是只支持等值连接,不支持非等值连接。案例实操(1)根据员工表和部门表中的部门编号相等,查询员工编号、员工名称和部门名称;hive (default)> select e.empno, e.ename, d.deptno, d.dname from emp e join dept don e.deptno = d.dept...

2020-02-25 01:53:51

hive:分区表

4.6 分区表分区表实际上就是对应一个HDFS文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件。Hive中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。在查询时通过WHERE子句中的表达式选择查询所需要的指定的分区,这样的查询效率会提高很多。4.6.1 分区表基本操作1.引入分区表(需要根据日期对日志进行管理)/user/hive/warehouse/l...

2020-02-25 01:45:48

hive:函数:json_tuple处理json数据

在处理日志数据时,会遇到json格式的数据。那么,在hive中如何处理它呢?一般情况下,json数据会以string类型,字符串格式进行存储。 创建案例 create database temp_db; --drop database temp_d;--这次导入的数据中使用空格来分割create table temp_db.json_test(id int comment ...

2020-02-22 16:01:31

hive:map/array/struct 数据结构

create table test_map_array_struct(name string,friends array<string>,children map<string,int>,address struct<string:string,city:string>)row format delimited fields terminated...

2020-02-22 11:00:22

hive:生成日期列用作关联表

select cast(tmp.time as String) time from ( select date_add('2018-01-01',a.rk) time from(select row_number()over(order by 1) as rk from ods.t_company limit 2000) a ) tmp where tmp.time &...

2020-02-21 15:22:43

hadoop:分布式批量处理 脚本xcall.sh

#!/bin/bash params=$@ i=1 for((i=1 ;i <=4 ;i=$i+1 ));do echo ==========s$i $params========== ssh s$i "source /etc/profile;$params" done

2020-02-19 17:44:25

maven: lifecycle 生命周期 与 plugin

lifecycle是啥?Maven的声明周期。maven的生命周期分为3种:1.default2.clean3.site大概流程如图所示:其中比较重要的几个步骤有以下几个:1.clean用于清除之前构建生成的所有文件其中具体为清楚了Target目录中的所有文件,包括该目录i.e:删除了install生成的所有文件2.validate用于验证项目是否真确,...

2020-02-19 17:24:54

hive:table表中的数据的导出导出几种方式(DML数据操作)

导入:本地文件导入到Hive表; Hive表导入到Hive表; HDFS文件导入到Hive表; 创建表的过程中从其他表导入; 通过sqoop将mysql库导入到Hive表导出:Hive表导出到本地文件系统; Hive表导出到HDFS; 通过sqoop将Hive表导出到mysql库;Hive数据导出的几种方式:1.hive shell 1) 导出到本地目录...

2020-02-10 17:25:11

Spark:自定义分区(Partitioner)

我们都知道Spark内部提供了HashPartitioner和RangePartitioner两种分区策略,这两种分区策略在很多情况下都适合我们的场景。但是有些情况下,Spark内部不能符合咱们的需求,这时候我们就可以自定义分区策略。为此,Spark提供了相应的接口,我们只需要扩展Partitioner抽象类,然后实现里面的三个方法:package org.apache.sparkA...

2020-02-09 01:38:17

java:commons-lang3的tuple包介绍(Pair、ImmutablePair、MutablePair)

问题有时候我们调用方法的时候返回值有可能不止1个,比如说我们返回name = "张三" age = 20这两个值,那么这个时候方法的返回值怎么写呢。在Scala和python中都有Tuple使用,在java中我们怎么办。很容易我们就想到了一个方式:可以构造一个User类来封装这两个属性。但是如果返回的两个值并没有任何关联关系,或者说每一个方法返回的参数都不同,那么我们就得为每一个方法的返回类...

2020-02-07 00:47:55

spark:spark-submit 提交任务及参数说明

spark-submit 可以提交任务到 spark 集群执行,也可以提交到 hadoop 的 yarn 集群执行。1. 例子一个最简单的例子,部署 spark standalone 模式后,提交到本地执行。./bin/spark-submit \--master spark://localhost:7077 \examples/src/main/python/pi.py如果...

2020-02-02 16:23:16

spark:读取不了本地文件,Spark默认读取(当前部署环境)HDFS文件系统

package com.tzb.bigdata.sparkimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object WordCount{ def main(args: Array[String]): Unit = { //使用开发工具完成Spark Wor...

2020-02-02 15:01:12

hadoop:spark添加日志

spark日志配置:需要对hadoop的配置文件/etc/hadoop/yarn-site.xml增加内容,如下:注意集群各节点都加上!<property> <name>yarn.log-aggregation-enable</name> <value>true</v...

2020-02-01 20:33:55

hadoop:常用web界面和命令

HADOOP:yarn:ResourceManager的8088端口:yarn的web管理界面http://sparkproject1:8088hdfs:hdfs的web管理页面http://sparkproject1:50070yarn常用命令:启动yarn:./sbin/start-yarn.sh停止:sbin/stop-yarn.s...

2020-02-01 16:57:22

hadoop:三种环境运行spark PI

local:bin/spark-submit \--class org.apache.spark.examples.SparkPi \--master local \./lib/spark-examples-1.5.1-hadoop2.4.0.jarbin/spark-submit \--class org.apache.spark.examples.SparkPi \--e...

2020-02-01 16:05:10

sql:mysql:在查询结果列表前添加一列递增的序号列

set @rownum=0;SELECT@rownum:= @rownum +1 AS 序号, a.id, a.username, SUBSTRING_INDEX(SUBSTRING_INDEX(a.tags, ',', b.help_topic_id + 1), ',',-1) AS tag FROM `testmysql_hangzhuanlie` AS...

2020-01-17 19:50:28

sql:mysql:函数:行转列(转为一个字段),利用help_topic表把以逗号分隔的字符串转换成行

建表语句:CREATE TABLE `testmysql_hangzhuanlie` ( `id` bigint(20) NOT NULL AUTO_INCREMENT COMMENT '主键', `username` varchar(50) DEFAULT NULL, `tags` varchar(50) DEFAULT NULL, PRIMARY KEY (`id`)...

2020-01-17 18:39:57

sql:mysql:函数:列转行(转为一个字段):GROUP_CONCAT,分组后将某列的值合并成一行

CREATE TABLE `testmysql_group_concat` ( `id` bigint(20) NOT NULL AUTO_INCREMENT COMMENT '主键', `userid` varchar(50) DEFAULT NULL, `name` varchar(50) DEFAULT NULL, PRIMARY KEY (`id`)) ENGINE=I...

2020-01-17 18:29:00

sql:mysql:自定义函数

一、基本语法 delimiter 自定义符号  -- 如果函数体只有一条语句, begin和end可以省略, 同时delimiter也可以省略  create function 函数名(形参列表) returns 返回类型  -- 注意是retruns  begin    函数体    -- 函数内定义的变量如:set @x = 1; 变量x为全局变量,在函数外面也可以使用 ...

2020-01-16 18:06:11

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv4
    勤写标兵Lv4
    授予每个自然周发布9篇以上(包括9篇)原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。