自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(62)
  • 收藏
  • 关注

原创 内部表和外部表区别

一、外部表的创建、load、删除1.文件在本地而不是在hdfs的时候1.1 建表时指定location(1)建表并load数据create external table exTable28 (id int,str string) row format delimited fields terminated by ' ' location '/zgm/test/'; load data local inpath '/zgm2/exe28' into table exTable28;.

2020-08-25 13:25:07 4979 1

原创 spark调优之大rdd倾斜解决:sample采样倾斜key单独进行join

spark调优之随机前缀当两个大表出现数据倾斜,那么不能用mapjoin(也就是broadcast)来解决的时候,我们可以采用随机前缀+单独join->union正常数据join结果来解决;代码:解释:rdd2中key为“001”的数据非常多,导致数据倾斜,那么我们把rdd1、rdd2中的key为001的数据单独拿出来join;剩下的正常的key自己进行join,这两个join的结果最后进行union对于rdd1的数据,每一条数据加上0、1、2、3、4的前缀,rdd1的数据量变成原来的5倍

2020-08-22 17:04:01 387

原创 zk、hbase、redis保存Sparkstreaming 的offset

一、zk:import cn.qphone.spark.`trait`.LoggerTraitimport cn.qphone.spark.utils.{CommonUtils, SparkUtils}import kafka.common.TopicAndPartitionimport kafka.message.MessageAndMetadataimport kafka.serializer.StringDecoderimport org.apache.curator.framewo

2020-06-26 21:08:54 214

原创 Hive中建立HBase的映射表

CREATE EXTERNAL TABLE userPhoto(uid string ,tag string ,tagweight double )ROW FORMAT SERDE'org.apache.hadoop.hive.hbase.HBaseSerDe'STORED BY'org.apache.hadoop.hive.hbase.HBaseStorageHandler'W...

2020-03-23 19:10:40 457

原创 Spark写数据到HBase

实现的功能:从hive表中读取订单表,计算每个用户在30天内下单的金额,然后存到HBasepackage pro3import org.apache.hadoop.hbase.{HBaseConfiguration, HColumnDescriptor, HTableDescriptor, TableName}import org.apache.hadoop.hbase.clien...

2020-03-23 18:46:24 392

原创 一些数据结构、算法题

//去重复值 val arr: Array[Int] = Array(1,2,3,4,5,1,2,3,4) val set: Set[Int] = Set(arr(0),arr(5),arr(6)) //println(set.toBuffer) //scala的基础题:要求找到出现次数大于一半序列长度的数 val array :Seq[Int] = Se...

2020-03-21 16:11:01 95

原创 Flink笔记01——基础

一、关于slot、parallelism1.在conf/flink-conf.yaml中有如下内容,显示默认slots、parallelism均为1,我理解的,slots就是可以运行多少任务,parallelism是你让他运行多少任务。# The heap size for the JobManager JVMjobmanager.heap.size: 1024m# The ...

2020-03-16 22:54:58 261

原创 HDFS——一些规范、命令

1、在load数据到表中的时候,如果,不是local 数据而是HDFS上的数据,而且,是内部表的话,那么数据会被剪切到表的目录下,数据在原本目录下不会存在。比如load data inpath '/data/landlog' overwrite into table landlog;在HDFS上的/data/目录下,将没有landlog这个文件,在表的目录下将出现landlog这个文件;...

2020-03-15 18:00:31 253

原创 hql的优化,

一、求学生选的每门课都及格了的学生selecta.*from student2 ajoin(select b.sidfrom sc2 b group by b.sid having min(score)>60) con a.sid=c.sid;两个job taken: 84.528 seconds,select a.* from student2 a join s...

2020-03-13 13:38:17 124

原创 关于单链表——求有效节点个数、求倒数第K个节点、反转单链表、倒序输出单链表的内容(递归法和栈法)

package SuanFa.ListNode;import java.util.Stack;public class LN { public static void main(String[] args) { SingleLinkedList proList=new SingleLinkedList(); ProNode p1 = new ...

2020-03-10 16:28:01 180

原创 Zookeeper ——选举机制

目前有5台服务器,每台服务器均没有数据,它们的编号分别是1,2,3,4,5,按编号依次启动,它们的选择举过程如下:服务器1启动,给自己投票,然后发投票信息,由于其它机器还没有启动所以它收不到反馈信息,服务器1的状态一直属于Looking(选举状态)。 服务器2启动,给自己投票,同时与之前启动的服务器1交换结果,由于服务器2的编号大所以服务器2胜出,但此时投票数没有大于半数,所以两个服务器的状...

2020-03-10 11:20:30 140 1

原创 Sqoop的实际使用

一、简单的测试,查看有哪些数据库$SQOOP_HOME/bin/sqoop list-databases \--connect jdbc:mysql://mini1:3306 \--username hive \--password hive//可以二、将数据导入到hive不指定分隔符的话,在hive中列的分隔符是\001,行的分隔符是\n验证:$SQOOP_H...

2020-03-09 00:55:36 641

原创 Linux——mysql

service mysqld status //查看状态service mysql restart //重启mysql -u root -p //进入mysql123456create user "zgm"@"%" identified by "zgm";create user "zgm2"@"mini1" identified by "zzz"; 创建...

2020-03-08 18:47:38 108

原创 算法01——二分查找、冒泡排序、插入排序、快速排序、归并排序

一、二分查找package SuanFa.MySearch;public class binSearch { public static void main(String[] args) { int[] a={1,2,3,4,5,6,7}; System.out.println(myBinSerch(a,2)); } pub...

2020-03-04 18:01:16 146

原创 计算机基础知识——java02

一、string是否可以用来做SWITCH的参数?jdk1.7之前,只有byte、short 、char 、int可以做switch的参数,1.7之后,枚举类型、布尔、字符串都可以,string类型是调用了string.hashCode,将string转换为int从而进行判断二、为什么重写equal()之后还要重写hashcoude()规范是如果两个对象的equals值相等,那...

2020-03-04 16:53:42 91

原创 计算机基础知识——Java01

一、八种基本数据类型的大小,以及他们的封装类整数+字符串=字符串1、包装类是对象,拥有方法和字段,对象的调用都是通过引用对象的地址,基本类型不是2、包装类型是引用的传递,基本类型是值的传递3、声明方式不同,基本数据类型不需要new关键字,而包装类型需要new在堆内存中进行new来分配内存空间4、存储位置不同,基本数据类型直接将值保存在值栈中,而包装类型是把对象放在堆中,然后通过...

2020-03-04 00:09:54 102

原创 MR——实现二次排序

ps:一、字符串比较用compareTo()时:1,长度相同,从第一位开始比较,如果相同返回0,如果不同则马上返回这两个字符的ascii值的差值。2,长度不同,直接返回长度差值。二、Integer比较用compareTo()时:1,对比数字时相同,返回0。2,对比数字不同时,返回-1。实现每个人最喜欢的电影topN,按照uid、分数进行排序一、 RateBea...

2020-03-03 19:07:29 364

原创 HBASE——过滤器实现

package hbasefilter;import HbaseApi.HbaseUtilTool;import org.apache.hadoop.hbase.client.ResultScanner;import org.apache.hadoop.hbase.client.Scan;import org.apache.hadoop.hbase.client.Table...

2020-03-03 19:03:29 235

原创 HBASE——协调处理器实现代码

关注表里添加一条信息,那么粉丝表里也添加一条对应信息package hbase_mr;import HbaseApi.HbaseUtilTool;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.CellScanner;import org.apache.hadoop.hbase.CellUt...

2020-03-03 18:47:10 228

原创 Hbase——BulkLoad代码

HbaseBulkLoadpackage hbase_mr;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.TableName;i...

2020-03-03 18:42:10 215

原创 HBASE——使用MR,将HBASE中的数据写入HDFS,将HDFS中的数据写入HBASE:

1、将HBASE中的数据使用MR写入HDFShadoop jar /ajar/Hbase2Hdfs.jar hbase_mr.Hbase2Hdfs /hbase2hdfspackage hbase_mr;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;impor...

2020-03-03 18:39:01 660

原创 MR笔记01——调度、打包运行

一、提交jar包到hadoop之后,怎么运行:hadoop jar /zgm2/wc.jar z1wc.MyRunner /data/wcount /out/zwcounthadoop jar可以换成yarn jar如果你设置yarn为mapreduce的默认资源调度平台,那么两个命令是一样的区别:hadoop jar 按mr1或yarn运行job,决定是否配置yarn。y...

2020-03-03 18:32:57 262

原创 大数据——配置19888历史端口

在mapred-site.xml中做如下配置#参数是Hadoop一个自带的历史服务器的address。<property><name>mapreduce.jobhistory.address</name><value>mini1:10020</value></property><property&gt...

2020-03-03 18:26:29 1427

原创 Hive笔记——影评项目

一、因为元数据的字段之间用::分割,所以我们使用shell进行一下清洗,将::都转换成逗号vi change1.sh#!/bin/bashsed "s/::/,/g" /zgm/movies.dat>/zgm/movies2.datsed "s/::/,/g" /zgm/ratings.dat>/zgm/ratings2.datsed "s/::/,/...

2020-03-02 22:37:00 777

原创 shell脚本学习笔记

一、引号问题ls: cannot access /usr/local/spark-2.2.0-bin-hadoop2.6/lib/spark-assembly-*.jar: No such file or directoryLogging initialized using configuration in jar:file:/apps/apache-hive-1.2.1-bin/...

2020-03-02 00:04:33 239

原创 hive的几种join、Spark中RDD、DF和DS的几种join

HIVEjoin left out join right out join full out join left semi join cross joinSparkRDD:join leftOutJoin rightOutJoin fullOutJoin使用示范: val b: RDD[(Int, String)] = a.keyBy(x=>x.length)...

2020-03-01 00:01:42 511

原创 Hive执行顺序

探究一下hql的执行顺序from … on … join … where … group by … having … select … distinct … order by … limit之前有个疑惑:explain select sid,min(score) as msfrom sc2 where sid>10group by sidhaving ms>60...

2020-02-29 22:37:25 706

原创 Spark代码练习——充值SparkSQL实现

数据文件为:“JsonTest02.json”用SparkCore或SparkSQL实现均可,需求如下:统计每个用户充值总金额并降序排序(10分)统计所有系统类型登录总次数并降序排序(10分)统计所有用户在各省登录的次数的Top3(20分)部分字段:phoneNum:手机号(用户账号)terminal:系统类型province:省份money:充值金额status:充值状态...

2020-02-27 22:12:11 647

原创 Spark代码练习——CDN日志,SparkCore实现

一、CDN日志练习:日志格式为:IP 命中率(Hit/Miss) 响应时间 请求时间 请求方法 请求URL 请求协议 状态吗 响应大小 referer 用户代理100.79.121.48 HIT 33 [15/Feb/2017:00:00:46 +0800] "GET http://cdn.v.abc.com....

2020-02-27 19:00:51 543

原创 Spark笔记——基础底层、sparkcluster任务提交流程

一、driver、executor1、SparkContext是在哪一端生成的? Driver2、RDD是在哪一端生成的? Driver3、调用RDD的算子(Transformation和Action)是在哪一端调用的? Driver4、RDD在调用Transformation和Action时需要传入一个函数,函数是在哪一端声明和传入的? Driver5、RDD在调用Tr...

2020-02-27 16:53:21 184

原创 SparkStreaming笔记01——基础概念、原语

一、基础概念Spark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如:map、reduce、join、windo...

2020-02-26 21:03:19 393

原创 SparkStreaming笔记02——wordcount、UpdateStateByKey、Transform 、Window Operations

一、SparkStreamingWC这里的wordcount没有实现累加,本地运行以下代码后,在mini1上输入:nc -lk 9999然后输入单词,在idea的控制台上就可以出现单词统计结果import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}import org.apache.sp...

2020-02-26 20:51:35 203

原创 kafka笔记02——producer.properties、counsumer.properties、server.properties

这三个文件放在kafka的config目录之下一、producer.properties#指定kafka节点列表,用于获取metadata,不必全部指定metadata.broker.list=kafka01:9092,kafka02:9092# 指定分区处理类。默认kafka.producer.DefaultPartitioner,表通过key哈希到对应分区# partitio...

2020-02-25 23:20:33 374

原创 Kafka笔记01——基础概念、基础linux操作、创建简单生产者、消费者

1.kafka定义Kafka是一个分布式消息队列:生产者、消费者的功能。Kafka可以解决:并发、解耦、异步2.kafka主要组件Producer: 生产者负责获取数据并将数据上传到Kafka的,比如flume、logstash 生产者往往是监控一个或多个目录(文件)将数据对接到Kafka 生产者集群是由多个进程组成,一个生产者可以作...

2020-02-25 23:13:46 429

原创 SparkSQL代码04——输入输出、JDBC

一、SparkSQL输入输出1.1 SparkSQL输入写法一:SparkSession对象.read.json("路径")SparkSession对象.read.jdbc("路径")SparkSession对象.read.csv("路径")SparkSession对象.read. parquet("路径") Parquet格式经常在Hadoop生态圈中被使用,它也支持Sp...

2020-02-24 17:44:13 305

原创 SparkSQL代码笔记03——连接hive

spark集群/usr/local/spark-2.2.0-bin-hadoop2.6/bin/spark-submit \--class scalaBase.day15.HiveCodeDemo2 \--master spark://mini1:7077 \--executor-memory 512m \--total-executor-cores 2 \--jars /ajar...

2020-02-24 13:09:08 420

原创 SparkSQL代码笔记02——UDF、UDAF

一、UDFpackage com.zgm.sc.day14import org.apache.spark.sql.SparkSession/** * 用udf实现字符串拼接 */object UDFDemo1 { def main(args: Array[String]): Unit = { val spark = SparkSession ....

2020-02-23 16:39:39 177

原创 SparkSQL代码笔记01——创建SparkSession、RDD和DF和DS相互转换、DSL和SQL风格

一、创建sparksession的几种方法:package scalaBase.day13import org.apache.spark.SparkConfimport org.apache.spark.sql.{DataFrame, SparkSession}object sparkSessionDemo1 { def main(args: Array[String]): U...

2020-02-22 23:13:45 1799

原创 SparkCore代码笔记05——JDBCRDD

查询mysql数据库结果,生成一个rdd需要导入依赖mysql-connector-java这个依赖package com.qf.gp1921.day12import java.sql.DriverManagerimport org.apache.spark.rdd.JdbcRDDimport org.apache.spark.{SparkConf, SparkContex...

2020-02-21 19:06:25 165

原创 SparkCore代码笔记04——sparkcore 求各省ip访问量

任务:http.log中有访问记录,第二项是ip地址20090121000132095572000|125.213.100.123|show.51.com。。。。。。。。。。。。。。。。。。。。。。。。。。。。ip.txt中有ip的基本信息startIP endIP startIP(long类型的) endIP(long类型) 洲 国家 省、、、、、1.0.1...

2020-02-21 18:58:39 693

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除