北京小峻-CSDN博客

原创 hive中判断这批文件是否存在另一批文件逻辑

hive中判断这批文件是否存在另一批文件逻辑数据我有两列字符串,判断第二列是否在第一列被判断: id, 123456789标准: id, 42562建表语句create table a (id string) row format delimited fields terminated by "/t";load data local inpath "/root/a.txt" overwrite into table a;create table b (id stri

2020-05-30 10:40:20 410 2

原创怎样解决hue和oozie在web页面的时区问题

怎样解决hue和oozie在web页面的时区问题在使用Hue创建调度任务的过程中，我们会发现Hue的时区与Oozie的调度时间不一致。默认Oozie使用的时区为UTC，在创建调度作业时还需要考虑在当前的时间减去8个小时才能达到我们的预期。在使用上非常不方便，这里Fayson主要介绍如何统一Hue和Oozie的时区。测试环境1.RedHat7.22.CM和CDH版本为5.15.0设置Hue时区hue默认时区为Americal/Los_Angeles,这里需要将CM上的Hue的时区修改为Asia/S

2020-05-24 15:50:38 564

原创 hdfs升级成为超级管理员

hdfs升级成为超级管理员操作步骤如下：1、在Linux执行如下命令增加supergroupgroupadd supergroup2、如将用户yarn增加到supergroup中，再执行：usermod -a -G supergroup yarn3、同步系统的权限信息到HDFS：su - hdfs -s /bin/bash -c “hdfs dfsadmin -refreshUserToGroupsMappings”4、验证将/user/hdfs目录的权限由700，修改为770su

2020-05-23 14:33:30 601 1

原创安装idea踩过的几个小坑

1.装好之后指定jdk的时候，报错找不到正确的路径，原因是因为idea只认识自带的jdk默认安装在C:\Program Files\Java\jdk1.8.0_202指向它即可2.在指定的maven的时候，也是要指定他自带的maven，我们自己创建的maven,idea不认识所以maven会报错3.只有repository可以自己指定文件路径，但是也是要在settings.xml文件里面改变repository的路径！...

2020-05-14 23:44:13 244 1

原创 raid

raid：独立冗余磁盘列阵最开始是为了组合小的廉价的磁盘来代替大的昂贵的磁盘，具备一定的水平来保护数据raid 0:将多个磁盘组成一个磁盘更大的磁盘群，提高磁盘性能的吞吐量，reid没有任何冗余，或者错误修复的能力，一个磁盘有问题整个系统受损坏，将原先的顺序写入的数据分散到四块磁盘，同时进行读写，io速度提高了四倍，按时不可靠raid 1:将磁盘的数据镜像到另一个磁盘，在不影响性能的情况下最大程度的保证数据的可靠性和恢复性，具备100%的冗余数据，磁盘复用率为50%，成本较高！特点：只要

2020-05-10 19:30:05 165

原创 java中利用fastjson解析json

java中利用fastjson解析jsonjson数据{"uuid": [{"name": "史子峻","age": "24","iphone":"17812524783","youxiang":"[email protected]"},{"name": "郭青青","age": "24","iphone":"17812524783","youxiang":"[email protected]...

2020-05-06 01:36:24 344 1

原创 hive的分桶表

hive的分桶表分区表是针对数据的储存路径分通表是针对数据文件步骤创建一个普通表;开启分桶设置;创建一个分通表;目的提高索引效率,节省底层资源实例创建一个普通表并传入数据create table stu(name string,course string,grade int)row format delimited fields terminated by "...

2020-04-29 13:53:27 208 1

原创 hive的动态分区

hive的动态分区步骤先创建一个普通表然后再创建一个动态分区表开启动态分区的各种设置设置好动态分区的字段,数据自动按照设定的字段自己创建目录并分开导入数据了2.1 动态分区的相关属性：set hive.exec.dynamic.partition=true //使用动态分区set hive.exec.dynamic.partition.mode=nonstrick;//无限制模...

2020-04-29 13:13:30 559 1

原创 flink即做实时,有做离线我们有哪几种框架的选择

flink即做实时,有做离线我们有哪几种框架的选择1.直接从日志采集服务器用flume转数据,定义一个Source,两个channel,两个Sink,一个写kafka,一个写hdfsSink答案不现实,太浪费,出问题原因1.不现实:对日志采集服务器压力很大,我们一般使用到网卡是千兆的网卡,超过了理论单网卡的传输数据是125M,kafka用的80M/秒,hdfs用60/秒,加起来140M/...

2020-04-26 13:20:20 888

原创 flink测流输出

flink测流输出目的给数据打上标签,我们支取其中的某一个或者几个标签作为支流输出,其他的所有的主流可以另外输出,还能获取迟到的数据package com._51doit.flink.day06;import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.java.tuple...

2020-04-26 10:43:48 1443

原创冒泡排序

java程序冒泡排序import java.util.Arrays;/** * 冒泡排序 * 代码逻辑制造一个temp临时的容器,让相邻的两个元素相比较 * 如果第二位比第一位大就不变,如果第二位比第一位小就位置调换, * 用temp这个临时变量来辅助这个程序执行 * */class BubbleSort { //生成冒泡排序的方法 public static ...

2020-04-25 19:43:43 121 1

原创二分查找

scala中的二分查找/** * 二分查找就是查你所输入的数字在你的数组中占第几位 * 如果你想查数组中的第几位直接arr1[x]就可以了 * */object BinarySearch { def main(args: Array[String]) { //定义一个数组 val arr1 = Array(2, 3, 4, 5, 6, 78, 411) ...

2020-04-25 00:36:41 134 1

原创 hive连续n天登陆

hive连续n天登陆日期用户年龄dates,users,age11,test_1,2311,test_2,1911,test_3,3911,test_1,2311,test_3,3911,test_1,2312,test_2,1913,test_1,23两个需求:求出连续登陆的用户的总数和平均年龄求出所有用户的总数和平均年龄create table da(date...

2020-04-24 00:46:41 421 1

原创 spark调优之数据倾斜

spark调优之数据倾斜问题出现的原因数据倾斜的表现数据倾斜的表现遇到这种方式问题莫慌看思路问题:数据倾斜会导致数据溢出,可能是其中的某个task分配了大量的数据,运行出错,导致数据倾斜,数据溢出.1.方案一:聚合源数据只针对常见的聚合操作的情况2.方案二:使用过滤的方法只针对只使用部分数据的情况3.方案三:提高task的并行度的方法数据量大且数据任务多的程序慎用4.方案四...

2020-04-23 17:02:10 154

原创 spark中ReduceByKey和GroupByKey的区别

spark中groupByKey和GroupByKey的区别reduceByKey(func,numpartitions=None)他会现在本地机器上进行局部聚合而后再移动数据,进行全局聚合,而且局和操作可以通过函数自定义,groupByKey(numpartitions=None)直接进行全局聚合(注意:groupByKey本身不能自定义函数),结论:reduceByKey和gro...

2020-04-22 12:23:05 381 1

原创 flume第七讲:hdfs sink(多用于离线)

flume第七讲:kafka channels(多用于离线)工作机制数据最终被发往hdfs;可以生成text文件或者sequence 文件,而且支持压缩;支持生成文件的周期,roll file机制:基于size,或者时间间隔,或者event数量;目标路径,可以使用动态通配符替代,比如用%D代表当前的日期;当然也能从event的header中,取到一些标记来作作为通配符替换,例如he...

2020-04-22 12:21:58 254

原创 flume第六讲:kafka channels(多用于实时)

flume第六讲:kafka channels(多用于实时)工作机制agent利用kafka作为channel数据缓存kafka channel和kafka sources,kafka sink区分开来kafka channel再应用时,可以没有source或者说可以没有sink如果是把kafka作为最终的采集,那么就只要source+kafka channel如果要是把kafka作为...

2020-04-22 12:20:11 550

原创 flume第五讲kafka source(常用)

flume第五讲kafka source(常用)工作机制用kafka consumer连接kafka,读取数据然后转换成event,写入channel,读取kafka中的数据转换成event储存在channel中重要的参数详解type org.apache.flume.source.kafka.KafkaSource(全类名)kafak.bootstrap.servers Ka...

2020-04-22 00:38:08 2471

原创 flume第四讲avro source(自带序列化机制)

flume第四讲avro source(自带序列化机制)工作机制通过监听一个网络端口来接收数据,而且接收的必须是avro序列化后的数据,avro是序列化的框架是跨语言的该source自己具备反序列化机制一般用于agenet之间的级联思想我们从日志采集服务器上采集日志,采集的速度非常快,但是flume数据直接写入hdfs的速度非常慢,时间已久就会出现数据积压的问题,我们的办法是将多设...

2020-04-22 00:36:18 804

原创 flume第三讲taildir source(reliable很可靠)

flume第三讲taildir source(reliable很可靠)tail(追踪)不会丢失数据,但是在极端的情况下可能会产生重复采集数据工作机制可以动态的采集文件夹下的大量的文件纪录偏移量offset到指定positionFile保存目录中,格式为json.重要的参数详解:fileguoups 空格分割的组名,每个组代表着一批文件,g1,g2.fileguoups 每个文件...

2020-04-22 00:33:39 1049

原创 flume第二讲spooldir source(以废弃)

flume第二讲spooldir source(以废弃)spool(卷轴缠绕)工作机制监视一个指定的文件夹,如果文件夹下有没采集过的新文件,则将这些文件中的数据采集,并转成event写入channal缺点:spooling目录中的文件必须是不可改变的,而且是不能重名的!没有记录偏移量,不能重复采集,不能对文件的内容进行修改在虚拟机新建一个配置文件[root@doit02 agent]...

2020-04-22 00:31:04 653

原创 flume第一讲netcat source(仅测试)

flume第一讲netcat source(仅测试)netcat(网络端口)利用flume的将网络数据端口号的所接受的数据,采集掉!在虚拟就新建一个配置文件[root@doit02 agent]# vi netcat-m-1ogger.conf[root@doit02 agent]# vi netcat-m-1ogger.conf# 定义这个agent中各组件的名字a1.sourc...

2020-04-22 00:28:54 476

原创 sparkStreaming连接kafak的receiver方式和direct方式

sparkStreaming连接kafak的receiver方式和direct方式Receiver方式(已废弃)从kafka的中获取的数据都是储存在sparkexecutor的内存中,然后sparkStreaming启动的job回去处理那些数据然而,在默认的配置下,这种方式可能会因为底层的失败而丢失数据.如果要启用高可靠的机制,让数据零丢失,就必须启用sparkStreaming预写日志机...

2020-04-20 22:18:09 145

原创 hive数据倾斜

hive数据倾斜目录1、什么是数据倾斜？2、Hadoop 框架的特性3、主要表现4、容易数据倾斜情况5、产生数据倾斜的原因6、业务场景（1）空值产生的数据倾斜（2）不同数据类型关联产生数据倾斜（3）大小表关联查询产生数据倾斜1、什么是数据倾斜？由于数据分布不均匀，造成数据大量的集中到一点，造成数据热点2、Hadoop 框架的特性A、不怕数据大，怕数据倾斜B、Jobs ...

2020-04-20 11:56:01 712

原创关系型数据库的设计:三大范式

第一范式要求数据库表的每一列都是不可分的原子数据项,比如一列,里面有两个元素,中间用","分割就是不符合第一范式第二范式在第一范式的基础上,非码属性必须完全依赖于后选码比如第一列个第二列是联合主键,其他的列必须直接关联这两个联合主键保证表中的每一列都和主键相关,而不能只与主键的某一部分相关(主要针对联合和主键而言)第三范式在第二范式的基础上,任何非主属性不依赖与其他非主属性比如第...

2020-04-19 23:42:00 117

原创用户画像概况

用户画像概况我们是内容媒体公司主营业务在线上(app/网站)进行的公司主要是针对线上用户的线上访问行为,消费行为,业务行为,进行统计分析,提高转化率,提高运营效果.精准推荐改善用户体验,减少用户流式率,提高用户粘度,增大销售额.你们用到的算法有哪些?KNN k邻近算法kmeans k均值Naive Bayes朴素贝叶斯随机森林tf-idf算法标签表的设计表结构设计?你们的...

2020-04-19 20:05:40 277

原创 spark有四种最基本的运行和调度模式以及各自的应用场景

spark有四种最基本的运行模式local模式standalone scheduler模式yarn模式mesos模式spark的local模式就是本地模式,就是单机跑,无需启动集群进入spark客户端提交任务即可//这样进去的话是spark local模式[root@doit01 spark-2.3.3-bin-hadoop2.7]# /usr/apps/spark-2.3.3-b...

2020-04-19 18:56:29 1138

原创 SparkSession和SparkContext的来时今生

SparkSession是Spark2.0引入的新的概念spark的早期版本中SparkContext是spark的主要切入点,由于RDD主要是API我们通过Sparkcontext来创建RDD,对于每个API我们都需要不同的context例如,Streaming==>StreamingContext,spl==>sqlContext,hive==>hiveContex...

2020-04-18 15:10:40 244

原创 mysql中的储存引擎InnoDB和mylsam的区别

MySQL中的储存引擎InnoDB储存引擎是mysql5.5版本以后默认的储存引擎1.容灾恢复性比较好2.支持事物3.支持高并发:使用粒度行为锁4.支持外键5.缓存管理,加快查询速度mysql中的储存引擎mylsam1.不支持事物2.不支持外键3.没有缓存4.容灾恢复性差...

2020-04-17 16:44:10 310

原创 spark streaming中遇到的问题

spark streaming中遇到的问题出现的问题task数据分配不均task数据分配不均的原因由于我这个日志分析系统是使用direct模式从kafka拉取数据的, 在direct模式下, 通过KafkaUtils.createDirectStream(…)获取的DStream中的rdd的分区数是与kafka相对应的topic的分区数是一样的,且分区中的数据分布情况也是一样的.这就导致...

2020-04-17 00:18:30 573

原创 hive中explode函数的用法

hive中explode函数的用法explode函数是一个炸裂函数他可以做一下转换将这个表格+--------------+-----------------------------+| movie.movie | movie.category |+--------------+-----------------------------+| 《疑犯追踪》 ...

2020-04-16 18:27:13 5125

原创 spark中的宽依赖,与窄依赖的区别

spark中的宽依赖,与窄依赖的区别在一个程序里面产生宽依赖和窄依赖的RDD是分父RDD和子RDD的,其中父RDD和子RDD是相对而言,相邻两个RDD处理之前是父RDD,处理之后就是子rdd,具体你用的什么算子产生没有产生shuffle就是会出现宽依赖和窄依赖的现象.宽依赖多对多,一对多(父RDD的一个或者多个分区,可能被子RDD多个分区所使用,)窄依赖一对一,多对一(父RDD的一个或...

2020-04-15 21:26:42 622 1

原创用户画像之情感语义分析

用户画像之情感语义分析在用户画像中的用户商品,品类,品牌偏好程度画像(模型标签)中需要统计出如下的指标:事实标签:用户对某商品,品类,品牌的购买记录 – 统计订单表, SQL直接出.事实标签:用户对某商品,品类,品牌的收藏记录 – 统计交互事件明细表, SQL直接出.事实标签:用户对某商品,品类,品牌的浏览记录 – 统计流量事件明细表, SQL直接出.事实标签:用户对某...

2020-04-13 23:10:23 601

原创 TF-IDF算法详解

TF-IDF算法详解此算法多用于情感语义分析,提取每条评论中的权重词用来分析,分类!TF:（Term Frequency，缩写为TF）也就是词频.IDF:(Inverse Document Frequency) 逆文档频率下面就是具体的公式:1.计算词频TF考虑到文章有长短之分,为了方便不同文章的比较,进行"词频"标准化.再或者2.计算逆文档频率需要一个语料库(corpus)...

2020-04-13 21:36:45 2942 1

原创 spark streaming直连kafka并将数据和偏移量导入mysql

spark连接mysql首先在mysql创建两个表用来接收数据package cn._51doit.spark.day09import java.sql.{Connection, DriverManager, PreparedStatement, SQLException}object MySQLTransactionTest { def main(args: Array[St...

2020-04-12 23:23:27 329

原创 spark的框架

Spark的核心主要分为四个模块Sparksql,SparkMLlib,Sparkstreaming,SparkGraphXSparkstreaming的概念Sparkstreaming是对SparkContext的进一步封装,可以指定间隔时间,创建原始的DStreamDStream是SparkStreaming中最基本的抽象,也是抽象的分布式集合装着描述信息,对RDD的进一步封装,DSt...

2020-04-11 23:20:12 133

原创 kafka的概况

kafka的性质kafka是一个消息中间件,可以动态的接收数据,主要用于实时数据处理的中转站kafka的特征分布式,高容量,高吞吐,可扩展,编程api丰富,可以保证Exactly Once(执行且只执行一次)kafka角色producer:生产者,消息的生产者,发布消息到kafka终端consumer:消费者,消费数据到终端,broker:经纪人,就相当于kafka本身,kafka集...

2020-04-11 23:00:08 161

原创 hbase的RowKey设计

hbase的RowKey设计HBASE的存在是解决了mysql的两个瓶颈问题1.mysql的并发问题2.数据量特别大的问题(最少要是千万条的数据)几百万的数据完全可以存储mysql中.HBASE可以存储的数据1.手机信息2.电影信息的存储3.用户标签信息的存储4.车辆信息的存储5.图片数据6.视频数据HBASE的RowKey设计要考虑的问题:我的数据究竟是读得多还是写的多...

2020-04-09 00:54:33 122

原创向hbase导入数据的三种方式

向hbase导入数据的三种方式1.Put对象,是去RPC请求连接数据并一条一条插入或者多条插入.2.缓存到一定大小之后单次请求一次性插入数据(内存)3.现在hdfs中已经存在了大量的数据,bulkload方式text,sequence,csv文件… —>Hflie文件 <<<<<<<<<—表.region第一种方式PUT用ja...

2020-04-08 15:38:48 3578 2

原创 spark调优

spark调优之性能调优1.合理的分配资源2.设置并行度3.重构RDD架构以及RDD持久化4.广播变量5.调节数据本地化等待时长spark调优之JVM调优1.jvm垃圾回收机制2.降低cache操作的内存占比3.调节executer对外内存与连接等待时长spark调优之Shuffle调优1.开启shuffle map端输出文件合并的机制2.调节map端内存缓冲与reduce...

2020-04-02 16:19:44 276

空空如也

空空如也