自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

放肆桀骜

越努力越幸运!!!

  • 博客(81)
  • 收藏
  • 关注

原创 Perhaps you are running on a JRE rather than a JDK?

我记得我遇到过好多次 mvn clean package的时候报错;最后检查时这里的路径配置错了。

2023-07-06 14:04:06 676

原创 程序员节你们公司都有什么活动

现在公司组织线下活动,下午出去hi皮,还有聚餐,nice!之前的公司就发了个苹果,在上面写了少写bug之类的话,

2022-10-24 10:46:29 2569 1

原创 clickhouse学习笔记

最近比较忙,懒得写;https://www.infoq.cn/article/vgabiodeum87hv6x8qll 快手实践https://developer.aliyun.com/article/762089?spm=a2c6h.12873639.0.0.2ab34011TCYHElhttps://segmentfault.com/a/1190000039292250好未来实践https://dbaplus.cn/news-73-2939-1.html趣头条实践https:/...

2021-06-02 20:00:53 2612

原创 MySQL可怕的笛卡尔积

以前总说笛卡尔积会引起数据膨胀,都没当回事,当你遇见的时候,才知道它有多可怕,还好服务器没有被我跑挂掉;mysql的查询语句如下:selecta.id,b.cidfrom a inner join b on a.user_name=b.user_name and b.registerdate='2021-01-24'where a.registerdate='2021-01-24'写了一个存储过程,按照用户的注册日期去一天一天的追加历史数据,a表和b表的的关联字段,注册日期字段.

2021-01-24 20:33:19 3246 1

原创 某某跳动公司的面试hivesql题目

题干某APP需要对最近连续登录3天以上的用户做消息推送,现有用户登录信息表user_login,请用sql按照登录时间倒序筛选出最近的一次连续登录4天以上的用户以及连续登录的开始日期和截止日期。select user_id,login_days,min_login_date,max_login_datefrom ( select user_id,login_days,min_login_date,max_login_date, case when data_sub(max_st.

2020-12-12 19:56:03 186

原创 单向链表java实现以及相关操作

干货:一文弄懂链表结构,以后再也别问我什么是链表数据结构啦!直接上代码package singleLenkedList;import java.util.Stack;public class MySingleLinkedList { public static void main(String[] args) {// 先创建节点 Node h1=new Node(1,"唐僧","和尚"); Node h2 =new Node(...

2020-11-12 22:23:18 117

原创 利用hive映射表完成hbase的批量删除操作

1.创建hive的hbase的映射表(我使用的是阿里云大数据平台,hbase的相关jar以及配置文件已经拷贝到hive相应的目录下面,该步骤省略)CREATE EXTERNAL TABLE `xxxxxxxxx`( `keyid` string COMMENT 'from deserializer', `action` string COMMENT 'from deserializer') ROW FORMAT SERDE 'org.apache.hadoop.hive....

2020-10-15 20:56:54 517

原创 sqoop抽取mysql的数据到hive表里面,字段内容被自动截取,导致字段不全的问题解决

今天央视重新转播NBA,写篇博客纪念一下这个重要的日子,湖人的表现就呵呵了!!!!强行转到博客的主题来mysql的字段属性:该字段能存下的值比如:“山东”`province` varchar(3) NOT NULL COMMENT '省份'用sqoopsqoop import --connect "jdbc:mysql://xxxxxx:3306/xxxxxx?tinyInt1isBit=false&zeroDateTimeBehavior=convertToNull..

2020-10-10 19:54:30 768

原创 彻底解决错误(Incorrect string value: ‘\xF0\x9F\x98\xA3\xF0\x9F...‘ for column ‘realname‘)saprk-mysql

问题描述用spark同步mongo的数据存到mysql中,偶遇字段realname的值中有个表包含Emoji表情或者某些特殊字符,导致数据写不到mysql中 ----任务失败;一开始错误的思路是找到这条数据把它给过滤掉,try试了n多次依旧不好使,不得已只能换个思路继续搬砖,打开我们万能的github问题才得以解决。github的项目地址:https://github.com/cattom114/emoji-java解决步骤1、 在pom文件中一如依赖 ...

2020-09-13 15:57:43 3704

转载 现代计算机结构模型以及工作原理

讲的太好了,比喻的很形象,忍不住想分享出来。。。。课件来源 南京大学南京大学 计算机系统基础(一)主讲:袁春风老师视频地址:https://www.bilibili.com/video/BV1kE411X7S5?p=4链接:https://pan.baidu.com/s/1MFcv_aqOS1NRAnFWZKy5Yw提取码:ihrl...

2020-08-16 10:12:14 568

原创 scala的mkString方法

本人最近写了一段很low的代码,代码如下val username: Array[Row] = click_time.select("username").collect()for (i <- 0 until username.length){ id.append("'"+username(i)+"',") }val usernames=id.dropRight(1).toString(). replaceAll("\\[","").

2020-06-21 10:54:45 668

原创 Leetcode做题日记:74. 搜索二维矩阵(java)

题目:看到矩阵的时候,也许你会虚,我线性代数没学好可能写不出来,别怕其实就是二维数组的遍历而已,认识到这一点,你就成功了一半,Just kidding,代码实现不了有思路跟没思路一样,最优算法查找方式见图中红色的箭头;java基础知识:获取二维数组的长度;获取行数:int rowLength = array.length;获取列数:int colLength = array[0].length;上代码:class Solution { public b...

2020-05-18 21:46:52 772 1

原创 10亿数据找出前100大的数据(网易大数据面试算法题)

当时去面试的时候现场现写,憋了将近一个小时,用递归实现了,估计问题很多,不是人家怎么可能不要我,哈哈哈,开个玩笑;思路就是新建一个长度为100数组array1,把前100个元素放进去,排个序,然后再把剩下的元素拿来跟array1里面的元素比较,大于的时候替换,等于的时候就跳出循环取下一个元素,遍历一遍大数组就能取出前100大的数来,没考虑到时间复杂度,心里想实现了就烧高香了,那还管得了那么多。后来回来百度的时候才发现,有更简洁的办法利用堆排实现,具体请见下面大神的博客数据结构——常见的十种.

2020-05-13 22:24:20 4151 2

原创 SimpleDateFormat的灵活用法

val ss= "111.41.197.125 - - [13/Apr/2020:04:10:31 +0000] \"GET /st?type=listen&stype=heart&client=0&username=yuanyinanluxiuxia&step=3&time=1586751029&sectionid=2535897&...

2020-04-13 17:11:01 166 1

原创 com.mongodb.spark.exceptions.MongoTypeConversionException: Cannot cast INT32 into a NullType的解决

mogo原生数据用spark取抽取过来之后老是报这个错误Cannot cast INT32 into a NullType类型转换异常阅读官方文档:mogo为非关系型数据库,相同的字段会存不同的类型的值,sampleSize这个参数在抽取的时候会默认取1000个样本,null的数据到达一定数量以后就会将原来的int转为null,从而出现以上错误,(具体是多少数量未知),...

2019-11-21 09:24:26 1261

原创 sparksql特殊字符转义处理

搬砖要换着法搬,往spark.sql(s"""""")里面传入$,正斜线,反斜线转义没毛用,聪明的人会看下图

2019-11-13 15:41:11 4788 2

原创 用spark从MongoDB抽取数据存到MySQL(数据少一条)

从MongoDB里面用spark抽取数据增量存到MySQL,十天以后发现数据少一条,少了的那一条MongoDB原始数据:spark读取过来的数据:存到MySQ里面的数据:MySQL的表结构:问题原因:存入MySQL时间精度损失造成时间变为2019-11-03 ,到2019-11-04再跑2019-11-03数据的时候,(spark代码内置先删除,后插入,...

2019-11-13 11:58:19 464

原创 spark的sample算子

sample(withReplacement, fraction, seed)以指定的随机种子随机抽样出数量为 fraction 的数据,withReplacement 表示是抽出的数据是否放回,true 为有放回的抽样,false 为无放回的抽样,seed 用于指定随机数生成器种子。例如:从 RDD 中随机且有放回的抽出 50% 的数据,随机种子值为 3(即可能以1 2 3的其中一个起始值...

2019-11-09 10:27:34 918 4

转载 reduceByKey(_ ++ _)

很灵性的用法val y = sc.textFile("file:///root/My_Spark_learning/reduced.txt")y.map(value=>value.split(",")) .map(value=>(value(0),value(1),value(2))) .collect .foreach(println)(1,2,3)(1,...

2019-10-28 17:52:19 1235

原创 com.alibaba.fastjson.JSONObject cannot be cast to java.lang.String

这是什么错呢???今天很累不想写博客com.alibaba.fastjson.JSONObject cannot be cast to java.lang.String原来的代码JSON.parseObject(s.asInstanceOf[String])修改以后的代码JSON.parseObject(s.toString)成功解决问题,又来一个新问题哈哈哈哈...

2019-10-24 19:14:38 6091 1

原创 dataframe中的array变成以逗号隔开的字符串

df的Schema如下:代码 :dataFrame.withColumn("classid", concat_ws(",", col("classId")))效果:

2019-10-15 11:47:56 2463

原创 sparkSQL的全局临时视图

没事还是应该多看看官网,今天创建全局临时视图怎么也调用不到,原来有猫腻Spark SQL中的临时视图是会话作用域的,如果创建它的会话终止,它将消失。如果要在所有会话之间共享一个临时视图并保持活动状态,直到Spark应用程序终止,则可以创建全局临时视图。全局临时视图与系统保留的数据库相关联global_temp,我们必须使用限定名称来引用它,例如SELECT * FROM global_temp...

2019-10-08 17:54:06 1354

原创 MySQL中rank函数实现(@i := 0)

要在mysql中声明一个变量,你必须在变量名之前使用@符号。FROM子句中的(@i := 0)部分允许我们进行变量初始化数据来源:https://blog.csdn.net/fashion2014/article/details/78826299#commentsedit在MySQL中实现Rank高级排名函数https://www.jianshu....

2019-09-20 17:48:26 12033

原创 MySQL高可用

1. MGR简介基于传统异步复制和半同步复制的缺陷——数据的一致性问题无法保证,MySQL官方在5.7.17版本正式推出组复制(MySQL Group Replication,简称MGR)。由若干个节点共同组成一个复制组,一个事务的提交,必须经过组内大多数节点(N / 2 + 1)决议并通过,才能得以提交。如上图所示,由3个节点组成一个复制组,Consensus层为一致性协议层,在事务提交...

2019-09-01 10:29:03 373

原创 hive笔试题(sase when else end)列转行

面试原题建表语句:CREATE TABLE `teach_class` ( `t_num` varchar(12) DEFAULT NULL, `week_num` varchar(12) NOT NULL, `flag` varchar(12) NOT NULL) ENGINE=InnoDB DEFAULT CHARSET=utf8;答案:S...

2019-08-29 21:04:39 251

原创 Apache Kylin基本概念介绍

麒麟者,神兽也,古人以为,其为四灵之一,仁兽,凡其出没,必有祥瑞。Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表联机分析处理(OLAP)是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直...

2019-06-21 19:53:06 1397

原创 hive 的tmp文件

在hive中使用insert overwrite操作时 , 数据会先被写入到数据文件夹的临时文件内 ,路径 /tmp/hive/.hive-starting_hive... .tmp当任务正常结束时,这些临时文件会自动被清理 , 如果出现hive中断 , 或者异常退出 , 这些临时文件会一直保存在hdfs上 , 久而久之 , 越来越多 , 造成大量无用挤压的文件 , 必须手动清理 ....

2019-06-13 19:01:14 4950 1

原创 Spark优化分析

1. 资源优化1). 集群搭建:master节点的..../conf/spark-env.sh中配置:SPARK_WORKER_CORESSPARK_WORKER_MEMORY2). 任务提交中设置参数./spark-submit --master spark://node 001:7077 --class ... jar ...--executor-cores-...

2019-06-10 19:58:19 1190

原创 RDD的五大特性及注意事项

(Resilient Distributed Dateset),弹性分布式数据集1. RDD由一系列的partition组成,有多少个partition就有多少个task;2. 函数作用在每个partition(split)上;3. RDD有一系列的依赖关系; 子RDD的数据来源为父RDD4. 分区器作用在(K,V)键值对的RDD上;5. RDD提供一系列的最佳计算位置...

2019-06-09 14:46:42 786

原创 Spark与MapReduce的区别(全)

1.Spark基于可以基于内存处理数据,Job中间输出结果可以保存在内存中,从而不再需要读写HDFS。2.Spark中有DAG有向无环图。3.Spark存储数据可以指定副本个数,MR默认3个。4.Spark中提供了各种场景 的算子,MR中只有map ,reduce 相当于Spark中的map和reduceByKey两个算子。5.Spark 是粗粒度资源申请,Application执行...

2019-06-04 20:19:10 1840

原创 SparkStreaming数据处理过程

简介SparkStreaming是流式处理框架,是Spark API的扩展,支持可扩展、高吞吐量、容错的实时数据流处理,实时数据的来源可以是:Kafka, Flume, Twitter, ZeroMQ或者TCP sockets,并且可以使用高级功能的复杂算子来处理流数据。例如:map, reduce, join, window 。最终,处理后的数据可以存放在文件系统,数据库等,方便实时展现。...

2019-05-30 22:13:15 1093

原创 spark的二次排序(封装对象)

二次排序原理Spark中大于两列的排序都叫二次排序,二次排序就是首先按照第一字段排序,然后再对第一字段相同的行按照第二字段排序,注意不能破坏第一次排序的结果,本文采用封装对象的编程思想进行二次排序,大大简化的代码的复杂度。废话少说,上代码...实践是检验真理的唯一标准.......java代码实现:package qq1;import org.apache.spark...

2019-05-28 21:39:42 748 1

原创 图解Spark的任务提交的四种方式

2019-05-23 21:33:07 1220

原创 有人第一次把SparkCore说的这么明白!!!!

RDD概念RDD(Resilient Distributed Dateset),弹性分布式数据集。RDD的五大特性:RDD是由一系列的partition组成的。 函数是作用在每一个partition(split)上的。 RDD之间有一系列的依赖关系。 分区器是作用在K,V格式的RDD上。 RDD提供一系列最佳的计算位置。RDD理解图:注意:textFile...

2019-05-22 15:09:50 913 2

原创 scala一行代码实现经典实例wordcount

原始代码import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object WorldCount { def main(args: Array[String]): Unit = { val conf =new SparkConf() //设置本地运行 ...

2019-05-21 21:12:58 1170

原创 MapReduce的combiner (经典实例wordcount带你get combiner, 此文绝对精辟...)

一个MapReduce的job,在map之后,reduce之前,会有一个数据聚集的过程,即map完的数据会按照key聚集在一起,会有一个shuffle的过程,然后再进入reduce。combiner好处:降低shuffle write写磁盘的数据量。 降低shuffle read拉取数据量的大小。 降低reduce端聚合的次数。在不同的节点上的map会将同一个key的数据传输到同一个...

2019-05-20 20:35:18 995

原创 你想知道关于hive的所有东西都在这了

官方教程工作中经常用到的SQL语句,原来都在这里...有了这个链接,工作用到hive就不用愁了...传送门:https://cwiki.apache.org/confluence/display/Hive/Tutorial#Tutorial-Dynamic-PartitionInsert...

2019-05-19 12:41:12 259

转载 MapReduce作业提交流程(详解)

文章来源:知乎原文链接:职业法师刘海柱1、客户端,提交MapReduce作业2、YARN的资源管理器(Resource Manager),协调集群中计算资源的分配3、YARN的节点管理器(Node Manager),启动并监控集群中的计算容器4、MapReduce的Application Master,协调MapReduce作业中任务的运行。Applica...

2019-05-17 15:10:26 2798

转载 23种设计模式--单例模式

来自: 知乎作者:Sunshine·He(高富帅的主页)文章地址:https://zhuanlan.zhihu.com/p/612579181.前言在Java开发过程中,很多场景下都会碰到或要用到单例模式,在设计模式里也是经常作为指导学习的热门模式之一,相信每位开发同事都用到过。为了更好地理解,重新学习了单例模式,并写了本篇文章,希望能帮助到你,也请各位大神能多多指教。...

2019-05-14 22:11:07 624

转载 [面试]——深入理解JVM学习笔记

引今天周五,工作不算忙,人都走的差不多了,学习不能停,不管是在csdn,还是腾讯云社区经常看到王磊大神的博客,他的jvm系列的文章真的写的不错,值得深扣,看不进去书,那就站在巨人的肩膀上,肯定看的更远!!!JVM是Java Virtual Machine的缩写,中文翻译为Java虚拟机,JVM是用来解析和运行Java程序的。一、jvm的主要组成部分类加载器(ClassLo...

2019-05-10 20:02:23 1221 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除