帮我消消黑眼圈！-CSDN博客

原创 Perhaps you are running on a JRE rather than a JDK?

我记得我遇到过好多次 mvn clean package的时候报错；最后检查时这里的路径配置错了。

2023-07-06 14:04:06 676

原创程序员节你们公司都有什么活动

现在公司组织线下活动，下午出去hi皮，还有聚餐，nice！之前的公司就发了个苹果，在上面写了少写bug之类的话，

2022-10-24 10:46:29 2569 1

最近比较忙，懒得写；https://www.infoq.cn/article/vgabiodeum87hv6x8qll 快手实践https://developer.aliyun.com/article/762089?spm=a2c6h.12873639.0.0.2ab34011TCYHElhttps://segmentfault.com/a/1190000039292250好未来实践https://dbaplus.cn/news-73-2939-1.html趣头条实践https:/...

2021-06-02 20:00:53 2612

原创 MySQL可怕的笛卡尔积

以前总说笛卡尔积会引起数据膨胀，都没当回事，当你遇见的时候，才知道它有多可怕，还好服务器没有被我跑挂掉；mysql的查询语句如下：selecta.id,b.cidfrom a inner join b on a.user_name=b.user_name and b.registerdate='2021-01-24'where a.registerdate='2021-01-24'写了一个存储过程，按照用户的注册日期去一天一天的追加历史数据，a表和b表的的关联字段，注册日期字段.

2021-01-24 20:33:19 3246 1

原创某某跳动公司的面试hivesql题目

题干某APP需要对最近连续登录3天以上的用户做消息推送，现有用户登录信息表user_login，请用sql按照登录时间倒序筛选出最近的一次连续登录4天以上的用户以及连续登录的开始日期和截止日期。select user_id,login_days,min_login_date,max_login_datefrom ( select user_id,login_days,min_login_date,max_login_date, case when data_sub(max_st.

2020-12-12 19:56:03 186

原创单向链表java实现以及相关操作

干货:一文弄懂链表结构,以后再也别问我什么是链表数据结构啦!直接上代码package singleLenkedList;import java.util.Stack;public class MySingleLinkedList { public static void main(String[] args) {// 先创建节点 Node h1=new Node(1,"唐僧","和尚"); Node h2 =new Node(...

2020-11-12 22:23:18 117

原创利用hive映射表完成hbase的批量删除操作

1.创建hive的hbase的映射表（我使用的是阿里云大数据平台，hbase的相关jar以及配置文件已经拷贝到hive相应的目录下面，该步骤省略）CREATE EXTERNAL TABLE `xxxxxxxxx`( `keyid` string COMMENT 'from deserializer', `action` string COMMENT 'from deserializer') ROW FORMAT SERDE 'org.apache.hadoop.hive....

2020-10-15 20:56:54 517

原创 sqoop抽取mysql的数据到hive表里面，字段内容被自动截取，导致字段不全的问题解决

今天央视重新转播NBA，写篇博客纪念一下这个重要的日子，湖人的表现就呵呵了！！！！强行转到博客的主题来mysql的字段属性：该字段能存下的值比如：“山东”`province` varchar(3) NOT NULL COMMENT '省份'用sqoopsqoop import --connect "jdbc:mysql://xxxxxx:3306/xxxxxx?tinyInt1isBit=false&zeroDateTimeBehavior=convertToNull..

2020-10-10 19:54:30 768

原创彻底解决错误（Incorrect string value: ‘\xF0\x9F\x98\xA3\xF0\x9F...‘ for column ‘realname‘）saprk-mysql

问题描述用spark同步mongo的数据存到mysql中，偶遇字段realname的值中有个表包含Emoji表情或者某些特殊字符，导致数据写不到mysql中 ----任务失败；一开始错误的思路是找到这条数据把它给过滤掉，try试了n多次依旧不好使，不得已只能换个思路继续搬砖，打开我们万能的github问题才得以解决。github的项目地址：https://github.com/cattom114/emoji-java解决步骤1、在pom文件中一如依赖 ...

2020-09-13 15:57:43 3704

转载现代计算机结构模型以及工作原理

讲的太好了，比喻的很形象，忍不住想分享出来。。。。课件来源南京大学南京大学计算机系统基础(一)主讲：袁春风老师视频地址：https://www.bilibili.com/video/BV1kE411X7S5?p=4链接：https://pan.baidu.com/s/1MFcv_aqOS1NRAnFWZKy5Yw提取码：ihrl...

2020-08-16 10:12:14 568

原创 scala的mkString方法

本人最近写了一段很low的代码，代码如下val username: Array[Row] = click_time.select("username").collect()for (i <- 0 until username.length){ id.append("'"+username(i)+"',") }val usernames=id.dropRight(1).toString(). replaceAll("\\[","").

2020-06-21 10:54:45 668

原创 Leetcode做题日记：74. 搜索二维矩阵(java)

题目：看到矩阵的时候，也许你会虚，我线性代数没学好可能写不出来，别怕其实就是二维数组的遍历而已，认识到这一点，你就成功了一半，Just kidding，代码实现不了有思路跟没思路一样，最优算法查找方式见图中红色的箭头;java基础知识：获取二维数组的长度；获取行数：int rowLength = array.length;获取列数：int colLength = array[0].length;上代码：class Solution { public b...

2020-05-18 21:46:52 772 1

原创 10亿数据找出前100大的数据(网易大数据面试算法题)

当时去面试的时候现场现写，憋了将近一个小时，用递归实现了，估计问题很多，不是人家怎么可能不要我，哈哈哈，开个玩笑；思路就是新建一个长度为100数组array1，把前100个元素放进去，排个序，然后再把剩下的元素拿来跟array1里面的元素比较，大于的时候替换，等于的时候就跳出循环取下一个元素，遍历一遍大数组就能取出前100大的数来，没考虑到时间复杂度，心里想实现了就烧高香了，那还管得了那么多。后来回来百度的时候才发现，有更简洁的办法利用堆排实现，具体请见下面大神的博客数据结构——常见的十种.

2020-05-13 22:24:20 4151 2

原创 SimpleDateFormat的灵活用法

val ss= "111.41.197.125 - - [13/Apr/2020:04:10:31 +0000] \"GET /st?type=listen&stype=heart&client=0&username=yuanyinanluxiuxia&step=3&time=1586751029&sectionid=2535897&...

2020-04-13 17:11:01 166 1

原创 com.mongodb.spark.exceptions.MongoTypeConversionException: Cannot cast INT32 into a NullType的解决

mogo原生数据用spark取抽取过来之后老是报这个错误Cannot cast INT32 into a NullType类型转换异常阅读官方文档：mogo为非关系型数据库，相同的字段会存不同的类型的值，sampleSize这个参数在抽取的时候会默认取1000个样本，null的数据到达一定数量以后就会将原来的int转为null，从而出现以上错误，（具体是多少数量未知），...

2019-11-21 09:24:26 1261

原创 sparksql特殊字符转义处理

搬砖要换着法搬，往spark.sql(s"""""")里面传入$，正斜线，反斜线转义没毛用，聪明的人会看下图

2019-11-13 15:41:11 4788 2

原创用spark从MongoDB抽取数据存到MySQL(数据少一条)

从MongoDB里面用spark抽取数据增量存到MySQL，十天以后发现数据少一条，少了的那一条MongoDB原始数据：spark读取过来的数据：存到MySQ里面的数据：MySQL的表结构：问题原因：存入MySQL时间精度损失造成时间变为2019-11-03 ，到2019-11-04再跑2019-11-03数据的时候，（spark代码内置先删除，后插入，...

2019-11-13 11:58:19 464

原创 spark的sample算子

sample(withReplacement, fraction, seed)以指定的随机种子随机抽样出数量为 fraction 的数据，withReplacement 表示是抽出的数据是否放回，true 为有放回的抽样，false 为无放回的抽样，seed 用于指定随机数生成器种子。例如：从 RDD 中随机且有放回的抽出 50% 的数据，随机种子值为 3（即可能以1 2 3的其中一个起始值...

2019-11-09 10:27:34 918 4

转载 reduceByKey(_ ++ _)

很灵性的用法val y = sc.textFile("file:///root/My_Spark_learning/reduced.txt")y.map(value=>value.split(",")) .map(value=>(value(0),value(1),value(2))) .collect .foreach(println)(1,2,3)(1,...

2019-10-28 17:52:19 1235

原创 com.alibaba.fastjson.JSONObject cannot be cast to java.lang.String

这是什么错呢？？？今天很累不想写博客com.alibaba.fastjson.JSONObject cannot be cast to java.lang.String原来的代码JSON.parseObject(s.asInstanceOf[String])修改以后的代码JSON.parseObject(s.toString)成功解决问题，又来一个新问题哈哈哈哈...

2019-10-24 19:14:38 6091 1

原创 dataframe中的array变成以逗号隔开的字符串

df的Schema如下：代码：dataFrame.withColumn("classid", concat_ws(",", col("classId")))效果：

2019-10-15 11:47:56 2463

原创 sparkSQL的全局临时视图

没事还是应该多看看官网，今天创建全局临时视图怎么也调用不到，原来有猫腻Spark SQL中的临时视图是会话作用域的，如果创建它的会话终止，它将消失。如果要在所有会话之间共享一个临时视图并保持活动状态，直到Spark应用程序终止，则可以创建全局临时视图。全局临时视图与系统保留的数据库相关联global_temp，我们必须使用限定名称来引用它，例如SELECT * FROM global_temp...

2019-10-08 17:54:06 1354

原创 MySQL中rank函数实现（@i := 0）

要在mysql中声明一个变量，你必须在变量名之前使用@符号。FROM子句中的(@i := 0)部分允许我们进行变量初始化数据来源：https://blog.csdn.net/fashion2014/article/details/78826299#commentsedit在MySQL中实现Rank高级排名函数https://www.jianshu....

2019-09-20 17:48:26 12033

原创 MySQL高可用

1. MGR简介基于传统异步复制和半同步复制的缺陷——数据的一致性问题无法保证，MySQL官方在5.7.17版本正式推出组复制（MySQL Group Replication，简称MGR）。由若干个节点共同组成一个复制组，一个事务的提交，必须经过组内大多数节点（N / 2 + 1）决议并通过，才能得以提交。如上图所示，由3个节点组成一个复制组，Consensus层为一致性协议层，在事务提交...

2019-09-01 10:29:03 373

原创 hive笔试题（sase when else end）列转行

面试原题建表语句：CREATE TABLE `teach_class` ( `t_num` varchar(12) DEFAULT NULL, `week_num` varchar(12) NOT NULL, `flag` varchar(12) NOT NULL) ENGINE=InnoDB DEFAULT CHARSET=utf8;答案：S...

2019-08-29 21:04:39 251

原创 Apache Kylin基本概念介绍

麒麟者，神兽也，古人以为，其为四灵之一，仁兽，凡其出没，必有祥瑞。Apache Kylin™是一个开源的分布式分析引擎，提供Hadoop/Spark之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表联机分析处理(OLAP)是数据仓库系统的主要应用，支持复杂的分析操作，侧重决策支持，并且提供直...

2019-06-21 19:53:06 1397

原创 hive 的tmp文件

在hive中使用insert overwrite操作时 , 数据会先被写入到数据文件夹的临时文件内 ,路径 /tmp/hive/.hive-starting_hive... .tmp当任务正常结束时,这些临时文件会自动被清理 , 如果出现hive中断 , 或者异常退出 , 这些临时文件会一直保存在hdfs上 , 久而久之 , 越来越多 , 造成大量无用挤压的文件 , 必须手动清理 ....

2019-06-13 19:01:14 4950 1

原创 Spark优化分析

1. 资源优化1). 集群搭建:master节点的..../conf/spark-env.sh中配置:SPARK_WORKER_CORESSPARK_WORKER_MEMORY2). 任务提交中设置参数./spark-submit --master spark://node 001:7077 --class ... jar ...--executor-cores-...

2019-06-10 19:58:19 1190

原创 RDD的五大特性及注意事项

(Resilient Distributed Dateset)，弹性分布式数据集1. RDD由一系列的partition组成,有多少个partition就有多少个task;2. 函数作用在每个partition(split)上;3. RDD有一系列的依赖关系; 子RDD的数据来源为父RDD4. 分区器作用在(K,V)键值对的RDD上;5. RDD提供一系列的最佳计算位置...

2019-06-09 14:46:42 786

原创 Spark与MapReduce的区别(全)

1.Spark基于可以基于内存处理数据,Job中间输出结果可以保存在内存中，从而不再需要读写HDFS。2.Spark中有DAG有向无环图。3.Spark存储数据可以指定副本个数，MR默认3个。4.Spark中提供了各种场景的算子，MR中只有map ,reduce 相当于Spark中的map和reduceByKey两个算子。5.Spark 是粗粒度资源申请，Application执行...

2019-06-04 20:19:10 1840

原创 SparkStreaming数据处理过程

简介SparkStreaming是流式处理框架，是Spark API的扩展，支持可扩展、高吞吐量、容错的实时数据流处理，实时数据的来源可以是：Kafka, Flume, Twitter, ZeroMQ或者TCP sockets，并且可以使用高级功能的复杂算子来处理流数据。例如:map, reduce, join, window 。最终，处理后的数据可以存放在文件系统，数据库等，方便实时展现。...

2019-05-30 22:13:15 1093

原创 spark的二次排序(封装对象)

二次排序原理Spark中大于两列的排序都叫二次排序,二次排序就是首先按照第一字段排序，然后再对第一字段相同的行按照第二字段排序，注意不能破坏第一次排序的结果,本文采用封装对象的编程思想进行二次排序,大大简化的代码的复杂度。废话少说,上代码...实践是检验真理的唯一标准.......java代码实现:package qq1;import org.apache.spark...

2019-05-28 21:39:42 748 1

原创图解Spark的任务提交的四种方式

2019-05-23 21:33:07 1220

原创有人第一次把SparkCore说的这么明白!!!!

RDD概念RDD(Resilient Distributed Dateset)，弹性分布式数据集。RDD的五大特性：RDD是由一系列的partition组成的。函数是作用在每一个partition（split）上的。 RDD之间有一系列的依赖关系。分区器是作用在K,V格式的RDD上。 RDD提供一系列最佳的计算位置。RDD理解图:注意：textFile...

2019-05-22 15:09:50 913 2

原创 scala一行代码实现经典实例wordcount

原始代码import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object WorldCount { def main(args: Array[String]): Unit = { val conf =new SparkConf() //设置本地运行 ...

2019-05-21 21:12:58 1170

原创 MapReduce的combiner (经典实例wordcount带你get combiner, 此文绝对精辟...)

一个MapReduce的job，在map之后，reduce之前，会有一个数据聚集的过程，即map完的数据会按照key聚集在一起，会有一个shuffle的过程，然后再进入reduce。combiner好处：降低shuffle write写磁盘的数据量。降低shuffle read拉取数据量的大小。降低reduce端聚合的次数。在不同的节点上的map会将同一个key的数据传输到同一个...

2019-05-20 20:35:18 995

原创你想知道关于hive的所有东西都在这了

官方教程工作中经常用到的SQL语句,原来都在这里...有了这个链接,工作用到hive就不用愁了...传送门:https://cwiki.apache.org/confluence/display/Hive/Tutorial#Tutorial-Dynamic-PartitionInsert...

2019-05-19 12:41:12 259

转载 MapReduce作业提交流程(详解)

文章来源:知乎原文链接:职业法师刘海柱1、客户端，提交MapReduce作业2、YARN的资源管理器（Resource Manager），协调集群中计算资源的分配3、YARN的节点管理器（Node Manager），启动并监控集群中的计算容器4、MapReduce的Application Master，协调MapReduce作业中任务的运行。Applica...

2019-05-17 15:10:26 2798

转载 23种设计模式--单例模式

来自: 知乎作者:Sunshine·He(高富帅的主页)文章地址:https://zhuanlan.zhihu.com/p/612579181.前言在Java开发过程中，很多场景下都会碰到或要用到单例模式，在设计模式里也是经常作为指导学习的热门模式之一，相信每位开发同事都用到过。为了更好地理解，重新学习了单例模式，并写了本篇文章，希望能帮助到你，也请各位大神能多多指教。...

2019-05-14 22:11:07 624

转载 [面试]——深入理解JVM学习笔记

引今天周五,工作不算忙,人都走的差不多了,学习不能停,不管是在csdn,还是腾讯云社区经常看到王磊大神的博客,他的jvm系列的文章真的写的不错,值得深扣,看不进去书,那就站在巨人的肩膀上,肯定看的更远!!!JVM是Java Virtual Machine的缩写，中文翻译为Java虚拟机，JVM是用来解析和运行Java程序的。一、jvm的主要组成部分类加载器（ClassLo...

2019-05-10 20:02:23 1221 1

空空如也

空空如也