Hi_Shook-CSDN博客

原创算法刷题入门数据结构|二分查找

一.二分查找基础1、二分查找介绍二分查找(Binary search)也称折半查找，是一种效率较高的查找方法，时间复杂度。当对查数题目有时间复杂度要求是，首先就要考虑到二分查找。二分查找的思想很简单，属于分治策略的变种情况。但是，二分查找要求线性表中的记录必须是有序的集合，每次都通过跟区间的中间元素对比，将待查找的区间缩小为之前的一半，直到找到要查找的元素，或者区间被缩小为 0，所以必须采用...

2022-12-11 20:40:00 1858

原创算法刷题入门线性表|单调栈

一、概念1、栈的定义栈是仅限在一端进行插入和删除的线性表。栈又被称为后进先出 (Last In First Out) 的线性表，简称 LIFO 。2、栈顶栈是一个线性表，我们把允许插入和删除的一端称为栈顶。3、栈底和栈顶相对，另一端称为栈底，实际上，栈底的元素我们不需要关心。二、接口1、可写接口1)数据入栈栈的插入操作，叫做...

2022-12-04 10:36:00 439

原创 Java中进制基础知识与算法题

本篇文章旨在给大家普及下计算机内部数据的机器级表示方式，即：二进制、八进制、十进制、十六进制…对于进制，我们从小最先接触的是十进制，这个也是我们日常生活中应用最多的数值统计方式。然而，现实中我们感觉到的媒体信息(如图文、音频、动画等)，在计算机世界里，它们又是怎么表现的呢？也是1,2,3,4…这样表示？显然，是不可能的。你可能会问为什么呢？在计算机中所有信息都采用二进制编码表示，因为机器处理...

2022-11-30 21:05:00 626

原创性能爆表：利用ThreadPoolTaskExecutor批量插入百万级数据实测！

来源：azdebug.blog.csdn.net/article/details/103697108前言开发目的：提高百万级数据插入效率。采取方案：利用ThreadPoolTaskExecutor多线程批量插入。采用技术：springboot2.1.1mybatisPlus3.0.6swagger2.5.0Lombok1.18.4postgresqlThreadPool...

2022-11-09 21:34:00 322

原创 Java 内存泄漏了，怎么排查？

报警信息显示探测的几个接口有超时情况，多数执行栈都在：java.io.BufferedReader.readLine(BufferedReader.java:371)java.io.BufferedReader.readLine(BufferReader.java:389)java_io_BufferedReader$readLine.call(UnknownSource)com.d...

2022-11-07 21:43:00 270

原创 Spark2.1读取Mysql数据，中文显示正常；处理后写入mysql出现中文乱码????? 的问题

在本次spark2.1进行数据处理的过程中，遇到的问题是：val spark = SparkSession.builder .config(sparkConf).getOrCreate()//创建jdbc连接信息val uri = url + "?user=" + username + "&password=" + password + "&useUnicode=true&characterEncoding=UTF-8&useSSL=fal

2020-09-21 10:36:18 806

原创 hive函数之~窗口函数与分析函数

hive当中也带有很多的窗口函数以及分析函数，主要用于以下这些场景（1）用于分区排序（2）动态Group By（3）Top N（4）累计计算（5）层次查询1、创建hive表并加载数据创建表hive (hive_explode)> create table order_detail( user_id string,de...

2020-07-05 20:05:00 368

原创 hive函数之~reflect函数

reflect函数可以支持在sql中调用java中的自带函数，秒杀一切udf函数。使用java.lang.Math当中的Max求两列中最大值创建hive表create table test_udf(col1 int,col2 int) row format delimited fields terminated by ',';准备数据并加载数据cd /export/ser...

2020-07-05 19:49:00 1694

原创 hive函数之~行转列与列转行

4、行转列1．相关函数说明CONCAT(string A/col, string B/col…)：返回输入字符串连接后的结果，支持任意个输入字符串;CONCAT_WS(separator, str1, str2,...)：它是一个特殊形式的 CONCAT()。第一个参数剩余参数间的分隔符。分隔符可以是与剩余参数一样的字符串。如果分隔符是 NULL，返回值也将为 NULL。这个函数会...

2020-07-05 19:45:00 489

原创 hive函数之~hive当中的lateral view 与 explode

1、使用explode函数将hive表中的Map和Array字段数据进行拆分 lateral view用于和split、explode等UDTF一起使用的，能将一行数据拆分成多行数据，在此基础上可以对拆分的数据进行聚合，lateral view首先为原始表的每行调用UDTF，UDTF会把一行拆分成一行或者多行，lateral view在把结果组合，产生一个支持别名表的虚拟表。其...

2020-07-05 19:40:00 591

原创 hive函数之~复杂类型长度统计函数

1.Map类型长度函数: size(Map<k .V>)语法: size(Map<k .V>)返回值: int说明: 返回map类型的长度hive> select size(t) from map_table2;2 2.array类型长度函数:size(Array<T>)语法: size(Ar...

2020-07-05 19:12:00 788

原创 hive函数之~复杂类型访问操作

1、array类型访问: A[n]语法: A[n]操作类型: A为array类型，n为int类型说明：返回数组A中的第n个变量值。数组的起始下标为0。比如，A是个值为['foo','bar']的数组类型，那么A[0]将返回'foo',而A[1]将返回'bar'hive> create table arr_table2 as select array("tom"...

2020-07-05 19:10:00 185

原创 hive函数之~复合类型构建操作

1、Map类型构建: map ****语法: map (key1, value1, key2, value2, …)说明：根据输入的key和value对构建map类型hive> Create table mapTable as select map('100','tom','200','mary') as t from tableName;hive> ...

2020-07-05 19:05:00 126

原创 hive函数之~集合统计函数

1、个数统计函数: count ***语法: count(*), count(expr), count(DISTINCT expr[, expr_.])返回值: int说明: count(*)统计检索出的行的个数，包括NULL值的行；count(expr)返回指定字段的非空值的个数；count(DISTINCT expr[, expr_.])返回指定字段的不同的非空值的个数...

2020-07-05 19:03:00 726

原创 hive函数之~字符串函数

1、字符串长度函数：length语法: length(string A)返回值: int说明：返回字符串A的长度hive> select length('abcedfg') from tableName;7 2、字符串反转函数：reverse语法: reverse(string A)返回值: string说明：返回字符串A的反...

2020-07-05 18:24:00 615

原创 hive函数之~条件函数

1、If函数: if ***语法: if(boolean testCondition, T valueTrue, T valueFalseOrNull)返回值: T说明: 当条件testCondition为TRUE时，返回valueTrue；否则返回valueFalseOrNullhive> select if(1=2,100,200) from tableN...

2020-07-05 18:05:00 677

原创 hive函数之~日期函数

1、UNIX时间戳转日期函数: from_unixtime ***语法: from_unixtime(bigint unixtime[, string format])返回值: string说明: 转化UNIX时间戳（从1970-01-01 00:00:00 UTC到指定时间的秒数）到当前时区的时间格式hive> select from_unixtime(13...

2020-07-05 18:02:00 307

原创 hive函数之~数值计算

1、取整函数: round ***语法: round(double a)返回值: BIGINT说明: 返回double类型的整数值部分（遵循四舍五入）hive> select round(3.1415926) from tableName;3hive> select round(3.5) from tableName;4hive> ...

2020-07-05 17:48:00 543

原创 hive函数之~关系运算

1、等值比较: =语法：A=B操作类型：所有基本类型描述: 如果表达式A与表达式B相等，则为TRUE；否则为FALSEhive> select 1 from tableName where 1=1; 2、不等值比较:<>语法: A <> B操作类型: 所有基本类型描述: 如果表达式A为NUL...

2020-07-05 16:55:00 258

原创 dolphinscheduler资源中心上传文档，出现tenant not exists 错误

dolphinscheduler资源中心上传文档，出现tenant not exists 错误。1.出现上述错误是没有新建用户。2.新建用户后，并在HDFS新建该用户的文件路径。以用户登陆，上传文档。

2020-06-26 16:09:46 2548

原创 Unable to instantiate SparkSession with Hive support because Hive classes are not found.

CDH集群执行spark sql，出现下面错误：ERROR ApplicationMaster:94 - User class threw exception: java.lang.IllegalArgumentException: Unable to instantiate SparkSession with Hive support because Hive classes are not found.java.lang.IllegalArgumentException: Unable to i.

2020-06-25 19:27:32 1618

原创 hdfs编程-读写/合并小文件

HDFS编程写数据package com.lowi.hadoop.hdfs;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop....

2019-11-29 17:13:00 171

原创 hadoop知识系列：Hadoop fs命令

1. hdfs基本操作hadoop fs类似于hdfs dfs如何查看hdfs子命令的帮助信息，如ls子命令hdfs dfs -help rmdir查看hdfs文件系统中已经存在的文件hdfs dfs -ls /hadoop fs -ls /在hdfs文件系统中创建文件hdfs dfs -touc...

2019-11-29 16:32:00 1387

原创 sparksql基础知识二

目标掌握sparksql操作jdbc数据源掌握sparksql保存数据操作掌握sparksql整合hive要点1. jdbc数据源spark sql可以通过 JDBC 从关系型数据库中读取数据的方式创建DataFrame，通过对DataFrame一系列的计算后，还可以将数据再写回关系型数据库中1.1 通过spar...

2019-11-13 20:52:00 203

原创 sparksql基础知识一

目标掌握sparksql底层原理掌握sparksql中DataFrame和DataSet的数据结构和使用方式掌握通过sparksql开发应用程序要点1.sparksql概述1.1 sparksql的前世今生Shark是专门针对于spark的构建大规模数据仓库系统的一个框架Shark与Hive兼容、同时也依赖于...

2019-11-13 20:30:00 192

原创 spark基础知识四

围绕spark的其他特性和应用。主要包括以下几个方面spark自定义分区spark中的共享变量spark程序的序列化问题spark中的application/job/stage/task之间的关系spark on yarn原理和机制spark的资源分配方式1. spark自定义分区1.1 自定义分区说...

2019-10-19 19:02:00 202

原创 spark core知识问题三

1.union操作是产生宽依赖还是窄依赖？产生窄依赖2.窄依赖父RDD的partition和子RDD的parition是不是都是一对一的关系？不一定，除了一对一的窄依赖，还包含一对固定个数的窄依赖（就是对父RDD的依赖的Partition的数量不会随着RDD数量规模的改变而改变），比如join操作的每个partiion仅仅和已知的partition进行join，这个join操...

2019-10-07 22:40:00 98

原创 spark基础知识三

主要围绕spark的底层核心抽象RDD和原理进行理解。主要包括以下几个方面RDD弹性分布式数据集的依赖关系RDD弹性分布式数据集的lineage血统机制RDD弹性分布式数据集的缓存机制spark任务的DAG有向无环图的构建spark任务如何划分stagespark任务的提交和调度流程1. RDD的依赖关系...

2019-10-07 22:37:00 202

原创 spark core知识问题二

1.map和flatmap的区别map：对RDD每个元素转换，文件中的每一行数据返回一个数组对象。flatMap：对RDD每个元素转换，然后再扁平化。将所有的对象合并为一个对象，文件中的所有行数据仅返回一个数组对象，会抛弃值为null的值。2.RDD的弹性表现在哪几点？1）自动的进行内存和磁盘的存储切换；2）基于Lingage的高效容错；3）task如果失败会...

2019-10-07 21:37:00 79

转载 spark基础知识二

主要围绕spark的底层核心抽象RDD进行理解。主要包括以下几个方面RDD弹性分布式数据集的概念RDD弹性分布式数据集的五大属性RDD弹性分布式数据集的算子操作分类RDD弹性分布式数据集的算子操作练习1. RDD是什么RDD（Resilient Distributed Dataset）叫做==弹性分布式数据集==，是...

2019-10-07 21:34:00 155

原创 VMware Workstation Pro 无法在Windows上运行问题（针对windows10）

是由于微软的更新程序引起的问题，只要将最近的一次更新程序卸载然后重启即可。操作如图所示：找到控制面板->程序->程序与功能，然后点击卸载程序。找到最新的一次微软的更新，然后将这个更新卸载，重启即可使用。如图：将选中的卸载即可。转载自：https://blog.csdn.net/qq_40605167/article/details/102307504...

2019-10-07 16:41:00 277

原创 spark基础知识一

1. spark是什么Apache Spark™ is a unified analytics engine for large-scale data processing.spark是针对于大规模数据处理的统一分析引擎 spark是在Hadoop基础上的改进，是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的...

2019-10-05 20:06:00 230

原创 spark core知识问题一

1.描述spark的安装模式答：1) 本地模式 2) standalone 模式 3) spark on yarn 模式 4) mesos模式2.spark有哪些组件，每个组件的作用是什么答：master：管理集群和节点，不参与计算。 worker：计算节点，进程本身不参与计算，向master汇报。 ...

2019-10-04 21:25:00 87

原创 scala基础知识

1. scala简介scala是运行在 JVM 上的多范式编程语言，同时支持面向对象和面向函数编程早期scala刚出现的时候，并没有怎么引起重视，随着Spark和Kafka这样基于scala的大数据框架的兴起，scala逐步进入大数据开发者的眼帘。scala的主要优势是它的表达性。官网地址http://www.scala-lang.org...

2019-10-04 20:32:00 381

原创 hive基础知识五

Hive 主流文件存储格式对比1、存储文件的压缩比测试1.1 测试数据https://github.com/liufengji/Compression_Format_Datalog.txt 大小为18.1 M1.2 TextFile创建表，存储数据格式为TextFilecreate table log_text (trac...

2019-10-03 08:58:00 228

原创数据仓库之数据分析

1. 数据仓库基本介绍　　英文名称为Data Warehouse，可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境，为企业提供决策支持（Decision Support）。它出于分析性报告和决策支持目的而创建。　　数据仓库本身并不“生产”任何数据，同时自身也不需要“消费”任何的数据，数据来源于外部，并且开放给外部应用，这也是为什么叫“仓库”，而不叫“工厂”的原因...

2019-10-03 08:58:00 2265 1

原创 hive基础知识四

1. hive表的数据压缩1.1 数据的压缩说明压缩模式评价可使用以下三种标准对压缩方式进行评价1、压缩比：压缩比越高，压缩后文件越小，所以压缩比越高越好2、压缩时间：越快越好3、已经压缩的格式文件是否可以再分割：可以分割的格式允许单一文件由多个Mapper程序处理，可以更好的并行化常见压...

2019-10-03 08:57:00 171

原创 hive基础知识三

1. 基本查询注意SQL 语言大小写不敏感SQL 可以写在一行或者多行关键字不能被缩写，也不能分行各子句一般要分行写使用缩进提高语句的可读性1.1 全表和特定列查询全表查询select * from student;选择特定列查询sele...

2019-10-03 08:08:00 137

原创 hive基础知识二

1. Hive的分区表1.1 hive的分区表的概念在文件系统上建立文件夹，把表的数据放在不同文件夹下面，加快查询速度。1.2 hive分区表的构建创建一个分区字段的分区表hive> create table student_partition1( id int, name string, age ...

2019-10-03 08:04:00 156

原创 hive基础知识一

1. Hive是什么1.1 hive的概念Hive：由Facebook开源，用于解决海量（结构化日志）的数据统计。Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质是：将Hive SQL转化成MapReduce程序1.2 Hive与数据库的区别Hive 具有 SQL 数据库的外表，但应...

2019-10-03 08:03:00 1247 1

空空如也

空空如也