自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(52)
  • 资源 (7)
  • 收藏
  • 关注

原创 maven命令行下载依赖

maven项目中错误,使用maven reimport 不能解决,试试maven命令行下载依赖。

2023-03-02 16:21:24 1060

原创 spark3 本地读hive 1.1.0版本,解决版本兼容问题

Spark3 读 hive 1.1.0 遇到的问题Exception in thread "main" org.apache.spark.sql.AnalysisException: org.apache.hadoop.hive.ql.metadata.HiveException: Unable to fetch table test1. Invalid method name: 'get_table_req'; at org.apache.spark.sql.hive.HiveExternalCata

2021-10-14 17:59:43 1898

原创 如何让git commit更简洁

第一步:学会合并commit同一个任务commit提交了好多次,不够简洁,使用下面的方法,让你实现一个任务只有一个commit,简洁干净git rebase -i HEAD~4这时候,会自动进入 vi 编辑模式:pick 422b1c63 [update] 添加语法解析错误定位pick 1242f03f feat:add et DxyHDFSBatchDeletepick 21b09d57 fix:mlsql-canalpick c00981a8 feat(mlsql-dxy): add e

2021-09-23 11:24:08 451

原创 Spark SQL Catalyst PartitionFilters

遇到的问题spark sql当使用分区字段过滤时,分区过滤在where中的顺序对查询效率有没有影响,如下两个sql,分区字段为hp_stat_date1.分区过滤在where条件中排最前(sqlA)select dxyid as usernamefrom bdl_app_server_diwhere hp_stat_date between "2021-08-02" and "2021-08-08"and (lv='mama-0.1')group by dxyid2.分区过滤在where条

2021-09-02 18:30:10 421

原创 ValueError: Can not reduce() empty RDD

ValueError: Can not reduce() empty RDD异常代码:allocation_result_df = order_df.repartition("product_no").rdd.mapPartitions(allocation_method).toDF()异常信息:Traceback (most recent call last): File "/data/azkaban/3.90.0/azkaban-exec-server-3.90.0/executions/

2021-03-12 14:11:14 733

原创 大数据面试题整理

1.HashMap和Hashtable区别2.HashMap、Hashtable、ConcurrentHashMap的原理与区别3.Java垃圾回收机制和生命周期4.怎么解决Kafka数据丢失的问题5.zookeeper是如何保证数据一致性的6.hadoop和spark在处理数据时,处理出现内存溢出的方法有哪些?7.Spark 如何调优8.Flink和Spark的通信架构有什么异同9.Java的代理10.Java的内存溢出和内存泄露11.Hadoop的组件有哪些?Yarn的调度器有哪些?

2020-06-05 15:22:30 3362

原创 ElasticSearch知识点记录

ElasticSearch一 ElasticSearch1.1 全文检索,倒排索引1.2 Lucene1.3 什么是ElasticSearch1.4 Elasticsearch的功能1.5 elasticsearch的适用场景1.6 elasticsearch的特点二 Elasticsearch的核心概念2.1 Lucene和ElasticSearch的前世今生2.2 elasticsearch的...

2020-04-07 18:43:24 1590

原创 Python *args、**kwargs的作用

*args,**kwargs** 作为参数的作用:可以接收多个key=value对参数,并组成dict,方便在方法内使用** 传值时起到的作用:可以拆分dict为若干个键值对(key=value),并传入方法import traceback# 用**kwargs最为参数,想要输出参数a的值,有什么方式可实现?def test2star(**kwargs): print "kwa...

2020-03-25 10:52:51 331

原创 Redis常见问题

1.为什么使用Redis分析:在项目汇总使用redis,主要是从两个角度去考虑:性能和并发,这是当前互联网发展过程中首要考虑的两个重难题。当然除去这两个要点之外,redis还具备可以做分布式锁等其他功能,但是只是为了分布式锁这些其他功能,完全还有其他中间件(如zookeeper等)代替,并不是非要使用redis。Redis还易于扩展、支持丰富的数据类型存储。(1)性能如下图所示,我们在碰到需...

2020-03-17 20:26:47 301

原创 spark checkpoint详解

转载地址:https://www.cnblogs.com/superhedantou/p/9004820.html

2019-12-12 11:17:28 192

原创 离线安装python包-python2

有时需要在离线的机器上安装python的相关依赖包,如下以安装pyreadline为例进行步骤记录:1.先在有网络的机器上安装pyreadline,命令如下python -m pip install pyreadline2.pip list 查看python依赖包3.生成requirement.txt文件,得到包名与版本的对应关系pip freeze >./requiremen...

2019-12-03 14:04:59 975

原创 python windows安装readline

python windows安装readlinepython -m pip install pyreadline不能直接用pip install pyreadline

2019-12-03 13:41:24 4344 1

原创 Xshell6 & Xftp6 破解

实测可用https://www.jianshu.com/p/ab2dae1f1bd6?from=timeline&isappinstalled=0

2019-08-12 17:40:05 2716

原创 Linux中unzip解压后中文文件名乱码问题

Linux中unzip解压后中文文件名乱码问题方法一:在解压的时候直接指定编码格式#指定GBK GB18030编码也是可以的unzip -O CP936 资料.zip 方法二:配置环境变量,指定unzip的参数在环境变量中,指定unzip参数,总是以指定的字符集显示和解压文件比如,需要在/etc/environment中加入2行:UNZIP="-O CP936"ZIPINFO="...

2019-07-19 17:51:24 5359 1

原创 Mysql unicode编码内容的查询

Mysql unicode编码内容的查询表中data字段存储的内容,此处为unicode编码:{"OBJECTID": 10, "\u540d\u79f0": "261\u5f04\u793e\u533a\u536b\u751f\u670d\u52a1\u7ad9", "esriGeometryPoint": {"latitude": 31.31485430122142, "system": ...

2019-06-27 16:42:38 4398

原创 pip源

pip install xlrd -i http://pypi.douban.com/simple --trusted-host pypi.douban.com1)http://mirrors.aliyun.com/pypi/simple/ 阿里云2)https://pypi.mirrors.ustc.edu.cn/simple/ 中国科技大学http://pypi.douban.co...

2019-06-17 12:08:23 317

原创 断网环境下利用pip安装Python离线安装包

断网环境下利用pip安装Python离线安装包https://www.jianshu.com/p/ef9cd61ba045

2019-06-17 12:05:39 2822

原创 字符分隔符'\1'(\u0001)的使用

拼接字符串使用字符’\1’,也就是\u0001public class Test { public static void main(String[] args) { // d3fe1e186e41475ea965f4722f5488a8\\15093\\1公共设施 String str1 = "d3fe1e186e41475ea965f4722f5488...

2019-04-24 10:06:26 48693

转载 突发宕机,Kafka写入的数据如何保证不丢失?

我们暂且不考虑写磁盘的具体过程,先大致看看下面的图,这代表了 Kafka 的核心架构原理。Kafka 分布式存储架构那么现在问题来了,如果每天产生几十 TB 的数据,难道都写一台机器的磁盘上吗?这明显是不靠谱的啊!所以说,这里就得考虑数据的分布式存储了,我们结合 Kafka 的具体情况来说说。在 Kafka 里面,有一个核心的概念叫做“Topic”,这个 Topic 你就姑且认为是一个数...

2019-03-25 16:02:11 3123

转载 Kafka如何实现每秒上百万的超高并发写入?

Kafka是高吞吐、低延迟的高并发、高性能的消息中间件,在大数据领域有极为广泛的运用。配置良好的Kafka集群甚至可以做到每秒几十万、上百万的超高并发写入。那么 Kafka 到底是如何做到这么高的吞吐量和性能的呢?页缓存技术和磁盘顺序读写首先 Kafka 每次接收到数据都会往磁盘上去写,如下图所示:那么在这里我们不禁有一个疑问了,如果把数据基于磁盘来存储,频繁的往磁盘文件里写数据,这个性...

2019-03-25 14:01:37 1688

转载 HashMap

1、为什么用HashMap?HashMap 是一个散列桶(数组和链表),它存储的内容是键值对 key-value 映射HashMap 采用了数组和链表的数据结构,能在查询和修改方便继承了数组的线性查找和链表的寻址修改HashMap 是非 synchronized,所以 HashMap 很快HashMap 可以接受 null 键和值,而 Hashtable 则不能(原因就是 equlas(...

2019-03-25 13:26:36 195

转载 常用八大排序算法(python实现)

直接插入排序直接插入排序的核心思想就是:将数组中的所有元素依次跟前面已经排好的元素相比较,如果选择的元素比已排序的元素小,则交换,直到全部元素都比较过。因此,从上面的描述中我们可以发现,直接插入排序可以用两个循环完成:第一层循环:遍历待比v较的所有数组元素第二层循环:将本轮选择的元素(selected)与已经排好的元素(ordered)相比较如果:selected > ord...

2019-03-24 21:17:49 382

原创 Spring-kafka遇到的消息重复消费问题

问题描述:kafka的某些topic在消费完毕后一段时间,重启唯一消费者,offset会重置为最小offset重新消费,一直导致kafka消费的重复消费问题。问题产生原因:是offset信息过期导致的。我一直以为消费者保持在线,最新位移信息是不会过期的。但即使消费者在线,位移信息也会如约过期。配置的数据保留时间log.retention.hours=168小时比位移保留时间offsets.ret...

2019-03-22 23:59:49 7011

原创 Spark RDD的分区原理

1.用sc.parallelize()生成RDD默认分区数:sc.parallelize(collection)指定分区数:sc.parallelize(collection,2)2.用sc.textFile()生成RDD (分区数与文件数量有关)默认分区数:sc.textFile(“hdfs://xxx”)指定分区数:sc.textFile(“hdfs://xxx”,3)最小分区...

2019-03-22 23:48:11 2706

原创 Scala隐式转换

隐式转换:简单的说,隐式转换就是当Scala编译器进行类型匹配时,如果找不到合适的候选,那么隐式转换提供了另外一种途径来告诉编译器如何将当前的类型转换成预期类型。概念:隐式转换和隐式参数是Scala中两个非常强大的功能,利用隐式转换和隐式参数,可以提供优雅的类库,对类库的使用者隐匿掉那些枯草乏味的细节。作用:隐式的对类的方法进行增强,丰富现有类库的功能隐式转换的时机当方法中的参数的类型与目...

2019-03-22 23:31:33 157

原创 scala中apply和unapply方法

apply方法apply方法被称作注入方法,在类的伴生对象中做一个初始化操作apply方法的参数列表不需要跟构造器的参数列表统一apply方法是定义在伴生对象中的当scala中类或者对象有一个主要用途的时候,apply方法就是一个很好地语法糖。apply方法有点类似于java中的构造函数,接受构造参数变成一个对象。unapply方法那么unapply方法就刚好相反,他是接受一个对象,...

2019-03-22 23:19:33 418

原创 java和scala语言中类型的检查和转换-instanceof

类型的检查和转换JavaScala判断对象是否是C类型obj instanceof Cobj.isInstanceof[C]将对象强转成C类型(C ) objobj.asInstanceof[C]获取类型为T的class对象C.classclassOf[C]object PredefineTest{ def main(args: Array...

2019-03-22 23:13:02 284

原创 scala中集合的常用方法

注:val map = Map((“b”,2),(“a”,1),(“d”,4)),这里调用的方法是使用map调用的1. 最大值最小值方法:max、min、maxBy、minBydef minBy[B](f: A => B)(implicit cmp: Ordering[B]): A = { if (isEmpty) throw new UnsupportedOperatio...

2019-03-22 21:59:19 2214

原创 scala中操作符(::/+:/:+/++/+=/++/++=)的使用,以及在mutable/immutable的区别

::/+:/:+/++/+=/++/++=等等的使用,以及在mutable/immutable的区别val array = List(1)val a = List(-1)val arrayBuffer = ArrayBuffer(1)val ab = ArrayBuffer(-1)

2019-03-22 21:20:12 6770 3

转载 Scala中=>(箭头函数)

Scala中=>和>=的区别<=小于等于=>函数类型(箭头函数)当定义一个函数的时候,需要使用=>,例如scala> val triple = (x: Int) => 3 * x //定义了一个函数triple: Int => Int = <function1>scala> def square(x: Int)...

2019-03-22 19:32:00 1095

转载 Scala中Method方法和Function函数的区别

在Scala中方法不是值,而函数是。所以一个方法不能赋值给一个val变量,而函数可以。scala> def increment(n: Int) = n + 1increment: (n: Int)Intscala> val fun = increment<console>:12: error: missing argument list for method in...

2019-03-22 19:24:31 412

原创 数据结构-二叉树的遍历(Java实现)

二叉树介绍二叉树的概念:一棵二叉树是节点的一个有限集合,该集合或者为空,或者由一个根节点加上两棵左子树和右子树组成二叉树具有如下特点: 1、每个结点最多有两棵子树,结点的度最大为2。 2、左子树和右子树是有顺序的,次序不能颠倒。 3、即使某结点只有一个子树,也要区分左右子树。二叉树是递归定义的,其结点有左右子树之分,逻辑上二叉树有五种基本形态: (1)空二叉树——如图(a); ...

2018-09-13 18:54:49 332

原创 Spark core源码分析之spark集群的启动(二)

2.2 Worker的启动org.apache.spark.deploy.worker1 从Worker的伴生对象的main方法进入在main方法中首先是得到一个SparkConf实例conf,然后将conf和启动Worker传入的参数封装得到WorkerArguments的实例args,下一步就是调用startSystemAndActor()方法得到actorSystem实例,在方法...

2018-09-12 19:05:16 174

原创 Spark core源码分析之spark集群的启动(一)

1 前言本文分析的是spark 1.3.1版本的源代码,因为1.3.1是比较经典的版本,其中的rpc是使用akka实现的,而1.6.x的版本的rpc的实现既有akka又有netty,2.0之后的版本就去掉akka只有netty了。现在使用较多的还是1.6.x,所以这里分析1.3.1版本。导入项目 解压项目包(spark-1.3.1.zip),Idea - import project,选...

2018-08-03 08:40:12 350

原创 Linux上安装NetCat

简述:在网络工具中有“瑞士军刀”美誉的NetCat(以下简称nc),在我们用了N年了至今仍是爱不释手。因为它短小精悍(这个用在它身上很适合,现在有人已经将其修改成大约10K左右,而且功能不减少)。 一个简单而有用的工具,透过使用TCP或UDP协议的网络连接去读写数据。它被设计成一个稳定的后门工具,能够直接由其它程序和脚本轻松驱动。安装过程:1.下载https://downlo...

2018-08-01 20:52:32 29723

原创 CentOS6.5详细安装步骤

1.软件下载 centos6.5 https://blog.csdn.net/huchunlinnk/article/details/45038025 (CentOS-6.5-x86_64-bin-DVD1.iso:http://pan.baidu.com/s/1qWPsefi)VMware-workstation-full-12.5.72.VMware安装First step:...

2018-06-07 21:44:35 72689 13

原创 自动将Map转换成对象的方法

实现自动将Map转换成对象,借助第三方工具commons-beanutils-1.8.0.jar+commons-logging.jar实现,需要遵守的规则创建的对象的属性名必须与map的key相同。下载jar包 https://download.csdn.net/download/z1941563559/10454502举例:register.html&amp;lt;!DOCTYPE ...

2018-06-02 16:25:56 9458

原创 服务器生成图片验证码

服务器生成图片验证码,需要下载第三方jar包 ValidateCode.jar https://download.csdn.net/download/z1941563559/10454039package com.persist.response;import java.io.IOException;import javax.servlet.ServletException;im...

2018-06-02 11:57:28 1050

原创 让客户端下载文件,提示保存

实现通过访问url直接弹出保存文件@SuppressWarnings(&amp;quot;resource&amp;quot;) protected void doGet(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException { //同时设置服务器和客户端的编码格式为...

2018-06-02 11:43:28 402

原创 解决客户端缓存问题

方法一: 直接在服务端控制 //告知客户端不缓存 response.setHeader(“pragma”, “no-cache”); response.setHeader(“cache-control”, “no-cache”); response.setDateHeader(“expires”, 0);方法二: 让每次访...

2018-06-02 11:17:28 3283

hive1_2_1jars.zip

spark3读hive1,配置spark.sql.hive.metastore.jars

2021-10-14

大数据面试题分类记录.rar

大数据面试题整理,有道云笔记版以及pdf版,有道云笔记直接导入即可查看,认真整理了部分面试题,还有一些参考链接在里面,根据需要再自行查看 今日更新,增加了题目分类,方便查看

2020-06-24

大数据面试题---.rar

大数据面试题整理,有道云笔记版以及pdf版,有道云笔记直接导入即可查看,认真整理了部分面试题,还有一些参考链接在里面,根据需要再自行查看 6.24更新,增加部分题,增加分类

2020-06-05

卸载虚拟桌面(CitrixReceiver)

完全卸载虚拟桌面(CitrixReceiver),亲测可用,特分享给大家 补充一个 链接: https://pan.baidu.com/s/1x20p2MfMpgEuKYYeicBLGA 密码: kptw

2019-04-30

netcat-0.7.1

netcat被誉为网络安全界的‘瑞士军刀',相信没有什么人不认识它吧...... 一个简单而有用的工具,透过使用TCP或UDP协议的网络连接去读写数据。它被设计成一个稳定的后门工具, 能够直接由其它程序和脚本轻松驱动。

2018-08-01

commons-beanutils-1.8.0.jar

自动将Map转成对象的第三方jar包,commons-beanutils-1.8.0.jar+commons-logging.jar

2018-06-02

ValidateCode.jar

生成图片验证码的第三方jar包,可以方便快速的生成需要的验证码图片,ValidateCode.jar

2018-06-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除