Ink__Bamboo-CSDN博客

原创 Apache Iceberg 背后的设计

Iceberg优秀文章翻译，推荐

2023-01-17 18:06:45 1018

原创 flink写入orc文件到hive表，hive表读取报数组越界

组件版本:flink1.13.2cdh6.3.2hive2.1.1问题描述:flink实时读取日志数据写入hdfs中，保存为orc格式文件。flink写入文件格式:hive表建表语句:hive表查询时报:org.apache.hive.service.cli.HiveSQLException: java.io.IOException: java.lang.ArrayIndexOutOfBoundsException: 7查看yarn日志:Caused

2022-05-18 11:13:50 1786 2

原创 apache griffin 功能介绍及安装使用

官网地址：Griffin - Quick Start (apache.org)架构图：支持数据监控形式：1. 两张表根据指定字段做数据比对：计算公式： (a.id=b.id)/a.id*100%2.计算单张表的数据情况，空值，topN,去重计数等。组件安装教程：griffin/deploy-guide.md at master · apache/griffin (github.com)需要组件：依赖准备JDK (1.8 or later v..

2022-01-05 17:04:05 2188 4

原创多层json结构指定层级解析

主要需求: 针对嵌套多层json，可以指定解析到的层级，并返回完整的解析后信息。目前没在工具类中找到类似的函数故自己实现了，如果大神知道的话请告知下.1.目前默认认定数组为最底层结构不做解析，以数据返回。2.默认数据格式全部转换为string类型，针对需要匹配bean对象最赋值，请自行调整。public class JsonParseUtils<T> { private int jsonlevel = 0; /** * 递归解析json并对重复字段根据解析层级调

2021-08-17 16:35:28 2622

原创 flink 连接hive parquet格式文件写入报错

版本:cdh6.3.2flink版本:1.13.2cdh hive版本:2.1.1报错信息:java.lang.NoSuchMethodError: org.apache.parquet.hadoop.ParquetWriter$Builder.<init>(Lorg/apache/parquet/io/OutputFile;)V at org.apache.flink.formats.parquet.row.ParquetRowDataBuilder.<init>(Par

2021-08-15 10:57:32 1481 1

原创 mac终端无法自动加载环境变量

mac终端无法自动加载环境变量配置文件加载顺序调整配置文件重新打开终端配置文件加载顺序1: /etc/profile #对所有用户的登录shell都有效（全局配置文件），最好不要修改这个文件2: ~/.bash_profile #为当前用户设置环境信息，仅对当前用户的登录shell有效（局部配置文件）3: ~/.bash_login 4: ~/.profile5: ~/.bashrc #bash_profile只被登录shell读取并执行

2021-07-15 16:36:54 140

原创 springboot 项目打包报:filtering.MavenFilteringException: Input length = 1

springboot项目打包报错误org.apache.maven.shared.filtering.MavenFilteringException: Input length = 1原因分析解决方法注意：org.apache.maven.shared.filtering.MavenFilteringException: Input length = 1原因分析项目使用的编码格式与resources下配置文件使用的编码格式不一致导致。解决方法将项目的编码格式调整与 resources目录下的编码

2021-02-13 12:18:44 2954

原创 mac 挂载机械硬盘失败fsck_sxfat

mac 挂载机械硬盘失败fsck_sxfat硬盘无法挂载手动彻底修复(且重启后不再出现无法挂载):硬盘无法挂载sudo diskutil mount /dev/disk2挂载超时:timed out waiting to mount输入如下命令确实fsck在搞鬼ps aux | grep fsck然后杀掉所有fsck的进程sudo pkill -f fscksudo diskutil mount /dev/disk2手动彻底修复(且重启后不再出现无法挂载):sudo

2021-02-06 10:09:31 1335

原创 2020-12-26

gradle环境配置及错误处理安装gradle-**-all包配置环境变量:GRADLE_HOMEGRADLE_USER_HOME (可以和maven本地仓库一致，复用maven下载的依赖)配置本地仓库和远程仓库gradle_home/init.d/init.gradle默认配置在 user_home/.gradle/init.gradleallprojects { repositories { maven { url 'file:///E:/MavenLoca

2020-12-26 14:40:05 73

原创 idea常见报错集合

idea常见报错集合IDEA运行flink 报Error:java: 无效的标记: --add-exports=java.base/sun.neCommand line is too long. Shorten command line for xxx or also for Application default configuration.解决方案（1）：IDEA工程运行时，总是报xx程序包不存在，实际上包已导入IDEA运行flink 报Error:java: 无效的标记: --add-exports

2020-12-10 21:55:32 2787

原创 spark面试题

Spark面试题1. sparksql执行过程中发生数据倾斜导致任务卡顿该怎么解决？？？分析: 数据倾斜一般都发生在shuffle过程中，部分key存在占用比例过大导致大量数据分发到同一个task中导致任务执行缓慢甚至导致OOM异常。数据倾斜的现象: 多数task执行速度较快，少数执行时间非常长，或者等待很长时间提示内存不足，执行失败。原因: 1.key本身分部不均衡，key设计不合理。2.shuffle并行度不足。解决方案:**聚合源数据：**针对hive表中数据，对key进行重新设计对

2020-08-02 21:08:37 315

转载苹果笔记本中挖矿木马

苹果笔记本中挖矿木马mac笔记本的主要表现使用ps -ef|grep osascript查看进程以下部分为引用博客部分内容：启动挖矿Domainmac笔记本的主要表现活动监视器无法打开cpu稳定保持被一个osascript的进程较高占用每次笔记本开机之后该都会是上述现象杀掉osascript之后，活动监视器就恢复正常本博客大部分信息来源于:http://www.mamicode.c...

2019-08-03 13:49:00 5630

原创官网：wiki消息实现timewindow的例子，及消息数据到kafka的例子

官网：wiki消息实现timewindow的例子，及消息数据到kafka的例子位置：https://ci.apache.org/projects/flink/flink-docs-release-1.6/quickstart/run_example_quickstart.htmldef main(args: Array[String]): Unit = {val properties = n...

2018-12-06 15:53:23 373 1

转载范数对于数学的意义？1范数、2范数、无穷范数

范数对于数学的意义？1范数、2范数、无穷范数作者：Faaany链接：https://www.zhihu.com/question/21868680/answer/136376374来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。要更好的理解范数，就要从函数、几何与矩阵的角度去理解，我尽量讲的通俗一些。我们都知道，函数与几何图形往往是有对应的关系，这个很好想...

2018-09-19 16:45:57 12310

原创 Hbase 读写操作的部分实践总结

Hbase 读写操作的部分实践总结主要包含个人开发过程中遇到的操作hbase数据，读写操作的一些代码样例，已经全部测试通过的。从hbase获取数据的功能代码，包含有filter的，根据rowkey的范围检索，以及全表扫描三部分的structtype构造例子 val strctTupe = new StructType(Array( StructFiel

2018-03-05 16:52:36 1225

原创 spark RDD

声明：该文档根据spark工程师qq群（511947673）中提供的rdd-api.pdf文档中rdd顺序，进行了一系列的测试。部分不详细的rdd/transform参考：http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html。该文档很详细地归纳了rdd，也包含完全的例子。建议：学习过程中不懂

2017-12-14 14:22:38 687

原创 hbase filter及rowkey范围检索使用并对结果集处理

hbase新API操作hbase过滤器之后对结果集进行处理生成spark临时表用于后续处理。注意hbase中，表中存储的数据类型必须一一对应，否则会因为解码问题，导致最后结果非常的混乱代码如下：（如有大神看到，请不吝赐教，交流邮箱[email protected]）/** * 根据rowkey进行数据筛选 * 测试：使用scan的setStart

2017-11-16 14:21:50 7775

转载 HBase Rowkey设计推荐文章列表

忘记文章的出处了，作者如果看到可以留言，必将修改。HBase Rowkey的散列与预分区设计http://www.aboutyun.com/forum.php?mod=viewthread&tid=8909HBase的rowkey设计http://www.aboutyun.com/forum.php?mod=viewthread&tid=71

2017-11-02 09:40:15 390

转载 HBase 常用Shell命令

转自：http://my.oschina.net/u/189445/blog/595232 hbase shell命令描述 alter修改列族（column family）模式count统计表中行的数量create创建表de

2017-11-01 14:22:16 546

原创完全分布式安装配置

ssh-keygen ssh-cpoy-id mini2 /etc/sysconfig/network 修改IP地址：和HWaddr（mac）地址与上面的文件中的HWaddr地址一样 ONBOOT=yes BOOTPROTO=static IPADDR=192.168.183.130 GATEWAY=192.168.1

2017-10-22 11:43:38 425

原创 kettle安装以及运行注意事项

ETL工具kettle使用资料整理kettle工具安装kettle是开源的etl开发工具，软件包中包含了windows，linux，mac三个版本。下载地址:https://sourceforge.net/projects/pentaho/files/latest/download解压下载的软件包拷贝Hadoop的配置文件到PDI的pdi-ce-7.0.0.

2017-09-11 11:36:16 19210 12

转载找工作时如何快速了解一家公司？

找工作时如何快速了解一家公司？每一位求职者，尤其是那些即将走进社会，迎来人生第一份工作的应届生，都希望自己能够对感兴趣或者符合自己期望条件的公司有一个全面而深入的了解。然而，找工作就像找对象。公司作为我们要找的潜在对象，当然不会傻呵呵地把她的缺点刺裸裸地暴露在我们面前。企业总是尽可能的以正面、积极的形象呈现在大众面前。即便是这些呈现出来的信息，也让我们对企业的了解少

2017-08-02 11:32:10 872

转载 spark详解

转载自：http://blog.csdn.net/princemrgao/article/details/52397444 1. 概述：什么是sparkSpark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有hadoopMapReduce所具有的优点；但不同于M

2017-07-14 08:38:24 391

原创 spark错误合集

spark错误合集

2017-07-08 08:46:40 3083

转载最详细的Log4j使用教程

转载自：http://www.codeceo.com/article/log4j-usage.html日志是应用软件中不可缺少的部分，Apache的开源项目log4j是一个功能强大的日志组件,提供方便的日志记录。在apache网站：jakarta.apache.org/log4j 可以免费下载到Log4j最新版本的软件包。一、入门实例1.新建一个JAva工程，导入包log4

2017-06-28 19:41:50 309

转载 sparksql参数配置

转载自：http://www.cnblogs.com/wwxbi/p/6114410.html 查看当前环境SQL参数的配置spark.sql("SET -v")keyvaluespark.sql.hive.version1.2.1spark.sql.sources.parallelPartitionDiscovery.threshold32spark.sql.hive.metastore.bar

2017-06-26 14:59:21 7727

原创开窗函数与where条件相结合的时候的问题思考

开窗函数与where条件相结合的时候的问题思考以下分析where条件放在和开窗函数同一查询中，和放在外层查询中的差别。开发中需要格外注意where放的位置代码如下：select code, name from (select code, name, data_opt_type

2017-06-23 17:04:35 7365

转载 linux中shell条件判断if中的-a到-z的意思

linux中shell条件判断if中的-a到-z的意思原文地址：http://www.111cn.net/sys/linux/77236.htm 系列文章教程下面我们一起来看一篇关于shell条件判断if中的-a到-z的意思，有需要了解的朋友不防进入参考参考．shell if判断中常用的也就是绿色部分，尾部部分越看越不懂。从百度文库转载。[ -a FILE

2017-06-14 08:47:25 637

转载 scala编写的数据库连接池

手动创建的数据库连接池看到有大神用sparkstreaming里面的MongoDB 创建的工具类，好像很厉害，但是现在还不太懂。推荐：在Spark中通过Scala + Mongodb实现连接池也可参考spark官网一下工具类，只要修改数据库连接参数就可使用，本人使用的是properties配置文件读取的稍有出入，代码奉上：var

2017-06-05 15:01:16 5845 1

转载 java设计模式--单例模式

转载自：http://www.cnblogs.com/yinxiaoqiexuxing/p/5605338.htmljava设计模式--单例模式单例设计模式Singleton是一种创建型模式，指某个类采用Singleton模式，则在这个类被创建后，只可能产生一个实例供外部访问，并且提供一个全局的访问点。核心知识点如下：(1) 将采用单例设计模式的类的构造方法私

2017-06-04 11:40:16 254

转载 MAPREDUCE原理篇

转载自：http://www.jianshu.com/p/21152050ff96MAPREDUCE原理篇MAPREDUCE概念Mapreduce是一个分布式运算程序的编程框架，是用户开发“基于hadoop的数据分析应用”的核心框架；Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个hadoop集群上

2017-05-29 14:28:42 520

转载 oracle中关于redo log和undo log的详解

redo log重做日志undo log撤消日志重做日志：每当有操作执行前，将数据真正更改时，先前相关操作写入重做日志。这样当断电，或者一些意外，导致后续任务无法完成时，系统恢复后，可以继续完成这些更改撤消日志：当一些更改在执行一半时，发生意外，而无法完成，则可以根据撤消日志恢复到更改之前的壮态网上找到一些解说：以便以后自己参考有两个概念：前滚与

2017-05-21 10:28:47 4734

原创 spark hive执行树

前几天在做开发的时候无意中得到一段idea中spark运行hive语句得到的执行树：但是很困惑的是之后就没有再出现过了如果有大神路过看到请指教该怎么打开这个查看执行树的显示设置。代码，执行树和个人理解如下：spark hivesql执行树(部分)执行代码：create table if not exists tmp_t_rdvs_exp_waybill_deta

2017-05-20 12:09:54 1692 1

转载 hive日期类型使用各种函数

转载自：http://dacoolbaby.iteye.com/blog/1826307无论做什么数据，都离不开日期函数的使用。这里转载一下Hive的日期函数的使用，写的相当完整。日期函数UNIX时间戳转日期函数: from_unixtime语法:from_unixtime(bigint unixtime[, string format]) 返回值

2017-05-16 17:19:11 3614

原创 spark使用hbasefilter访问hbase表数据（封装）

自己尝试实现的类，本类的作用：调用内部方法根据输入的表名，列族，列名，筛选需要展示的列根据输入的列族，列名，列值，筛选条件，是用过滤器过滤数据返回值：SQLContext 已完成表的注册，可以直接操作sql方法，使用sql语言查询处理代码如下package cn.deppon.Toolimport java.utilimport scala.collectio

2017-05-13 16:43:47 3119

转载 HBase简介（很好的梳理资料）

HBase简介（很好的梳理资料）转载自: http://www.cnblogs.com/johnnyflute/p/3654426.html一、简介history started by chad walters and jim2006.11 G release paper on BigTable2007.2 ini

2017-05-13 08:34:48 513

转载 Oracle的left join中on和where的区别

转载自：http://blog.csdn.net/peng_yunfei/article/details/50174089数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。在使用left jion时，on和where条件的区别如下： 1、on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边

2017-05-12 10:45:43 458

原创《scala程序设计》笔记

第一章最后对于akka的actor操作由于所有的消息都是异步发送的所以每次运行的结果都不一样，自己可以对结果进行分析代码如下：/** * Created by DreamBoy on 2017/5/11. */trait PeoplePleaser{ def makePeopleHappy = println("People like me")}abstrac

2017-05-11 21:29:38 420

转载 SparkSQL与Hive on Spark的比较

转载自：http://blog.csdn.net/yeruby/article/details/51448188简要介绍了SparkSQL与Hive on Spark的区别与联系一、关于Spark简介在Hadoop的整个生态系统中，Spark和MapReduce在同一个层级，即主要解决分布式计算框架的问题。架构Sp

2017-05-11 15:55:39 564

原创 hbaseFilter使用，以及简单封装

学习笔记：简单的将spark访问hbase使用filter过滤的操作进行封装，功能并不完善，无法做到把case class以反射的方式传入到方法中进行字段的构造把构件表的操作放在单独处理的部分package cn.DaLong_hbaseimport java.utilimport scala.collection.JavaConverters._import or

2017-05-11 15:25:54 948

cdh-hive2.1.1版本orc格式表读取包数组越界替换包

cdh-hive2.1.1版本orc文件读取数据报错替换包: Caused by: java.lang.ArrayIndexOutOfBoundsException: 7 at org.apache.orc.OrcFile$WriterVersion.from(OrcFile.java:145) at org.apache.orc.impl.OrcTail.getWriterVersion(OrcTail.java:74) at org.apache.orc.impl.ReaderImpl.<init>(ReaderImpl.java:385) at org.apache.hadoop.hive.ql.io.orc.ReaderImpl.<init>(ReaderImpl.java:62) at org.apache.hadoop.hive.ql.io.orc.OrcFile.createReader(OrcFile.java:89) at org.apache.hadoop.hive.ql.io.orc.VectorizedOrcInputFormat.getRecord

2022-05-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

cdh-hive2.1.1版本orc格式表读取包数组越界替换包

cdh6.3.2离线安装包.txt

flink1.13.2集成到cdh集群安装包

flink1.13.2集成cdh重新编译包.txt

cdh6.2.0 离线安装包.txt

spark-rdd-APi

c++primer第五版答案

algorithm算法概论答案

c++标准库模板STL

空空如也