自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

IT晓白

从删盘到跑路

  • 博客(213)
  • 资源 (2)
  • 收藏
  • 关注

原创 CDH5安装Kerberos认证

BUGBUG写在前面:Kerberos 1.15.1-18.el7.x86_64 版本有BUG,不要安装这个版本!!!!如果已安装上面描述版本不要怕,这里有一篇解决方案升级kerberos1.系统环境1.操作系统:CentOS Linux release 7.5.1804 (Core)2. CDH: 5.16.2-1.cdh5.16.2.p0.83. Kerberos:1.15.1-50.el7x864.采用root用户进行操作2.KDC服务安装及配置2.1.安装KDC服务在Cloude

2021-12-30 11:06:56 1574

原创 Oracle中Drop Table之后想恢复?来看这里[只要二步]

作用范围:下面方法仅仅适用于drop table,如果是delete 表中某些数据之后想要恢复请看这里,只需要三步。准备.查看数据库中,回收站里面存放的表名,以及drop table时的表名select object_name,original_name,type,droptime from user_recyclebin;方法一.根据drop table时删除的表名恢复表以及恢复......

2019-11-22 10:07:12 4195 1

原创 Oracle中Delete数据之后想恢复?来看这里[只要三步]

1.查询数据库当前时间(目的是为了检查数据库时间是否与你电脑时间相近,避免时间不同而将数据恢复到错误时间点)select to_char(sysdate,'yyyy-mm-dd hh24:mi:ss') from dual;2、查询删除数据时间点之前的数据select * from 表名 as of timestamp to_timestamp('2019-11-10 11:00:00',......

2019-11-20 11:37:03 1635

原创 DataX环境部署以及测试案例

DATAX简介DataXDataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、SQL Server、Oracle、PostgreSQL、HDFS、Hive、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。FeaturesDataX本身作为数据同步框架,将不同数据源的同步抽象为从源头数据源读取数据的Reader插件,以及向目标端写入数据......

2019-03-11 17:24:55 4784 2

原创 安装CentOS6.8并配置网络图文解说亲测全过程

安装环境:本文是在win10系统安装上VMWare并配置Centos6.8虚拟机。准备工作1.安装VMWare虚拟机1.1下载VMWare12资源链接:https://pan.baidu.com/s/1AhfMSDXLO-aA0eMqnuMWHg 提取码:iftd1.2安装VMWare,在安装过程中需要输入密钥,填写下面密钥即可,傻瓜式安装。5A02H-AU243-TZJ49-GTC7...

2019-01-16 19:27:08 1332

原创 5台机器搭建HA步骤与注意事项

HA是High Available缩写,是双机集群系统简称,指高可用性集群,是保证业务连续性的有效解决方案,一般有两个或两个以上的节点,且分为活动节点及备用节点。

2019-01-15 19:18:40 2471 4

原创 kettle入门之文本文件导入数据库

Kettle是一款国外开源的ETL工具,纯java编写,可以在Windows、Linux、Unix上运行,数据抽取高效稳定。Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。...

2019-01-01 13:40:58 3753 1

原创 使用Java实现发送email邮件

一、maven依赖 <dependency> <groupId>javax.mail</groupId> <artifactId>mail</artifactId> <version>1.4.7</version> </dependency&am...

2018-12-01 17:16:46 1628

原创 kafka使用说明书

首先要打开zookeeper,其次打开kafka,关闭时要先关闭kafka再关闭zookeeper启动zookeeperzookeeper-server-start.sh config/zookeeper.properties启动kafkakafka-server-start.sh config/server.properties停止kafkakafka-server-...

2018-11-29 21:29:50 431

原创 solr部署以及ik中文分词案例

1.简介Solr是一个高性能,采用Java5开发,Solr基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜索引擎。因为中文的特殊性,在对中文文档建立全文索引时,需要利用分词工具进行分词。目前比较知名的分词工具有:IK,庖丁等.下面使用的是I...

2018-11-24 16:35:09 236

原创 Java使用PDFBox操作PDF文件获取页码、文章内容、缩略图

一、依赖<!--使用的是pdfbox计数总页数与缩略图--><!-- https://mvnrepository.com/artifact/com.sleepycat/je --><dependency> <groupId>com.sleepycat</groupId> <artifactId>......

2018-11-06 22:12:39 6433

原创 hadoop单机伪分布安装HBase-1.4.8详细步骤(亲测成功)

---------前提:安装hadoop、yarn、jdk1.下载解压1.1使用wget下载wget http://archive.apache.org/dist/hbase/1.4.8/hbase-1.4.8-bin.tar.gz 1.2解压到/usr/local目录下tar -zxvf hbase-1.4.8-bin.tar.gzmv hbase-1.4.8 /...

2018-10-23 21:36:10 1767

原创 关于Hadoop的杂乱无章(续更)

hadoopJPS(是jdk的工具):表示查看当前主机有哪些运行的进程NameNode :表示主节点DataNode:表示数据节点SecondaryNameNode :表示次要名称节点--节点表示:一台机器进程是运行在机器上的,一个软件可以有多个进程(分布式软件:Hadoop)HDFS只是Hadoop的一部分,Hadoop还有MR、yarnHDFS是分布式软件系统:将文件自动分布...

2018-09-29 19:55:00 981

原创 使用CentOS6.8搭建Hadoop集群

概述:集群cluster,能将很多进程分布到多台计算机上;通过联合使用多台计算机的存储、计算资源完成更庞大的任务。为了实现无限量的存储和计算能力,在生产环境中必须使用集群来满足需求。注意事项:1)集群中的计算机在时间上要同步,系统时间不能差太多(约30秒内),如果设置时间后重启时间又不准确了(可能是主板电池老化),可以启用NTP(Network Time Protocol网络时间...

2018-09-29 09:23:28 2281

原创 使用IEDA2018创建maven+web项目

因为是自学,所以走了不少弯路,因此总结一下放置自学的小伙伴们少走弯路,还没有安装IntelliJ IDEA可以点击这里1.版本信息介绍【idea版本】:2018.1.5【Tomcat版本】:7.0.52【maven版本】:3.5.42.软件安装idea的安装与破解可以点击这里Tomcat:安装与启动如下所示运行软件:找到你的tomcat文件路径下的bin(这是我的...

2018-08-15 11:18:23 5082

原创 Idea添加依赖的步骤:

 1.    项目按F4(ctrl+shift+alt+s)2.    找到dependencies选项卡3.    点击“ +”4.    将jar包选中,加入5.    可以使用jar中的工具类。网络上下载jar1.    百度搜索 maven repo2.    输入jar包的名字3.    找到对应的版本 下载jar...

2018-07-31 11:17:49 13612

原创 从机缘到成就

在撰写博客和文章的过程中,我不得不不断地学习和探索新的技术,这也让我更加深入地理解了编程的本质和思想。除此之外,我还收获了很多粉丝和读者,他们经常给我反馈和评论,这也让我更加有动力和信心继续创作。我也曾面临挫折和疲惫。我不断学习新的知识和技能,积极参与各类技术研讨会和交流活动,这不仅增加了我对技术的深度理解,也拓宽了我的视野与见识。在这1825天的旅程中,我找到了自己的方向,也收获了许多宝贵的机遇和成长。我的技术博客逐渐积累了一定的粉丝和读者群体,他们通过评论和邮件与我互动,给我提供了更多的反馈和建议。

2023-06-19 17:16:48 211

原创 设置linux静态ip

配置的是局域网网络号,这个是。就是网关或者路由地址;需要说明,原来还有个。ifcalc自动计算。

2023-06-17 01:05:20 164

原创 如何设置CDH的资源池

【代码】如何设置CDH的资源池。

2023-06-17 00:56:32 305

原创 离线计算调优手册

目前离线计算主要分为两块: 和 ,该手册将围绕这两部分展开说明。随着技术不断迭代升级,结合不同业务、不同场景,手册的适用性可能发生变化,因此下面介绍的优化手段可作为参考,并不是一成不变的。Hive的简单定义(来自Hive官网):简单来说,hive本身是一种数据仓库,通过其提供的sql和访问接口,使我们能够很方便的访问读写大规模数据集,无需关注底层数据是如何分布存储的。目前hive 提供了三种计算引擎:,使用者可根据hadoop集群安装环境(CDH、阿里云EMR等等)选择使用不同的计算引擎。具体可通过参数

2023-06-13 23:23:58 507

原创 Hive归档操作命令

直接使用大数据平台的离线计算创建作业即可;

2023-06-13 22:53:16 191

原创 大数据问题及解决方法

创建时间: 2023 - 06 - 7 最后更新时间: 2023 - 06 - 7。

2023-06-07 10:27:47 153

原创 Hive之HPLSQL安装手册

解压下载的hplsql-0.3.31.tar.gz压缩包,(注意。文件,后面只需要配置这俩个文件),上传到集群。(根据自己库表来查询测试)测试成功说明连接成功。

2023-06-07 10:11:05 544

原创 dbeaver配置驱动手册

一、配置hive连接(impala同理)点击数据库,新建连接选择hadoop/bigdata,选择apache hive点击下一步,输入以下选项点击编辑驱动设置,找到驱动文件目录,添加文件夹,点击找到类,选择hivedriver选择确定,点击测试连接按钮即可

2023-06-07 10:02:06 3947

原创 合并文件解决HiveServer2内存溢出方案

使用HiveServer2查询数据时,会将元数据都加载到内存中,如果一个表格的分区很大,每个分区中又有很多的小文件,就会导致将元数据加载到内存中时使用的内存比较大。因此,Cloudera公司推荐使用的分区数最好不要超过1000个分区;同时分区中的也不要存储过多的为小文件,要定期对数据进行治理以合并小文件。

2023-06-06 16:23:02 1074

原创 基于Oracle系统表将Oracle表生成出相应的HIVE内部表&外部表

【代码】基于Oracle系统表将Oracle表生成出相应的HIVE内部表&外部表。

2023-06-06 15:53:33 308

原创 使用Java代码实现Excel2Hive

//1.将excel转成csv格式的文件excelToCsv(excelPath,csvPath);//2.读取csv的数据到hive表中csvToHive(csvPath,pi_schema,pi_table,hc);//3.清除留痕 -默认清除留痕

2023-06-06 15:41:56 180

原创 将固定分隔符的TXT文件导入Hive表

【代码】将固定分隔符的TXT文件导入Hive表。

2023-06-06 15:37:08 922 2

原创 Cannot connect to the Docker daemon at unix:///var/run/docker.sock. Is the dock

服务器使用阿里云的,经常重启,一直没有管理之前安装的docker,现在想学习spark,遍跟着官网开始下载spark,执行了。这里也看不出来啥错,参照网上方法看系统的log日志。记录一下初使用docker时,报错。通过网络百度到下面代码。

2023-01-16 15:07:09 1348 1

原创 shell执行Oracle SQL并捕获异常案例分析

第一行的内容指定了shell脚本解释器的路径,而且这个指定路径只能放在文件的第一行。第一行写错或者不写时,系统会有一个默认的解释器进行解释。实现功能读取指定配置文件中的Oracle数据库连接,清空传入变量表的数据,以及清除数据之后的结果进行捕获分析。获取oracle环境变量并在当前执行用户中生效,只在这个会话中生效。加载外部文件,将外部文件中的变量引用到当前shell脚本中。由于执行OracleSQL进入新的进程,使用判断返回值。相同,但是使用时加引号,并在引号中返回每个参数。echo 用于字符串的输出。

2022-12-16 14:21:20 1321

原创 七夕来袭!还要做CDH数据迁移怎么办?来看看DistCp

该工具用于大规模集群内部和集群之间数据拷贝,它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝。...............

2022-08-04 17:46:17 739

原创 关于Linux:There were ** failed login attempts since the last successful login

谢谢能够看到这里,希望对于新手会有用,我也是在测试阶段;后续监控一下暴力破解的是否减少。能够介绍不必要的损失。上面使用的都是测试用户,下面再写一个删除用户的命令。由于部署一些东西想要在线访问使用的是阿里云的服务器,但是每次使用root登录的时候,都会出现下图所示的信息,有尝试暴力登录我的主机。-使用root用户执行下面命令。重启sshd服务使其修改生效。...

2022-07-19 18:11:21 3190

原创 GitHub远程提交实际步骤

注意事项:1如果第一次使用git, idea会提示输入github用户名, 密码;2如果出现提示 提示没有本地分支, 运行以下命名:git branch --set-upstream master origin/master至此: 大功告成!!!

2022-07-13 17:34:00 228

原创 Spark相关常见问题汇总

在执行Spark过程中抛出::该原因是由于hosts未配置,导致不识别:修改相应的机器的host即可在执行Sparksql操作orc类型的表时抛出::分区或者表下存在空的orc文件。该BUG在Spark2.3.0之后才修复:规避解决。修改ORC的默认分割策略为:hive.exec.orc.split.strategy=BI进行解决。Orc的分split有3种策略(ETL、BI、HYBIRD),默认是HYBIRD(混合模式,根据文件大小和文件个数自动选择ETL还是BI模式),BI模式是按照文件个数来分spli

2022-07-13 16:56:53 1938

原创 解决:2003-Cant connect to MySQL server on **** 以及use near ‘IDENTIFIED BY ‘*****‘ WITH GRANT OPTION‘ at

报错信息如下所示四、解决思路上图错误显示,语法错误并提示与版本有关。我就先查询所用的MySQL版本信息为,如下所示。因此语法有所区别,以下是正确的写法:然后再查看一下用户的访问权限变为%说明赋权成功:点击【连接测试】,会跳出连接成功的弹窗。现在就可以使用本地软件连接使用正常的访问阿里云的高版本MySQL服务了。........................

2022-07-12 16:59:39 1089

原创 自定义注解的创建以及使用

说明了Annotation所修饰的对象范围,取值(ElementType)有:设置注解的生命周期作用在方法上的注解作用在类上的注解三、使用自定义注解四、测试自定义注解五、测试运行结果

2022-07-11 13:40:03 1290

原创 搭建CDH批量执行的脚本

0.前言在搭建cdh的过程中,需要执行大量相同的命令到不同的机器,因此编写批量脚本。0.1 注意点1. node.list内为所有节点IP2. 需要下载expect1.批量执行命令的脚本如下:1.1 batch_cmd.sh#!/bin/shlist_file=$1cmd=$2username=rootpassword=passwordcat $list_file | while read linedo host_ip=`echo $line | awk '{print $

2022-01-01 13:26:46 531

原创 windows下火狐浏览器中配置kerberos客户端

1.环境1.操作系统:windows2. CDH版本信息: 5.16.2-1.cdh5.16.2.p0.83.浏览器:火狐浏览器4.kdc客户端:kfw-4.1-amd642.安装火狐浏览器与kdc2.1 火狐浏览器略2.2 Kdc双击安装包,点击下一步,点击第一个.继续下一步进行安装即可,最后弹出是否重启电脑,先点击[NO],等配置完其他信息之后重启电脑.3.环境变量注意 需要在java环境变量前面右击[我的电脑]之后点击[属性],再点击[高级系统设置] 进入环境变量配置界面

2022-01-01 12:14:26 2436

原创 卸载kerberos

1. 关闭KDC服务systemctl stop krb5kdcsystemctl stop kadmin2卸载(所有节点)注意:版本信息根据实际情况修改rpm -e krb5-devel-1.15.1-18.el7.x86_64 --nodepsrpm -e krb5-libs-1.15.1-18.el7.x86_64 --nodepsrpm -e krb5-workstation-1.15.1-18.el7.x86_64 --nodepsrpm -e libkadm5-1.15.1-1

2022-01-01 11:41:50 3358

原创 CDH禁用kerberos

1.停止服务登录CM,点击[停止]2.Zookeeper进入zookeeper配置界面,在输入框中填入[Enable kerberos] 进行搜索.启用Kerberos身份验证:取消勾选Enable Server to Server:取消勾选3.HDFS进入hdfs配置界面3.1 关闭安全认证在输入框中填入[hadoop.security.auth] 进行搜索.hadoop安全授权:取消勾选Hadoop安全身份验证:simple3.2 目录权限在输入框中填入[dfs.data

2022-01-01 11:35:48 2307

dbf2csv.rar

dbf2csv路径下有一个【示例.txt】1.修改里面的路径位置(E:\luyz03)、2.把此文本文件的扩展名改为bat。(即将txt改为bat,此文本文件随即变为批处理文件)然后双击此文件,执行刚输入在文本文件里的命令,就会批量的将(file文件夹下面)的DBF文件转化成CSV文件。

2019-07-25

MobaXterm是Windows全能终端神器

MobaXterm提供了大量为程序员,网站管理员,IT管理员以及几乎所有需要以更简单的方式处理远程作业的用户量身打造的功能。它不仅支持各种连接和Unix命令,还可以像PuTTY一样通过SSH连接Raspberry Pi等开源硬件。

2018-10-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除