脸ル粉嘟嘟-CSDN博客

原创 CDH5安装Kerberos认证

BUGBUG写在前面：Kerberos 1.15.1-18.el7.x86_64 版本有BUG,不要安装这个版本!!!!如果已安装上面描述版本不要怕，这里有一篇解决方案升级kerberos1.系统环境1.操作系统：CentOS Linux release 7.5.1804 (Core)2. CDH: 5.16.2-1.cdh5.16.2.p0.83. Kerberos：1.15.1-50.el7x864.采用root用户进行操作2.KDC服务安装及配置2.1.安装KDC服务在Cloude

2021-12-30 11:06:56 1574

原创 Oracle中Drop Table之后想恢复？来看这里[只要二步]

作用范围：下面方法仅仅适用于drop table，如果是delete 表中某些数据之后想要恢复请看这里，只需要三步。准备.查看数据库中，回收站里面存放的表名，以及drop table时的表名select object_name,original_name,type,droptime from user_recyclebin;方法一.根据drop table时删除的表名恢复表以及恢复......

2019-11-22 10:07:12 4195 1

原创 Oracle中Delete数据之后想恢复？来看这里[只要三步]

1.查询数据库当前时间（目的是为了检查数据库时间是否与你电脑时间相近，避免时间不同而将数据恢复到错误时间点）select to_char(sysdate,'yyyy-mm-dd hh24:mi:ss') from dual;2、查询删除数据时间点之前的数据select * from 表名 as of timestamp to_timestamp('2019-11-10 11:00:00',......

2019-11-20 11:37:03 1635

原创 DataX环境部署以及测试案例

DATAX简介DataXDataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台，实现包括 MySQL、SQL Server、Oracle、PostgreSQL、HDFS、Hive、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。FeaturesDataX本身作为数据同步框架，将不同数据源的同步抽象为从源头数据源读取数据的Reader插件，以及向目标端写入数据......

2019-03-11 17:24:55 4784 2

原创安装CentOS6.8并配置网络图文解说亲测全过程

安装环境：本文是在win10系统安装上VMWare并配置Centos6.8虚拟机。准备工作1.安装VMWare虚拟机1.1下载VMWare12资源链接：https://pan.baidu.com/s/1AhfMSDXLO-aA0eMqnuMWHg 提取码：iftd1.2安装VMWare，在安装过程中需要输入密钥，填写下面密钥即可，傻瓜式安装。5A02H-AU243-TZJ49-GTC7...

2019-01-16 19:27:08 1332

原创 5台机器搭建HA步骤与注意事项

HA是High Available缩写，是双机集群系统简称，指高可用性集群，是保证业务连续性的有效解决方案，一般有两个或两个以上的节点，且分为活动节点及备用节点。

2019-01-15 19:18:40 2471 4

原创 kettle入门之文本文件导入数据库

Kettle是一款国外开源的ETL工具，纯java编写，可以在Windows、Linux、Unix上运行，数据抽取高效稳定。Kettle 中文名称叫水壶，该项目的主程序员MATT 希望把各种数据放到一个壶里，然后以一种指定的格式流出。...

2019-01-01 13:40:58 3753 1

原创使用Java实现发送email邮件

一、maven依赖 <dependency> <groupId>javax.mail</groupId> <artifactId>mail</artifactId> <version>1.4.7</version> </dependency&am...

2018-12-01 17:16:46 1628

原创 kafka使用说明书

首先要打开zookeeper，其次打开kafka，关闭时要先关闭kafka再关闭zookeeper启动zookeeperzookeeper-server-start.sh config/zookeeper.properties启动kafkakafka-server-start.sh config/server.properties停止kafkakafka-server-...

2018-11-29 21:29:50 431

原创 solr部署以及ik中文分词案例

1.简介Solr是一个高性能，采用Java5开发，Solr基于Lucene的全文搜索服务器。同时对其进行了扩展，提供了比Lucene更为丰富的查询语言，同时实现了可配置、可扩展并对查询性能进行了优化，并且提供了一个完善的功能管理界面，是一款非常优秀的全文搜索引擎。因为中文的特殊性，在对中文文档建立全文索引时，需要利用分词工具进行分词。目前比较知名的分词工具有：IK，庖丁等.下面使用的是I...

2018-11-24 16:35:09 236

原创 Java使用PDFBox操作PDF文件获取页码、文章内容、缩略图

一、依赖<dependency> <groupId>com.sleepycat</groupId> <artifactId>......

2018-11-06 22:12:39 6433

原创 hadoop单机伪分布安装HBase-1.4.8详细步骤（亲测成功）

---------前提：安装hadoop、yarn、jdk1.下载解压1.1使用wget下载wget http://archive.apache.org/dist/hbase/1.4.8/hbase-1.4.8-bin.tar.gz 1.2解压到/usr/local目录下tar -zxvf hbase-1.4.8-bin.tar.gzmv hbase-1.4.8 /...

2018-10-23 21:36:10 1767

原创关于Hadoop的杂乱无章（续更）

hadoopJPS（是jdk的工具）：表示查看当前主机有哪些运行的进程NameNode ：表示主节点DataNode：表示数据节点SecondaryNameNode ：表示次要名称节点--节点表示：一台机器进程是运行在机器上的，一个软件可以有多个进程（分布式软件：Hadoop）HDFS只是Hadoop的一部分，Hadoop还有MR、yarnHDFS是分布式软件系统：将文件自动分布...

2018-09-29 19:55:00 981

原创使用CentOS6.8搭建Hadoop集群

概述：集群cluster，能将很多进程分布到多台计算机上；通过联合使用多台计算机的存储、计算资源完成更庞大的任务。为了实现无限量的存储和计算能力，在生产环境中必须使用集群来满足需求。注意事项：1)集群中的计算机在时间上要同步，系统时间不能差太多（约30秒内），如果设置时间后重启时间又不准确了（可能是主板电池老化），可以启用NTP（Network Time Protocol网络时间...

2018-09-29 09:23:28 2281

原创使用IEDA2018创建maven+web项目

因为是自学，所以走了不少弯路，因此总结一下放置自学的小伙伴们少走弯路,还没有安装IntelliJ IDEA可以点击这里1.版本信息介绍【idea版本】：2018.1.5【Tomcat版本】：7.0.52【maven版本】：3.5.42.软件安装idea的安装与破解可以点击这里Tomcat：安装与启动如下所示运行软件：找到你的tomcat文件路径下的bin(这是我的...

2018-08-15 11:18:23 5082

原创 Idea添加依赖的步骤：

1. 项目按F4(ctrl+shift+alt+s)2. 找到dependencies选项卡3. 点击“ +”4. 将jar包选中，加入5. 可以使用jar中的工具类。网络上下载jar1. 百度搜索 maven repo2. 输入jar包的名字3. 找到对应的版本下载jar...

2018-07-31 11:17:49 13612

原创从机缘到成就

在撰写博客和文章的过程中，我不得不不断地学习和探索新的技术，这也让我更加深入地理解了编程的本质和思想。除此之外，我还收获了很多粉丝和读者，他们经常给我反馈和评论，这也让我更加有动力和信心继续创作。我也曾面临挫折和疲惫。我不断学习新的知识和技能，积极参与各类技术研讨会和交流活动，这不仅增加了我对技术的深度理解，也拓宽了我的视野与见识。在这1825天的旅程中，我找到了自己的方向，也收获了许多宝贵的机遇和成长。我的技术博客逐渐积累了一定的粉丝和读者群体，他们通过评论和邮件与我互动，给我提供了更多的反馈和建议。

2023-06-19 17:16:48 211

原创设置linux静态ip

配置的是局域网网络号，这个是。就是网关或者路由地址；需要说明，原来还有个。ifcalc自动计算。

2023-06-17 01:05:20 164

原创如何设置CDH的资源池

【代码】如何设置CDH的资源池。

2023-06-17 00:56:32 305

原创离线计算调优手册

目前离线计算主要分为两块：和，该手册将围绕这两部分展开说明。随着技术不断迭代升级，结合不同业务、不同场景，手册的适用性可能发生变化，因此下面介绍的优化手段可作为参考，并不是一成不变的。Hive的简单定义（来自Hive官网）：简单来说，hive本身是一种数据仓库，通过其提供的sql和访问接口，使我们能够很方便的访问读写大规模数据集，无需关注底层数据是如何分布存储的。目前hive 提供了三种计算引擎：，使用者可根据hadoop集群安装环境（CDH、阿里云EMR等等）选择使用不同的计算引擎。具体可通过参数

2023-06-13 23:23:58 507

原创 Hive归档操作命令

直接使用大数据平台的离线计算创建作业即可；

2023-06-13 22:53:16 191

原创大数据问题及解决方法

创建时间： 2023 - 06 - 7 最后更新时间： 2023 - 06 - 7。

2023-06-07 10:27:47 153

原创 Hive之HPLSQL安装手册

解压下载的hplsql-0.3.31.tar.gz压缩包，（注意。文件，后面只需要配置这俩个文件），上传到集群。（根据自己库表来查询测试）测试成功说明连接成功。

2023-06-07 10:11:05 544

原创 dbeaver配置驱动手册

一、配置hive连接（impala同理）点击数据库，新建连接选择hadoop/bigdata，选择apache hive点击下一步，输入以下选项点击编辑驱动设置，找到驱动文件目录，添加文件夹，点击找到类，选择hivedriver选择确定，点击测试连接按钮即可

2023-06-07 10:02:06 3947

原创合并文件解决HiveServer2内存溢出方案

使用HiveServer2查询数据时，会将元数据都加载到内存中，如果一个表格的分区很大，每个分区中又有很多的小文件，就会导致将元数据加载到内存中时使用的内存比较大。因此，Cloudera公司推荐使用的分区数最好不要超过1000个分区；同时分区中的也不要存储过多的为小文件，要定期对数据进行治理以合并小文件。

2023-06-06 16:23:02 1074

原创基于Oracle系统表将Oracle表生成出相应的HIVE内部表&外部表

【代码】基于Oracle系统表将Oracle表生成出相应的HIVE内部表&外部表。

2023-06-06 15:53:33 308

原创使用Java代码实现Excel2Hive

//1.将excel转成csv格式的文件excelToCsv(excelPath,csvPath);//2.读取csv的数据到hive表中csvToHive(csvPath,pi_schema,pi_table,hc);//3.清除留痕 -默认清除留痕

2023-06-06 15:41:56 180

原创将固定分隔符的TXT文件导入Hive表

【代码】将固定分隔符的TXT文件导入Hive表。

2023-06-06 15:37:08 922 2

原创 Cannot connect to the Docker daemon at unix:///var/run/docker.sock. Is the dock

服务器使用阿里云的，经常重启，一直没有管理之前安装的docker，现在想学习spark，遍跟着官网开始下载spark，执行了。这里也看不出来啥错，参照网上方法看系统的log日志。记录一下初使用docker时，报错。通过网络百度到下面代码。

2023-01-16 15:07:09 1348 1

原创 shell执行Oracle SQL并捕获异常案例分析

第一行的内容指定了shell脚本解释器的路径，而且这个指定路径只能放在文件的第一行。第一行写错或者不写时，系统会有一个默认的解释器进行解释。实现功能读取指定配置文件中的Oracle数据库连接，清空传入变量表的数据，以及清除数据之后的结果进行捕获分析。获取oracle环境变量并在当前执行用户中生效，只在这个会话中生效。加载外部文件，将外部文件中的变量引用到当前shell脚本中。由于执行OracleSQL进入新的进程，使用判断返回值。相同，但是使用时加引号，并在引号中返回每个参数。echo 用于字符串的输出。

2022-12-16 14:21:20 1321

原创七夕来袭！还要做CDH数据迁移怎么办？来看看DistCp

该工具用于大规模集群内部和集群之间数据拷贝，它使用Map/Reduce实现文件分发，错误处理和恢复，以及报告生成。它把文件和目录的列表作为map任务的输入，每个任务会完成源列表中部分文件的拷贝。...............

2022-08-04 17:46:17 739

原创关于Linux：There were ** failed login attempts since the last successful login

谢谢能够看到这里，希望对于新手会有用，我也是在测试阶段；后续监控一下暴力破解的是否减少。能够介绍不必要的损失。上面使用的都是测试用户，下面再写一个删除用户的命令。由于部署一些东西想要在线访问使用的是阿里云的服务器，但是每次使用root登录的时候，都会出现下图所示的信息，有尝试暴力登录我的主机。-使用root用户执行下面命令。重启sshd服务使其修改生效。...

2022-07-19 18:11:21 3190

原创 GitHub远程提交实际步骤

注意事项:1如果第一次使用git, idea会提示输入github用户名, 密码;2如果出现提示提示没有本地分支, 运行以下命名:git branch --set-upstream master origin/master至此: 大功告成!!!

2022-07-13 17:34:00 228

原创 Spark相关常见问题汇总

在执行Spark过程中抛出：：该原因是由于hosts未配置，导致不识别：修改相应的机器的host即可在执行Sparksql操作orc类型的表时抛出：：分区或者表下存在空的orc文件。该BUG在Spark2.3.0之后才修复：规避解决。修改ORC的默认分割策略为：hive.exec.orc.split.strategy=BI进行解决。Orc的分split有3种策略（ETL、BI、HYBIRD），默认是HYBIRD(混合模式，根据文件大小和文件个数自动选择ETL还是BI模式)，BI模式是按照文件个数来分spli

2022-07-13 16:56:53 1938

dbf2csv.rar

MobaXterm是Windows全能终端神器

空空如也