自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

我是明星的专栏

我是一只小小鸟啊,一点点往上飞啊飞。。。。。。

  • 博客(71)
  • 资源 (6)
  • 问答 (1)
  • 收藏
  • 关注

原创 python通过thrift操作hbase

1、安装thrift下载thrift:wget http://mirror.bit.edu.cn/apache/thrift/0.10.0/thrift-0.10.0.tar.gztar zvxf thrift-0.10.0.tar.gzcd thrift-0.10.0/./configuresudo make && make install注:如果报g++: error: /usr/lib64/libboost_unit_test_framework.a: No s

2021-08-05 14:47:20 754

转载 CountDownLatch的理解和使用

在笔者想要了解Thrift时候,找到一个博主写的系统间通信技术的架构设计,在了解和学习的过程中遇到很多小问题和基础知识,自己还是不够清楚,就查询和总结下。因为笔者也都是从网上找的一些资料,好的资料笔者都是自己收敲一遍,这样觉得能够加深下印象,引发更多的思考,毕竟很多时候笔者感觉自己都是七秒的记忆。在第一篇文章中遇到了一个CountDownLatch同步计数器,当计数器数值减为0时,所有受其影响而等待的线程将会被激活,这样保证模拟并发请求的真实性。CountDownLatch概念CountDo

2021-05-14 14:41:43 253

原创 记录ResourceManager选主失败的一次case

前段时间在clouderamanager管理集群的时候,需要重启集群,但是重启集群后发现两个ResourceManager都处于备用状态,也就是没有选出主RM

2021-01-29 17:33:32 579 1

原创 centos7添加系统服务项

centos7和centos6对于添加系统服务项步骤已经完全不同,在centos6中通过添加/etc/init.d/service来添加系统服务项,但是centos7中却不是,以下以添加mysql系统服务项为例说明:一、centos7与centos6相比有什么不同:  1  在centos7中服务不在是用service这个命令来启动与停止,也不再用chkconfig来设置开机启动与否!  在centos7中所有对服务的管理都集中到了systemctl当中;sy...

2020-06-29 15:35:54 1531

原创 mysql重置root密码

经常会有朋友或者同事问起,MySQL 的 root 密码忘了,不知道改怎么办。其实解决方法很简单,下面是详细的操作步骤。(1)修改配置文件my.cnf,在配置文件[mysqld]下添加skip-grant-tables,重启MySQL服务即可免密码登录  其中--skip-grant-tables 选项前面曾经介绍过,意思是启动 MySQL 服务的时候跳过权限表认证。 启动后,连接到 MySQL 的 root 将不需要口令。# SERVER SECTION# ---------.

2020-06-29 15:30:39 440

原创 hdfs的acl权限控制

ACL(Access Control Lists,访问控制列表),Hadoop中的acl与unix中的acl机制(posix模型)基本相同,可以为文件或目录提供更精细化的权限访问控制。对于每个文件或目录而言,权限管理分为3个不同的用户类:owner,group和others。每个用户类有3种不同的访问权限:read,write,execute。当一个用户试图访问一个文件系统对象时,hdfs会根据该用户所对应的权限进行验证:如果该用户是其所有者(owner),那么hdfs将检查owner类权限;如果.

2020-06-10 15:30:14 1060 1

转载 jdk常用并发包

一、Fork/JoinJava7提供了Fork/Join用于并行执行任务的框架, 可以把一个大任务分割成若干个小任务,最终汇总每个小任务结果后得到大任务结果的框架。如果一个应用能被分解成多个子任务,并且组合多个子任务的结果就能够获得最终的答案,那么这个应用就适合用 Fork/Join 模式来解决,对开发来说也不再需要处理各种并行相关事务,例如同步、通信、死锁等问题,需要做的就是拆分任务...

2020-03-31 10:18:08 442

原创 hdfs数据块丢失处理

查看修复HDFS中丢失的块检测缺失块1 hdfs fsck -list-corruptfileblocks1 hdfs fsck / | egrep -v '^\.+$' | grep -v eplica查看上面某一个文件的情况1 hdfs fsck /path/to/corrupt/file -locations -blocks -files解决方法如果文件不重...

2020-03-30 11:09:52 1226

转载 分布式系统理论之Quorum机制

一,Quorum机制介绍在分布式系统中有个CAP理论,对于P(分区容忍性)而言,是实际存在 从而无法避免的。因为,分布系统中的处理不是在本机,而是网络中的许多机器相互通信,故网络分区、网络通信故障问题无法避免。因此,只能尽量地在C 和 A 之间寻求平衡。对于数据存储而言,为了提高可用性(Availability),采用了副本备份,比如对于HDFS,默认每块数据存三份。某数据块所在的机器宕机了,...

2020-02-21 15:15:06 1044

原创 kafka中zookeeper的作用

Kafka使用zk的分布式协调服务,将生产者,消费者,消息储存(broker,用于存储信息,消息读写等)结合在一起。同时借助zk,kafka能够将生产者,消费者和broker在内的所有组件在无状态的条件下建立起生产者和消费者的订阅关系,实现生产者的负载均衡。1. broker在zk中注册kafka的每个broker(相当于一个节点,相当于一个机器)在启动时,都会在zk中注册,告诉zk其br...

2019-12-05 17:35:05 1368

转载 kafka的groupid

设置消费者properties的两个参数consumer.group.idproperties.setProperty("auto.offset.reset", "earliest”) // latest注意:只要不更改group.id,每次重新消费kafka,都是从上次消费结束的地方继续开始,不论"auto.offset.reset”属性设置的是什么场景一:Kafka上...

2019-12-05 16:48:26 36919 3

转载 Kafka分区与消费者个数之间的关系

1. 前言我们知道,生产者发送消息到主题,消费者订阅主题(以消费者组的名义订阅),而主题下是分区,消息是存储在分区中的,所以事实上生产者发送消息到分区,消费者则从分区读取消息,那么,这里问题来了,生产者将消息投递到哪个分区?消费者组中的消费者实例之间是怎么分配分区的呢?接下来,就围绕着这两个问题一探究竟。2. 主题的分区数设置在server.properties配置文件中可以指定一...

2019-12-05 16:41:51 7797 1

转载 ssh连接远程主机执行脚本的环境变量问题

近日在使用ssh命令ssh user@remote ~/myscript.sh登陆到远程机器remote上执行脚本时,遇到一个奇怪的问题:~/myscript.sh: line n: app: command not foundapp是一个新安装的程序,安装路径明明已通过/etc/profile配置文件加到环境变量中,但这里为何会找不到?如果直接登陆机器remote并执行~/myscript....

2019-01-04 15:59:05 794

转载 sbt介绍与构建Scala项目

一、sbt简介     sbt是类似ANT、MAVEN的构建工具,全称为Simple build tool,是Scala事实上的标准构建工具。    主要特性:原生支持编译Scala代码和与诸多Scala测试框架进行交互; 使用Scala编写的DSL(领域特定语言)构建描述 使用Ivy作为库管理工具 持续编译、测试和部署 整合scala解释器快速迭代和调试 支持Java与Sc...

2018-08-14 14:49:43 4469

转载 mongo和hive集成

1.背景公司希望使用MongoDB作为后端业务数据库,使用Hadoop平台作为数据平台。最开始是先把数据从MongoDB导出来,然后传到HDFS,然后用Hive/MR处理。我感觉这也太麻烦了,现在不可能没有人想到这个问题,于是就搜了一下,结果真找到一个MongoDB Connector for Hadoop2.MongoDB简介–摘自邹贵金的《mongodb》一书NoSQL数据库与传统...

2018-07-31 10:58:30 2237 1

转载 一个著名的调度系统是怎么设计的?

实习生张大胖 这是个代码写得很烂的电商系统,只要运行一段时间,服务器就会出现Out Of Memory。 别人都忙得四脚朝天,于是实习生张大胖被抓了壮丁去研究为什么会出现OOM。 刚入行的张大胖技术水平一般,“装模作样”地看代码,研究日志,请教老员工,一个星期过去了,还是一无所获。 周一例行的项目会议上, 大家似乎要看张大胖的笑话了,没想到他却提了一个歪招:“这个O...

2018-07-20 12:19:56 290

转载 sqoop无法导出parquet文件到mysql

1.问题描述在CDH集群中我们需要将Hive表的数据导入到RDBMS数据库中,使用Sqoop工具可以方便的将Hive表数据抽取到RDBMS数据库中,在使用Sqoop抽取Hive Parquet表时作业执行异常。Sqoop抽数脚本:sqoop export \--connect jdbc:mysql://localhost:3306/test_db \--username root \--passw...

2018-06-08 14:56:59 4961

转载 hive函数大全

非常全的hive函数大全,可以当做一个工具

2017-08-20 19:51:32 545

转载 hive join操作总结

hive 各种join做了详细总结,值得阅读

2017-08-20 10:58:05 523

原创 AtomicInteger的CAS原理

java并发的cas原理

2017-05-19 16:57:43 1380

原创 hive mapjoin操作

hive map端join

2017-03-22 11:41:05 724

转载 hive数据倾斜(大表join大表)

hive数据倾斜问题

2017-03-20 11:26:04 1837

原创 hive时间函数

hive时间函数总结

2017-03-14 14:32:02 759

原创 linux中xargs用法

linux中xargs中介绍以及一些实例应用

2017-03-09 14:17:27 1960 1

转载 kafka经典教程

读过的关于kafka的很好的一篇文章,文章覆盖面很全,可以让你迅速熟悉kafka

2017-03-07 13:40:57 398

转载 java锁机制:synchronized、Lock、Condition

java锁机制

2017-03-03 15:50:21 352

转载 Spark SQL 之 DataFrame

sparksql中DataFrame介绍

2016-12-29 15:34:46 735

转载 spark 将dataframe数据写入Hive分区表

spark-sql dataframe 数据写入Hive分区表

2016-12-29 15:15:02 26167

转载 hbase的行锁与多版本并发控制(MVCC)

hbase并发控制机制

2016-11-17 14:42:54 1119

转载 java高效读取大文件

java高效读取大文件

2016-09-23 15:22:49 1136 1

转载 分布式大数据多维数据分析(olap)引擎kylin

kylin基本的安装和使用

2016-08-25 19:38:09 17872

转载 kafka常见问题

kafka常见问题

2016-08-09 14:08:11 15453

原创 spring-boot中使用log4j

springboot默认不使用log4j,但是支持log4j

2016-08-04 13:50:21 10507

转载 storm滑动时间窗口实现

storm的滑动窗口实现,值得借鉴

2016-08-01 17:44:35 8563

原创 storm重要点理解

本文用例子的方式介绍了storm的几个核心概念,对于storm入门的开发人员具有极强指导作用

2016-07-30 22:10:04 3446 1

原创 hadoop中mr处理大量小文件

mapreduce怎么处理大量小文件

2016-06-30 20:42:20 6535

转载 hbase学习笔记

hbase学习笔记

2016-06-17 11:22:25 1928

转载 海量数据处理算法—Bloom Filter

布隆过滤器介绍

2016-06-16 11:16:35 629

转载 mapreduce操作hbase

mapreduce操作hbase

2016-06-15 11:09:13 528

原创 java cmd命令如何引用多个外部jar

java命令如何引用多个外部jar

2016-06-14 14:40:20 5855 3

hdfs-over-ftp的重构

官网的hdfs-over-ftp已经好久没有更新,还只是停留在hadoop 0.20.x,下载之后不兼容无法使用,所以对hdfs-over-ftp进行了重构,此软件支持hadoop2.0.0,其他版本还需要重新编译打jar包,zip包中附带了一个使用说明

2014-05-08

hadoop-2.0.0-cdh4.1.2-eclipse-plugin

里面包含了一个jar包:hadoop-2.0.0-cdh4.1.2-eclipse-plugin,亲测可以正常使用

2014-04-18

hadoop数据输出压缩

hadoop数据输出压缩

2012-09-14

hadoop访问数据库

使用hadoop来访问数据库,详细说明了访问数据库的原理和步骤

2012-09-14

hbase权威指南

hbase技术最权威的一个文档,详细描述了hbase的起源以及和使用

2012-09-14

hadoop之map/reduce

hadoop开发文档

2012-08-28

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除