自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(90)
  • 收藏
  • 关注

原创 大数据面试题

数据开发面试题1.Linux基础知识1.1Linux常用命令1)查看cpu,内存2)修改文件目录权限属主3)挂载磁盘4)查看磁盘使用情况5)打包及压缩6)查看进程7)查看IP8)查找文件9)远程拷贝文件10)文本处理命令1.2Shell脚本编写设计一个Shell程序,在/home目录下创建100个文件,并且修改文件权限,其中其它用户的权限为:读。文件全部者的权限为:读、...

2020-02-19 10:46:10 5964

原创 linux网络配置

lo回环接口主机内部服务之间沟通的网络接口回环接口—-人的神经—-127.0.0.1—-localhost0.0.0.0代表所有以root权限编辑/etc/sysconfig/network-scripts/ifcfg-eno16777736这个文件,效果如下:TYPE=EthernetBOOTPROTO=static #设置静态IpDEFROUTE=yesIPV4_FAILUR...

2019-10-19 09:53:24 289

原创 一个强大的linux命令——find之exec

https://blog.csdn.net/u014762921/article/details/54287302exec和source都属于bash内部命令(builtins commands),在bash下输入man exec或man source可以查看所有的内部命令信息。  bash shell的命令分为两类:外部命令和内部命令。外部命令是通过系统调用或独立的程序实现的,如sed、aw...

2019-09-10 10:12:06 293

原创 Kubernetes之yaml文件详解

https://www.cnblogs.com/lgeng/p/11053063.html

2019-09-06 08:59:53 220

原创 k8s使用

https://blog.csdn.net/weixin_29115985/article/details/78932991一. k8s基本操作命令:创建:kubectl create -f xxx.yaml查询:kubectl get pod yourPodNamekubectl describe pod yourPodName删除:kubectl delete pod yourPod...

2019-09-05 18:26:33 127

原创 Linux 文件描述符详解

https://www.cnblogs.com/zsql/p/11139760.htmlOverview了解Linux怎样处理输入和输出是非常重要的。一旦我们了解其原理以后,我们就可以正确熟练地使用脚本把内容输出到正确的位置。同样我们也可以更好地理解输入重定向和输出重定向。Linux标准文件描述符文件描述符 缩写 描述0 STDIN 标准输入1 STDOUT 标准输出2 STDERR...

2019-09-03 10:58:30 144

原创 linux并发编程

linux下实现并发逻辑################shell 模拟实现并发跑数#################有时候我们知道一些程序是可以同时跑的,互不影响,为了提高效率不得不使用并发跑脚本#1、思路一我们都知道在linux中把程序丢后台跑脚本,我们可以同时跑很多个,这就是实现并发的思路,但是呢?如果我们一次性跑很多的后台程序,如果服务器没能扛住。。。。这就尴尬了,如果手工控制。...

2019-09-03 10:49:20 251

原创 hbase WAL机制原理

解决的问题HBase的Write Ahead Log (WAL)提供了一种高并发、持久化的日志保存与回放机制。每一个业务数据的写入操作(PUT / DELETE)执行前,都会记账在WAL中。如果出现HBase服务器宕机,则可以从WAL中回放执行之前没有完成的操作。本文主要探讨HBase的WAL机制,如何从线程模型、消息机制的层面上,解决这些问题:由于多个HBase客户端可以对某一台HB...

2019-08-28 15:53:21 482

原创 hbase远程调试

远程调试HBase步骤:1 修改HBASE_HOME/bin/hbase文件,增加-Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=n,address=10444如figure out which class to run if [ “COMMAND"="shell"];the...

2019-08-28 09:19:03 240

原创 jstack案例演示

https://www.cnblogs.com/zhengyun_ustc/archive/2013/01/06/dumpanalysis.htmljstack Dump 日志文件中的线程状态dump 文件里,值得关注的线程状态有:死锁,Deadlock(重点关注)执行中,Runnable等待资源,Waiting on condition(重点关注)等待获取监视器,Waiting on...

2019-08-21 22:47:32 189

原创 HBase snapshot原理

http://hbasefly.com/2017/09/17/hbase-snapshot/?bulwvo=dw1sw2snapshot(快照)基础原理snapshot是很多存储系统和数据库系统都支持的功能。一个snapshot是一个全部文件系统、或者某个目录在某一时刻的镜像。实现数据文件镜像最简单粗暴的方式是加锁拷贝(之所以需要加锁,是因为镜像得到的数据必须是某一时刻完全一致的数据),拷贝的...

2019-08-19 09:12:46 1523

原创 linux 安装 rz sz 工具

yum install gcc gcc-c++ gcc-g771.软件安装1)编译安装root 账号登陆后,依次执行以下命令:cd /tmpwget http://www.ohse.de/uwe/releases/lrzsz-0.12.20.tar.gztar zxvf lrzsz-0.12.20.tar.gz && cd lrzsz-0.12.20./configu...

2019-08-18 15:25:31 93

原创 Elasticsearch对Hbase中的数据建索引实现海量数据快速查询

https://blog.csdn.net/m0_37739193/article/details/78029734Elasticsearch+Hbase实现海量数据秒回查询https://blog.csdn.net/sdksdk0/article/details/53966430

2019-08-13 16:55:49 584

原创 IDEA打JAR包的正确步骤!

1.打开idea,这个不用多说了,open一个工程,完了界面如下2.点击菜单栏File–>Project Structure打开Project Structure3.点+按钮,选择JAR–》From Modules…打开create jar from modules对话框4.下面这一步比较重要,我就曾经入坑,最后打出的jar包缺少main-class属性导致无法执行,这里选择MA...

2019-08-12 17:15:28 507

原创 linux下的source命令(.命令)解释及应用

用法:source filename # filename必须是可执行的脚本文件或者. filename # 注意“.”号后面还有一个空格123功能:通知当前shell读入路径为filename的文件并依次执行文件中的所有语句。通常用于重新执行刚修改的初始化文件,使之立即生效...

2019-08-12 15:11:35 313

原创 kafka消费者组概念

https://blog.csdn.net/cgs666/article/details/85257819应用程序使用 KafkaConsumer向 Kafka 订阅主题,并从订阅的主题上接收消息 。 从 Kafka 读取数据不同于从其他悄息系统读取数据,它涉及一些独特的概念和想法。如果不先理解 这些概念,就难以理解如何使用消费者 API。所以我们接下来先解释这些重要的概念,然 后再举几个例子,...

2019-08-09 16:31:15 1486

原创 linux 操作

today=date "+%Y-%m-%d "00:00:00yesterday=date -d "1 day ago" "+%Y-%m-%d "00:00:00todayTimestamp=date -d "$today" +%s000yesTimestamp=date -d "$yesterday" +%s000echo $todayecho $yesterdayecho $tod...

2019-08-08 09:32:19 124

原创 hbase 过滤器

参考以下两个bloghttps://blog.csdn.net/weixin_40861707/article/details/83340929https://blog.csdn.net/lr131425/article/details/72676254一. hbase shell的filter操作不设置过滤器,全表扫描scan ‘表名’ //查询出某个表格内全部的数据记录举例 : ...

2019-08-07 15:23:14 178

原创 hbase api操作

HBase API简介见https://www.cnblogs.com/wishyouhappy/p/3753347.htmlhbase shell基础和常用命令详解https://www.jb51.net/article/31172.htm创建表插入数据删除等见https://www.cnblogs.com/wishyouhappy/p/3735077.html概括创建、删除及...

2019-08-06 19:27:10 259

原创 sqoop问题

将mysql中的数据导入到hive中报错:ERROR tool.ImportTool:Import failed: java.io.IOException: java.lang.ClassNotFoundException: org.apache.hadoop.hive.conf.HiveConf这是因为sqoop需要一个hive的包,将hive/lib中的hive-common-2.3.3....

2019-08-05 21:47:15 307

转载 自动化运维工具-pdsh工具安装配置及简单使用讲解

http://www.bubuko.com/infodetail-2338310.html1、先决条件:安装pssh工具的主机针对远程主机需要配置免秘钥认证:ssh-keygen -t rsassh-copy-id [remotehost]2、下载pssh工具安装介质:https://storage.googleapis.com/google-code-archive-download...

2019-08-05 09:14:40 595

原创 HBase海量数据入库方案、使用ImportTSV向HBase中导入海量数据、HBase的写入流程、HBase在HDFS中的存储结构、LoadIncrementalHFiles命令 10

https://blog.csdn.net/heyongluoyao8/article/details/25426481https://blog.csdn.net/jdzms23/article/details/45078175

2019-08-04 22:15:28 729

原创 hbase-site.xml 配置详解

https://blog.csdn.net/ningxuezhu/article/details/50547970该文档是用hbase默认配置文件生成的,文件源是 hbase-default.xmlhbase.rootdir这个目录是region server的共享目录,用来持久化HBase。URL需要是’完全正确’的,还要包含文件系统的scheme。例如,要表示hdfs中的’/hbase’...

2019-08-02 16:44:12 665

原创 hbase数据备份或者容灾方案

https://blog.csdn.net/u010657789/article/details/51813226HBase的数据备份或者容灾方案有这几种:Distcp,CopyTable,Export/Import,Snapshot,Replication,以下分别介绍(以下描述的内容均是基于0.94.20版本)。一、Distcp在使用distcp命令copy hdfs文件的方式实现备份时...

2019-08-01 18:47:58 141

原创 hbase hbck 用法

hbase hbck用法2017年7月29日作者:白42暂无评论文章目录 [显示]在这里简单整理下hbase hbck的用法。用法:hbase hbck [opts] {only tables}1hbase hbck [opts] {only tables}opts通用可选项-help 展示help信息;-detail 展示所有Region的详情;-timelag <秒...

2019-08-01 09:35:30 963

原创 Spark_分区、任务等概念总结

https://blog.csdn.net/sandra_csdn/article/details/78110622Spark分区数、task数目、core数目、worker节点数目、executor数目梳理spark隐式创建由操作组成的逻辑上的有向无环图。驱动器执行时,它会把这个逻辑图转换为物理执行计划,然后将逻辑计划转换为一系列的步骤(stage),每个步骤由多个任务组成。步骤组成任务...

2019-07-31 16:24:40 635

原创 Hbase Coprocessor(协处理器)的使用

参考以下两篇博客:https://blog.csdn.net/jediael_lu/article/details/76577072https://blog.csdn.net/henianyou/article/details/80938422

2019-07-31 14:08:18 125

原创 HBase的replication原理及部署

https://www.cnblogs.com/zhangwuji/p/9195806.html一、hbase replication原理hbase 的复制方式是 master-push 方式,即主集群推的方式,主要是因为每个rs都有自己的WAL。 一个master集群可以复制给多个从集群,复制是异步的,运行集群分布在不同的地方,这也意味着从集群和主集群的数据不是完全一致的,它的目标就是最终一...

2019-07-30 23:00:50 608

原创 Linux—shell中$(( ))、$( )、``与${ }的区别

https://www.cnblogs.com/chengd/p/7803664.html命令替换在bash中,$( )与(反引号)都是用来作命令替换的。命令替换与变量替换差不多,都是用来重组命令行的,先完成引号里的命令行,然后将其结果替换出来,再重组成新的命令行。exp 1[root@localhost ~]# echo today is $(date “+%Y-%m-%d”)tod...

2019-07-29 15:48:28 99

原创 hive元数据初始化遇到的坑

ERROR 1862 (HY000): Your password has expired. To log in you must change it using a client that supports expired passwords.解决办法:1.在my.cnf mysqld 部分加入 skip-grant-tables 参数。 #跳过数据库权限验证[mysqld]skip-...

2019-07-26 11:50:14 1479

原创 mysql.sock的问题

关于mysql.sock的一些问题:连接数据库时报错:Can 't connect to local MySQL server through socket '/tmp/mysql.sock '(2) ";查找mysql配置文件my.cnf:find / -name my.cnf默认在/usr/my.cnfmysql.sock默认位置:/var/lib/mysql/mysql.sock...

2019-07-26 09:15:51 1197

原创 centos mysql 安装

FATAL ERROR: please install the following Perl modules before executing ./scripts/mysql_install_db:Data::Dumper解决方法是安装autoconf库执行命令:yum -y install autoconfhttps://www.cnblogs.com/xiaxiaoxu/p/99789...

2019-07-25 22:24:19 88

原创 HBase学习之六: hbase的预分区设计

背景:HBase默认建表时有一个region,这个region的rowkey是没有边界的,即没有startkey和endkey,在数据写入时,所有数据都会写入这个默认的region,随着数据量的不断 增加,此region已经不能承受不断增长的数据量,会进行split,分成2个region。在此过程中,会产生两个问题:1.数据往一个region上写,会有写热点问题。2.region split会消...

2019-07-25 18:53:12 194

原创 su和sudo命令

我们知道,在Linux下对很多文件进行修改都需要有root(管理员)权限,比如对/ect/profile等文件的修改。很多情况下,我们在进行开发的时候都是使用普通用户进行登录的,尤其在进行一些环境变量的配置工作时,常常需要对一些文件进行修改。那么我们如何获取管理员权限呢?? 一般来说,有两种方法。一是:利用su命令切换到root用户,在root用户下对那些文件进行修改,完成相关配置工作。二是:利...

2019-07-25 14:33:41 170

原创 hbase hbck(元数据修复)深入

官网介绍:http://hbase.apache.org/book.html#hbck.in.depthmeta表修复一Java代码 收藏代码查看hbasemeta情况hbase hbck1.重新修复hbase meta表(根据hdfs上的regioninfo文件,生成meta表)hbase hbck -fixMeta2.重新将hbase meta表分给regionserver(根...

2019-07-25 10:34:26 2662

原创 Kafka写入流程和副本策略

Kafka写入流程:1.producer 先从 zookeeper 的 “/brokers/…/state” 节点找到该 partition 的 leaderproducer 将消息发送给该 leaderleader 将消息写入本地 logfollowers 从 leader pull 消息,写入本地 log 后 leader 发送 ACKleader 收到所有 ISR ...

2019-07-24 23:05:42 206

原创 Kafka消息的物理存放路径

https://blog.csdn.net/weixin_42628594/article/details/85571380Kafka的Log存储解析https://blog.csdn.net/jewes/article/details/42970799Kafka中的Message是以topic为基本单位组织的,不同的topic之间是相互独立的。每个topic又可以分成几个不同的partit...

2019-07-24 23:01:24 8499 4

原创 用maven assembly插件打jar包实现依赖包归档

https://blog.csdn.net/e5945/article/details/7777286如果你的项目使用maven构建的话,当项目要上线,部署到服务器上去的时候或许会碰见这样的问题。问题就是,服务器上没有maven的环境,也就是说,项目所依赖到的那些仓库(repository)中的jar包你需要单独提取出来上传到服务器中去。我知道pom类型如果是war的话,在使用mvn pack...

2019-07-24 09:59:09 109

转载 Elasticsearch笔记五之java操作es

https://blog.csdn.net/ty4315/article/details/524342961:集群名称 默认集群名为elasticsearch,如果集群名称和指定的不一致则在使用节点资源时会报错。2:嗅探功能 通过client.transport.sniff启动嗅探功能,这样只需要指定集群中的某一个节点(不一定是主节点),然后会加载集群中的其他节点,这样只要程序不停...

2019-07-23 22:56:50 145

原创 通过HBase Observer同步数据到ElasticSearch

http://guoze.me/2015/04/23/hbase-observer-sync-elasticsearch/Observer希望解决的问题HBase是一个分布式的存储体系,数据按照RowKey分成不同的Region,再分配给RegionServer管理。但是RegionServer只承担了存储的功能,如果Region能拥有一部分的计算能力,从而实现一个HBase框架上的MapRe...

2019-07-23 22:32:47 216

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除