- 博客(40)
- 资源 (1)
- 收藏
- 关注
原创 shell编程:脚本实现排序算法和递归算法
本文目录1、实现冒泡排序2、实现递归3、实现选择排序4、实现插入排序5、实现快速排序1、实现冒泡排序#冒泡排序#!bin/bashscore=(10 20 30 25 28)#外层for ((i=1;i<${#score[@]};i++)); do #内层 for ((j=0;j<${#score[@]}-i;j++)); do if [ ${score[$j]} -gt ${score[((j+1))]} ]; then tmp=${sco
2020-09-22 14:30:23 839 1
原创 Linux 文本编辑常用快捷键(超详细)
本文目录一、编辑模式二 、编辑文本常用快捷键1、插入命令2、定位命令3、删除命令4、复制和剪切命令5、替换和取消命令6、搜索和替换命令7、保存退出命令三、应用实例1、在vi中导入文件2、在vi中执行命令3、把命令执行的结果导入到vi中4、定义快捷键5、连续行注释一、编辑模式vim有三种编辑模式i 进入文本编辑模式esc 进入命令编辑模式命令编辑状态下 dd删除整行:进入底行模式底行模式状态: 输入q 退出 w保存 wq 保存并退出 !表示强制的意思
2020-09-22 13:44:08 2910
原创 大数据各组件原理总结(详细)
本文目录Hadoop 原理hdfs读流程hdfs写流程Hive 原理HBase 原理Flume 运行原理kafka 原理MapReduce 原理Spark 原理Hadoop 原理hdfs读流程HDFS文件读流程:客户端读取数据的过程如下:(1)首先客户端会调用FileSystem. open()方法获取的dfs实例,dfs会向远程的NameNode发送RPC请求。(2)然后NameNode会视情况返回文件的部分或全部的块列表,对于每个块呢,都包含块所在的DataNode地址,这些DataNod
2020-07-30 14:57:58 2036
原创 Hive命令操作(详细)
Hive操作Hive DDL1、创建表2、修改表3、显示命令Hive DML1、load2、insert3、导出表数据4、select5、joinHive shell本文介绍有关Hive表的DDL操作、DML操作和shell操作。Hive DDL1、创建表Hive创建表的语法如下:create [temporary][external] table [if not exists][db_name.]table_name[(col_name data_type[comment col_commen
2020-07-05 16:44:56 364
原创 Hive全面介绍(有点详细)
Hive有关介绍Hive是什么使用Hive的好处Hive的特点Hive架构Hive工作原理Hive中表的分类Hive与HBase的联系和区别Hive与HBase的联系Hive与HBase的区别Hive是什么(1)由Facebook开源,最初用于解决海量结构化的日志数据统计问题;(2)构建在Hadoop之上的数据仓库;(3)Hive定义了一种类SQL查询语言:HQL(类似SQL但不完全相同);(4)通常用于进行离线数据处理(采用MapReduce);(5)底层支持多种不同的执行引擎(Hive
2020-07-04 23:35:50 5934 1
原创 HBase读写数据流程(通俗易懂)
HBase读写数据流程(通俗易懂)HBase读数据流程HBase写数据流程HBase读数据流程HBase读数据流程图如下:HBase读数据具体流程:(1)Client先访问zookeeper,从meta表读取region的位置,然后读取meta表中的数据。meta中又存储了用户表的region信息。(2)根据Rowkey在meta表中找到对应的region信息。(3)找到这个Region对应的RegionServer。(4)查找对应的Region。(5)先从MemStore找数据,如果没有
2020-07-03 15:15:30 1518
原创 HBase优化
HBase的优化方式1、表设计2、写表3、读表本文介绍一下HBase通过哪些方式可以达到优化。1、表设计(1)建表时就分区(预分区),rowkey设置定长(64字节),CF2到3个。(2)Max Versio,Time to live,Compact&Split。2、写表(1)多Htable并发写,提高吞吐量。(2)Htable参数设置,手动flush,降低IO。(3)WriteBuffer。(4)批量写,减少网络I/O开销。(5)多线程并发写,结合定时flush和写buffer
2020-07-03 14:49:24 117
原创 HBase介绍
HBase简介及其体系结构HBase 简介HBase体系结构1、HRegion :2、HRegionServer :3、HMaster :4、Zookeeper :5、Client : hbase客户端HBase 简介HBase是一个基于HDFS的面向列的分布式数据库,HDFS基于流式数据访问,低时间延迟的数据访问并不适合在HDFS上运行。因此,如果需要实时地随机访问超大规模数据集,使用则HBase是更好地选择。HBase不支持关系型数据库的SQL,并且不是以行存储的关系型结构存储数据,而是以键值对的
2020-07-02 23:16:02 193
原创 hive窗口函数::基本操作
窗口函数及其命令总结退出安全模式启动服务创建.csv文件进入hive执行建表和导数据操作函数命令window子句ntilerank()、dense_rank()、row_number()lag,leadfirst_value,last_value退出安全模式[root @cjh1 ~]# hadoop dfsadmin -safemode leave启动服务[root @cjh1 ~]# start-all.sh[root @cjh1 ~]#hive --service hiveserver2
2020-07-01 23:32:34 283
原创 Sqoop工具利用(导入导出数据)
sqoop导入导出数据至目标地址查看数据库列表进mysql容器查看导入到HDFS导入到HDFS加条件使用query方式导入数据到HDFS导入数据到Hive导入数据到hbase将hdfs文件系统的数据导出到mysql表中先创建指定表执行导入的命令查看数据库列表[root@test200 ~]# sqoop list-databases \--connect jdbc:mysql://192.168.48.141:3306/ \--username root \--password cjh123进
2020-07-01 22:36:49 232
原创 HBase Shell基本操作指令
HBase Shell操作命令DDL操作命令DML操作命令HBase Shell操作包括:DDL操作和DML操作。DDL操作命令HBase Shell命令功能描述list列出HBase中的所有表create创建一张表describe列出表的详细信息alter修改表的列族disable禁用表,使表无效enable启用表,使表有效drop删除一张表exists判断表是否存在具体操作如下:# 查詢表信息hbase(mai
2020-07-01 22:09:40 180
原创 MapReduce的优化组件和Shuffle阶段
优化组件Combiner、Partitioner和Shuffle阶段1、Combiner类2、Partitioner类3、Shuffle阶段3.1、Map段的Shuffle3.2、Reduce端的Shuffle1、Combiner类Combiner类是用来优化MapReduce的,它可以提高MapReduce的运行效率。在MapReduce作业运行过程中,通常每一个Map都会产生大量的本地输出,Combiner的作用就是在Map端对输出结果先做一次合并,以减少传输到Reduce端的数据量。Combin
2020-07-01 10:52:13 176
原创 MapReduce核心思想及其运行流程介绍(简洁明了)
MapReduce核心思想及其运行原理1、MapReduce概述2、MapReduce的核心思想3、MapReduce编程模型3.1、MapReduce运行过程3.2、MapReduce编程三部曲4、MapReduce词频统计1、MapReduce概述MapReduce是Hadoop中面向大数据并行处理的计算模型、框架和平台。MapReduce用于海量数据的并行计算,它采用“分而治之”的思想,把大规模数据集的操作分发到多个机器去共同完成,然后对各个节点的中间结果进行整合后得到最终的结果。2、MapRe
2020-07-01 09:28:07 1785 2
原创 spark处理json格式日志数据
spark处理json格式的日志数据查看日志数据启动spark操作流程**op_2020-06-26.log****start_2020-06-26.log**查看日志数据op_2020-06-26.log1593136280931|{"cm":{"ln":"-57.7","sv":"V2.0.3","os":"8.0.9","g":"RFI964M8@gmail.com","mid":"999","nw":"WIFI","l":"pt","vc":"13","hw":"640*1136","ar":
2020-06-30 09:48:12 365
原创 HDFS运行原理(通俗易懂)
hdfs读写流程hdfs读流程hdfs写流程hdfs读流程HDFS文件读流程:客户端读取数据的过程如下:(1)使用HDFS提供的客户端向远程的NameNode发起RPC请求。(2)NameNode会视情况返回文件的部分或者全部块列表,对于每个块,NameNode都会返回副本的DataNode地址。(3)客户端会选择离其最近的DataNode来读取块,如果客户端本身就是DataNode,那么将从本地直接获取数据。(4)读取完当前块数据后,关闭当前的DataNode连接,并为读取下一个块寻找最佳
2020-06-23 22:43:27 740
原创 HA 高可用集群搭建(详细教程)
hadoop的高可用HA集群搭建(详细)准备工作及zookeeper集群搭建进行hadoop配置基本文件hadoop 环境变量配置格式化hdfs脚本文件启动及运行等服务命令四台机器需全部启动journalnode:格式化c01的namenode启动c01的namenode将c02的namenode进行数据同步然后将c01进行格式化zkfc关闭dfs然后启动dfs再将c03和c04的resourcemanager启动去网页查看效果查看namenode查看resourcemanager本文以两台namenod
2020-06-08 15:49:34 1432
原创 hadoop,zookeeper,kafka集群搭建(详细)
集群搭建准备工作ifcfg-ens33hostnamehosts解压并改名配置集群(jdk)环境及密钥配置jdk环境配置密钥本文以3台机器进行集群搭建。准备工作配置好 每台机器的IP hostname hostsifcfg-ens33# ifcfg-ens33vi /etc/sysconfig/network-scripts/ifcfg-ens33192.168.48.211192.168.48.212192.168.48.213hostname# hostnamehostnam
2020-06-03 22:49:09 1035 1
原创 kafka将数据上传至kafka(使用stream实现)
stream方法将数据从 kafka->hbase1、创建stream目录并编写编写ICustomTopology 接口编写StreamHandler类编写UserFriendsTopology类继承ICustomTopology 接口编写测试类StreamDriver2、使用hbase查看1、创建stream目录并编写编写ICustomTopology 接口package nj.zb.stream;import org.apache.kafka.streams.Topology;im
2020-06-01 19:27:01 887
原创 kafka上传至hbase(使用main方法)
java基本main写法:将数据从kafka->hbase1、新建hbase目录编写EventAttendeeshb java类编写UserFriendshb java类2、运行3、进入xshell 进行查看进hbase 查看表空间和表然后hbase查看1、新建hbase目录编写EventAttendeeshb java类package nj.zb.hbase;import org.apache.hadoop.conf.Configuration;import org.apa
2020-06-01 19:10:01 254
原创 hdp搭建
hdp搭建基本步骤管理-导入虚拟电脑添加mysql端口启动进入浏览器显示当前服务连接mysql连接SqlYog授权管理-导入虚拟电脑查看ip地址:有了ip地址,就可以通过xshell来连接:ip addrdocker psdocker stop e735d0e6fde6docker psdocker rm e735d0e6fde6docker ps -a添加mysql端口启动继续创建另一个端口号是:2222的连接:(大多数操作是在2222的端口下操作的)
2020-06-01 16:59:52 1545
原创 kafka配置及启动等命令总结
kafka配置1、kafka配置server.properties文件1.1、进入kafka的config目录下1.2、然后进入server.properties进行配置[root@cjh1 config]# vi ./server.properties1.3、 通过显示行号进行查找并修改 :set nu然后分别在下面指定行号修改以下内容(137行是最后加上去的,方便删除topic)36 advertised.listeners=PLAINTEXT://192.168.48.141:
2020-05-24 12:28:35 4836 2
原创 flume-自定义拦截器interceptor
一、先在idea里面创建好自定义拦截器函数1、配置pom.xml<!--flume核心组件--> <dependency> <groupId>org.apache.flume</groupId> <artifactId>flume-ng-core</artifactId> <version>1.6.0</version> </dependency>
2020-05-23 21:08:46 318
原创 flume过滤器(regex_正则过滤器)
1、新建需要进行regex过滤的文件在flume安装目录下的conf下面新建job然后在job下面新建文件[root@cjh1 job]# touch users-flume-rmhdhdfs.conf进入编辑创建的文件[root@cjh1 job]# vi ./users-flume-rmhdhdfs.confusers.sources=usersSourceusers.channels=usersChannelusers.sinks=usersSinkusers.sources
2020-05-21 23:16:18 657
原创 Sublime text3 搭建python 开发环境和常用的插件的安装
一、下载安装包然后解压安装1、安装python的时候记得选取Add 那个勾选去让电脑自动帮你配好python的环境变量然后cmd查看一下python的版本python -V这样就算python环境变量配置成功了。2、安装Sublime Text 3时,勾选“Add to explorer context menu”,可以在文件右键菜单添加“Open with Sublime Text”,方便使用Sublime Text打开文件。3、然后打开Sublime Text 3进行下面的配置。二、
2020-05-14 17:13:46 762 1
原创 hadoop集群搭建配置
hadoop集群1.配置Hadoop ./etc/hadoop目录下的文件hadoop-env.sh# The java implementation to use.export JAVA_HOME=/opt/bigdata/jdk180core-site.xml<configuration><property> <name>fs.defaultFS</name> <value>hdfs://cjh:9000</va
2020-05-11 15:26:22 96
原创 hadoop安装步骤
Hadoop安装秘籍1、安装centos71.1 配置VirtualBox1.2 centos环境配置1.3 配置主机名1.4 配置JDK环境变量2、配置Hadoop2.1配置Hadoop ./etc/hadoop目录下的文件2.2 Hadoop环境变量配置2.3 格式化HDFS2.4 启动hadoop2.5 访问Hadoop1、安装centos71.1 配置VirtualBox1.2 centos环境配置关闭防火墙:停止防火墙服务systemctl stop firewalld禁用防
2020-05-11 11:58:58 215
原创 impala常用函数大全(超详细哦)
本文目录impala常用数值函数大全(超详细)impala常用String函数大全(超详细)impala常用时间函数大全(超详细)ps:制作不易!望多多支持,后续更新中!!!
2020-09-29 17:31:00 6446
原创 impala常用时间函数大全(超详细)
本文目录时间函数时间函数当前时间戳now()current_timestamp()当前时间戳相对于 linux epoch 的秒数unix_timestamp() , 不带参数, 则返回 '1970-01-01 00:00:00' UTC 到现在的秒数转换到相对于 linux epoch 的秒数unix_timestamp(now()+ interval 3 days), 如果传入 timestamp 参数, 返回该时间戳相对于 linux epoch 的秒数unix_timestam
2020-09-29 17:14:05 18450 4
原创 impala常用String函数大全(超详细)
本文目录字符串函数函数列表字符串函数Impala中字符串函数主要应用于 varchar、char、string类型,如果把varchar或者char类型的值传递给字符串函数,返回将是一个string类型的值函数列表base64encode(string str)base64decode(string str)==> 加密和解密,返回值为4字节的倍数,可以用来存储特殊字符串--将hello world加密[master:21000] > select base64encode('h
2020-09-29 15:35:47 6994
原创 impala常用数值函数大全(超详细)
本文目录数值函数函数列表数值函数Impala中数学函数用来执行数值计算,比如基本加法,减法,乘法和除法及更复杂的运算函数列表abs(numeric_type a) ==>返回参数的绝对值--得到-12的绝对值[master:21000] > select abs(-12) as abs;+-----+| abs |+-----+| 12 |+-----+--得到-12.5的绝对值[master:21000] > select abs(-12.5) as a
2020-09-29 10:24:52 12916 1
原创 shell编程:脚本实现定期清理文件
shell脚本定期清理日志文件#定期清理规定多少天前的日志文件:/opt/logs下面的文件#clear_log.sh#!bin/bash# 日志目录log_dir=$1# 超过多少天的日志会被清理old_days=$2# 当前时间(秒)time_now=`date +"%s"`# 期限limit=$((3600*24*$old_days))# 获取所有文件files=`ls $log_dir`for file in $filesdo time_chg=`st
2020-09-24 10:23:18 1082 3
原创 Hadoop及其生态圈(详细)
Hadoop概述什么是Hadoop? Hadoop是Apache基金会旗下的一个分布式系统基础架构。 主要包括分布式文件系统HDFS、分布式计算系统MapReduce和分布式资源管理系统YARN。Hadoop生态圈1、概述 狭义的Hadoop:是一个适合大数据分布式存储和分布式计算的平台,包括HDFS、MapReduce和YARN。 &
2020-07-07 09:02:38 2723
原创 Oozie安装和部署(详细)
本文目录1、解压及改名2、修改配置3、启动相应的服务4、启动运行5、网页查看1、解压及改名[root@cjh1 install]# tar -zxf oozie-4.1.0-cdh5.14.2.tar.gz -C ../bigdata/[root@cjh1 bigdata]# mv oozie-4.1.0-cdh5.14.2/ oozie4102、修改配置# 配置环境变量[root@cjh1 bigdata]# vi /etc/profileexport OOZIE_HOME=/opt/b
2020-07-06 23:08:53 3189
原创 Spark-RDD介绍(详细)
spark rddRDD介绍1、RDD是什么?2、RDD的特性RDD的创建1、由集合创建RDD2、加载文件成RDD3、通过RDD的转换形成新的RDDRDD的转换算子1、RDD转换概述2、常用的RDD转换算子RDD的动作算子1、RDD动作概述2、常用的RDD动作算子RDD的依赖关系1、遗传2、依赖3、窄依赖4、宽依赖5、宽依赖和窄依赖的对比RDD介绍1、RDD是什么?RDD:即弹性分布式数据集,它具备像MapReduce等数据流模型的容错特性,能在并行计算中高效地进行数据共享进而提升计算性能。RDD中提
2020-07-06 11:40:56 645
原创 HBase特点和数据模型介绍(基础)
本文目录HBase的特点HBase数据模型1、ROW KEY2、Column Family列族 & qualifier列3、Cell单元格4、Timestamp时间戳HBase的特点(1)大:一个表可以有上亿行,上百万列。(2)面向列:面向列表(簇)的存储和权限控制,列(簇)独立检索。(3)稀疏:对于为空(NULL)的列,并不占用存储空间,因此,表可以设计的非常稀疏。(4)无模式:每一行都有一个可以排序的主键和任意多的列,列可以根据需要动态增加,同一张表中不同的行可以有截然不同的列。
2020-07-04 22:39:01 288
原创 Hive调优
hive调优explain执行计划并行执行JVM重用推测执行列裁剪本文介绍有关hive的调优策略。explain执行计划通过explain关键字,可以详细地表示出执行语句所对应的MapReduce代码,语法格式如下:explain [extended|dependency|authorization] query理解Hive对每个查询进行解析和计划的复杂细节,对于分析复杂的或者效率低下的查询时非常不错的方式。我们可以在不执行真正的SQL之前观察查询计划来了解HQL(Hive QL)语句的执行过程
2020-07-04 14:21:38 137
原创 Hive函数
Hive内置和自定义函数介绍Hive内置函数Hive自定义函数Hive内置函数# 获取Hive所有的函数show functions;# 查看指定函数的使用方法describe function<function_name>;# 查看指定函数的详细使用方法,包括函数的使用案例describe function extended<function_name>;使用示例:# 将ename字符串转换成大写select empno,ename,upper(ename
2020-07-03 15:46:49 126
原创 mongo使用java实现简单增删查改操作
利用java进行mongodb的操作新建maven工程并添加依赖包修改pom.xml添加依赖包编写MongoDemo类进mongodb查看结果创建表的结果插入数据的结果查询全部及多条件查询更新数据的结果删除结果多条件删除的结果新建maven工程并添加依赖包修改pom.xml添加依赖包<!-- https://mvnrepository.com/artifact/org.mongodb/mongo-java-driver --> <dependency>
2020-06-11 15:57:36 273
原创 mongodb授权验证
mongodb设置账号密码验证启动mongodb设置授权再来创建一个test用户以供进行启动mongodb# 创建数据库数据存放目录[root@cjh1 ~]# mkdir -p /data/db # 启动Mongo Server服务,默认端口:27017,默认允许本地连接[root@cjh1 ~]# mongod # 然后再开一个窗口[root@cjh1 ~]# mongo 设置授权# 创建并切换到admin数据库> use adminswitched to db
2020-06-11 15:46:44 390
原创 数据从flume---hdfs
数据通过flume上传到hdfs新建并编写 conf 文件在flume-conf下面创建目录job编写.conf文件建相应的目标文件夹启动flume-agent然后进入 hdfs 查看产生的文件(或者命令窗口查看)后面的文件跟上面的步骤一样。新建并编写 conf 文件在flume-conf下面创建目录job[root@cjh1 conf]# mkdir job[root@cjh1 conf]# cd job编写.conf文件[root@cjh1 job]# touch event_attend
2020-06-09 23:15:16 157
bin.zip 启动hadoop,zookeeper,kafka服务的start,stop,status等的脚本
2020-06-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人