自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 收藏
  • 关注

原创 Mysql使用存储过程检查表字段空值率

Mysql使用存储过程检查表字段空值率。

2023-02-09 09:36:31 412

原创 创建SVN仓库

1、安装svn这里不再描述2、在svn目录下创建需要的仓库文件mkdir -p /opt/svn/project1 svnadmin create /opt/svn/project13、创建好文件之后修改里面的配置文件vi /opt/svn/project1/conf/svnserve.conf[general] anon-access = read auth-access=write pa

2022-03-01 11:06:37 1330

原创 TDH日志分析

a

2020-08-15 15:23:41 321

原创 Spark算子groupByKey和reduceByKey的区别

用groupByKey和reduceByKey分别求一个wordCount来查看shuffle的写入写出大小。首先是groupByKey的代码 sc.textFile("file:///文件路径") .flatMap(_.split(" ")) .map((_,1)) .groupByKey() .map(x=>{(x._1,x._2.sum)}) .collect()这边可以看到使用groupByKey写入写出的大小是123B

2020-07-11 15:24:05 197

原创 Mongodb安装

1.下载地址:https://www.mongodb.org/dl/win32/如果要下载安装在Windows系统下,要下载以msi结尾的。2.下载完成后直接安装就好,安装路径不要有汉字。3.配置环境变量:配用户变量即可路径是bin文件下检验是否配置完成:1.在c盘创建一个data文件夹在data文件夹创建一个db文件夹2.在命令窗口输入mongod如果C:\data\d...

2020-03-05 21:12:31 135 1

原创 HBase企业级面试题

1.HBase的基本介绍a.Hbase是建立在hdfs之上的一个数据库,b.不支持join等SQL复杂操作c.支持的数据类型:byte[],d.依靠横向扩展,一个表可以有上十亿行,上百万列。e.面向列(族)的存储和权限控制f.对于为空(null)的列,并不占用存储空间,是一个稀疏表。2.HBASE的适用场景海量数据、精确查询、快速返回海量数据:指的是数据量的背景精确查询:业务场...

2019-12-20 16:43:38 785 1

原创 HBase的基本介绍

什么是HBaseHbase 是建立在hdfs之上的一个数据库,不支持join等SQL复杂操作.支持的数据类型:byte[],依靠横向扩展一个表可以有上十亿行,上百万列。面向列(族)的存储和权限控制对于为空(null)的列,并不占用存储空间,是一个稀疏表。稀疏的理解:宽松;不稠密举个最容易理解的例子 “稀疏的像程序员的头发”,当然这里的程序员指的是那些大量用脑的资深程序员。HBase的...

2019-12-13 08:56:11 386 1

原创 Flume最典型的7种用法

案例一: 接收telent数据案例:使用网络telent命令向一台机器发送一些网络数据,然后通过flume采集网络端口数据配置文件 vim /export/servers/apache-flume-1.6.0-cdh5.14.0-bin/conf/netcat-logger.conf# 定义这个agent中各组件的名字a1.sources = r1a1.sinks = k1a...

2019-12-05 17:07:53 514 6

原创 Hive面试题

1、什么是Hive 是一个基于hadoop的数据仓库工具,可以将结构化数据映射成一张数据表,并提供类SQL的查询功能2、Hive的意义(最初研发的原因) 背景:hadoop是个好东西,但是学习难度大,成本高,坡度陡。 意义(目的):降低程序员使用hadoop的难度。降低学习成本。3、Hive的内部组成模块,作用分别是什么 用户接口:包括CLI、JDBC/ODBC、WebGUI。其...

2019-11-28 14:46:06 977 4

原创 Sqoop的学习之路 (1)

1. sqoop介绍Apache Sqoop是在Hadoop生态体系和RDBMS体系之间传送数据的一种工具。来自于Apache软件基金会提供。Sqoop工作机制是将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。Hadoop生态系统包括:HDFS、Hive、Hbase等RDBMS体系包括:My...

2019-11-28 14:42:15 333 3

原创 MySQL笔试题 累计报表

1、如下的用户访问数据userId visitDate visitCountu01 2017/1/21 5u02 2017/1/23 6u03 2017/1/22 8u04 2017/1/20 3u01 2017/1/23 6u01 2017/2/21 8U02 2017/1/23 6U01 2017/2/22 4要求使用SQL统计出每个用...

2019-11-22 18:30:22 595 3

原创 MySQL的join关键字详解

SQL Join联接子句用于在两个或更多在数据库中的表的记录组合。JOIN是通过使用从两个表字段共通的值组合连接起来。MySQL官方只提供了三种join方式,内连接、左连接和右连接,不支持其他的连接关键字。但是可以通过一定的语法将达到其他的连接的效果。1.内连接 inner join最频繁使用的和重要的联接是INNER JOIN。它也被称为一个等值连接。INNER JOIN通过结合基于联接谓...

2019-11-21 15:05:41 559 4

原创 HIVE的安装部署

derby版hive直接使用:1、解压hivecd /export/softwarestar -zxvf hive-1.1.0-cdh5.14.0.tar.gz -C ../servers/1、直接启动 bin/hivecd ../servers/cd hive-1.1.0-cdh5.14.0/bin/hivehive> create database mytest;...

2019-11-19 17:12:21 191 3

原创 ReduceTask 工作机制以及reduceTask的并行度

Reduce大致分为copy、sort、reduce三个阶段,重点在前两个阶段。copy阶段包含一个eventFetcher来获取已完成的map列表,由Fetcher线程去copy数据,在此过程中会启动两个merge线程,分别为inMemoryMerger和onDiskMerger,分别将内存中的数据merge到磁盘和将磁盘中的数据进行merge。待数据copy完成之后,copy阶段就完成了,开始...

2019-11-18 21:02:30 290 2

原创 初识MapReduce

1.MapReduce计算模型介绍1.1.理解MapReduce思想MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想,而不是自己原创。Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提...

2019-11-12 08:54:04 169 4

原创 HDFS给文件夹创建快照

开启某个目录的快照功能[root@hadoop001 tmp]# hdfs dfsadmin -allowSnapshot /aaa Allowing snaphot on /aaa succeeded开启后在hdfs文件系统地web界面也可以看到创建快照[root@hadoop001 tmp]# hdfs dfs -createSnapshot /aaa aaa1.0...

2019-11-07 20:21:17 375

原创 HDFS企业级面试题

1、Hadoop 特性优点?1)高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。2)高扩展性:能在廉价机器组成的集群间分配任务数据,可方便的扩展数以干计的节点。3)高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。4)高容错性:能够自动将失败的任务重新分配2、Hadoop的核心组件是哪些?...

2019-11-07 16:22:32 384 4

原创 Hadoop文件系统介绍

HDFS 基本介绍HDFS 是 Hadoop Distribute File System 的简称,意为:Hadoop 分布式文件系统。是 Hadoop 核心组件之一,作为最底层的分布式存储服务而存在。分布式文件系统解决的问题就是大数据存储。它们是横跨在多台计算机上的存储系统。分布式文件系统在大数据时代有着广泛的应用前景,它们为存储和处理超大规模数据提供所需的扩展能力。HDFS使用Maste...

2019-11-04 09:22:18 822 3

原创 Hadoop详解

Hadoop的介绍以及发展历史Hadoop之父Doug CuttingHadoop最早起源于lucene下的Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。2003年、2004年谷歌发表的三篇论文为该问题提供了可行的解决方案。——分布式文件系统(GFS...

2019-10-31 17:40:04 740 3

原创 Linux一分钟布置100台虚拟机的无密码登录

1.首先在一个节点生成公钥和私钥2.设置可以无密码登录本机3.远程拷贝.ssh文件夹到需要无密码登录的节点上即可

2019-10-29 19:51:27 244

原创 大数据为什么比传统数据更快

为了方便大家理解,先看一下传统数据与大数据处理服务器系统安装对比:看图片对比可以看出系统硬盘首先是相同的,主要区别是指在数据硬盘上面。首先传统数据下数据硬盘是做一个逻辑卷将6块4T的硬盘做成一个24T的大硬盘挂载到/data/disk1上面,他的工作原理是用完一块再用下一块,比如我有一个20T的大文件需要存储,他会先用第一块4T的硬盘存4T存完后再用下一块硬盘存接下来的内容,这个硬盘存满后...

2019-10-25 15:53:35 761 1

原创 大数据简介

1.什么是大数据字面意思理解:大量的数据,海量的数据​ 数据集的大小已经远远超过了现有普通数据库软件和工具的处理能力的数据2.大数据有什么特点?数据量大增长速度块数据多样化(结构化、半结构化、非结构化)低密度高价值大数据能做什么?1、海量数据快速查询​2、海量数据的存储(数据量大,单个大文件)​3、海量数据的快速计算(与传统的工具对比)​4、海量数据实时计算(立刻...

2019-10-25 15:00:29 201 1

原创 Linux 一看就懂配置局域网yum源

第一步 安装开启httpd1.先检查一下httpd是否已经安装了rpm -qa | grep httpd如果没有安装先安装一下httpdyum install -y httpd2.检查一下httpd的状态[root@node4 yum.repos.d]# service httpd statushttpd 已停如果是已停就打开httpdservice httpd start...

2019-10-22 17:57:11 613

原创 Linux 一看就懂的集群

1.概念集群顾名思义就是一群主机服务器连在一起就是集群。2.设置集群克隆虚拟机更改新增系统的mac地址查看mac地址[root@node2 yum.repos.d]# vi /etc/udev/rules.d/70-persistent-net.rules # This file was automatically generated by the /lib/udev/write...

2019-10-21 21:16:33 345 2

原创 Linux 一看就懂安装jdk1.8

1.想要安装jdk1.8必须要有jdk1.8的安装包(压缩文件)。这里文件上传过程就不给搭建展示了。2.将jdk的压缩文件解压的事先准备好的目录下tar -zxvf jdk-8u144-linux-x64.tar.gz -C /export/install/我这里是将当前目录下的jdk-8u144-linux-x64.tar.gz解压到/export/install/解压完成后可以通...

2019-10-18 20:38:47 143

原创 linux 学习vi编辑器

1.介绍1.1学习vi的目的在工作中, 要对 服务器上的 文件进行 简单 的修改, 可以使用 ssh 登录到远程服务器上, 并且使用 vi编辑器 进行简单的编辑即可需要修改的文件包括源代码、配置文件在没有图形界面的环境下, 要编辑文件, vi是最佳选择 每一个使用linux的程序员,都应该或多或少的学习一些vi的常用命令1.2 vi 和vimvi是visual interfac...

2019-10-15 20:55:20 153

原创 Linux chmod

**1.作用(为什么要使用chmod)chmod可以赋予文件或目录(文件夹)权限,避免被误操作!2.语法chmod [-cfvR] [--help] [--version] mode file...参数解释:mode格式如下:[ugoa][±=][rwxX]其中:u user --表示拥有者g group --表示组群o other --表示其他a all --所有...

2019-10-14 11:15:35 105

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除