我思念的城市ZZZ-CSDN博客

原创分布式系统CAP理论

一、什么是CAP理论CAP理论是分布式架构中的基础理论，描述的是分布式系统的三个特性。一致性（Consistency）可用性（Availability）分区容错性（Partition tolerance）一致性：即所有节点同时看到相同的数据（all nodes see the same data at the same time），一致性一般是并发读写才会出现的问题，需结合并发读写场景进行思考可用性：即读取和写入总是成功（reads and writes always succeed）

2021-08-26 19:30:33 370

原创 hive 按照指定分隔符取最后一个下标

hive 按照指定分隔符取最后一个下标split思路select reverse(split(reverse('其他,沟通中'),',')[1])该方法可以实现，但是对于中文有bug，二次反转会造成乱码获取split后的个数再按照下标取出select '其他,哈哈,沟通中',split('其他,哈哈,沟通中',',')[count(c1)-1] lateral view explode...

2020-03-11 21:03:30 2796

原创 SHELL脚本“SYNTAX ERROR:UNEXPECTED END OF FILE”解决方案

vim installhttp.sh:set fileformat=unix:wq

2020-02-17 19:11:58 289

原创 Pip环境变量问题处理

pip安装遇到问题在使用pip 安装服务时候，报错如图所示内容1、去到Python的官网下载pip包，下载地址是：https://pypi.python.org/pypi/pip#downloads2、下载完成之后，解压到一个文件夹，用CMD控制台进入解压目录，输入：python setup.py install3、安装好之后，我们直接在命令行输入pip，同样会显示‘pip’不是内部...

2019-12-12 12:52:52 1034

原创 Windows10安装 64位MySQL

以5.7.20版本为例首先安装包解压后，没有网上教程里面提到的data文件夹和my-default.ini，如下图所示配置环境变量请参照网上教程，这个一般没有问题，即在环境变量中Path中加入MYSQL解压包bin所在路径，我的是：D:\softnew\MYSQL\mysql-5.7.20-winx64\bin主要注意以下几点：（1）my-default.ini文件存不存在不重要，关键...

2019-12-06 21:21:59 239

原创 Intellij IDEA 添加 Junit4.12 以及报错解决

在IDEA里面已经新建好了一个类，并加入了内容，然后创建测试类，快捷键（Ctrl+Alt+T）或者如图右键 Goto Test创建后运行报错：Error:(3, 24) java: 程序包org.junit不存在点到代码中红色的部分显示：Cannot resolve symbol ‘junit’解决：File -> Project Struct… -> Libraies -&...

2019-09-10 23:04:55 11489 5

原创 Java 俩个Long是否相等?

抛出问题：Long a = 4l;Long b = 4l;a == b //trueLong a = 128l;Long b = 128l;a == b //false如果Long的值在[-127,128]之间，用“==”判断是否相等是没问题的，如果不在这个区间，是不能用“==”的，原因如下源码解释：public static Long valueOf(long l) { final...

2019-09-09 20:51:20 173

原创 Redis 可视化工具

Redis 可视化工具Redis做为现在web应用开发的黄金搭担组合，大量的被应用，广泛用于存储session信息,权限信息，交易作业等热数据。Redis作为业界最好的缓存数据库，过去几年发展很快。相对Memcached，Redis提供了更多种数据类型，包含hash、set、list等；Redis还支持subscribe/publish命令，可以用于简单的消息发送与订阅；Redis 3.0开始支...

2019-09-04 10:02:06 1409 2

原创 let 在idea报错

let 在idea报错主要是使用的js的语言版本过低，需使用es6以上

2019-07-26 13:48:13 2428

原创 Guns后台框架搭建

guns框架 Guns基于SpringBoot,致力于做更简洁的后台管理系统,完美整合springmvc + shiro +mybatis-plus +beetl!Guns项目代码简洁,注释丰富,上手容易,同时Guns包含许多基础模块(用户管理,角色管理,部门管理,字典管理等10个模块),可以直接作为一个后台管理系统的脚手架.Gunsv3.0新增rest api服务,提供对接服务端接口的支...

2019-05-27 14:05:38 1475

原创大数据生态圈常用端口

常见端口汇总：Hadoop： 50070：HDFS WEB UI端口 8020 ：高可用的HDFS RPC端口 9000 ：非高可用的HDFS RPC端口 8088 ： Yarn 的WEB UI 接口 8485 ： JournalNode 的RPC端口 8019 ： ZKFC端口 19888 ：jobhistory WEB UI端口Z...

2019-04-25 22:29:13 203

原创 CDH5.15搭建

一、配置hostname和hosts1. 三台机器分别设置hostname为（需要重启ECS）：master.bd.cn slave1.bd.cn slave2.bd.cn2. 然后三台的/etc/hosts统一配置如下映射：<master.bd.cn的内网IP> master.bd.cn<slave1.bd.cn的内网I...

2019-04-08 23:12:13 911

原创 yum安装历史版本的mysql

Mysql yum安装指定版本  <div class="author"> <a class="avatar" href="/u/4b8382f57d9b"> <img src="//upload.jianshu.io/users/upload_avatars/1557...

2019-04-08 16:07:57 1152

原创 centos7 安装mysql

CentOs7安装mysql1.安装依赖yum search libaio # 检索相关信息yum install libaio # 安装依赖包122.检查MySQL是否已安装yum list installed | grep mysql 如果有就全部卸载，命令如下： yum...

2019-04-06 18:29:01 85

原创 Pentaho BI工具 linux环境下的作业执行以及定时任务

@Pentaho BI工具 linux环境下的作业执行以及定时任务应用的场景:由于在windows版本的kettle软件作业定时执行需要再pentaho服务器中执行，但是由于定时作业多了就偶发的作业不能按时执行(一直没找到原因)，所以想到在linux服务器下连接资源库然后利用crontab来定时执行首先把windows下的repositories.xml文件拷贝到你的linux环境下的 .ke...

2019-03-08 14:43:31 743

转载 Hive 不支持 where 子句中的子查询， SQL 常用的 exist in 子句需要改写。这一改写相对简单。考虑以下 SQL 查询语句：

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...

2018-09-19 17:24:41 4167 1

原创 Oracle 清除缓存

问题：性能测试的时候，遇到第一次读取数据库很慢，以后几次都瞬间读取完成。应该是Oracle缓存的作用，第一次读完以后放入缓存，以后读取就很快了。但是测试的时候这样可不行。解决方法：清除缓存1： ALTER SYSTEM FLUSH SHARED_POOL 2： ALTER SYSTEM FLUSH BUFFER_CACHE 3： ALTER SYSTEM FLU...

2018-09-12 13:52:05 2302

原创 Oracle非DBA用户查看表大小

select segment_name,tablespace_name,bytes B, bytes/1024 KB, bytes/1024/1024 MB from user_segments where segment_type=’TABLE’ and tablespace_name=’表空间名’

2018-09-03 16:30:01 2590

原创 linux 下忽然发现ls,vi命令没法使用怎么办

2018-08-29 11:07:54 11007

原创 hive玩转分桶

我们学习一下分桶表，其实分区和分桶这两个概念对于初学者来说是比较难理解的。但对于理解了的人来说，发现又是如此简单。我们先建立一个分桶表，并尝试直接上传一个数据create table student4(sno int,sname string,sex string,sage int, sdept string) clustered by(sno) into 3 buckets ro...

2018-08-23 17:27:57 166

原创 Hive分析窗口函数（hive做累计、分组、排序、层次等计算）

分析窗口函数应用场景：（1）用于分区排序（2）动态Group By（3）Top N（4）累计计算（5）层次查询 Hive中提供了越来越多的分析函数，用于完成负责的统计分析。大致可以分为以下四类：Hive分析窗口函数(一) SUM,AVG,MIN,MAX今天先看几个基础的，也最常用，SUM、AVG、MIN、MAX。用于实现分组内所有和连续累积的统计。...

2018-08-23 17:25:34 7861

原创 hive 数据去重

1、hive 0.8.0数据表去重方法问题描述：hive的外部表test中，在若干字段上存在重复现象，现在需要将若干字段上值相同的多条记录，只保其中留一条，舍弃其余的。解决思路：（1）group by的方法首先新建与test表完全相同的新表test_pure,然后利用group by在有相同值的若干字段上进行分组统计，正常情...

2018-07-26 21:27:25 3928

原创 Storm笔记

Storm 七种分组类似于MapReduce中sufferNImbus ：负责任务的分配以及调度Supervisor：负责接收Nimbus分配下来的任务以及启动或者停止属于自己管理的worker。worker数量根据端口来确定worker：worker是一个进程是执行任务(spout任务和blot)的组件负责执行spout任务和bolt任务：每个worker进程可以有多个spout任务和blo...

2018-07-15 23:10:20 136

转载 Storm 1.0.2安装

本文介绍linux环境下storm运行环境的搭建。由于条件有限，安装的storm运行在单机模式下，即主从节点都在同一台机器上，zookeeper也在同一台机器上。环境： OS:Red Hat Enterprise Linux Server release 6.3 (Santiago) 2G内存，50G存储的虚拟机虚拟机通过网络桥接和实体机相连所需基础软件： 1. jdk（建议1.7及以上） ...

2018-07-15 23:09:27 255

转载 hadoop 调优

hadoop性能调优与运维硬件选择操作系统调优与JVM调优hadoop参数调优hive性能调优hadoop运维硬件选择hadoop运行环境如何选择合适的硬件主从节点可靠性：主节点可靠性要好于从节点单节点选型：多路多核、高频率cpu、大内存主节点： NameNode的内存决定了集群保存文件数的总量。ResourceManager同时运行的作业会消耗一定的内存。从节点：从节点的内存需要根据...

2018-07-15 22:25:46 1441

原创 kafka 高吞吐、高并发架构

kafka的PageCache读写不同于Redis和MemcacheQ等内存消息队列，Kafka的设计是把所有的Message都要写入速度低容量大的硬盘，以此来换取更强的存储能力。实际上，Kafka使用硬盘并没有带来过多的性能损失（这一点是有条件限制的，这个条件是，消费者的消费速度要高于或等于生产者的速度）。kafka重度依赖底层操作系统提供的PageCache功能。（文件缓存，速度相当于操作内存...

2018-07-13 23:01:15 1391

转载 kafka 性能调优

主要优化原理和思路kafka是一个高吞吐量分布式消息系统，并且提供了持久化。其高性能的有两个重要特点：利用了磁盘连续读写性能远远高于随机读写的特点；并发，将一个topic拆分多个partition。要充分发挥kafka的性能，就需要满足这两个条件kafka读写的单位是partition，因此，将一个topic拆分为多个partition可以提高吞吐量。但是，这里有个前提，就是不同partition...

2018-07-13 22:57:32 445

原创 yarn 运行 MapReduce

yarn的基本概念yarn并不清楚用户提交的程序的运行机制yarn只提供运算资源的调度（用户程序向yarn申请资源，yarn就负责分配资源）yarn中的主管角色叫ResourceManageryarn中具体提供运算资源的角色叫NodeManager这样一来，yarn其实就与运行的用户程序完全解耦，就意味着yarn上可以运行各种类型的分布式运算程序（mapreduce只是其中的一种），比如mapre...

2018-07-13 22:56:22 248

原创 hbase 优化

1、HMaster HMaster的任务前面已经说过了，两个大方向：一、管理Hbase Table的 DDL操作二、region的分配工作，任务不是很艰巨，但是如果采用默认自动split region的方式， HMaster会稍微忙一些，负载不大，可适度对此进程做适量放大heap 的操作，但不可太大，因为更耗内存的是HRegionServer 2、HRegion...

2018-07-13 22:54:42 105

原创 hbase 性能优化

一、服务端调优 1、参数配置 1）、hbase.regionserver.handler.count：该设置决定了处理RPC的线程数量，默认值是10，通常可以调大，比如：150，当请求内容很大（上MB，比如大的put、使用缓存的scans）的时候，如果该值设置过大则会占用过多的内存，导致频繁的GC，或者出现OutOfMemory，因此该值不是越大越好。 2）、hbase.hregion.m...

2018-07-13 22:52:56 221

原创 storm wordcount

准备前面几篇文章已经介绍了如何搭建storm集群。接下来学习如何编写storm代码，使用maven构建，本地模拟集群测试代码编码maven 配置使用maven来配置需要的jar包，只需要一个0.9.2版本的 storm即可 <dependencies> <dependency> <groupId>org.apache....

2018-07-13 22:51:57 162

原创 Storm Worldcount

在storm环境部署完毕，并正确启动之后，现在就可以真正进入storm开发了，按照惯例，以wordcount作为开始。这个例子很简单，核心组件包括：一个spout，两个bolt，一个Topology。spout从一个路径读取文件，然后readLine，向bolt发射，一个文件处理完毕后，重命名，以不再重复处理。第一个bolt将从spout接收到的字符串按空格split，产生word，发射给下一个b...

2018-07-13 22:50:50 197

原创 Storm 学习二

Storm入门例子详解-单词计数器概念Storm 分布式计算结构称为 topology（拓扑），由 stream（数据流）， spout（数据流的生成者）， bolt（运算）组成。Storm 的核心数据结构是 tuple。 tuple是包含了一个或者多个键值对的列表，Stream 是由无限制的 tuple 组成的序列。 spout 代表了一个 Sto...

2018-07-13 22:48:50 212

转载 storm 学习一

Storm简介Apache Storm是一个分布式实时大数据处理系统。Storm设计用于在容错和水平可扩展方法中处理大量数据。Storm框架主要由7部分组成Topology：一个实时应用的计算任务被打包作为Topology发布，这同Hadoop的MapReduce任务相似。 Spout：Storm中的消息源，用于为Topology生产消息（数据），一般是从外部数据源（如Message Queue、...

2018-07-13 22:48:00 454

原创 Spark SQL UDAF

Spark的dataframe提供了通用的聚合方法，比如count()，countDistinct()，avg(),max(),min()等等。然而这些函数是针对dataframe设计的，当然sparksql也有类型安全的版本，java和scala语言接口都有，这些就适用于强类型Datasets。本文主要是讲解spark提供的两种聚合函数接口:1, UserDefinedAggregateFunc...

2018-07-13 22:46:36 168

转载 mysql+oracle学习

新增百度网盘下载通道：http://pan.baidu.com/s/1cnC88m -------------------------原帖地址01：Linux操作系统的安装02：Xshell软件远程连接服务器03：Linux目录的基本操作04：Linux目录的基本管理05：Linux用户和组管理06：Linux软件包的安装(rpm+yum)07：Linux网络管理08：Linux权限管理(ugo+...

2018-07-12 22:27:22 235 1

原创 spark和hadoop的相爱相杀

随着大数据逐渐走下神坛，逐渐的与各个行业相对接，也逐渐的开始展现出其驱动一切的魅力。而在这些实际的应用当中，spark与hadoop无疑是最受开发者、企业、商家所关注的。那么在大数据技术领域，spark与hadoop相爱相杀，真的存在谁取代谁的情况吗？关于spark与hadoop的关系我们可以通过一个简单的例子来了解，Hadoop是一家大型包工队，可以组织一大堆人合作(HDFS)搬...

2018-07-12 22:25:23 369

转载 Hadoop 集群日常运维

一）备份namenode的元数据namenode中的元数据非常重要，如丢失或者损坏，则整个系统无法使用。因此应该经常对元数据进行备份，最好是异地备份。1、将元数据复制到远程站点（1）以下代码将secondary namenode中的元数据复制到一个时间命名的目录下，然后通过scp命令远程发送到其它机器#!/bin/bashexport dirname=/mnt/tm...

2018-07-12 22:23:29 856

转载 Impala入门

一、Impala概述什么是Impala？Impala是用于处理存储在Hadoop集群中的大量数据的MPP（大规模并行处理）SQL查询引擎。它是一个用C ++和Java编写的开源软件。与其他Hadoop的SQL引擎相比，它提供了高性能和低延迟。换句话说，Impala是性能最高的SQL引擎（提供类似RDBMS的体验），它提供了访问存储在Hadoop分布式文件系统中的数据的最快方法。为什么选择Imp...

2018-07-12 22:22:19 278

转载 Docker

Docker安装与基本使用虚拟机系统centOS7 miniDocker的应用场景1.简化配置,同一Docker的配置可以在不同环境中使用,降低了硬件要求和应用环境之间的耦合度. 2.代码的流水线管理.代码从开发者的假期到最终在生产环境上的部署,需要经过很多的中间环境.而每一个中间环境都有自己微小的蛤贝,Docker给应用提供一个从开发到上线均一致的环境,让代码的流水线变得简单. 3.提高开发效...

2018-07-12 22:21:27 533

空空如也

空空如也