两榜进士-CSDN博客

转载构建微服务：Spring boot 入门篇

构建微服务：Spring boot 入门篇什么是spring bootSpring Boot是由Pivotal团队提供的全新框架，其设计目的是用来简化新Spring应用的初始搭建以及开发过程。该框架使用了特定的方式来进行配置，从而使开发人员不再需要定义样板化的配置。用我的话来理解，就是spring boot其实不是什么新的框架，它默认配置了很多框架的使用方式，就像maven整合了所有...

2018-08-01 13:28:07 436

原创 MD5加密大小写问题

1、MD5加密源代码： public static void main(String[] args) { String aa = "aa"; String bb = "Aa"; System.out.println("MD5.MD5(aa) = " +MD5.MD5(aa)); System.out.println("MD5.MD5(bb) ...

2018-07-17 10:06:13 17340 1

转载 Jps介绍以及解决jps无法查看某个已经启动的java进程问题

对于jps较熟悉可以直接查看第二部分的分析 1、jps的作用jps类似linux的ps命令，不同的是ps是用来显示进程，而jps只显示java进程，准确的说是当前用户已启动的部分java进程信息，信息包括进程号和简短的进程command。 2、某个java进程已经启动，用jps却显示不了该进程进程号这个问题已经碰到过两次了，所以在这里总结下。现象：用ps -ef|grep java能看到启动的ja...

2018-02-27 10:23:18 1129

原创 cloudera manager报错“客户端配置 (id=2) 已使用 1 退出,而预期值为 0

在cloudera manager部署客户端配置的这个步骤中，总是报错：客户端配置 (id=2) 已使用1退出，而预期值为 0。1.首先我们需要找到此处日志目录，并不是/opt/cm-5.5.0/log。针对使用tar.gz包进行离线安装的目录，日志应该在：/opt/cm-5.5.0/run/cloudera-scm-agent/process/ccdeploy_spark-conf_et

2017-06-22 23:04:39 6750 4

转载彻底删除Kafka中的topic

1、删除kafka存储目录（server.properties文件log.dirs配置，默认为"/tmp/kafka-logs"）相关topic目录2、Kafka 删除topic的命令是： ./bin/kafka-topics --delete --zookeeper 【zookeeper server】 --topic 【topic name】如

2017-06-20 14:59:23 632

转载使用ogg同步数据给kafka

为更好的配合公司自然人项目的实施，我利用虚机搭了一个测试环境，把生产库中的部分表的数据通过ogg软件同步给kafka1 测试环境说明1）目标源数据库hr用户下的一张表t1,当发生dml操作时，操作数据写到kafka集群里，并显示出来。2）环境构成192.168.60.88 tdb1192.168.60.89 reps192.168.60.91 kafka0119

2017-06-20 14:55:31 25484 10

转载 DMZ区的介绍及连接图

DMZ称为“隔离区”，也称“非军事化区”。为了解决安装防火墙后外部网络不能访问内部网络服务器的问题，而设立的一个非安全系统与安全系统之间的缓冲区，这个缓冲区位于企业内部网络和外部网络之间的小网络区域内，在这个小网络区域内可以放置一些必须公开的服务器设施，如企业Web服务器、FTP服务器和论坛等。另一方面，通过这样一个DMZ区域，更加有效地保护了内部网络，因为这种网络部署，比起一般的防火墙方案，对攻

2017-06-06 13:22:43 24439

原创 Linux创建用户后，切换用户报This account is currently not available

Linux创建用户后，切换用户报This account is currently not availablea. 增加用户&设定密码# useradd nagios# passwd nagios 输入密码；切换用户出现：[root@localhost ~]# su - nagiosThis account is currently

2017-05-31 13:27:27 2509

原创 CDH 问题

文件系统检查点已有 1 天，14 小时，36 分钟。占配置检查点期限 1 小时的 3,860.33%。临界阈值：400.00%。自上个文件系统检查点以来已发生 14,632 个事务。 2个可能； 1 ， namenode的Cluster ID 与 secondnamenode的Cluster ID 不一致，对比/dfs/nn/current/VERSION 和/dfs/snn/curr

2017-05-31 11:29:56 3825

转载 KUDU － Cloudera开发的又一个Hadoop系存储系统

作者：刘旭晖 Raymond 转载请注明出处　　原文： http://blog.csdn.net/colorant/article/details/50803226?utm_source=tuicool&utm_medium=referral　　## == 是什么 ==　　Kudu 是 Todd Lipcon @ Cloudera 带头开发的存储系统，其整体应用模式和HBa

2017-05-12 11:19:10 829

转载 Kudu:支持快速分析的新型Hadoop存储系统

Kudu 是 Cloudera 开源的新型列式存储系统，是 Apache Hadoop 生态圈的新成员之一（ incubating ），专门为了对快速变化的数据进行快速的分析，填补了以往 Hadoop 存储层的空缺。本文主要对 Kudu 的动机、背景，以及架构进行简单介绍。背景——功能上的空白 Hadoop 生态系统有很多组件，每一个组件有不同的功能。在现实场景中，用

2017-05-11 17:23:23 3705 1

转载 ERROR 1819 (HY000): Your password does not satisfy the current policy requirements

为了加强安全性，MySQL5.7为root用户随机生成了一个密码，在error log中，关于error log的位置，如果安装的是RPM包，则默认是/var/log/mysqld.log。一般可通过log_error设置mysql> select @@log_error;+---------------------+| @@log_error |+---

2017-05-04 14:09:40 772

转载 MySQL5.7安装与配置（YUM）

原文链接：http://blog.csdn.net/xyang81/article/details/51759200安装环境：CentOS7 64位，MySQL5.71、配置YUM源在MySQL官网中下载YUM源rpm安装包：http://dev.mysql.com/downloads/repo/yum/ # 下载mysql源安装包shell> wget http:/

2017-05-04 10:55:58 385

转载 linux中文件颜色，蓝色，白色等各自代表的含义

linux中文件颜色，蓝色，白色等各自代表的含义绿色文件---------- 可执行文件，可执行的程序红色文件-----------压缩文件或者包文件蓝色文件----------目录 www.2cto.com 白色文件----------一般性文件，如文本文件，配置文件，源码文件等浅蓝色文件-----

2017-05-04 10:27:34 14741

转载 Linux查看物理CPU个数、核数、逻辑CPU个数

2017-05-03 09:50:05 314

转载 Elasticsearch5.0 安装问题集锦

elasticsearch 5.0 安装过程中遇到了一些问题，通过查找资料几乎都解决掉了，这里简单记录一下，供以后查阅参考，也希望可以帮助遇到同样问题的你。问题一：警告提示[2016-11-06T16:27:21,712][WARN ][o.e.b.JNANatives ] unable to install syscall filter: java.lang.Unsupported

2017-05-01 21:26:10 395

原创 Maven中使用本地JAR包

在Maven项目中使用本地JAR包有两种方法：1. 使用system scope org.richard my-jar 1.0 system ${project.basedir}/lib/my-jar.jar 缺点：ystem scope引入的包，在使用jar-with-

2017-04-22 11:21:38 696

转载 windows 安装VisualSVN-Server并设置域验证

windows下安装VisualSVN-Server-2.7.7默认安装完成之后权限是默认使用本地svn验证的，也就是所有的用户名密码都需要手动建立，如果是在域环境下就非常不方便了，下面就是添加域认证方法，右键——选择“properties”——选择“authentication”。设置成功之后本地的Users Guours

2017-04-19 15:41:35 5828 1

转载 Kafka到Hdfs的数据Pipeline整理

作者：Syn良子出处：http://www.cnblogs.com/cssdongl 转载请注明出处找时间总结整理了下数据从Kafka到Hdfs的一些pipeline，如下1> Kafka -> Flume –> Hadoop Hdfs常用方案,基于配置,需要注意hdfs小文件性能等问题.GitHub地址: https://github.com/apache/f

2017-03-06 16:14:36 3160

转载 apache kafka监控系列-KafkaOffsetMonitor

概览最近kafka server消息服务上线了，基于jmx指标参数也写到zabbix中了，但总觉得缺少点什么东西，可视化可操作的界面。zabbix中数据比较分散，不能集中看整个集群情况。或者一个cluster中broker列表，自己写web-console比较耗时耗力，用原型工具画了一些管理界面东西，关键自己也不前端方面技术，这方面比较薄弱。这不开源社区提供了kafka的web管理平台Ka

2017-03-06 14:47:11 1043 1

转载浅析hive严格模式（strict mode）

在hive中提供了一种“严格模式”的设置来阻止用户执行可能会带来未知不好影响的查询。设置属性hive.mapred.mode 为strict能够阻止以下三种类型的查询：1、除非在where语段中包含了分区过滤，否则不能查询分区了的表。这是因为分区表通常保存的数据量都比较大，没有限定分区查询会扫描所有分区，耗费很多资源。Table: logs(…) parti

2017-02-28 16:55:17 1090

转载 Lateral View语法

描述lateral view用于和split, explode等UDTF一起使用，它能够将一行数据拆成多行数据，在此基础上可以对拆分后的数据进行聚合。lateral view首先为原始表的每行调用UDTF，UTDF会把一行拆分成一或者多行，lateral view再把结果组合，产生一个支持别名表的虚拟表。例子假设我们有一张表pageAds，它有两列数据，第一列

2017-02-28 15:43:06 29654

转载 Hive中Order by和Sort by的区别是什么?

Hive基于HADOOP来执行分布式程序的，和普通单机程序不同的一个特点就是最终的数据会产生多个子文件，每个reducer节点都会处理partition给自己的那份数据产生结果文件，这导致了在HADOOP环境下很难对数据进行全局排序，如果在HADOOP上进行order by全排序，会导致所有的数据集中在一台reducer节点上，然后进行排序，这样很可能会超过单个节点的磁盘和内存存储能力导致任务失败

2017-02-28 15:13:45 2282

转载 Hadoop之——机架感知配置

1.背景 Hadoop在设计时考虑到数据的安全与高效，数据文件默认在HDFS上存放三份，存储策略为本地一份，同机架内其它某一节点上一份，不同机架的某一节点上一份。这样如果本地数据损坏，节点可以从同一机架内的相邻节点拿到数据，速度肯定比从跨机架节点上拿数据要快；同时，如果整个机架的网络出现异常，也能保证在其它机架的节点上找到数据。为了降低整体的带宽消耗和读取延时，HDFS会尽量让读取程

2017-02-27 14:33:32 518

转载使用Intellij IDEA构建spark开发环境

近期开始研究学习spark，开发环境有多种，由于习惯使用STS的maven项目，但是按照许多资料的方法尝试以后并没有成功，也可能是我环境问题；也可以是用scala中自带的eclipse，但是不太习惯，听说支持也不太好，好多问题；咨询一些人后说，IDEA对scala的支持比较好。所以尝试使用IDEA来构建Spark开发环境； 1. 安装JDK2. 安装IDEA最新版，目前

2017-02-27 10:08:41 533

转载 Flume的可靠性保证：故障转移、负载均衡

官网的配置： https://flume.apache.org/FlumeUserGuide.htmlFlume的一些组件（如Spooling Directory Source、File Channel）能够保证agent挂掉后不丢失数据。1、负载均衡1）Load balancing Sink Processorsource里的event流经channel，进入sink组，在si

2017-02-26 08:48:22 1567

转载 HIVE中MAPJOIN可以使用的场景分析

最近开发中遇到几种应用，刚好使用MAPJOIN来解决实际的问题。应用共同点如下：1: 有一个极小的表2: 需要做不等值join操作（a.x 这种操作如果直接使用join的话语法不支持不等于操作，Hive语法解析会直接抛出错误如果把不等于写到where里会造成笛卡尔积，数据异常增大，速度会很慢。甚至会任务无法跑成功~根据mapjoin的计算原理，MAP

2017-02-23 20:49:51 568

原创彻底删除Kafka中的topic

1、删除kafka存储目录（server.properties文件log.dirs配置，默认为"/tmp/kafka-logs"）相关topic目录2、Kafka 删除topic的命令是： ./bin/kafka-topics --delete --zookeeper 【zookeeper server】 --topic 【topic name】如

2017-02-17 16:21:02 883

转载【hadoop】——压缩工具比较

文件压缩主要有两个好处，一是减少了存储文件所占空间，另一个就是为数据传输提速。在hadoop大数据的背景下，这两点尤为重要，那么我现在就先来了解下hadoop中的文件压缩。hadoop里支持很多种压缩格式，我们看一个表格：DEFLATE是同时使用了LZ77算法与哈夫曼编码（Huffman Coding）的一个无损数据压缩算法，源代码可以在zlib库中找到。gzip是以DEF

2017-02-17 14:32:23 542

转载 Kafka简介

一、为什么需要消息系统1.解耦：　　允许你独立的扩展或修改两边的处理过程，只要确保它们遵守同样的接口约束。2.冗余：　　消息队列把数据进行持久化直到它们已经被完全处理，通过这一方式规避了数据丢失风险。许多消息队列所采用的"插入-获取-删除"范式中，在把一个消息从队列中删除之前，需要你的处理系统明确的指出该消息已经被处理完毕，从而确保你的数据被安全的保存直到你使用完毕。3.扩展性

2017-02-14 10:31:36 483

转载 Hive教程之metastore的三种模式

http://www.micmiu.com/bigdata/hive/hive-metastore-config/

2017-02-11 11:01:29 988

原创 MapReduce中的map个数

在map阶段读取数据前，FileInputFormat会将输入文件分割成split。split的个数决定了map的个数。公式：InputSplit=Math.max(minSize, Math.min(maxSize, blockSize)影响map个数（split个数）的主要因素有：mapreduce.input.fileinputformat.split.minsize 默认值 0

2017-02-08 15:27:18 923

转载 MapReduce相关参数

MapReduce相关配置参数分为两部分，分别是JobHistory Server和应用程序参数，Job History可运行在一个独立节点上，而应用程序参数则可存放在mapred-site.xml中作为默认参数，也可以在提交应用程序时单独指定，注意，如果用户指定了参数，将覆盖掉默认参数。以下这些参数全部在mapred-site.xml中设置。1. MapReduce Job

2017-02-06 16:39:21 1368

转载 hadoop集群balance工具详解

在线上的Hadoop集群运维过程中，hadoop 的balance工具通常用于平衡hadoop集群中各datanode中的文件块分布，以避免出现部分datanode磁盘占用率高的问题（这问题也很有可能导致该节点CPU使用率较其他服务器高）。 1） hadoop balance工具的用法：[html] view plain copy

2017-02-02 21:10:23 1039

原创 Hbase性能调优

1、zookeeper.session.timeout默认值：3分钟（180000ms）说明：RegionServer与Zookeeper间的连接超时时间。当超时时间到后，ReigonServer会被Zookeeper从RS集群清单中移除，HMaster收到移除通知后，会对这台server负责的regions重新balance，让其他存活的RegionServer接管.调优：这个t

2017-01-20 16:03:47 769

原创 java 集成LogBack

Logback是由log4j创始人设计的又一个开源日志组件。 logback当前分成三个模块：logback-core,logback- classic和logback-access。 logback-core是其它两个模块的基础模块。 logback-classic是log4j的一个

2017-01-12 14:51:32 894

转载从Log4j迁移到LogBack的理由

无论从设计上还是实现上，Logback相对log4j而言有了相对多的改进。不过尽管难以一一细数，这里还是列举部分理由为什么选择logback而不是log4j。牢记logback与log4j在概念上面是很相似的，它们都是有同一群开发者建立。所以如果你已经对log4j很熟悉，你也可以很快上手logback。如果你喜欢使用log4j,你也许会迷上使用logback。更快的执行速度基于我们先前在l

2017-01-12 14:41:15 300

原创 maven 下载repository太慢

1、进入 maven/conf/路径下2、打开setting.xml 文件，在中添加如下内容： alimaven aliyun maven http://maven.aliyun.com/nexus/content/groups/public/ central 3. 重启eclipse

2017-01-10 11:21:23 2425 1

转载 sqoop1的安装及使用

http://www.micmiu.com/bigdata/sqoop/sqoop-setup-and-demo/

2017-01-06 14:24:29 1272

原创 Sqoop2——导入关系型数据库数据到HDFS上

启动sqoop2-1.99.4版本客户端：$SQOOP2_HOME/bin/sqoop.sh client set server --host hadoop000 --port 12000 --webapp sqoop 查看所有connector：show connector --all2 connector(s) to show:

2017-01-05 17:03:52 3165

算法导论 必备品

21天学通JAVA(高清版).pdf

计算机网络 （自顶向下）答案

空空如也

算法导论必备品

计算机网络（自顶向下）答案