tswisdom-CSDN博客

原创 k8s安装笔记

yum list docker-ce --showduplicates | sort -ryum remove docker-cedocker-ce-cliyum install -y docker-ce-17.09.0.ce-1.el7.centoshttps://github.com/coreos/flannel/blob/master/Documentation/kube-flannel.ymlhostnamectl set-hostname k8s-master01...

2020-06-27 10:20:21 403

原创 azkaban 集群配置

web-server 配置：ubuntu@ip-172-31-43-246:/opt/azkaban3.32/azkaban-web-server-3.32.2/conf$ lsazkaban.properties azkaban-users.xml global.properties log4j.properties/opt/azkaban3.32/azkaban-web-ser...

2019-02-22 14:28:10 443

原创 cdh启用kerberos配置

以下为客户端配置：[root@test-vm1 ~]# vi /etc/krb5.conf# Configuration snippets may be placed in this directory as wellincludedir /etc/krb5.conf.d/[logging] default = FILE:/var/log/krb5libs.log kdc = F...

2019-02-16 09:10:42 1230

原创 Kerberos + OpenLDAP集成测试

最近研究了下Kerberos + OpenLDAP的集成，得出结论如下：1、Kerberos 与OpenLDAP是两套分别独立的用户认证系统2、OpenLDAP主要做用户管理，其可以作为Kerberos的用户存储数据库3、OpenLDAP可以与SSSD、SSH集成来作为Linux远程登录用户管理4、对于大数据平台比如CDH，可以集成Kerberos也可以集成OpenLDAP，但是集...

2018-12-18 21:23:03 1935

转载 maven pom中的repository节点配置没有起作用

问题描述昨天晚上想用spring boot快速搭建一个web开发的项目，就打开spring boot的doc，按照说明开始尝试。没想到出师未捷身先死，第一步就挂了。以下是spring boot的配置文件,参考：http://docs.spring.io/spring-boot/docs/current-SNAPSHOT/reference/htmlsingle/#getting-started-f...

2018-04-11 10:16:31 15380 2

转载 maven 仓库配置 pom中repositories属性

什么是Maven仓库在不用Maven的时候，比如说以前我们用Ant构建项目，在项目目录下，往往会看到一个名为/lib的子目录，那里存放着各类第三方依赖jar文件，如log4j.jar，junit.jar等等。每建立一个项目，你都需要建立这样的一个/lib目录，然后复制一对jar文件，这是很明显的重复。重复永远是噩梦的起点，多个项目不共用相同的jar文件，不仅会造成磁盘资源的浪费，也使得版本的一致性...

2018-04-11 10:12:42 1221

转载窄依赖和宽依赖

个人GitHub地址：https://github.com/LinMingQiang窄依赖和宽依赖窄依赖：指父RDD的每一个分区最多被一个子RDD的分区所用，表现为一个父RDD的分区对应于一个子RDD的分区，和两个父RDD的分区对应于一个子RDD 的分区。图中，map/filter和union属于第一类，对输入进行协同划分（co-partitioned）的join属于第二类。宽依赖：指子RDD的...

2018-04-10 15:42:55 6803

转载 hive中order by,sort by, distribute by, cluster by作用以及用法

1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的，会对查询的结果做一次全局排序，所以说，只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理（不管有多少map，也不管文件有多少的block只会启动一个reducer）。但是对于大量数据这将会消耗很长的时间去执行。这里跟传统的sql还有一点区别：如...

2018-04-10 15:41:27 1017

转载 TPS和QPS的区别

一、TPS：Transactions Per Second（每秒传输的事物处理个数），即服务器每秒处理的事务数。TPS包括一条消息入和一条消息出，加上一次用户数据库访问。（业务TPS = CAPS × 每个呼叫平均TPS）TPS是软件测试结果的测量单位。一个事务是指一个客户机向服务器发送请求然后服务器做出反应的过程。客户机在发送请求时开始计时，收到服务器响应后结束计时，以此来计算使用的时间和完成的...

2018-04-10 09:01:03 955

转载用户画像之电商大数据

一、前言大数据时代已经到来，企业迫切希望从已经积累的数据中分析出有价值的东西，而用户行为的分析尤为重要。利用大数据来分析用户的行为与消费习惯，可以预测商品的发展的趋势，提高产品质量，同时提高用户满意度。本课程是基于大型电商公司的真实用户画像中提练出的精华内容，旨在培养学员了解用户画像的内容，掌握构建用户画像的方法。二、初识用户画像右边是一个人的基本属性，通过一个人的基本属性我们可以了解...

2018-04-09 19:25:57 21384 4

原创多年以后，我回来了，持续分享

沉默了多年以后，我回来了，持续分享

2018-04-09 19:02:43 311

原创基于HBase的海量数据实时查询系统设计与实现

点击打开链接http://www.doc88.com/p-7445439907872.html

2015-11-18 00:40:15 9922

转载 HBase与MongDB等NoSQL数据库对比

转载请注明出处： jiq•钦's technical Blog - 季义钦一、开篇淘宝之前使用的存储层架构一直是MySQL数据库，配合以MongDB，Tair等存储。MySQL由于开源，并且生态系统良好，本身拥有分库分表等多种解决方案，因此很长一段时间内都满足淘宝大量业务的需求。但是由于业务的多样化发展，有越来越多的业务系统的需求开始发生了变化。一般来说有以下几类变化

2015-11-18 00:08:30 5530

转载 HBase数据迁移（3）-自己编写MapReduce Job导入数据

尽管在将文本文件加载入HBase时importtsv工具十分高效，但在许多情况下为了完全控制整个加载过程，你可能更想自己编写MapReduce Job向HBase导入数据。例如在你希望加载其他格式文件时不能使用importtsv工具。HBase提供TableOutputFormat 用于在MapReduce Job中向HBase的表中写入数据。你也可以使用HFileOutputFormat

2015-11-18 00:00:40 1206

转载 HBase数据迁移（2）- 使用bulk load 工具从TSV文件中导入数据

HBase提供importtsv工具支持从TSV文件中将数据导入HBase。使用该工具将文本数据加载至HBase十分高效，因为它是通过MapReduce Job来实施导入的。哪怕是要从现有的关系型数据库中加载数据，也可以先将数据导入文本文件中，然后使用importtsv 工具导入HBase。在导入海量数据时，这个方式运行的很好，因为导出数据比在关系型数据库中执行SQL快很多。importtsv

2015-11-17 23:56:46 834

转载 HBase数据迁移（1）-使用HBase的API中的Put方法

使用HBase的API中的Put是最直接的方法，用法也很容易学习。但针对大部分情况，它并非都是最高效的方式。当需要将海量数据在规定时间内载入HBase中时，效率问题体现得尤为明显。待处理的数据量一般都是巨大的，这也许是为何我们选择了HBase而不是其他数据库的原因。在项目开始之前，你就该思考如何将所有能够很好的将数据转移进HBase，否则之后可能面临严重的性能问题。HBase有一个名为 b

2015-11-17 23:53:19 1840

转载 Hadoop分布式缓存(DistributedCache)

package h2.cux.examples.distributedcache;import java.io.File;import java.io.FileReader;import java.io.IOException;import java.net.URI;import java.util.Scanner;import org.apache.had

2015-08-28 17:20:49 3292

转载 MapReduce实现大矩阵乘法

转自http://blog.csdn.net/xyilu/article/details/9066973引言何为大矩阵？Excel、SPSS，甚至SAS处理不了或者处理起来非常困难，需要设计巧妙的分布式方法才能高效解决基本运算（如转置、加法、乘法、求逆）的矩阵，我们认为其可被称为大矩阵。这意味着此种矩阵的维度至少是百万级的、经常是千万级的、有时是亿万级的。举个形象的栗子。至20

2015-08-27 20:51:32 584

原创在linux上执行java

javac -cp /home/oracle/export/lib/ojdbc14.jar.jar:/home/oracle/export/lib/poi-ooxml-3.9-20121203.jar:/home/oracle/export/lib/poi-3.9-20121203.jar:/home/oracle/export/lib/poi-ooxml-schemas-3.9-20121203

2015-04-08 20:50:57 1023

转载 MySQL锁定状态查看命令

1 show processlist;SHOW PROCESSLIST显示哪些线程正在运行。您也可以使用mysqladmin processlist语句得到此信息。如果您有SUPER权限，您可以看到所有线程。否则，您只能看到您自己的线程（也就是，与您正在使用的MySQL账户相关的线程）。如果有线程在update或者insert 某个表，此时进程的status为updating

2015-04-08 12:24:16 5762

原创 Oracle 临时表空间收缩

一、收缩临时表空间文件 alter tablespace temp shrink tempfile '/jeep/oracle/oradata/ORCL/temp01.dbf' keep 2048m; 二、关闭自动扩展 alter database tempfile '/jeep/oracle/oradata/ORCL/temp01.dbf' autoextend off;

2015-01-06 16:15:43 781

原创 hadoop streaming

[hadoop@master test]$ hadoop jar /home/hadoop/hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar -infoWarning: $HADOOP_HOME is deprecated.14/12/15 14:06:32 ERROR streaming.StreamJob: Mi

2014-12-15 14:07:43 3329

原创 ssh-keygen+ssh-copy-id 在linux下实现ssh无密码登录访问

ingram@DN1:~$ ssh-keygen -t rsaGenerating public/private rsa key pair.Enter file in which to save the key (/home/ingram/.ssh/id_rsa): Enter passphrase (empty for no passphrase): Enter same pas

2014-12-12 14:46:23 605

转载 maven教程(二)构建生命周期

1.清理生命周期 (clean)第一个你将感兴趣的生命周期是Maven中最简单的生命周期。运行mvn clean将调用清理生命周期，它包含了三个生命周期阶段：• pre-clean• clean• post-clean2.默认生命周期 (default)生命周期阶段描述validate验证项目是否正确，以及所有

2014-12-10 12:07:03 505

转载 maven基础教程

1.创建一个简单的项目并打包执行1.1创建一个maven命令[plain] view plaincopyprint?mvn archetype:create -DgroupId=org.sonatype.mavenbook.ch03 -DartifactId=simple -DpackageName=org.sonatype.mave

2014-12-10 12:06:27 769

转载 3、mysql数据库双机同步开源软件otter的配置

启动预装好的Mysql,zookeeper,manager.1 在 manager的界面，添加Node，如下图：机器管理—》Node管理如图，点击添加按钮，添加内容参考下图：添加完成后，根据添加后的node序号，如下图中，192.168.85.10中对应的序号是1，那么进入10机器下的

2014-12-09 14:50:30 4801 2

转载 2、mysql数据库双机同步开源软件otter的安装二

4 安装node和aria2 node 需要aria2支持，我是在AB机房各安装了一套。安装node: 创建目录：mkdir node 进入目录：cd node 下载node：解压缩：tar zxvf node.deployer-$version.tar.gz 修改node的配置： vi conf/otter.prop

2014-12-09 14:49:26 4099

转载 1、mysql数据库双机同步开源软件otter的安装一

otter的wiki页面：https://github.com/alibaba/otterotter的环境需要：mysql ，jdk, zookeeper , node , aria2 , manager为了防止otter的闪断，我把一些软件上传到了百度云上：http://pan.baidu.com/share/link?uk=3708161223&shareid=29876467

2014-12-09 14:48:49 5775

转载 otter编译

下载jdk配置环境变量：JAVA_HOME: D:\Program Files (x86)\Java\jdk1.6.0_25Path：%JAVA_HOME%\bin; %JAVA_HOME%\jre\bin;，CLASSPATH: .;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar 下载maven页

2014-12-09 14:47:15 2159

转载 rotatelogs

Modules | Directives | FAQ | Glossary | SitemapApache HTTP Server Version 2.4Apache > HTTP Server > Documentation > Version 2.4 > Programsrotatelogs - Piped logging program to

2014-12-02 16:25:03 884

转载 Apache日志解读,Apache日志每列代表什么?

Apche日志系列(1)：访问日志想要知道什么人在什么时候浏览了网站的哪些内容吗？查看Apache的访问日志就可以知道。访问日志是Apache的标准日志，本文详细解释了访问日志的内容以及相关选项的配置。一、访问日志的格式Apache内建了记录服务器活动的功能，这就是它的日志功能。这个《Apache日志》系列文章介绍的就是Apache的访问日志、错误日志，以及如何分析日志数据

2014-12-02 13:19:35 10263

原创 zookeeper 学习文档

http://www.uml.org.cn/wenzhang/artsearch.asp?curpage=1

2014-11-26 21:00:55 2660

转载 ZooKeeper系列（三）

前面虽然配置了集群模式的Zookeeper，但是为了方面学建议在伪分布式模式的Zookeeper学习Zookeeper的shell命令。一、Zookeeper的四字命令Zookeeper支持某些特定的四字命令字母与其的交互。他们大多数是查询命令，用来获取Zookeeper服务的当前状态及相关信息。用户在客户端可以通过telnet或nc向Zookeeper提交相应的命令。Zookee

2014-11-26 20:59:47 5638

转载 Zookeeper系列（一）

一、ZooKeeper的背景1.1 认识ZooKeeperZooKeeper---译名为“动物园管理员”。动物园里当然有好多的动物，游客可以根据动物园提供的向导图到不同的场馆观赏各种类型的动物，而不是像走在原始丛林里，心惊胆颤的被动物所观赏。为了让各种不同的动物呆在它们应该呆的地方，而不是相互串门，或是相互厮杀，就需要动物园管理员按照动物的各种习性加以分类和管理，这样我们才能更加

2014-11-26 20:58:14 76384 13

转载 ZooKeeper系列（二）

Zookeeper的环境配置一、Zookeeper的搭建方式Zookeeper安装方式有三种，单机模式和集群模式以及伪集群模式。1.单机模式：Zookeeper只运行在一台服务器上，适合测试环境；2.伪集群模式：就是在一台物理机上运行多个Zookeeper 实例。3.集群模式：Zookeeper运行于一个集群上，适合生产环境，这个计算机集群被称为一个“集合体

2014-11-26 20:57:33 8473

转载 ZooKeeper系列（四）

一、配置服务配置服务是分布式应用所需要的基本服务之一，它使集群中的机器可以共享配置信息中那些公共的部分。简单地说，ZooKeeper可以作为一个具有高可用性的配置存储器，允许分布式应用的参与者检索和更新配置文件。使用ZooKeeper中的观察机制，可以建立一个活跃的配置服务，使那些感兴趣的客户端能够获得配置信息修改的通知。下面来编写一个这样的服务。我们通过两个假设来简化所需实现的服

2014-11-26 20:56:38 11867 1

原创 Flume-NG中用到的一些好的文章

玖疯的博客：http://www.cnblogs.com/lxf20061900/category/565688.html

2014-11-25 20:36:42 955 1

转载 Flume-ng生产环境实践（四）实现log格式化interceptor

续上篇，由于filesink中需要使用/data/log/%{dayStr}/log-%{hourStr}%{minStr}-这样文件格式的，为了使file-sink能使用%{dayStr}这样的标签，需要在数据传输过程中，给event的header中添加对应的键值对。在flume-ng中提供了很方便的方式：Interceptor以下为实现的interceptor，首先使用正则表达式匹配ngi

2014-11-25 16:12:05 5669

转载 Flume-ng生产环境实践（三）实现文件sink，按照固定格式目录输出

应用场景：需要实时收集多台服务器的nginx日志到一台机器。收集完成结果存放需要按天生成文件夹，按每5分钟生成文件，比如2012年12月29日12点26分的日志，需要放到/data/log/20121229/log-1225-对应的文件中。自己实现了类似flume-og和flume-ng的hdfs-sink的文件sink。使用的时候配置如下：agent.source

2014-11-25 16:09:35 15873 2

转载 Flume-ng生产环境实践（二）flume-ng 测试过程中event丢失部分body数据

经过测试发现，当source端单event的body数据大于16字节后，输出到目标只剩下16字节。进过多源代码的分析，发现，源代码中进行了截取。在LoggerSink.java中：if (event != null) { if (logger.isInfoEnabled()) { logger.info("Event: " + EventHe

2014-11-25 16:06:32 3632 2

空空如也

空空如也