bug搬运攻城狮-CSDN博客

原创 CDH6.3 集成OpenLDAP

CDH6.3 集成OpenLDAP安装OpenLDAP内容概述1.OpenLDAP服务安装2.导入根域及管理员账号3.导入基础文件及用户和用户组4.配置OpenLDAP客户端测试环境1.CentOS7.42.OpenLDAP版本2.4.44OpenLDAP服务端安装在集群中选择一台服务器(pd-cdh-192-0-7-node)作为OpenLDAP的Server1.执行如下命令安装OpenLDAP服务[root@pd-cdh-192-168-0-7-node ~]# yum

2021-09-26 16:33:16 773

原创价值一个亿的文章

数据中台必备的4个核心能力1.汇聚整合2.提纯加工3.服务可视化4.价值变现数据中台VS业务中台业务中台是抽象业务流程的共性形成通用业务服务能力；数据中台则是抽象数据能力的共性形成通用数据服务能力；数据中台建设方法论1种战略行动：把用数据中台驱动业务发展定位为企业级战略，全局谋划。2项保障条件：通过宣导统一组织间的数据认知，通过流程加速组织变革。3条目标准则：将数据的可见、可用、可运营3个核心准则始终贯穿于中台建设的全过程，保障建设在正确轨道上。4套建设内容：通过技术体系、

2020-05-14 16:49:16 381

原创 CDP7.0.x趟坑之旅

文章目的CDP DC7.0.3是Cloudera与Hortonworks合并后，第一个融合CDH和HDP所有组件的on-premise版本，CDP Data Center主要由Cloudera Runtime构成，Cloudera Runtime由超过35个开源项目组成，当然CDP Data Center还包括其它功能如管理功能Cloudera Manager，Key Management，专业...

2019-12-20 16:02:58 2317 1

原创 Hbase四种数据迁移方案

官方文档参考文档1. HDFS层次迁移一.完全关机备份某些环境可以容忍其HBase群集的定期完全关闭，例如，如果它正在使用后端分析容量而不是服务于前端Web页面。好处是NameNode / Master是RegionServers已关闭，因此没有机会错过对StoreFiles或元数据的任何正在进行的更改。显而易见的是群集已关闭。步骤包括：1.停止HBase2.DistCp使用Dist...

2019-03-05 11:17:33 1818

原创 hive跨集群迁移数据

1.源端查看要传递的表建表语句源端hive shell执行show create table tablename2.目标端建表目标端hive shell执行根据第一步中建表语句建表即可3.distcp源端shell执行hadoop distcp -D ipc.client.fallback-to-simple-auth-allowed=true -i -skipcrccheck ...

2019-03-01 16:55:30 672

原创 Mac 上搭建 Flink 1.7.2 环境并构建运行简单程序入门

准备工作1、安装查看 Java 的版本号，推荐使用 Java 8。2.安装 brew/usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"上面方法失败的话请执行如下操作在浏览器上进入上面的网站地址，将里面的内容复制到自己新建一个 “instal...

2019-02-28 15:50:38 1952

原创 Oracle OGG Kafka

GoldenGate介绍GoldenGate软件是一种基于日志的结构化数据复制软件。GoldenGate 能够实现大量交易数据的实时捕捉、变换和投递，实现源数据库与目标数据库的数据同步，保持亚秒级的数据延迟。GoldenGate能够支持多种拓扑结构，包括一对一，一对多，多对一，层叠和双向复制等等。GoldenGate基本架构Oracle GoldenGate主要由如下组件组成Extra...

2019-02-25 14:05:40 2734

原创 github+hexo个人博客网站建设(一)

github官网申请自己的账户githubID: username 新建一个如下的仓库: username.github.io eg:必须这样格式命名安装配置git不细说了，直接到官网下载安装就好了 https://git-scm.com/downloads绑定域名（非必要操作）注册域名，在阿里上注册一个域名控制台域名控制台解析添加如下记录第二行中的ip...

2019-01-25 14:43:56 481

原创 Flink Tumbling Windows Join

前言前面说了官网的实例其实就是Inner JoinWindows Join Example 下面就开始说说Tumbling Windows Join翻滚窗口连接官网翻译Tumbling Window Join当执行翻滚窗口连接时，具有公共密钥和公共翻滚窗口的所有元素以成对组合的形式连接并传递给JoinFunction或FlatJoinFunction。因为它的行为类似于内连接，所以不会发...

2019-01-15 13:23:03 769

原创 Flink Stream Windows Join

前言从文章标题看出这是个窗口的join讲解文章，我们还是从官网的例子说起Windows Join窗口连接连接两个共享公共密钥并位于同一窗口中的流的元素。可以使用窗口分配器定义这些窗口，并对来自两个流的元素进行评估。然后将来自双方的元素传递给用户定义的，JoinFunction或者FlatJoinFunction用户可以发出满足连接条件的结果。一般用法可概括如下：stream.join(...

2019-01-15 11:25:53 997

原创 Flink流处理之迭代案例

前言我们在学习flink时一般都离不开flink官网，而我们通常都要先学会“Example”,Apche的开源项目一般都会有这个目录，今天就说一下flink的Example中的流处理的迭代官网流处理的迭代地址对于流处理（DataStream），Flink相同提供了对迭代的支持。这一节我们主要来分析流处理中的迭代，我们将会看到流处理中的迭代相较于批处理有类似之处。但差异也是十分之明显。...

2019-01-14 13:41:04 638 2

原创 Kafka+SparkStreaming+MongoDB

快放假了，不想说废话主要操作类package com.actionimport com.conf.{ConfigManager, ConstantsInterface}import com.until.LocalKafkaUntilsimport org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.spa...

2018-12-29 14:45:58 1530 1

原创 impala kudu的烦恼

前言有这么一个场景，mysql数据实时同步到hive，然后impala查询hive使用streamset 我将上述的流程设计完毕，但是我们必须要考虑的是hive的更新与删除，这如何处理？删除可能还有办法处理，可以使用spark程序处理，但是数据更新呢？很是为难，然后有人给我推荐使用kudu ，利用impala查询kudu。问题说干就干我开始在cdh里添加kudu但是我遇到了说我的服务器c...

2018-12-26 15:45:59 2393

原创 Elasticsearch install

installk8ssn125[root@k8sn125 opt]# curl -L -O https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-6.5.2.tar.gz...[root@k8sn125 opt]# tar -xvf elasticsearch-6.5.2.tar.gz[root@k8sn...

2018-12-21 17:51:42 365 1

原创 Elasticserach简介

前言最近要用ES，所以就简单的学习一下应用场景1.站内搜索主要是网页信息量比较大的网站会有站内全文检索这一功能，方便用户快速检索信息2.NosqlES在读写性能优于MongoDB,同时支持地理位置查询3.日志分析日志分析由实时日志分析平台ELK(Elasticsearch,Logsash和Kibana)ELK能够对日志进行集中收集，存储，搜索，分析，监控，以及可视化...

2018-12-21 17:49:25 1266 1

原创 redis集群安装部署

1. 工具 / 环境虚拟机环境操作系统：CentOS 73台虚拟机IP：192.168.9.139、192.168.9.140、192.168.9.141（注：Redis集群要求至少要有三个节点）2. 安装Redis# yum -y install gcc# wget http://download.redis.io/releases/redis-4.0.8.tar.g...

2018-12-18 17:24:20 723

原创 Hive注释中文乱码

前言今天刚安装完CDH环境，交给同事使用，反馈说hive有乱码问题建表语句create external table movie(userID int comment '用户ID',movieID int comment '电影ID',rating int comment '电影评分',timestamped bigint comment '评分时间戳',movieName str...

2018-12-18 13:27:34 375

原创 CDH6.0.1 HUE 访问HBase报500错误，无法连接thrift

前言公司决定搞新版本deCDH，然后我就安装部署了CDH6.0.1，安装的路程就不说了，本以为安装好添加服务就可以用了，可是却遇到这个问题，我开始以为thrift jar包问题，问别人要了CDH6.0.0里面的jar包替换，后面又说什么配置问题，均未解决，后来找java大神看thrift jar的源码，然后发现问题是，我们请求的服务跟它自己要去调用的服务不一致。原因找出来了，就是找不到...

2018-12-12 18:04:12 2808

原创 Cloudera Mannager Install StreamSets

Installation Requirements在满足以下最低要求的计算机上安装Data Collector。要在群集执行模式下运行管道，群集中的每个节点都必须满足最低要求。零件最低要求操作系统使用以下操作系统和版本之一： Mac OS X.CentOS 6.x或7.x.Oracle Linux 6.x或7.x.Red Hat Linux 6.x或7.x.Ubuntu...

2018-11-30 16:33:35 736

原创 CentOS7.5,CDH6安装部署

SCM-CDH安装部署集群规划1.CDH简介Cloudera’s Distribution, including Apache Hadoop基于Web的用户界面,支持大多数Hadoop组件，包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop,简化了大数据平台的安装、使用难度。2.硬件配置-u root -p 123456IP...

2018-11-30 13:46:03 12222

原创 kafka-flink-hbase

前言flink现在是越来越火了，我最近也有在看flink官网，上周五一个朋友叫我写个flink读取kafka，还有读取mysql，本人比较苦逼，没有实验集群，样例是写出来了，能不能成事，你们用自己的集群测试一下flink-1.6.2kafka-0.10Maven pom.xml &lt;!--hadoop--&gt; &lt;dependency&gt; ...

2018-11-26 17:34:34 2239 1

原创 spark程序运行剖析

写在前面的话目的：不要别人说个啥你都是一脸懵逼状态，圈子内交流最好用专业术语，不然就会感觉鸡同鸭讲，我最近就碰到这个问题，首先要做的就是我们自己一定要明确这些术语！Application spark应用程序，说白了，就是用户基于spark api开发的程序，一定是通过一个有main方法的类执行的，比如java开发spark，就是在eclipse中，建立的一个工程Application...

2018-11-16 14:11:12 184

转载 hive脚本执行方式

hive脚本的执行方式hive脚本的执行方式大致有三种：hive控制台执行；hive -e "SQL"执行；hive -f SQL文件执行；参考hive用法：usage: hive -d,--define &lt;key=value&gt; Variable subsitution to apply to hive ...

2018-11-16 12:06:56 3783 1

转载 HIVE :UDF、UDAF、UDTF

1、UDF：用户定义（普通）函数，只对单行数值产生作用；实现方法：继承UDF类重写evaluate方法/** * @function 自定义UDF统计最小值 * @author John * */ public class Min extends UDF { public Double evaluate(Double...

2018-11-16 11:57:15 451

转载 sbt与maven简单对比

sbt vs mavensbt项目用ivy2,可以使用maven的包sbt可以进行增量编译，这个特性还是非常有吸引力，因为scala的编译速度是堪比c++的sbt提供了一个scala的console，并且导入默认的一些包，非常方便的交互sbt在插件上支持的并不是那么好，很多maven中好用的功能，需要用额外的插件，比如mvn dependency:tree ps:最新版的不需要plugi...

2018-11-14 17:32:05 7129

转载 Spark数据倾斜调优

调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性能。数据倾斜发生时的现象绝大多数task执行得都非常快，但个别task执行极慢。比如，总共有1000个task，997个task都在1分钟之内执行完了，但是剩余两三个task却要一两个小时。...

2018-11-14 11:32:59 279

原创 tensorflow基本概念

TensorFlow 简介TensorFlow™ 是一个开放源代码软件库，用于进行高性能数值计算。借助其灵活的架构，用户可以轻松地将计算工作部署到多种平台（CPU、GPU、TPU）和设备（桌面设备、服务器集群、移动设备、边缘设备等）。TensorFlow™ 最初是由 Google Brain 团队（隶属于 Google 的 AI 部门）中的研究人员和工程师开发的，可为机器学习和深度学习提供强力支...

2018-11-08 11:25:13 325

原创 tensorflow MNIST softmax 实战

MNIST机器学习入门MNIST是一个入门级的计算机视觉数据集，它包含各种手写数字图片：MNIST 数据下载文件内容train-images-idx3-ubyte.gz训练集图片 - 55000 张训练图片, 5000 张验证图片train-labels-idx1-ubyte.gz训练集图片对应的数字标签t10k-images-idx3-ubyte....

2018-11-08 11:23:20 271

原创 Tensorflow 基础

TensorFlow 简介TensorFlow™ 是一个开放源代码软件库，用于进行高性能数值计算。借助其灵活的架构，用户可以轻松地将计算工作部署到多种平台（CPU、GPU、TPU）和设备（桌面设备、服务器集群、移动设备、边缘设备等）。TensorFlow™ 最初是由 Google Brain 团队（隶属于 Google 的 AI 部门）中的研究人员和工程师开发的，可为机器学习和深度学习提供强力支...

2018-11-08 11:20:18 212

原创 scala笔记-Actor（17）

Scala的Actor类似于Java中的多线程编程。但是不同的是，Scala的Actor提供的模型与多线程有所不同。Scala的Actor尽可能地避免锁和共享状态，从而避免多线程并发时出现资源争用的情况，进而提升多线程编程的性能。此外，Scala Actor的这种模型还可以避免死锁等一系列传统多线程编程的问题。Spark中使用的分布式多线程框架，是Akka。Akka也实现了类似Scala Act...

2018-11-05 09:04:07 239

原创 scala笔记-隐式转换与隐式参数（16）

Scala提供的隐式转换和隐式参数功能，是非常有特色的功能。是Java等编程语言所没有的功能。它可以允许你手动指定，将某种类型的对象转换成其他类型的对象。通过这些功能，可以实现非常强大，而且特殊的功能。 Scala的隐式转换，其实最核心的就是定义隐式转换函数，即implicit conversion function。定义的隐式转换函数，只要在编写的程序内引入，就会被Scala自动使用。Scala...

2018-11-05 09:03:54 161

原创 scala笔记-类型参数（15）

类型参数是什么？类型参数其实就类似于Java中的泛型。先说说Java中的泛型是什么，比如我们有List a = new ArrayList()，接着a.add(1)，没问题，a.add(“2”)，然后我们a.get(1) == 2，对不对？肯定不对了，a.get(1)获取的其实是个String——“2”，String——&amp;amp;quot;2&amp;amp;quot;怎么可能与一个Integer类型的2相等呢？所以Java中提出了泛型...

2018-11-05 09:03:38 171

原创 scala笔记-模式匹配（14）

模式匹配// Scala是没有Java中的switch case语法的，相对应的，Scala提供了更加强大的match case语法，即模式匹配，类替代switch case，match case也被称为模式匹配// Scala的match case与Java的switch case最大的不同点在于，Java的switch case仅能匹配变量的值，比1、2、3等；而Scala的match c...

2018-11-05 09:03:20 245

原创 scala笔记-函数式编程（13）

将函数赋值给变量// Scala中的函数是一等公民，可以独立定义，独立存在，而且可以直接将函数作为值赋值给变量 // Scala的语法规定，将函数赋值给变量时，必须在函数后面加上空格和下划线 def sayHello(name: String) { println(&amp;amp;quot;Hello, &amp;amp;quot; + name) } val sayHelloFunc = sayHello _ sayHelloFu...

2018-11-05 09:03:04 172

原创 scala笔记-面向对象编程之Trait（12）

将trait作为接口使用// Scala中的Triat是一种特殊的概念// 首先我们可以将Trait作为接口来使用，此时的Triat就与Java中的接口非常类似// 在triat中可以定义抽象方法，就与抽象类中的抽象方法一样，只要不给出方法的具体实现即可// 类可以使用extends关键字继承trait，注意，这里不是implement，而是extends，在scala中没有impleme...

2018-11-05 09:02:49 153

原创 scala笔记-面向对象编程之继承（11）

extends// Scala中，让子类继承父类，与Java一样，也是使用extends关键字// 继承就代表，子类可以从父类继承父类的field和method；然后子类可以在自己内部放入父类所没有，子类特有的field和method；使用继承可以有效复用代码// 子类可以覆盖父类的field和method；但是如果父类用final修饰，field和method用final修饰，则该类是无法...

2018-11-05 09:02:31 157

原创机器学习入门篇

题外话：第二次纯手打编辑博客啦！以下内容摘自百度百科：AI概念：人工智能（Artificial Intelligence），英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。机器学习：机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究...

2018-11-05 09:02:05 265

原创 scala笔记-面向对象编程（10）

定义一个简单的类// 定义类，包含field以及方法class HelloWorld { private var name = &amp;quot;leo&amp;quot; def sayHello() { print(&amp;quot;Hello, &amp;quot; + name) } def getName = name}// 创建类的对象，并调用其方法val helloWorld =

2018-11-02 16:53:47 153

原创 scala笔记-Map与Tuple（9）

创建Map// 创建一个不可变的Mapval ages = Map(&amp;amp;quot;Leo&amp;amp;quot; -&amp;amp;amp;gt; 30, &amp;amp;quot;Jen&amp;amp;quot; -&amp;amp;amp;gt; 25, &amp;amp;quot;Jack&amp;amp;quot; -&amp

2018-11-02 16:53:13 253

原创 scala笔记-集合操作（8）

Scala的集合体系结构// Scala中的集合体系主要包括：Iterable、Seq、Set、Map。其中Iterable是所有集合trait的根trai。这个结构与Java的集合体系非常相似。// Scala中的集合是分成可变和不可变两类集合的，其中可变集合就是说，集合的元素可以动态修改，而不可变集合的元素在初始化之后，就无法修改了。分别对应scala.collection.mutabl...

2018-11-02 16:52:28 269

空空如也

空空如也