j_ys-CSDN博客

原创大数据-datax安装步骤与使用

1.datax概述：DataX 是一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。为了解决异构数据源同步问题，DataX将复杂的网状的同步链路变成了星型数据链路，DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候，只需要将此数据源对接到DataX，便能跟已有的数据源做到无缝数据同步。2.datax框架设计DataX本身..

2020-10-13 15:43:12 2934

原创高可用架构-云产品负载均衡与vip的漂移

1. 使用场景一般情况下在云上部署产品（集群级别）需要满足HA（高可用），实现高可用场景有两种方式，一种是web服务推荐使用云产品负载均衡来实现，一种是架构组件（比如mysql、redis实现高可用）推荐使用vip漂移的方式来实现。2. 云产品负载均衡应用负载均衡应用负载均衡可将大并发流量分发到多台后端实例，调整资源利用情况，消除由于单台设备故障对系统的影响，提高系...

2019-05-07 13:42:37 825

原创大数据-impala 环境下载Cloudera Quick Start VM并启动Impala

1. 打开cloudera网站的主页http://www.cloudera.com/。您将获得如下所示的页面。单击cloudera主页上的登录链接，这将重定向到如下所示的登录页面。如果您尚未注册，请点击“立即注册”链接，这将为您提供帐户注册表。在这里注册并登录cloudera帐户。2. 登录后，通过单击以下快照中突出显示的“下载”链接打开cloudera网站的下载页面。...

2019-04-26 08:57:08 934 1

原创大数据-impala

1. impala概述：impala是一个查询引擎（MPP），使用场景是存储在hadoop集群中的数据，主体是用C++开发的开源大数据组件，与其他大数据领域的SQL引擎相比有高性能与低延迟的效果。2. 选择impala的理由：Impala通过使用标准组件（如HDFS，HBase，Metastore，YARN和Sentry）将传统分析数据库的SQL支持和多用户性能与Apache H...

2019-04-25 14:20:26 692

原创大数据-商业分析之新零售ERP

随着这几年移动互联网的兴起，传统服饰行业受到了比较大的冲击，不少企业已经开始转型和创新，但是我发现了大家共同的一个痛点，就是为了适应转型和创新，企业陆续上了不同的系统，比如ERP系统，电商系统，微信商城和会员系统等等，但是由于各个系统分别由不同的供应商来提供，是相互独立的，为了实现数据融合共享，需要花费比较大的时间成本和资金成本去进行整合，并且整合的技术难度还是比较高和复杂的。...

2019-03-01 10:05:45 2876 1

原创 SpringBoot+MyBatis+Oracle

Demo概述使用SpringBoot和MyBatis，对Oracle数据的增、删、改、查、批处理、及调用存储过程，都做了示例代码及SQL的配置示例，对于各种参数传递方法，出入参类型等，也都做了示例或备注。本Demo使用数据库为Scott/Tiger用户自带的EMP员工表，进行操作，所以数据库建表等SQL不再贴出，只给出了分页查询的存储过程SQL。项目结构截图如下...

2019-01-28 14:48:01 1998

原创为CDH 5.7集群添加Kerberos身份验证及Sentry权限控制

4. 为CDH 5集群添加Kerberos身份验证4.1 安装sentry1、点击“操作”，“添加服务”；2、选择sentry，并“继续”；3、选择一组依赖关系4、确认新服务的主机分配5、配置存储数据库；　　在mysql中创建对应用户和数据库：? 1 2 3 mysql>create database sentry...

2019-01-15 10:29:08 869

原创 Kerberos安装及使用

2. 安装 Kerberos2.1. 环境配置　　安装kerberos前，要确保主机名可以被解析。　　主机名内网IP 角色Vmw201 172.16.18.201 Master KDCVmw202 172.16.18.202 Kerberos clientVmw203 172.16.18.203 Kerberos client2.2 Con...

2019-01-15 10:26:50 865

原创 Kerberos认证原理简介

1.1 What is Kerberos1.1.1 简单介绍　　Kerberos是一个用于鉴定身份（authentication）的协议，它采取对称密钥加密（symmetric-key cryptography），这意味着密钥不会在网络上传输。在Kerberos中，未加密的密码（unencrypted password）不会在网络上传输，因此攻击者无法通过嗅探网络来偷取用户的密码。　　...

2019-01-15 10:06:32 760

原创 hive的用户和用户权限

HiverServer2支持远程多客户端的并发和认证，支持通过JDBC、Beeline等连接操作。hive默认的Derby数据库，由于是内嵌的文件数据库，只支持一个用户的操作访问，支持多用户需用mysql保存元数据。现在关心的是HiveServer如何基于mysql元数据库管理用户权限，其安全控制体系与Linux及Hadoop的用户是否存在联系。1）remote方式部署HiveHive中m...

2019-01-12 17:25:46 567

原创 CDH基于Kerberos身份认证和基于Sentry的权限控制功能的测试示例

1. 准备测试数据cat /tmp/events.csv10.1.2.3,US,android,createNote10.200.88.99,FR,windows,updateNote10.1.2.3,US,android,updateNote10.200.88.77,FR,ios,createNote10.1.4.5,US,windows,updateTag2. 创建用户2....

2019-01-09 16:25:37 9011 1

原创 Hive的客户端界面工具–SQuirrel SQL Client--详细安装以及连接Hive过程

SQuirrel SQL Client是一款支持Hive的可视化工具，是市面上少数支持Hive中比较好用的，看下如何安装使用吧，下面是非常详细的安装过程。1.下载客户端SQuirrel SQL Client的官网及下载地址为：http://squirrel-sql.sourceforge.net/下载最新版版本，下载后是如下形式的jar包 squirrel-sql-3.8.1-st...

2019-01-09 14:48:31 1185 1

原创企业级数据单表全量增量抽取数据模型（Kettle版）

最近在使用Kettle进行ETL的工作，现在总结一下。需求是将MYSQL中的表数据增量备份到HIVE仓库中，第一次是全量。我只想给大伙来点实用的，避免大家踩坑。Kettle是一个基于图形化的ETL工具，也可以用于集成各种作业，比如Sqoop，MR，Hive这些，越来越多的企业在使用。本文大纲： 1、Kettle的安装与配置 2、库表数据的准备 ...

2018-11-08 18:09:00 2996 4

原创大数据----机器学习---神经网络

1.神经网络与深度学习的发展历程：2.神经网络与大脑神经元神经网络的起源、结构、个体间的信息交互方式是以我们大脑神经元为模板的，我们的大脑神经元如下所示： 3.神经网络源头--M-P神经元模型M-P 模型问题：• 模型不能训练，也就是没有学习的过程：可以说不能称作是机器学习，上图中的w0，w1，w2都是预设好的定死的，不能够通过学习来调整。• 在机器...

2018-09-25 16:33:57 3016

原创大数据----hive

1.Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类 SQL 查询功能。本质是将 SQL 转换为 MapReduce 程序。主要用途：用来做离线数据分析，比直接用 MapReduce 开发效率更高2.离线项目在使用hive的前后区别之前用 Hadoop MapReduce 人员学习成本高，MapReduce 实现复杂查询逻辑开发难度太...

2018-09-23 10:40:45 316

原创大数据----数据质量检测

1.在我们进行数据分析之前要对数据进行检测，数据质量是保证数据应用的基础，它的评估标准主要包括四个方面：完整性、一致性、准确性、及时性。评估数据是否达到预期设定的质量要求，就可以通过这四个方面来进行判断。2.完整性指的是数据信息是否存在缺失的状况，数据缺失的情况可能是整个数据记录缺失，也可能是数据中某个字段信息的记录缺失。不完整数据的价值就会大大降低，也是数据质量最为基础的一项评估标准。数据质...

2018-09-21 18:28:12 14792

原创大数据----flume

1.概述：Flume 是 Cloudera 提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的软件。核心是把数据从数据源（source）收集过来，之后缓存一下数据（channel），然后把数据发送到指定目的地（sink），最后删除缓存中的数据。不仅仅满足一般的数据采集需求，针对特殊的场景也具备良好的自定义扩展能力，所以flume适合大部分数据采集的场景。Flume有两...

2018-09-21 15:37:32 270

原创大数据-----大数据-机器学习-人工智能

1.大数据与机器学习的关系：大数据领域我们做的是数据的存储和简单的统计计算，机器学习在大数据的应用是为了发现数据的规律或模型，用机器学习算法对数据进行计算的到的模型，从而决定我们的预测与决定的因素（比如在大数据用户画像项目里，生成的特殊用户字段）。2.大数据在机器学习的应用目前市场实际开发模式中，应该在大数据哪一个阶段层次应用到机器学习的相关技术呢，我们接下来来说明，首先目前大数据的架...

2018-09-21 10:00:46 6736

原创大数据-----网站流量日志数据采集--socket机制

1.数据采集的重要性当前市场环境下，数据对于一个企业的重要性堪比汽车对于石油的重要性，而我们数据采集的手段，采集的准确性，采集的性能，以及采集的内容都是决定了数据能否最终被我们实用起来。2.数据采集的原理：埋点：我们在前端会写一个采集的脚本（一段js代码），当用户发起http请求访问的时候就会执行，这时候用户的点击信息（比如访问地址、ip、访问的页面、页面停留的时间）就会被记录下来，存...

2018-09-20 15:53:51 1454

原创大数据------MapReduce

1.MapReduce思想：简单理解就是“天下大事分久必合，合久必分”，MapReduce就完美的体现“分”与“和”的思想。Map负责“分”，把复杂的任务分解成多个简单的任务，之后进行并行处理的动作。但是前提是：这个复杂的大任务能够进行拆分，并且拆分之后各个子任务之间没有依赖关系。Reduce负责“和”，就是把map阶段各个小任务的处理结果汇总。2.MapReduce计算的实现思路...

2018-09-17 15:38:16 683

原创大数据------电商类网站的大数据应用之用户画像的简单架构搭建

1.大数据时代已经到来，企业希望从用户行为数据中分析出有价值的东西，利用大数据来分析用户的行为与消费习惯，可以预测商品的发展的趋势，提高产品质量，同时提高用户满意度。2.什么是用户画像：通过不同的维度，去描述一个人，认识一个人，了解一个人。用户画像也叫用户信息标签化、客户标签；根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。从电商的角度看，根据你在电商网站上所填的...

2018-09-13 16:51:41 7010

原创大数据-----spark底层通信交互简单原理与实现

1.spark是什么？Spark是一个基于内存的大数据计算引擎。提高了在大数据环境下数据处理的实时性，spark仅仅涉及到了数据的计算，没有涉及到数据的存储。Spark是由Scala语言编写的，2.什么是scalaScala 是一种多范式的编程语言，其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala 运行于 Java 平台（Java 虚拟机），并兼容现有的Java ...

2018-09-06 18:49:41 2348

原创大数据-------推荐系统简易流程与算法使用

1.推荐系统是一个非常复杂的系统，需要很多子模块、多子系统之间协同完成，但是其系统原理精髓是猜出用户喜欢来完善系统的推荐功能、提高用户对该软件的依赖性，也可以提高广告的接受率（相关广告的定点推送，比如你是搞it的，可以对你推荐各种型号的假发）。2.那么怎样计算用户的喜好？通过收集用户的所有行为信息（网站浏览信息、关注信息、收藏信息、评论信息、转发信息、订单信息、支付信息、外部信息），一般通...

2018-09-02 21:09:38 6152 1

原创大数据-------storm集群搭建与任务处理

1.在网上下载storm稳定版本的安装包，导入集群里面的一台服务器上。2.确定安装路径、解压。（在这一部分很简单，不做多余的说明）3.修改Storm文件目录下的配置文件（conf文件里面的storm.yaml文件）Storm.yaml这个文件其实是一个空文件，我们可以直接添加如下信息（举例）：#zk所在集群对应的服务器地址（多个服务器要都写上去，不能漏掉，配置hosts的情况下格式...

2018-08-29 21:09:19 352

原创大数据------storm

1.storm简介：Storm是Twitter公司开源贡献给Apache的一款实时流式计算框架，作用是用于解决数据的实时计算，以及实时处理等问题。它与hadoop的不同就是能够做到实时处理数据的能力，这里有一个hadoop离线项目的经典架构模式：ftp（获取）----hdfs（存储）-------hive（操作计算）--------mysql（最终结果存储）但是这种离线的架构分析数据模式，在数...

2018-08-29 16:59:27 255

原创大数据------kafka高级

1.深入学习kafka，我们要搭建一个kafka集群，配置好，运行起来，完成消息的发布与接收其实实现起来很简单，但是在kafka的底层是如何实现的，如何在大量消息中快速找到想要的消息，消息怎样才会在传递中不丢失，运行过程中会会经常遇到哪些比较棘手的问题接下来我们进入kafka高级的探入。2.Kafka的结构组成以及详细解释： 2.1Producer：生产者，用于消息的生产，通过P...

2018-08-26 20:20:28 417

原创大数据-----Apache Kafka

1.Kafka是什么？它是一个分布式的消息队列，消息队列：生产者、消费者的功能。它提供了类似于JMS 的特性，但是在设计实现上完全不同，此外它并不是JMS规范的实现。2. Kafka的作用：这里我们简单来说，它的主要作用就是解耦（降低系统之间的耦合度）、异构（异步架构），与并行。如果不同子系统之间的依赖太高的情况下，如果发生一些变化就需要更改整个系统，甚至系统的整体架构也可能要发生变...

2018-08-23 21:35:23 213

原创大数据-----Hadoop High Availability

1.High Availability：简称HA，高可用。为了保证业务可用的持续性，一般会有两个或者两个以上的节点，活动节点（Active）以及备用节点（Standby），目的是当活动节点发生了问题不能工作的时候，备用节点会检测到并且代替活动节点来继续保持业务的进行。Namenode（简称NN）就是HDFS集群的单点故障点，一个集群中在运行的NN只能有一个，但是如果这个NN挂掉了整个集群就不...

2018-08-21 10:49:07 709

原创大数据-----Hadoop Archives

1.Hadoop Archives：文件归档，是对HDFS的优化，我们在上传文件的时候会出现小文件（比如几kb的文件），这些小文件也会至少占用一个块（block），而每一个块的元数据在Namenode内存中都会被记录。当小文件过多的时候，就会给内存造成压力。Hadoop Archives功能就是给这些小文件归档成一个文件并可以在外部对这归档后的文件中的每一个小文件进行访问。 2.创建Arc...

2018-08-20 14:34:13 200

原创大数据---HDFS

1.HDFS：分布式文件存储系统，是用来进行文件存储的，简单的理解就是大数据领域的硬盘或者磁盘（但是还是有非常大的区别的，这个我们接下来进行解释）。 2.那么它和传统的存储方式有什么区别呢？首先，传统的方式保存数据就是我们平时用的上传到磁盘普通模式，但是我们站在大数据角度来看，如果我们的文件比较大（比如2T=2000G的文件），那么用这种方式就比较消耗时间，占用大量处理内存，而且...

2018-08-20 08:45:26 624

原创关于Hadoop与hadoop集群搭建应该注意的细节

1.Hadoop 说到大数据我们首先应该想到的就是hadoop，hadoop是由java语言编写的开源框架，它是一个处理大规模数据的平台，作用简单来说就是在大规模计算机服务器集群上对大量数据进行分布式的处理。对于一个大数据开发人员来说，hadoop是一直贯穿整个发开流程的。 Hadoop核心组件：HDFS：分布式文件系统，解决大规模数据存储问题。可以简单地理解为大数据领域的“硬...

2018-08-13 22:28:40 238

原创快速理解分布式与集群

1.分布式当并发提高的时候或者业务需求变大，现有的设备架构不足以满足我们的需求的时候可以采取分布式来解决这个问题。分布式简单来讲就是把硬件或者软件分布到不同的计算机上，彼此之间通过协议来通信。完成看似一台计算机的动作，因为是扩展到多台计算机提供服务，所以可以解决需求和高并发的问题。举一个例子：产品运行中，对于数据库的操作一直都是关键点，而数据库的读写操作的繁重程度又不一样，读压力...

2018-08-10 20:22:48 169

原创大数据------数据分析

1.数据分析可划分为：描述性数据分析、探索性数据分析、验证性数据分析。描述性数据分析属于初级数据分析，我们平时用到或者应用的主要就是这个层面，探索性分析属于高级数据分析，一般我们处理分析数据的时候，要求得到相关需求的结果，在可控范围内，而探索性分析更加注重于在处理分析数据的时候，得到一些新的结果，甚至有些时候的探索性分析从开始就没有去固化它的结果，而是要求这些结果的特征...

2018-08-10 19:43:56 884

原创大数据----浅谈数据

什么是数据？其实万物皆是数据，对于一个事物我们从各个方面都会有非常多的描述，对于这个事物无论是客观现实的描述，还是虚拟的逻辑描述，都体现这个事物的独有特点，就像有人曾经说过这个世界上没有两片同样相同的树叶，我们可以把这个说法换一种看法，没有两片一模一样的树叶，是不是也是说明了不同的树叶所携带的基因数据不同，从而影响了其外观，这里我们就可以理解这样一件事情，起因：数据的分歧不同，导致了影响了结果...

2018-08-07 22:18:37 269

原创关于Zookeeper

zookeeper是一个开源的小型的文件存储系统或者说框架，主要用于，当一个项目的需求增大，需要集群分布式来完成解决功能问题，主要的功能是监听其节点的变化与状态，保持数据的一致性是Zk的最重要的特征也是集群能够实现的重要保证，比如：我们搭建服务器集群的时候，就要求有虽然服务器不同但是完成的功能是相同的，就需要zk来展示不同服务器之间的数据一致性。在zk的作用下虽然服务器集群有很多服务器，但...

2018-08-07 20:56:54 198

jinyusheng_1991的博客