OnTheRoad_Kang-CSDN博客

原创大数据大纲&大数据生态圈所涉及的技术

今天博主是做一个大概的概述，缺少的章节会在后面慢慢补充，感兴趣的同学可以在下面评论留言。数据可视化展示中心：KIbana官网:点击打开链接用户指南：点击打开链接Grafana官网：点击打开链接Grafana帮助文档：点击打开链接大数据特征：1）大量化（Volume）：存储量大，增量大 TB->PB2）多样化（Variety）：来源多:搜索引擎，社交网络，通话记录，传感器格式多:(非）结...

2018-03-09 09:36:20 21327 4

现在的架构很多，各种各样的，如高并发架构、异地多活架构、容器化架构、微服务架构、高可用架构、弹性化架构等，还有和这些架构相关的管理型的技术方法，如 DevOps、应用监控、自动化运维、SOA 服务治理、去 IOE 等等，还有很多。那什么是分布式系统？分布式系统是支持分布式处理的软件系统，是由通信网络互联的多处理机体系结构上执行任务的系统。包括分布式操作系统、分布式程序设计语言及其编译系统、分布式文...

2018-01-17 09:26:00 72295 1

原创 python下载某猫data生成的xlsx通过脚本转换成csv上传至hive集群做数据处理

商品信息有关内部信息不便透露，python程序做登录以及商品数据的下载，因为只能下载excel，所以需要转正csv，这里需要做sheet分页读取。#-*- coding: utf-8 -*-import csvimport openpyxl def xlsx_to_csv_data(): data = openpyxl.load_workbook('/home/hadoop/data...

2019-07-31 14:52:36 297

原创数据处理之搜索关键词分析

####离线数据处理，hive分析（保留汉子、字母、数字、开头数字去除、过滤垃圾数据）select content,count(1) wordsnumber from (select regexp_replace(split(eventname,'_')[1],' |，|：|/|-|\r|\n|[[^0-9a-zA-Z\\\u4e00-\\\u9fa5]]','') content from...

2019-05-27 16:09:47 2281

原创数据湖

数据湖“数据湖”一词最近成为大数据行业的一个重要术语。数据科学家可以利用它来获得有意义的见解，企业可以使用它来重新定义或改变其运作方式。Lambda架构也正在成为大数据领域中非常杰出的模式之一，因为它不仅有助于从历史数据中获取有用信息，还可以关联实时数据，使业务部门能够做出关键决策。数据湖是一套非常灵活、松散耦合的架构方法，它将大数据处理划分为数据获取层、消息层、数据捏取层、数据存储层、Lam...

2019-04-16 14:24:37 8091

原创大数据流量分析

数据分析工具:FineBI 商业智能工具http://www.finebi.com/数据分析的本质其实是做数据对比分析，没有数据对比，单一的指标统计往往难以发挥数据价值。像我们常见的数据对比分析方法有同比、环比、占比等一系列分析指标，那是不是所有的数据业务场景都可以直接进行套用分析呢？比如我们统计企业2018年1月29日的同比流量，是不是可以直接对比2017年1月29日？表面上看好像2017年1...

2019-04-02 09:41:16 13184

原创 mysql定时任务案例以及教程

SHOW VARIABLES LIKE ‘event_scheduler’;Value为ON则已打开，OFF则关闭如果是OFF，就先打开：SET GLOBAL event_scheduler = ON;然后创建我们想要的定时器每天凌晨一点执行（清空表数据）DELIMITER $$DROP EVENT IF EXISTS deletefol_bigorders_rfm;CRE...

2019-03-26 10:19:05 5168

原创 Spark Sql 分布式SQL引擎&&Pandas PySpark使用

Spark Sql 分布式SQL引擎Spark SQL可以使用其JDBC / ODBC或命令行界面充当分布式查询引擎。在这个模式下，用户或应用程序可以直接与Spark SQL交互以运行SQL查询，而无需编写任何代码。运行Thrift JDBC / ODBC服务器对应HiveServer2 于Hive 1.2.1中的。可以使用Spark或Hive附带的beeline脚本测试JDBC服务器启动...

2019-02-03 09:57:01 11119 1

原创 Spark Sql 性能调优

对于某些工作负载，可以通过在内存中缓存数据或打开一些实验选项来提高性能。在内存中缓存数据Spark SQL可以通过调用spark.catalog.cacheTable(“tableName”)或使用内存中的列式格式来缓存表.dataFrame.cache()。然后，Spark SQL将仅扫描所需的列，并自动调整压缩以最小化内存使用和GC压力。可以调用spark.catalog.uncacheT...

2019-01-12 15:30:46 9971

原创 Spark Sql 聚合

聚合DataFrames可以提供共同聚合，例如count()，countDistinct()，avg()，max()，min()等。虽然这些功能是专为DataFrames，星火SQL还拥有类型安全的版本，在其中的一些斯卡拉和 Java的使用强类型数据集的工作。此外，用户不限于预定义的聚合函数，并且可以创建自己的聚合函数。无用户定义的聚合函数扩展UserDefinedAggregateFun...

2019-01-12 15:27:16 10112

原创 Spark Sql&DataFrame&RDD&DataSet

SparkSQLSparkSQL用来处理那些不能够用sql来进行处理的数据逻辑或者用sql处理起来比较复杂的数据逻辑。使用sparkSQL是为了解决一般用sql不能解决的复杂逻辑，使用编程语言的优势来解决问题。spark sql流程:把数据读入到sparkSQL中，sparkSQL进行数据处理或者算法实现，然后再把处理后的数据输出到相应的输出源中。数据源：hive数据仓库、json文...

2019-01-12 15:24:48 9739

原创 hive压缩&&hdfs合并小文件

hdfs合并小文件hadoop fs -getmerge hdfs文件夹路径合并本地的文件名如果hdfs误删除文件或者hive误删除文件/user/hadoop/.Trash/Current 这个地址下有文件备份，文件备份保留七天（core配置文件可以设置）hive压缩压缩的好处：(执行查询时会自动解压)可以节约磁盘的空间，基于文本的压缩率可达40%+;压缩可以增加吞吐量和性...

2019-01-04 11:18:53 10937

原创大数据流量分析

参考地址：https://baijiahao.baidu.com/s?id=1591089406130813973&amp;wfr=spider&amp;for=pc数据分析的思路1、基于用户的使用路径，包括用户的操作（点击、返回、退出）、流失（如：注册流程增加一个跳转，用户的流失率）、停留时间（例如用户在某个商品的浏览时间）2、基于产品的节点，包括用户转化率和占比，例如：通过某一个推...

2019-01-04 10:52:25 10810

原创 Hive常用性能调优&&常见问题参考&&MR作业调优

设置队列Hive中所有MapReduce作业都提交到队列queue1中,对本次启动的会话有效，下次启动需要重新配置hive --hiveconf mapreduce.job.queuename=queue1设置执行引擎set hive.execution.engine=mr;set hive.execution.engine=spark;控制Hive中map的数量hive.mer...

2018-12-29 09:59:43 10421

原创并发线程两种简单常用实例

第一种方案：简单、常用//newFixedThreadPool(20)创建可用线程数ExecutorService executorServices = Executors.newFixedThreadPool(20);System.out.println(" START ......");for (int i = 0; i < 10; i ++) { executorSer...

2018-12-21 11:06:58 9821

原创 ExecutorService深入解释

接口 java.util.concurrent.ExecutorService 表述了异步执行的机制，并且可以让任务在后台执行在 java.util.concurrent 包中的 ExecutorService 的实现就是线程池的实现ExecutorService 样例实例：ExecutorService executorService = Executors.newFixedThreadP...

2018-12-21 11:04:44 10098

转载浅谈线程池ThreadPoolExecutor

原文链接：https://juejin.im/post/5aabb948f265da237506a7f5案例：抄写员在中世纪，有一种叫做抄写员（Scribe）的工作，他们的职责就好像是复印机，抄写一本又一本书。假如这个时候有一个抄写员工作室，只有2个抄写员，他们要抄写10本书。我们在本例中分别“自己写线程管理”和“由ThreadPoolExecutor做线程管理”public stati...

2018-12-21 10:32:52 9577

原创非阻塞线程池

注意：定制自己的线程池ThreadPoolExecutor管理类，除非对线程池特别了解，否则尽量不要使用，线上项目出现问题后难以维护import java.util.concurrent.ArrayBlockingQueue;import java.util.concurrent.ExecutorService;import java.util.concurrent.RejectedExe...

2018-12-17 18:30:51 11093

原创线程池ThreadPoolExecutor构造方法和规则

为什么用线程池有时候，系统需要处理非常多的执行时间很短的请求，如果每一个请求都开启一个新线程的话，系统就要不断的进行线程的创建和销毁，有时花在创建和销毁线程上的时间会比线程真正执行的时间还长。而且当线程数量太多时，系统不一定能受得了。ThreadPoolExecutor是JUC提供的一类线程池工具，也是Java语言中应用场景最多的并发框架，可以说，几乎所有需要异步或者并发执行的，都可以使用Ja...

2018-12-17 18:25:04 10551 2

原创 hive处理小文件（进行map、reduce、压缩、归档优化解决）

背景Hive query将运算好的数据写回hdfs（比如insert into语句），有时候会产生大量的小文件，如果不采用CombineHiveInputFormat就对这些小文件进行操作的话会产生大量的map task，耗费大量集群资源，而且小文件过多会对namenode造成很大压力。所以Hive在正常job执行完之后，会起一个conditional task，来判断是否需要合并小文件，如果...

2018-12-05 16:28:18 11811

原创 Hadoop高可用、Yarn的资源分配

hadoop概述：Hadoop实现了一个分布式文件系统（HadoopDistributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以...

2018-11-24 22:00:38 10100

原创 Sqoop1一般用于线上、测试脚本环境开发

注意：sqoop部署运算节点一般有hive、hbase、azkaban、oozie的节点上还有数据库的节点上Sqoop开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,postgresql等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。底层是通...

2018-11-24 21:40:14 9720

原创部署Python3用于集群资源脚本调用

备注：在你使用的集群上都要做部署我这里默认bigdata241节点（检查节点上是否有git，没有的话yum下载）CentOS7 默认已经安装了Python2.7.5[root@bigdata241~]# python --versionPython 2.7.5[root@bigdata241 ~]# which python/usr/bin/python[root@bigd...

2018-11-24 20:49:41 9727 1

原创部署Azkaban多节点分布式模式

简单介绍：Azkaban是由Linkedin公司推出的一个批量工作流任务调度器，用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban使用job配置文件建立任务之间的依赖关系，并提供一个易于使用的web用户界面维护和跟踪你的工作流。它有三个重要组件：关系数据库（目前仅支持mysql） web管理服务器－AzkabanWebServer 执行服务器－AzkabanExec...

2018-11-24 20:09:44 15828

原创 Hadoop生态系统

Hadoop作为一个生态系统，每个系统只解决某一个特定的问题域（甚至可能很窄）。本文重点讨论分布式计算领域的几个开源系统可以解决的问题域。（1）MapReduce：古老的分布式计算框架，它的特点是扩展性、容错性好，易于编程，适合离线数据处理，不擅长流式处理、内存计算、交互式计算等领域。MapReduce网址是： http://hadoop.apache.org/（2）Hive：披着SQL...

2018-09-24 17:25:57 9588

原创 Kafka简述

小结：Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。这种动作（网页浏览，搜索和其他用户的行动）是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop的一样的日志数据和离线分析系统，但又要求实时处理的限制，这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机...

2018-06-26 10:09:42 10392

原创 Azkaban 安装、使用以及遇到的问题

Azkaban 一个批量工作流任务调度器，使用Java语言开发。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban使用job配置文件建立任务之间的依赖关系，并提供一个易于使用的web用户界面维护和跟踪你的工作流。一：Azkaban介绍以及安装（3.X）二：Azkaban的使用三：使用Azkaban时所遇到的问题记录Cannot request memory (Xms 0 kb, ...

2018-06-25 09:38:18 9818

原创 Kafka API

小结：创建两个或多个数据文本文件，利用多线程同时发送及接受ProducerMap<String,Object> config = new HashMap<String, Object>(); config.put("bootstrap.servers","Kafka集群所在IP:9092"); config.put("key.seriali...

2018-06-24 16:37:59 9411

原创 Kafka（ZK）安装部署

小结：本篇博客，介绍三种安装Kafka的方式，分别为：单节点单Broker部署、单节点多Broker部署、集群部署（多节点多Broker）。实际生产环境中使用的是第三种方式，以集群的方式来部署Kafka。 Kafka强依赖ZK，如果想要使用Kafka，就必须安装ZK，Kafka中的消费偏置信息、kafka集群、topic信息会被存储在ZK中一、Kafka 单节点部署Kafk...

2018-06-24 16:22:31 13734 1

原创与 Hadoop 对比，如何看待 Spark 技术？

Hadoop首先看一下Hadoop解决了什么问题，Hadoop就是解决了大数据（大到一台计算机无法进行存储，一台计算机无法在要求的时间内进行处理）的可靠存储和处理。 HDFS，在由普通PC组成的集群上提供高可靠的文件存储，通过将块保存多个副本的办法解决服务器或硬盘坏掉的问题。 MapReduce通过简单的Mapper和Reducer的抽象提供一个编程模型，可以在一个由几十台上百台的PC组成的不可靠...

2018-05-22 09:46:19 9575

原创 Spark学习了解CORE、RDD等，以及基于Hadoop2.7.5的伪分布式集群搭建Spark2.3的环境部署

环境准备：JDK1.8Hadoop2.7.5(Hadoop伪分布式搭建博客)1、Spark概述Apache Spark 是专为大规模数据处理而设计的快递通用的计算引擎Spark是UC Berkeley AMP lab所开源的类似Hadoop MR 的通用并行框架，Spark拥有Hadoop MR所具有的特点，但不同于MR的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spa...

2018-05-20 21:43:06 10074

原创 Scala应用场景以及环境部署

官网：http://www.scala-lang.org/scala介绍Scala即可伸缩的语言（Scalable Language），是一种多范式的编程语言，类似于java的编程，设计初衷是要集成面向对象编程和函数式编程的各种特性。Scala的静态类型有助于避免复杂应用程序中的错误，并且其JVM和JavaScript运行时可让您构建高性能系统，并轻松访问图书馆的巨大生态系统。scala应用场景...

2018-05-13 14:34:12 12510

原创 Flume数据采集概述、结构、环境搭建

官网：http://flume.apache.org/前言：Hadoop整体开发业务流程1、概述：Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力（其设计的原理也是基于将数据流（如日志数据）从各种网站服务器上汇集起...

2018-05-08 12:28:11 16201

原创 python案例小程序

案例1、python爬取网站Jpg图片案例2、Python批量将ppt转换为pdf案例3、python爬取歌曲评论案例1主要实现一个简单的爬虫，从一个百度贴吧页面下载图片。下载图片的步骤如下：获取网页html文本内容；分析html中图片的html标签特征，用正则解析出所有的图片url链接列表；根据图片的url链接列表将图片下载到本地文件夹中。代码如下：import requestsimport ...

2018-04-24 22:20:18 19898 3

原创 Sqoop介绍、安装部署及MySql与HDFS数据之间的导入导出

本博客的学习目标：了解Sqoop是什么，能做什么以及架构能够进行Sqoop环境部署 MySql<=>HDFS数据的导入导出准备工作：Hadoop伪分布式集群环境：https://blog.csdn.net/qq_32297447/article/details/79734894CentOS7下安装配置Mysql：https://blog.csdn.net/qq_3229744...

2018-04-10 10:01:47 10169 2

原创 Hive下 HQL使用（库、表、区）

准备：Mysql&Hive:Mysql&Hive:基于Hive的伪分布式Hadoop集群环境的配置的博客hive使用(HQL)不用进入hive的客户端，可以使用如下命令来查看$ hive -e 'show databases'数据库操作创建数据库：create database db;如果数据库不存在就创建：create database if not exists db;在指定的...

2018-04-08 10:25:47 10277

原创 Hadoop2.7.5伪分布式源码编译以及使用

环境准备：JDK1.8Hadoop2.7.5(Hadoop集群是伪分布式)maven 3.5.2protocolBuffer 2.5.0snappy1.1.1注意：如果你的Hadoop编译成功的话，可以支持zlib、snappy、lz4、bzip2、openssl5种本地压缩1、编译步骤：下载源代码安装依赖软件或库编译打包2、安装软件安装JDK1.7+并配置环境变量，前面博客中有，自行查看安装各...

2018-04-06 10:22:02 10212

原创伪分布式集群环境搭建、jdk、hadoop、zk、hbase、hive、mysql

准备工作一台机子(静态ip、映射)hadoop用户下准备：jdk1.8：http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.htmlhadoop3.0http://hadoop.apache.org/releases.htmlzookeeper3.4.1http://archive.cloud...

2018-03-28 22:04:45 11625

原创基于HBase和ZK 高可用集群环境 Shell脚本启动、关闭、重启、查看进程

这是前面博主的总结：基于Hbase&&ZK的Hadoop HA高可用环境搭建将下面四个脚本分别存放在一个单独文件中，并存放在同一目录下，使用如下命令管理 hadoop ha 高可用集群的启动、关闭、重启、查看进程sh hadoop-ha-cluster.sh start # 启动集群sh hadoop-ha-cluster.sh stop # 关闭集群...

2018-03-19 09:51:25 10337

原创 Hbase HA 高可用环境搭建

这是前面博主的总结：基于ZK的Hadoop HA 高可用的环境搭建步骤像中间一些无密登录，用户权限等可参考此博客后面会写一个shell脚本去启动、关闭、重启、查看集群的博客一、安装前准备集群主机规划IP编号安装软件主机名进程192.168.18.27node1jdk/hadoop/hbase主Master27NameNode、DFSZKFailoverController、ResourceMana...

2018-03-18 20:46:14 11215 1

空空如也

空空如也