谦卑t-CSDN博客

原创 Spark Core 核心知识--RDD

目录1、Spark核心功能1.1 SparkContext1.2 存储体系1.3 计算引擎1.4 部署模式2、Spark扩展功能2.1 Spark2.2 Spark Streaming2.3 Spark Graphx2.4 Spark MLlib3、Spark核心概念4、Spark 基本架构 5、Spark 编程模型 6、RDD 6.1、...

2019-01-10 20:38:05 648 1

原创【图文详细】Scala编程语言——什么是Scala

总结：我对自己的要求是终身学习和每天保持迅速的进步，小老弟如果觉得看着还可以，我也不要你的赞和双击666，欢迎来看我定时更新的博客Scala汇总，并定时向您汇报最新的Scala内容：https://blog.csdn.net/qq_42246689/article/details/850733801、Scala 概述 1.1、什么是 Scala Scala 官网：https://ww...

2018-12-18 08:59:45 9413 4

原创【图文详细】Flume数据采集组件（5篇精彩博文供大神查阅）

1、Flume的产生背景2、Flume的收集工具3、Flume的概述4、Flume的体系架构及核心组件5、Flume的实战案例转发标明出处：https://blog.csdn.net/qq_42246689 下面给出流程图，供各位大神查阅：转发标明出处：https://blog.csdn.net/qq_42246689 ...

2018-12-10 18:47:59 317

原创大数据技术盲点！22-32没会，后面基本废！

引用“中产之路”公号大佬一句话：我85的，大你们很多，职场开窍晚，等明白过来，机会窗口期过了。程序员在22-32岁这10年属于黄金期，没走好，后面基本废了，所以老铁们，年轻的时候多思考，多跟过来人交流。请点击输入图片描述虽说人生没有白走的路，新的一年来到，会的还是原来的知识，人的身价就摆在那里，无论怎么折腾，也不会拿到更好的offer。所以在年轻还有拼劲的时候多学学知识，寻找自身...

2019-03-02 20:36:20 537

原创 50道MySQL面试题，掌握之后你将获得无上法力，一发不可收拾！

MySQL面试题50道，精彩集锦！ Mysql中有哪几种锁？ 1.表级锁：开销小，加锁快；不会出现死锁；锁定粒度大，发生锁冲突的概率最高，并发度最低。2.行级锁：开销大，加锁慢；会出现死锁；锁定粒度最小，发生锁冲突的概率最低，并发度也最高。3. 页面锁：开销和加锁时间界于表锁和行锁之间；会出现死锁；锁定粒度界于表锁和行锁之间，并发度一般。 Mysql中有哪些...

2019-02-25 15:50:59 2057

原创 zookeeper和Kafka的关系

kafka与zookeeper：    一个典型的Kafka集群中包含若干Produce，若干broker（一般broker数量越多，集群吞吐率越高），若干Consumer Group，以及一个Zookeeper集群。Kafka通过Zookeeper管理集群配置，选举leader，以及在Consumer Group发生变化时进行rebalance。Producer...

2019-02-23 17:25:04 4887 1

文章目录1 问题2 使用 Hive 自带的函数解析 Json 数组3 自定义函数解析 Json 数组问题我们都知道，Hive 内部提供了大量的内置函数用于处理各种类型的需求，参见官方文档：Hive Operators and User-Defined Functions (UDFs)。我们从这些内置的 UDF 可以看到两个用于解析 Json 的函数：get_json_object 和 json_...

2019-02-23 12:02:18 404

转载 hive函数 -- split 字符串分割函数

hive字符串分割函数split(str, regex) - Splits str around occurances that match regexTime taken: 0.769 seconds, Fetched: 1 row(s)返回值为一个数组a.基本用法：例1：split('a,b,c,d',',')得到的结果：["a","b","c","d"] ...

2019-02-17 15:38:04 5010

转载安装mysql Install/Remove of the Service Denied!错误的解决办法

在windos 的cmd下安装mysql在mysql的bin目录下面执行： mysqld --install报错：信息如下：Install/Remove of the Service Denied 解决办法：打开cmd.exe程序的时候选择“用管理员身份打开”。...

2019-02-17 15:36:26 8097 3

转载 Linux 根目录爆满解决(/dev/mapper/centos-root 100%问题)

Linux 根目录爆满解决 一、使用df -h命令查看，发现/根目录的剩余空间为0。总共系统盘容量才20G。 文件系统             &am

2019-02-17 15:33:56 2788

转载 Hive常见的存储格式文件比较

一列式存储和行式存储首先我们看一下一张表的存储格式1.1 行式存储1.2 列式存储1.3列式存储和行式存储的比较行式存储优点：#相关的数据是保存在一起，比较符合面向对象的思维，因为一行数据就是一条记录#这种存储格式比较方便进行INSERT/UPDATE操作缺点：#如果查询只涉及某几个列，它会把整行数据都读取出来，不能跳过不必要的列读取。当然数据比较少，...

2019-02-03 11:23:08 837

转载数据挖掘领域十大经典算法之—C4.5算法（超详细附代码）

2019-01-25 15:00:45 518

转载 spark (java API) 在Intellij IDEA中开发并运行

概述：Spark 程序开发，调试和运行，intellij idea开发Spark java程序。分两部分，第一部分基于intellij idea开发Spark实例程序并在intellij IDEA中运行Spark程序.第二部分，将开发程序提交到Spark local或者hadoop YARN集群运行。Github项目源码图1，直接在intell...

2019-01-23 18:47:10 324

原创深入解析淘宝Diamond之客户端架构

说明：本文不介绍如何使用Diamond，只介绍Diamond的实现原理一、什么是Diamonddiamond是淘宝内部使用的一个管理持久配置的系统，它的特点是简单、可靠、易用，目前淘宝内部绝大多数系统的配置，由diamond来进行统一管理。 diamond为应用系统提供了获取配置的服务，应用不仅可以在启动时从diamond获取相关的配置...

2019-01-19 09:06:39 375

原创 Kafka性能测试分析

首先要特别感谢赵崇贺同学利用业余时间进行的压测，才能为本文提供专业的测试数据一、测试环境准备 Cpu 内存硬盘 Intel(R) Xeon(R) CPU E5520 @ 2.27GHz 32G 6TKafka集群，服务器个数：3台采用CMS垃圾回收 JVM运行参数-Xmx1G -Xms...

2019-01-18 18:33:51 234

原创利用多写Redis实现分布式锁原理与实现分析

在我写这篇文章的时候，其实我还是挺纠结的，因为我这个方案本身也是雕虫小技拿出来显眼肯定会被贻笑大方，但是我最终还是拿出来与大家分享，我本着学习的态度和精神，希望大家能够给与我指导和改进方案。一、关于分布式锁关于分布式锁，可能绝大部分人都会或多或少涉及到。我举二个例子：场景一：从前端界面发起一笔支付请求，如果前端没有做防重处理，那么...

2019-01-18 18:28:34 228

原创 Python之Pandas中Series、DataFrame实践

Python之Pandas中Series、DataFrame实践1. pandas的数据结构Series1.1 Series是一种类似于一维数组的对象，它由一组数据（各种NumPy数据类型）以及一组与之相关的数据标签（即索引）组成。1.2 Series的字符串表现形式为：索引在左边，值在右边。122. pandas的数据结构DataFram...

2019-01-18 18:24:53 227

原创降低PNG图片存储大小方法、图片压缩方法

1. 将PNG图片用PS打开。2. 图像-模式-8位/通道（这样在后续存储时才有gif存储选项）3. 将图片另存为GIF。4. 选项中选择局部可感知或者全部可感知。5. 强制选择“无”，勾选透明度。6. 存储后的gif文件和原png文件对比，从20.6k变为了1.8k。7. 最后，把文件后缀的gif命名为png。这样，既保证了分辨率、大小，又保证透明...

2019-01-17 17:21:59 12737 19

原创 mysql 提示表不存在的解决方法error: 1146: Table doesn't exist

直接拷贝数据库导致提示表不存在的解决方法电脑重装系统后把原来的mysql data复制进去后大部分表是可以访问的，但是有几个表提示表不存在：error: 1146: Table 'a_content' doesn't exist这种情况就是要把原来mysql安装目录data里的 ibdata1 也要拷贝过去INNODB是MYSQL数据库一种流行的数据库引擎，支持事务（行级），在企业级应用...

2019-01-16 20:53:25 15340

原创 ETL技术入门之ETL初认识

ETL是什么ETL是Extract&amp;amp;nbsp;Transform Load三个英文单词的缩写中文意思就是抽取、转换、加载。说到ETL就必须提到数据仓库。先说下背景知识：信息是现代企业的重要资源，是企业运用科学管理、决策分析的基础。目前，大多数企业花费大量的资金和时间来构建联机事务处理OLTP的业务系统和办公自动化系统（例如电信行业的各种运营支撑系统、购物网站系统），用来记录事务处理的各...

2019-01-16 20:38:05 5044

原创 ElasticSearch是什么？（如果非要比一比，咋就比比激光雨）

ElasticSearch是什么？ Shay Banon认为自己参与Lucene完全是一种偶然，当年他还是一个待业工程师，跟随自己的新婚妻子来到伦敦，妻子想在伦敦学习做一名厨师，而自己则想为妻子开发一个方便搜索菜谱的应用，所以才接触到Lucene。直接使用Lucene构建搜索有很多问题，包含大量重复性的工作，所以Shay便在Lucene的基础上不断地进行抽象，让Java...

2019-01-16 13:05:20 1944

原创 50道MySQL面试题，掌握之后你将获得无上法力，一发不可收拾！

MySQL面试题50道，精彩集锦！一、Mysql中有哪几种锁？ 1.表级锁：开销小，加锁快；不会出现死锁；锁定粒度大，发生锁冲突的概率最高，并发度最低。 2.行级锁：开销大，加锁慢；会出现死锁；锁定粒度最小，发生锁冲突的概率最低，并发度也最高。 3. 页面锁：开销和加锁时间界于表...

2019-01-14 19:52:13 4569

原创 Spark 的运行流程

目录1.1、Spark的基本运行流程1.2、运行流程图解1.3、SparkContext初始化1.4、Spark运行架构特点1.5、DAScheduler1.6、TaskScheduler1.7、SchedulerBackend1.8、Executor1.1、Spark的基本运行流程1、构建 DAG使用算子操作 RDD 进行各种 transfor...

2019-01-12 19:18:12 780

原创 Spark的核心概念

大多数应该都要有实际写过 Spark 程序和提交任务到 Spark 集群后才有更好的理解 1、Application：表示你的应用程序，包含一个 Driver Program 和若干 Executor 2、Driver Program：Spark 中的 Driver 即运行上述 Application 的 main()函数并且创建 SparkContext，其中创建 SparkContex...

2019-01-12 18:54:26 334

原创 Spark的WordCount

8、Spark的WordCount 8.1、Scala 版本的 WordCount packge com.mazh.sparkimport org.apache.spark.{SparkConf, SparkContext}/* *作者:https://blog.csdn.net/qq_42246689 * */object WordCount { def...

2019-01-08 10:14:30 271 1

原创修改Spark的日志级别

7、修改Spark的日志级别 7.1、永久修改从我们运行的 spark 程序运行的情况来看，可以看到大量的 INFO 级别的日志信息。淹没了我们需要运行输出结果。可以通过修改 Spark 配置文件来 Spark 日志级别。以下是详细步骤：第一步：先进入 conf 目录[hadoop@hadoop05 conf]$ cd $SPARK_HOME/conf 第二步...

2019-01-08 10:08:12 967

原创【图文详细】Spark 入门到实战一体！敢不敢为成为Spark大牛迈出一步呢？

第一部分：Spark——基础知识1、Spark_产生背景2、Spark_概念3、Spark_特点4、Spark_应用场景5、Spark_集群安装6、Spark_基本使用7、修改Spark的日志级别8、Spark的WordCount 下面给一些图供大家参考

2019-01-07 20:04:41 355

原创 Spark 的基本使用

6、Spark 的基本使用 6.1、执行第一个 Spark 程序利用 Spark 自带的例子程序执行一个求 PI（蒙特卡洛算法）的程序：$SPARK_HOME/bin/spark-submit \--class org.apache.spark.examples.SparkPi \--master spark://hadoop02:7077 \--executor-memo...

2019-01-07 19:44:11 6336

原创 Spark集群的安装

5、Spark集群的安装 5.1、Spark版本的选择三大主要版本：Spark-0.XSpark-1.X（主要 Spark-1.3 和 Spark-1.6）Spark-2.X（最新 Spark-2.3）官网首页：http://spark.apache.org/downloads.html 我们选择的版本：spark-2.3.0-bin-hadoop2.7.tg...

2019-01-06 16:58:07 261

原创 Spark应用场景

4、Spark应用场景目前大数据处理场景主要有以下几种类型：1、复杂的批处理（Batch Data Processing），偏重点在于处理海量数据的能力，至于处理速度可忍受，通常的时间可能是在数十分钟到数小时； 2、基于历史数据的交互式查询（Interactive Query），通常的时间在数十秒到数十分钟之间；3、基于实时数据流的大数据处理（Streaming Data Pr...

2019-01-05 18:55:49 8787

原创 win10 1803官方原版镜像，看不懂我吃 - - ->S

win10 1803 简体中文- 家庭|教育|专业|企业版架构: x64文件: cn_windows_10_consumer_editions_version_1803_updated_march_2018_x64_dvd_12063766.isoSHA1: 82091d67fff5b49726ffc22d35d9c1cbe81dc443文件大小: 4.38 GB释出时间: 2018-04-3...

2019-01-04 20:52:44 3788 1

原创 Spark 特点

3、Spark 特点 3.1、Speed：快速高效随着实时大数据应用越来越多，Hadoop 作为离线的高吞吐、低响应框架已不能满足这类需求。Hadoop MapReduce 的 Job 将中间输出和结果存储在 HDFS 中，读写 HDFS 造成磁盘 IO 成为瓶颈。Spark 允许将中间输出和结果存储在内存中，节省了大量的磁盘 IO。Apache Spark 使用最先进的 DAG...

2019-01-03 22:01:45 5369

原创 Spark 概念

2、Spark 概念官网：http://spark.apache.org/ Spark 是一种快速、通用、可扩展的大数据分析引擎 2009 年诞生于加州大学伯克利分校 AMPLab 2010 年开源 2013 年 6 月成为 Apache 孵化项目 2014 年 2 月成为 Apache 顶级项目 Spark 生态圈也称为 BDAS（伯克利数据分析栈），是伯...

2019-01-03 21:54:13 302

原创 Spark 的产生背景

1、Spark 的产生背景 1.1、MapReduce 的发展 1.1.1、MRv1 的缺陷早在 Hadoop1.x 版本，当时采用的是 MRv1 版本的 MapReduce 编程模型。MRv1 版本的实现都封装在 org.apache.hadoop.mapred 包中，MRv1 的 Map 和 Reduce 是通过接口实现的。MRv1 包括三个部分：运行时环境（JobT...

2018-12-29 23:43:19 2095

原创【图文详细】Scala——Akka Actor

4、Akka Actor 4.1、Akka 概述 Akka 基于 Actor 模型，提供了一个用于构建可扩展的（Scalable）、弹性的（Resilient）、快速响应的（Responsive）应用程序的平台。 Actor 模型：在计算机科学领域，Actor 模型是一个并行计算（Concurrent Computation）模型，它把 actor 作为并行计算的基本元素来...

2018-12-28 19:36:52 934

原创【图文详细】Scala——Actor

3、Scala Actor 3.1、概念 Scala 中的 Actor 能够实现并行编程的强大功能，它是基于事件模型的并发机制，Scala 是运用消息（message）的发送、接收来实现多线程的。使用 Scala 能够更容易地实现多线程应用的开发。一个 Actor 是一个容器，它包含状态，行为，信箱，子 Actor 和监管策略，所有这些包含在一个 ActorReferenc...

2018-12-28 19:30:35 1017 1

原创【图文详细】Scala——Hadoop RPC

2、Hadoop RPC 2.1、Hadoop RPC 概述同其他 RPC 框架一样，Hadoop RPC 分为四个部分： 1、序列化层：Client 与 Server 端通信传递的信息采用了 Hadoop 里提供的序列化类或自定义的 Writable 类型； 2、函数调用层：Hadoop RPC 通过动态代理以及 Java 反射实现函数调用； 3、网络传输层：Hadoop ...

2018-12-28 17:58:52 226

原创【图文详细】Scala——RPC 远程过程调用

1、RPC 远程过程调用 1.1、RPC 概念 RPC（Remote Procedure Call）—远程过程调用，它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC 协议假定某些传输协议的存在，如 TCP 或 UDP，为通信程序之间携带信息数据。在 OSI 网络通信模型中，RPC 跨越了传输层和应用层。 RPC 使得开发包括网络分布式多程序在内的应...

2018-12-28 17:46:30 923

原创【图文详细】Scala——泛型

3、Scala 泛型 3.1、Scala 泛型基础泛型用于指定方法或类可以接受任意类型参数，参数在实际使用时才被确定，泛型可以有效地增强程序的适用性，使用泛型可以使得类或方法具有更强的通用性。泛型的典型应用场景是集合及集合中的方法参数，可以说同 Java 一样，Scala 中泛型无处不在，具体可查看 Scala 的 API 泛型类：指定类可以接受任意类型参数。泛型方法：...

2018-12-24 13:12:19 4915 1

原创【图文详细】Scala——隐式转换和隐式参数

2、Scala 隐式转换和隐式参数隐式转换和隐式参数是 Scala 中两个非常强大的功能，利用隐式转换和隐式参数，你可以提供优雅的类库，对类库的使用者隐匿掉那些枯燥乏味的细节。隐式的对类的方法进行增强，丰富现有类库的功能是指那种以 implicit 关键字声明的带有单个参数的函数。可以通过：:implicit -v 这个命令显示所有做隐式转换的类。 2.1...

2018-12-24 12:58:37 1063

空空如也

空空如也