5 SoWhat1412

技术中心 研究院 算法工程师

我要认证

点点滴滴,皆是学问。关注公众号:SoWhat1412 获取海量学习资料

等级
TA的排名 939

第四天:Spark Streaming

Spark Streaming概述1. Spark Streaming是什么Spark Streaming用于流式数据的处理。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如:map、reduce、join、window等进行运算。而结果也能保存在很多地方,如HDFS,数据库等。和Spark基于RDD的概念很相似,Spark Streaming使用离散化流(discret

2020-07-02 07:45:29

第三天:SparkSQL

第1章 Spark SQL概述什么是Spark SQLSpark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduc的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所有Spark SQL的应运而生,它是将Spark SQL转换成RDD,然后提交到集群执行,执行效率非常快!

2020-06-30 20:08:37

第二天:Spark Core

Java IO回忆字节跟字符区别,InputStream、OutputStream、Writer、Reader 。字节流,分2种:a.输入b.输出2.字符流,也分2种:a.输入(读,即读取)b.输出(写,即写入)PS: 字节流是万能的,方便人类读写才出来的字符流。字符流就包装后的字节流。文件字节流读入InputStream in = new FIleInputStream("xxx")缓冲流, 体现了Java装饰者模式InputStream bufferIn = new

2020-06-29 10:16:44

第二天:Kafka API操作

API消息发送流程Kafka的Producer发送消息采用的是异步发送的方式。在消息发送的过程中,涉及到了两个线程——main线程和Sender线程,以及一个线程共享变量——RecordAccumulator。main线程将消息发送给RecordAccumulator,Sender线程不断从RecordAccumulator中拉取消息发送到Kafka broker。相关参数:batch.size:只有数据积累到batch.size之后,sender才会发送数据。linger.ms:如果数据迟迟未

2020-06-28 15:10:23

第一天:Kafka理论学习

Kafka 概述1. 定义Kafka是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。2. 消息队列传统场景MQ传统应用之异步处理队列。消息队列两种模式点对点模式(一对一,消费者主动拉取数据(不断的轮询),消息收到后消息清除)消息生产者生产消息发送到Queue中,然后消息消费者从Queue中取出并且消费消息。消息被消费以后,queue中不再有存储,所以消息消费者不可能消费到已经被消费的消息。Queue支持存在多个消费者,但是对一个消息而

2020-06-26 18:16:57

第四天:HBase 优化

1. 高可用在HBase中Hmaster负责监控RegionServer的生命周期,均衡RegionServer的负载,如果Hmaster挂掉了,那么整个HBase集群将陷入不健康的状态,并且此时的工作状态并不会维持太久。所以HBase支持对Hmaster的高可用配置。关闭HBase集群(如果没有开启则跳过此步)[atguigu@hadoop102 hbase]$ bin/stop-hbase.sh在conf目录下创建backup-masters文件[atguigu@hadoop102

2020-06-22 17:58:01

第三天:HBase API

API调用工作中更常用的绝对是通过HBase的API来调用实现类似HBase shell的操作。环境准备IDEA + Maven + HBase<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schem

2020-06-20 12:38:39

第二天:Hbase进阶

HBase 安装 跟 shell操作,以及HBase 的若干原理

2020-06-18 22:41:53

第一天:Hbase 概述

1. 什么是HBaseHBase的原型是Google的BigTable论文,受到了该论文思想的启发,目前作为Hadoop的顶级项目来开发维护,用于支持结构化的数据存储。HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据。【非大勿用】HBase是Google Bigtable的开源实现,但是也

2020-06-17 18:46:18

第一天:spark基础

Hadoop体系回顾Hadoop 的概念可追溯到 2003,2004 Google2篇论文(老版三辆马车),2011年发布1.0版本,2012年发布稳定版。Hadoop 在2.0版本之前组件主要是 HDFS跟MapReduce。1.0版本框架主要如下:职责:HDFS负责文件存储MapReduce负责资源调度跟计算缺点:mr基于数据集的计算,所以面向数据基本运算规则从存储介质中获取(采集)数据,然后进行计算,最后将结果存储到介质中,所以主要应用于一次性计算,不适合于数据挖掘和机器学

2020-06-12 17:57:10

Sqoop看这篇文章就够了

Sqoop 简介Sqoop 是一款开源的工具,主要用于在 Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres 等)中的数据导进到 Hadoop 的 HDFS 中,也可以将 HDFS 的数据导进到关系型数据库中。Sqoop 项目开始于 2009 年,最早是作为 Hadoop 的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发,Sqoop 独

2020-06-11 17:29:45

Zookeeper实战

注册服务跟发现定义:微服务时代,多个相同的jar包在不同的服务器上开启相同的服务,可以通过nginx在服务端进行负载均衡的配置。也可以通过ZooKeeper在客户端进行负载均衡配置。多个服务注册客户端获取中间件地址集合从集合中随机选一个服务执行任务服务端代码用SpringBoot完成一个最简单的web服务,并且连接zk服务器,实现注册功能。ProductController@RestController@RequestMapping("/product")public cl

2020-06-10 21:32:22

浅谈大数据中的 2PC、3PC、Paxos、ZAB

一致性简述一致性,是指对每个节点一个数据的更新,整个集群都知道更新,并且是一致的。假设一个具有N个节点的分布式系统,当其满足以下条件时,我们说这个系统满足一致性:全认同: 所有N个节点都认同一个结果值合法: 该结果必须由N个节点中的过半节点提出可结束: 决议过程在一定时间内结束,不会无休止地进行下去面临着的问题消息传递异步无序: 现实网络不是一个可靠的信道,存在消息延时、丢失,节点间消息传递做不到同步有序节点宕机: 节点持续宕机,不会恢复节点宕机恢复: 节点宕机一段时间后恢复,

2020-06-09 19:29:40

分布式系统浅谈

分布式系统基础知识一个tomcat打天下的时代,不能说完全淘汰了,在一个管理系统,小型项目中还经常使用,这并不过分,出于成本的考虑,这反而值得提倡。但如果要延伸到高并发场景下就必然要了解分布式系统:分布式系统分布式系统:一个硬件或软件组件分布在不同的网络计算机上,彼此之间仅仅通过消息传递进行通信和协调的系统这是分布式系统,在不同的硬件,不同的软件,不同的网络,不同的计算机上,仅仅通过消息来进行通讯与协调这是他的特点,更细致的看这些特点又可以有:分布性、对等性、并发性、缺乏全局时钟、故障随时会发生

2020-06-08 14:17:48

6W字的Hive讲解只为你更懂它

1. Hive 入门什么是HiveHive:由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质:将HQL转化成MapReduce程序Hive特性:Hive处理的数据存储在HDFSHive分析数据底层的实现是MapReduce执行程序运行在Yarn上Hive的优缺点优点:操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手)。避免了去写MapReduce

2020-06-08 10:30:45

分布式思维概述

软件-互联网的发展史大型主机优点:集中式的计算机系统,高的稳定性和安全性。大型主机缺点:非常贵,一般的小企业用不起。比较复杂,培养人才的成本比较高。单点一旦故障,整个系统停转,损失非常大。个人PC电脑的性能越来越高,成本也越来越低。Web时代c/s时代:富客户端方案。卖软件可赚钱。qq、影音、游戏。早期流行。Web 1. 0特色主要是单向信息的发布,即信息门户—> 广大浏览器客户端互联网内容是由少数编辑人员(或站长)定制的。代表:三大门户,新浪/网易/搜狐。

2020-06-07 20:27:45

少年:ZooKeeper学一下

ZooKeeper 了解下 少年

2020-05-31 14:01:18

Hadoop复习看这篇文章就够了

高清思维导图已同步Git:https://github.com/SoWhat1412/xmindfileHadoop入门HDFSMapReduce And YARN总结日常Hadoop企业优化日常工作1 MapReduce 跑的慢的原因Mapreduce 程序效率的瓶颈在于两点:1)计算机性能CPU、内存、磁盘健康、网络2)I/O 操作优化数据倾斜map和reduce数设置不合理reduce等待过久小文件过多大量的不可分块的超大文件spill次数过多m.

2020-05-29 16:45:36

少年:Scala 学一下

思维导图已同步Git:前言一个不太恰当的比喻:Java像白话文,Scala像文言文。庙堂之上,朽木为官,殿陛之间,禽兽食禄;狼心狗行之辈,滚滚当道,奴颜婢膝之徒,纷纷秉政。以致社稷丘墟,苍生涂炭.豫章故郡,洪都新府。星分翼轸,地接衡庐。襟三江而带五湖,控蛮荆而引瓯越 … 落霞与孤鹜齐飞,秋水共长天一色。渔舟唱晚,响穷彭蠡之滨;雁阵惊寒,声断衡阳之浦一开始学Scala的时候可能会感觉各种不适应,尤其是写惯了C++/Java这样的语言后。感觉更重要的思想跟编程习惯上的改变。一旦写多了熟练使用.

2020-05-25 19:57:12

少年: Nginx了解下

Nginx 简介 通俗形象说

2020-05-12 11:34:08

查看更多

CSDN身份
  • 博客专家
勋章 我的勋章
  • 领英
    领英
    绑定领英第三方账户获取
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 脉脉勋章
    脉脉勋章
    绑定脉脉第三方账户获得
  • 签到王者
    签到王者
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 技术圈认证
    技术圈认证
    用户完成年度认证,即可获得
  • 新人勋章
    新人勋章
    用户发布第一条blink获赞超过3个即可获得
  • 阅读者勋章Lv3
    阅读者勋章Lv3
    授予在CSDN APP累计阅读博文达到30天的你,是你的坚持与努力,使你超越了昨天的自己。
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv4
    勤写标兵Lv4
    授予每个自然周发布9篇以上(包括9篇)原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 原力探索
    原力探索
    参与《原力计划【第二季】——打卡挑战》的文章入选【每日精选】的博主将会获得此勋章。
  • 原力突破
    原力突破
    参与《原力计划【第二季】— 打卡挑战》的文章入选【打卡挑战周榜】的博主,即可获得此勋章。
  • 学习力
    学习力
    《原力计划【第二季】》第一期主题勋章 ,第一期活动已经结束啦,小伙伴们可以去参加第二期打卡挑战活动获取更多勋章哦。
  • 原力新人
    原力新人
    在《原力计划【第二季】》打卡挑战活动中,成功参与本活动并发布一篇原创文章的博主,即可获得此勋章。
  • 分享王者
    分享王者
    成功上传51个资源即可获取