烙痕-CSDN博客

原创 Openstack搭建

一、环境准备内存大于2G磁盘空间大于5G注：计算节点和控制节点不要在一起主机名操作系统 IP地址备注controller CentOS-7.4-x86_64 172.16.10.33 控制节点compute CentOS-7.4-x86_64 172.16.10.35 计算节点关...

2019-10-22 18:24:02 768

原创 Hbase简介

1.HBase定义： Hadoop database，a distributed,scalable,big data storeUse Apache HBase™ when you need random, realtime read/write access to your Big Data. This project's goal is the hosting of very la...

2018-10-24 23:07:09 276

原创 Offset管理

offset管理： checkpoint zk、nosql、rdbms kafka一、CheckPoint：对于具有以下要求的应用程序，必须启用检查点： 1.有状态转换的使用——如果在应用程序中使用updateStateByKey或reduceByKeyAnd.（具有逆函数），那么必须提供CheckPoint以允许周期性的RDD检查。 ...

2018-10-18 16:57:33 533

原创 SparkStreaming和Kafka整合

Kafka项目在版本0.8和0.10之间引入了一个新的消费者API，因此有两个单独的对应Spark Streaming包可用。请为您的代理选择正确的包和所需的特性；请注意，0.8集成与后来的0.9和0.10代理兼容，但是0.10集成与前面的代理不兼容。 maven依赖： groupId = org.apache.spark artifactId = spark-streaming-ka...

2018-09-24 22:33:33 1081

原创 SparkStreaming和Flume整合

maven依赖： <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming-flume_2.11</artifactId> <version>${spark.version}</...

2018-09-24 21:40:11 245

原创 Spark Streaming介绍及基础操作

Spark Streaming介绍：基于Spark之上的流处理（rdd）流：source ==> compute ==> store 离线是特殊的流 letting you write streaming jobs,the same way you write batch jobs out of the box 开箱即用 OOTB（内置的）D...

2018-09-18 18:06:40 478

原创 Spark SQL External DataSource

简介：随着Spark1.2的发布，Spark SQL开始正式支持外部数据源。Spark SQL开放了一系列接入外部数据源的接口，来让开发者可以实现。这使得Spark SQL支持了更多的类型数据源，如json, parquet, avro, csv格式。只要我们愿意，我们可以开发出任意的外部数据源来连接到Spark SQL。之前大家说的支持HBASE，Cassandra都可以用外部数据...

2018-09-12 09:16:37 280

原创 DataFrame/Dataset简介

DataFrame：1.3版本以前叫做SchemaRDD后来改名为DataFrame 1.分布式的数据集 2.按列进行组织的数据集 3.等于关系型数据库 4.等于DateSet[Row]Dataset：A Dataset is a distributed collection of data.DataFrame vs Dataset(1.6出现) 支持的编...

2018-09-07 00:09:29 1194

原创 SparkSQL简介

Spark SQL：处理结构化数据的框架在版本的更替中SparkSQL的功能越来越强大，名字也有所改变，目前最新版本中叫SQL, DataFrames and Datasets。所以，用下列英文诠释SparkSQL非常合适Spark SQL is not about SQLSpark SQL is about more then SQLSQL on Hadoop Hive ...

2018-09-03 17:06:43 166

原创 Kafka深入讲解

1.核心概念broker: 进程producer: 生产者consumer: 消费者topic: 主题partitions: 分区 (副本数)consumergroup:1.容错性的消费机制2.一个组内，共享一个公共的ID groupid3.组内的所有消费者协调在一起，去消费topic的所有的分区4.每个分区只能由同一个消费组的一个消费者来消费副本数：每个分区有几个副本...

2018-08-31 17:57:39 863

原创 Kafka部署及常用命令

环境准备：Zookeeper，Scala，Kafka, JDK下载地址: Zookeeper: http://mirror.bit.edu.cn/apache/zookeeper/current/ Scala: http://www.scala-lang.org/download/2.11.8.html Kafka: http://kafk...

2018-08-31 14:14:33 227

原创作业12：多文件输出，以数据年份为文件名

数据：7369 SMITH CLERK 7902 1980-12-17 800.00 207499 ALLEN SALESMAN 7698 1981-2-20 1600.00 300.00 307521 WARD SALESMAN 7698 1981-2-22 1250.00 500.00 307566 JONES MANAGER 7839 1981-4-2 2975.00 20...

2018-08-28 19:26:08 245

原创 Spark core 04（调优）

Collect：扫描所有分区拉取数据，拼接起来输出到driver（数据量大慎用） collect countByKey（Key多慎用） countByValue（Value多慎用） collectAsMap（数据量大慎用，一般配合广播变量使用）take：扫描一个分区拉取数据，拼接起来输出到drivergroupByKey vs reduceByKeyreduceB...

2018-08-24 12:50:15 177

原创 Spark Core 03（On Yarn）

Spark on YARN 将spark作业提交到yarn上去执行 spark仅仅作为一个客户端示例：./spark-submit \--class org.apache.spark.examples.SparkPi \--master yarn \/home/hadoop/app/spark-2.3.1-bin-2.6.0-cdh5.7.0/examples/jars/s...

2018-08-22 11:34:03 185

原创 Spark Core 02（理论）

Application Application=a driver program + executors 一般来说：1个SparkContext = 1个application=1个SparkShellSpark提交任务不一定须在集群里提交，有gateway就行1个application ==> 有n jobs ==> 有n stages ==> 有n ...

2018-08-22 11:33:48 146

原创作业11：累计报表

具体需求：用户日期流量熊猫tv 2018-01-02 5T快手 2018-01-02 3TYY 2018-01-02 2T抖音 2018-01-02 15T熊猫tv 2018-01-03 4T快手 2018-01-03 3TYY 2018-01-03 ...

2018-08-19 23:38:29 241

原创作业10：求访问次数最多的资源文件

源代码：package com.ruoze.sparkimport org.apache.spark.{SparkConf, SparkContext}object LogApp { def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setAppName("LogApp").se...

2018-08-16 16:28:05 162

原创 Spark Core 01（简单实例）

Core的一些操作就是更灵活复杂的运用wc源数据：下列源代码叙述了三个案例：package com.ruoze.sparkimport org.apache.spark.{SparkConf, SparkContext}object LogApp { def main(args: Array[String]): Unit = { val sparkConf = ne...

2018-08-16 16:07:44 274

原创 RDD 操作

RDD Operations：这些操作和Scala的操作几乎一样，就不细说了。1.transformations：lazy的操作，不能立即计算结果。相反，Spark只记得应用于一些基本数据集（例如文件）的转换。只有当一个动作action需要返回到驱动程序的结果时才计算这些转换。这种设计使Spark能够更高效地运行。 RDDA==>RDDB （A转换到B，这是两个不同的RDD）且通过...

2018-08-15 17:53:16 202

原创 Hive高级部分2

压缩：Compression 需要考虑的要素：一：压缩比二：解压速度常见压缩格式对比：压缩在MapReduce里的应用：hadoop checknative命令查看支持的压缩格式，需要自行编译以支持各种格式codec：我们只需要配置在hadoop的配置文件中即可压缩的使用core-site.xml//需要哪些格式加什么的代码，这里只加三种<pro...

2018-08-12 14:57:58 380

原创作业9：通过curator存储和读取偏移量

作业要求：以Scala代码编程，通过curator存储和读取偏移量（存储到ZK，从ZK读取）依赖包：//为方便展示，就不把版本号抽取出来了。<dependency> <groupId>org.apache.curator</groupId> <artifactId>curator-recipes</artifactId&...

2018-08-10 21:16:55 418

原创 Zookeeper简介

Zookeeper基本框架：Zookeeper集群主要角色有Leader，Learner（Follower，Observer(当服务器增加到一定程度，由于投票的压力增大从而使得吞吐量降低，所以增加了Observer。）以及client：Leader：领导者，负责投票的发起和决议，以及更新系统状态Follower：接受客户端的请求并返回结果给客户端，并参与投票Observer：接受客...

2018-08-09 14:11:12 257

RDD详解：https://blog.csdn.net/u013850277/article/details/73648742RDD创建方式一：Parallelized collections are created by calling SparkContext’s parallelize method on an existing collection in your driver prog...

2018-08-08 17:21:30 238

原创 Python爬虫实践

爬取的是盗版网的“免费”小说《三寸人间》（阅读小说请支持正版）以下是源代码：from urllib import requestfrom bs4 import BeautifulSoupimport re//获取html源码response=request.urlopen("http://www.biquge.com.tw/14_14055/")html = response.r...

2018-08-07 03:06:24 179

原创 Python2

现阶段主要是熟悉Python的各种定义，方法等等，以下是课程中老师所写的代码示范+笔记：#列表fruits = ['orange', 'apple', 'pear', 'banana', 'kiwi', 'apple', 'banana']# #统计列表元素print(fruits.count('apple'))# #索引列表元素print(fruits.index('banan...

2018-08-07 01:29:19 209

原创 Python1

简介：anaconda3下载地址官网：https://www.anaconda.com/download/ 百度云链接：https://pan.baidu.com/s/17jHeU909P1pmITCkZg3tcQ 密码：javt python基础语法文档官网：https://docs.python.org/3.6/tutorial/index.html ...

2018-08-05 16:49:56 570

原创 Flume2

Flume流程：client ------------------> source -------------------> channel --------------------> sink Interceptors Channel Selectors Sink ProcessorsFlume官网（用户指南...

2018-08-04 00:00:17 157

原创作业8：Flume应用

技术选型需求：netcat-memory-loggerAndHdfs：配置文件：netcat-memory-loggerAndHdfs.conf：a1.sources = r1a1.channels = c1a1.sinks=k1 k2a1.sources.r1.type = netcata1.sources.r1.bind = 192.168.137.252a1.source...

2018-08-03 01:42:29 208

原创作业7：HDFS小文件的解决方案

HDFS小文件解决方案：https://blog.csdn.net/Androidlushangderen/article/details/54176511Flume传递文件到HDFS解决小文件问题：设置回滚参数：三个参数当满足其中一项时进行回滚操作，通常情况下三者搭配使用。hdfs.rollSize 1024 File size to trigger roll, in b...

2018-08-01 16:59:02 296

原创作业6：不用drop命令，通过删除依赖关系删除表

查看已有的表：删除表的元数据：再次查看表：已删掉

2018-08-01 16:41:30 834

转载 sql删表

一、SQL中的语法 1、drop table 表名称 eg: drop table dbo.Sys_Test 2、truncate table 表名称 eg: truncate table dbo.Sys_Test 3、delete from 表名称 ...

2018-08-01 15:43:07 216

原创 Flume1

概念抛出：操作关系型数据库的数据：RDBMS ==> Sqoop ==> Hadoop操作非关系型数据库的数据（比如说分散在各个服务器的日志）？==>Hadoop引出Flume概念：Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, a...

2018-08-01 15:11:20 149

原创 Hive高级部分1

常见端口汇总：Hadoop： 50070：HDFS WEB UI端口 8020 ：高可用的HDFS RPC端口 9000 ：非高可用的HDFS RPC端口 8088 ： Yarn 的WEB UI 接口 8485 ： JournalNode 的RPC端口 8019 ： ZKFC端口 19888：jobhistory ...

2018-08-01 00:37:29 274

原创作业5：画metadata表关系

2018-07-31 19:44:00 159

原创作业4：本地HUE搭建步骤

HUE官方网站本地HUE搭建步骤官方介绍1.安装前的环境准备：sudo yum install ant asciidoc cyrus-sasl-devel cyrus-sasl-gssapi cyrus-sasl-plain gcc gcc-c++ krb5-devel libffi-devel libxml2-devel libxslt-devel make mysql mysql-devel ...

2018-07-30 13:30:36 562

原创 Spark项目的创建&Spark-shell用法

Spark 2.2.0 is built and distributed to work with Scala 2.11 by default. (Spark can be built to work with other versions of Scala, too.) To write applications in Scala, you will need to use a compatib...

2018-07-27 22:31:50 996

原创什么是RDD

RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升了查询速度。RDD的属性（五大特性）：（1）一组分片（P...

2018-07-26 21:27:26 5349

原创 Scala中的隐式转换

上节课的补充：算子=函数=APICurrying（颗粒化）：作用是将两个参数的函数，转换成两个函数，第一个函数的参数为两个参数函数的第一个参数，同理，第二个函数的参数为第二个参数。scala> def sum(x:Int,y:Int) = x + ysum: (x: Int, y: Int)Int scala> sum(1,2)res16: Int = 3 sca...

2018-07-26 21:05:00 154

原创 Scala高阶函数及模型匹配

1.高阶函数介绍：map： val list=List(1,2,3,4,5,6,7,8,9) println(list.map((x:Int)=>x*2)) //自动推断int类型 println(list.map((x)=>x*2)) //一个参数，可去括号 println(list.map(x=>x*2)) //一个...

2018-07-24 20:32:03 327

原创作业3：用Scala完成wordCount操作

源数据：hello hive goodmand good mandgood goodmand hello hive源码：package com.ruozedataimport scala.io.Sourceobject wordCount { def main(args: Array[String]): Unit = { val b = Source.fr...

2018-07-23 13:36:19 486

空空如也

空空如也