自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

王天一的博客

从始至终 感谢我的引路人X

  • 博客(25)
  • 收藏
  • 关注

原创 Spark 运行产生Unable to acquire xxx bytes of memory 错误解决方法

背景:对单月日志进行分析时(120G左右),生成结果csv文件时 .coalesce(1) .write .mode(SaveMode.Overwrite) .format("com.databricks.spark.csv") .option("header", "true") .save("periodowntop10.csv")**coalesce函数为控制结果文件个数为1 因为有多少个partition 就会在指定目录下生

2020-05-28 11:23:25 4633 1

原创 yarn的调度模式详解

Yarn的调度yarn的默认调度器1:Apache hadoop2.x的默认调度器是Capacity Scheduler(计算调度器)2:CDH的默认调度器是Fair Scheduler(公平调度器)Yarn三种调度策略对比在Yarn中有三种调度器可以选择:FIFO Scheduler ,Capacity Scheduler,FairScheduler。1:FIFO Scheduler...

2020-05-15 09:35:27 1535

原创 spark scala 使用ip2region解析ip地址详细信息

需求场景如下:现需要将ip地址解析并提取对应的省份信息感谢xxh的推荐开源 IP 地址定位库 ip2regionip2region 是准确率 99.9% 的 IP 地址定位库,0.0x毫秒级查询,数据库文件大小只有 2.7M,提供了 Java、PHP、C、Python、Node.js、Golang 的查询绑定和 Binary、B树、内存三种查询算法下载地址:码云git引入maven...

2020-04-23 10:30:05 1204 2

原创 Spark 上下游数据校验及重新处理方法

需求场景如下:上游mysql数据库每天经过sqoop导入hive中的分区表,在导入过程中sqoop偶尔会产生error等问题,导致下游数据与上游数据产生偏差,现在需要方法校验数据,以及对数据进行重跑,考虑过后决定使用重刷的方式进行处理数据质量校验1.先使用count进行数量上的校验,当上下游相同批次数据条数相同时则无需进行处理2.当上下游数据量不同时 对下游数据进行重刷数据重刷spa...

2019-12-04 14:44:03 886

原创 生产恢复HDFS block块小记

测试文件 test.md上传:-bash-4.2$ hdfs dfs -mkdir /blockrecover-bash-4.2$ echo "test" > test.md-bash-4.2$ hdfs dfs -put test.md /blockrecover-bash-4.2$ hdfs dfs -ls /blockrecoverFound 1 items-rw-r-...

2019-12-02 14:51:42 128

原创 SparkStreamin on yarn 长时间运行作业的提交优化

容错在YARN集群模式下,Spark驱动程序与Application Master(应用程序分配的第一个YARN容器)在同一容器中运行。此过程负责从YARN 驱动应用程序和请求资源(Spark执行程序)。重要的是,Application Master消除了在应用程序生命周期中运行的任何其他进程的需要。即使一个提交Spark Streaming作业的边缘Hadoop节点失败,应用程序也不会受到影响...

2019-07-26 15:52:39 387

原创 CDH平台常用操作简介(5.12版本)

1.CDH启动/关闭1.1启动CDH1:先启动Mysql service mysql start2:hadoop001再启动Server:/opt/cloudera-manager/cm-5.12.0/etc/init.d/cloudera-scm-server start3:hadoop001-003再启动Agent:/opt//cloudera-manager/cm-5.12.0/et...

2019-07-11 14:15:33 1233

原创 SparkSQL 读取mysql大表速度过慢解决方法

问题背景在使用sqarksql.read读取mysql表时(大约为2400万条左右) val scholarDF = spark.read .format("jdbc") .option("url", "jdbc:mysql://192.168.60.49:3306/test") .option("dbtable", "scholar_2") .o...

2019-07-08 12:13:00 5225

原创 Spark 从Cache与Persist入手,浅谈缓存类别的关系与区别

我们为什么要在spark中使用Cache?我们先做一个简单的测试读取一个本地文件做一次collect操作:(仅做测试用,生产中使用collect容易发生driver OOM等问题,不推荐使用)val rdd=sc.textFile("file:///home/hadoop/data/input.txt")val rdd=sc.textFile("file:///home/hadoop/dat...

2019-07-03 16:12:50 199

原创 SparkStreaming+kafka 外部数据源保存offset实例(MySQL)

MySQL创建存储offset的表格mysql> use testmysql> create table hlw_offset( topic varchar(32), groupid varchar(50), partitions int, fromoffset bigint, untiloffset ...

2019-07-01 15:52:42 350

原创 SparkSQL 操作常用外部数据源小结(二)

Hive数据源    Apache Hive是Hadoop上的SQL引擎,Spark SQL编译时可以包含Hive支持,也可以不包含。包含Hive支持的Spark SQL可以支持Hive表访问、UDF(用户自定义函数)以及 Hive 查询语言(HiveQL/HQL)等。需要强调的 一点是,如果要在Spark SQL中包含Hive的库,并不需要事先安装Hive。一般来说,最好还是在编译Spark ...

2019-06-27 14:47:20 121

原创 SparkSQL 操作常用外部数据源小结(一)

通用加载/保存方法手动指定选项Spark SQL的DataFrame接口支持多种数据源的操作。一个DataFrame可以进行RDDs方式的操作,也可以被注册为临时表。把DataFrame注册为临时表之后,就可以对该DataFrame执行SQL查询。Spark SQL的默认数据源为Parquet格式。数据源为Parquet文件时,Spark SQL可以方便的执行所有的操作。修改配置项spar...

2019-06-26 10:13:32 191

原创 hadoop 常用linux命令

单独启动和关闭hadoop服务启动名称节点 :hadoop-daemon.sh start namenode启动数据节点:hadoop-daemons.sh start datanode slave启动secondarynamenode:hadoop-daemon.sh start secondarynamenode启动resourcemanager:yarn-daemon.sh st...

2019-06-25 18:16:48 373 1

原创 SparkSQL 解析XML文件并在UDF中传入Map[]类型的参数

需求场景如下:有一份xml文件存储着中图分类号-----> 教育部分类号的映射关系部分如下图所示现在需要解析这份xml文件,并根据对应的映射关系,将DF中的中图分类号映射为相应的教育部分类号1:spark解析xml文件maven中导入spark-xml对应的依赖 <dependency> <groupId>com.d...

2019-06-25 11:32:11 1592

原创 spark 构建自增id列遇到的问题及解决方法

使用场景在为总行数为2400的单字段机构列表创建递增的id列时如图:在使用如下代码时// 使用 monotonically_increasing_id()函数构建自增id列 val lin5 =sc.textFile("file:///spark//headings//unitName1.txt") .toDF("unit_name") .withColumn(...

2019-04-17 12:35:13 957

原创 shell编程常用基本功能

1.在shell编程之前①:关于shell:shell通常以.sh结尾,但.sh结尾的并不一定是可执行脚本②:shell脚本头文件一般以 #!/bin/bash开头③:在完成shell文件的编写后,需要为脚本文件赋予权限才可执行通常为 chmod +x xxx.sh 或者 chmod 775 xxx.sh2.shell脚本Debug模式通过-x参数进入Debug模式 即sh -x xx...

2019-04-15 15:18:51 939

原创 hadoop HA架构模式

1.为什么要使用hadoop HA部署① 当使用非HA部署方式时,只有一个NN(namenode),当该namenode 即整个集群的master宕机时,整个集群将会面临短期内乃至长期无法访问的窘境直到问题解决②非HA部署方式时,使用的是SNN的时间为一小时checkpoint机制,无法做到灵活切换,即高可用,所以要使用HA方式部署2.hadoop HA部署整体思路①部署两个namenod...

2019-04-03 23:51:03 200

原创 HDFS架构原理思想及各模块功能简述

1:架构原理2 block(块)解析块的大小128M 块的副本数3 &lt;property&gt; &lt;name&gt;dfs.blocksize&lt;/name&gt; &lt;value&gt;134217728&lt;/value&gt;&lt;/property&gt;&lt;property&gt; &lt;n

2019-02-23 16:53:02 1971

原创 hadoop hdfs单节点简易部署(二)

5.配置ssh localhost无密码信任关系[hadoop@hadoop002 ~]$ ssh-keygenGenerating public/private rsa key pair.Enter file in which to save the key (/home/hadoop/.ssh/id_rsa): Created directory '/home/hadoop/.ssh'...

2019-02-23 16:34:00 215

原创 hadoop hdfs单节点简易部署(一)

1.创建用户和上传hadoop软件:useradd hadoopsu - hadoop[hadoop@hadoop002 ~]$ mkdir app[hadoop@hadoop002 ~]$ cd app/[hadoop@hadoop002 ~]$ wget http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar....

2019-02-23 16:30:06 566

原创 以简单场景为基础归纳mysql基本语法

以简单场景为基础归纳mysql基本语法1.创建需要用到的表并填充测试数据:--部门表dept部门表(deptno部门编号/dname部门名称/loc地点)create table dept ( deptno numeric(2), dname varchar(14), loc varchar(13));insert into dept values (10,...

2019-02-13 18:32:19 153

原创 MySQL部署及相关问题

MySQL部署及相关问题1.关于mysql:RPM: 学习 测试 快速部署tar: 定制化 企业级https://github.com/Hackeruncle/MySQL/blob/master/MySQL 5.6.23 Install.txtRPM安装:yum install -y mysql-server.x86_64yum install -y mysql.x86_64se...

2019-02-13 17:11:58 141

原创 linux基本命令(三)

Linux基本操作命令(三)1.文本编辑操作及相关快捷键:vi 文本编辑vi xxx.log命令行模式常见快捷键:dd 删除当前行dG 删除光标以下的所有行ndd 删除光标以下的n行gg 跳转到第一行的第一个字母G 跳转到最后一行的第一个字母shift+$ 行尾2.清空文件并重新编辑:命令模式下gg dG3.追加写入新内容:命令模式下G shift+$ i...

2019-02-13 16:37:02 84

原创 linux基本命令(二)

Linux基本操作命令(二)1.用户与用户组相关命令:[root@hadoop001 ~]# useradd ruoze 自动创建一个用户组[root@hadoop001 ~]# id ruozeuid=501(ruoze) gid=501(ruoze) groups=501(ruoze) [root@hadoop001 ~]# gid 主组 groups 所有组2.设置...

2019-02-13 11:58:40 104

原创 linux基本命令(一)

Linux基本操作命令(一)1.查看当前光标所在的路径:pwd 2.切换目录:cd 家目录cd ~ 切换到家目录cd - 切换到上一次目录cd ../ 切换到上一层目录cd ../../ 切换到上2层 ../../3.打印文件与查看文件夹相关信息:ls -l ==&amp;gt; ll 别名 ls -l -a ==&amp;gt; ls -la 查看隐藏文件 ...

2019-02-13 11:41:45 91

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除