自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 docker base镜像

FROM centos:7MAINTAINER Skyroad [email protected] author=" Skyroad [email protected]"LABEL description="Skyroad Bigdata docker images"#设置工作目录WORKDIR /opt/bigdata#COPY sources.list /etc/apt/sources.list#这句只是来看看原始源的内容⾿#RUN ec

2021-04-08 12:10:58 281 1

原创 spark启动不了问题

启动多个spark程序只有一个running 其他accept通过设置 hadoop下的capacity-scheduler.xml默认为0.1 改为 0.8 其他程序就可以启动了 需要重新hdfs及spark<property> <name>yarn.scheduler.capacity.maximum-am-resource-percent</name> <value>0.8</value&gt...

2021-03-24 14:26:21 1740

原创 安装docker

/etc/apt/sources.listmirrors.163.com更换软件源的详细操作,以UBUNTU举例:这里如果提示找不到源的签名需要下载签名举例:sudo apt-key adv --keyserverkeyserver.ubuntu.com43--recv-keys ED444FF07D8D0BF6安装Docker需要ROOT权限.sudo -scurl -sSL https://get.docker.com/|sh#也可以这样写curl -sSL htt...

2021-03-13 14:25:30 230

原创 搭建虚拟机遇到的问题

搭建虚拟机 当本机电脑上不了网的时候,使虚拟机上网的话,需要用到桥接模式 ,选择Automatic(DHCP)模式 如果想让ip不变化 ,生成ip之后,要手动去指定ip,设置固定ip

2021-03-04 17:07:13 134 1

原创 java 操作elasticsearch6.8.0 简单测试 及springboot 操作elasticsearch6.8.0

pom文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 https://maven.apache.org/xsd/mav

2021-01-22 17:35:17 712

转载 spark sql原理及使用 基本使用mysql hive rdd转为dataframe

一、spark SQL概述1.1 什么是spark SQL​ Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。类似于hive的作用。1.2 spark SQL的特点1、容易集成:安装Spark的时候,已经集成好了。不需要单独安装。2、统一的数据访问方式:JDBC、JSON、Hive、parquet文件(一种列式存储文件,是SparkSQL默认的数据源,hive中也支持)3、完全兼容Hive。可以将H

2021-01-20 16:03:24 381

原创 自定义flume拦截器--简单测试

pom文件 <dependencies> <!--flume--> <dependency> <groupId>org.apache.flume</groupId> <artifactId>flume-ng-core</artifactId> <version>1.5.2</version> &

2021-01-09 16:18:44 292 2

原创 Redis 工具类---代码

package com.tiantu.spark.hdpimport redis.clients.jedis.{Jedis, JedisPool, JedisPoolConfig}/** * TODO * * @author hell * @date2020/12/25 15:46 * */object RedisUtil { @volatile private var jedisPool: JedisPool = null /** * 获取JedisPool .

2020-12-25 19:56:30 72 1

转载 kafka面试总结(全面)

Kafka 是一个优秀的分布式消息中间件,许多系统中都会使用到 Kafka 来做消息通信。对分布式消息系统的了解和使用几乎成为一个后台开发人员必备的技能。今天就从常见的 Kafka 面试题入手和大家聊聊 Kafka 的那些事儿。思维导图讲一讲分布式消息中间件面试问题:什么是分布式消息中间件? 消息中间件的作用是什么? 消息中间件的使用场景是什么? 消息中间件选型?消息队列分布式消息是一种通信机制,和 RPC、HTTP、RMI 等不一样,消息中间件采用分布式...

2020-12-22 14:53:01 4227 2

原创 远程kafka问题并解决 org.apache.kafka.common.errors.TimeoutException: Expiring 4 record(s) for ***0 due to

先检查windows环境上的hosts (C:\Windows\System32\drivers\etc\hosts)是否配置映射 ip与域名的如:192.168.1.100 hdp02192.168.1.101 hdp03如果没解决如下查看kafka配置 server.properties.是否有listeners=PLAINTEXT://192.168.1.101:8888advertised.listeners=PLAINTEXT://...

2020-11-28 11:39:33 1639

原创 Kafka问题并解决 Connection to xxx could not be established. Broker may not be available. 及不同ip段问题

先检查windows环境上的hosts (C:\Windows\System32\drivers\etc\hosts)是否配置映射 ip与域名的如:192.168.0.100 hdp02192.168.0.101 hdp03如果没解决如下查看kafka配置 server.properties.是否有listeners=PLAINTEXT://192.168.1.200:8888advertised.listeners=PLAINTEXT://...

2020-11-27 19:09:44 301

原创 Sublime Text3将多行转为为一行

全选要合并一行的数据CTRL+ A 全选CTRL+ J 将所选数据合并一行

2020-11-26 17:15:53 4340

原创 flume启动参数说明

使用flume-ng shell脚本进行启动,进入flume 目录下:$ bin/flume-ng agent -n $agent_name -c conf -f conf/flume-conf.conf -Dflume.root.logger=INFO,console bin/flume-ng agent -n a1 -c conf -f job/kafka-flume-log-test.conf -Dflume.root.logger=INFO,console启动命令由4部分组成:.

2020-11-25 11:55:04 1257

原创 查看kafka 消费者中消费组的消费情况

查看消费者消费组的消费记录进入kafka目录下的bin目录:./kafka-consumer-offset-checker.sh --zookeeper hdp13.long.com:2181/kafka --group group33 --topic handleMonitorLoggroup消费组topic topic值消费主题pid partition的IDoffsetkafka消费者消费的位置logSize写入到该分区的数据位置Lag...

2020-11-21 16:34:24 3708

原创 kafka 如何确定分区数及不同分区测试效果

Partitions设计目的kafka是基于文件存储,每个partition在存储层面试append log文件,任何发布到此partition的消息都会被直接追加到log文件的尾部。通过分区,可以将日志内容分散到多个server上,来避免文件尺寸达到单机磁盘的上限,每个partition都会被当前server(kafka实例)保存,可以将一个topic切分到任意多个partitions。越多的partitions意味着可以容纳更多的consumer,有效提升并发消费的能力。那么如何确定分区的数量...

2020-11-09 17:05:23 652

原创 hdfs磁盘满时,hdfs删除数据报错及解决

错误[root@hdp01 etc]# hdfs dfs -rm -r /data/log/log_format/2020-11-06/logstart-.1604630235482.tmp20/11/09 10:54:26 WARN fs.TrashPolicyDefault: Can't create trash directory: hdfs://hdp01.long.com:8020/user/hdfs/.Trash/Current/data/log/log_format/2020-11-06

2020-11-09 11:18:07 1793

原创 flink学习

FlinK的主要特点事件驱动基于流的世界观 有界流与无界流分层APIProcessFunction(events,state,time) => datastreamApi(strems/windows) => SQL(dynamic tables)其他特点:高可用

2020-10-22 20:32:23 61

原创 hive数据倾斜

hive的数据倾斜原因:1业务数据本身的原因2某些Sql语句本身导致的原因3key值分布不均匀解决方法:参数设置:hive.map.aggr=true,进行map端聚合hive.groupby.skewindata=true

2020-10-21 23:40:21 65

原创 Elasticsearch-----nested查询 多重聚合与嵌套

查询数量[root@localhost ~]# curl -XGET 192.168.0.***:9200/****/_count?pretty{ "count" : 8406117, "_shards" : { "total" : 9, "successful" : 9, "failed" : 0 }}简单聚合curl -XGET 192.168.0.***:9200/*****/_search?pretty -d '{"size": 0,"aggs"...

2020-10-21 17:07:20 2480

原创 github绑定远程仓库及将本地代码同步到远程

创建项目过程git 初始化仓库的命令是git init绑定远程仓库 使用 git remote add origin 'url' 命令将远程仓库与本地仓库绑定。git remote add origin http://192.168.60.204/bigdata_broad_group/TestProject.git git pull origin mastergit add file 命令将改变添加到暂存区git add .git commit -m “注释”...

2020-10-21 15:35:51 322

原创 xshell 命令

好记性,不如烂笔头初学者,请大佬多多指教创建sedtest.txt文本查看最后一行数据,可以通过sed -n '$p' sedTest.txttail -n 1 sedTest.txt

2020-10-21 10:11:24 190

转载 Sql常见面试题

Sql常见面试题 受用了1.用一条SQL语句 查询出每门课都大于80分的学生姓名name kecheng fenshu张三语文 81张三数学 75李四语文 76李四数学 90王五语文 81王五数学 100王五英语 90A: select distinct name from table where name no...

2020-10-16 10:14:23 1555

原创 spark 内存分布

spark 内存分配:spark版本1.6之前 静态内存管理 堆内内存分布:存储内存storage 、执行内存 Execution、其他内存 other存储内存:用于缓存RDD数据和broadcast数据,占系统内存的60%执行内存:用于缓存在shuffer过程中的中间数据 占系统内存的20%其他内存:用户定义的数据结构或spark内部元数据 占系统内存的20%推外内存分布 存储内存和执行内存 各占50%spark1.6之后 统一内存管理堆内内存分布:存储内存storage...

2020-10-14 09:55:00 364

原创 java.lang.reflect.InvocationTargetException 错误

mysql错误java.lang.reflect.InvocationTargetException at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) at sun.reflect.DelegatingMethodAccessorImpl.inv...

2020-05-22 15:52:43 20622

原创 正则表达式 匹配 邮箱

[a-zA-Z0-9_.+-]+@[a-zA-Z0-9_-]+\.[a-zA-Z0-9-.]+emaillist = re.findall(r'[a-zA-Z0-9_.+-]+@[a-zA-Z0-9_-]+\.[a-zA-Z0-9-.]+', plate_body.get_text())

2020-04-22 20:08:39 1285

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除