学不下了-CSDN博客

(2) 针对Hadoop1.0中的MapReduce在扩展性和多框架支持等方面的不足，它将JobTracker中的资源管理和作业控制分开，分别由ResourceManager（负责所有应用程序的资源分配）和ApplicationMaster（负责管理一个应用程序）实现，即引入了资源管理框架Yarn；多种计算框架运行）；若挂掉，RM负责重启，其实RM上有一个RMApplicationMaster，是AM的AM，上面保存已经完成的task，若重启，无需重新运行已经完成的task。

2023-05-28 11:37:17 1399

原创 HDFS学习笔记

对于每一个数据块，NameNode 节点返回保存数据块的数据节点的地址。当Active NameNode的命名空间发生变化的时候，它会把这个变化通知所有JN，有的JN收到信息，有的JN是没有收到信息的，如果大部分JN进程接到信息，就认为这个事件是可信的，如果少数的JN接到信息，就认为这个信息是错误的，是屏蔽的，对于可信的信息，standby Namenode才会去同步过来，通过JN这种方式，才能保证Standby Namenode和Active Namenode之间有效信息的一个同步。

2023-05-28 11:35:54 3541 1

原创 Flume实践

a1.sinks.k1.hdfs.path =hdfs://master:9000/flume/%Y-%m-%d/%H%M #接收地址。a1.sources.r1.bind = slave1 #slave2配置也是一样的，只是这里更改为slave2。a1.sources = r1 #slave1的agent-name是a1，slave2的是a2。a1.sources.r1.selector.type = replicating #复制。

2023-05-28 11:34:47 979

原创 Flume学习笔记

(4) 问题：Multiplexing需要判断header里指定key的值来决定分发到某个具体的channel，如果demo和demo2同时运行在同一个服务器上，如果在不同的服务器上运行，可以在source1上加上一个host拦截器，这样可以通过header中的host来判断event该分发给哪个channel，而这里是在同一个服务器上，由于host是是区分不出日志来源的，必须想办法在header中添加一个key来区分日志的来源。也即在日志进入source之前，对日志进行一些包装、清新过滤等等动作；

2023-05-28 11:31:21 1065

原创 Hbase学习笔记

(2) 从这个过程中，可以发现客户会缓存这些位置信息，然而第二步它只是缓存当前RowKey对应的HRegion的位置，因而如果下一个要查的Rowkey不在同一个HRegion中，则需要继续查询META所在的HRegion，然而随着时间的推移，客户端缓存的位置信息越来越多，以至于不需要再次查找hbase:meta Table的信息，除非某个HRegion因为宕机或Split被移动，此时需要重新查询并且更新缓存。当table中的行越来越多，就会有更多的Hregion。对上层业务有比较大的影响。

2023-05-28 11:31:15 1048

原创 AWS费用踩坑

竟然是响应速度，意思是你出问题了，你技术支持套餐开的级别不够，你就等吧，要么你就升级技术工单套餐，而且这些技术套餐收费是按你每月总账单的百分之几收费的，真的黑，问个技术问题就收费，但你可以问完技术问题立马就回复邮件关停技术工单，关停不收费，只收刚刚使用的费用，但会有sb商务让你一直开着，说什么万一出什么问题了，你提技术工单还需要时间。但用了预留实例就是买定该类型一年了（可选，最少一年），不可以退的，这看你们公司业务需求来定是否需要预留实例。，8C 32G，每小时0.87人民币，看看这便宜多少。

2023-05-28 11:26:31 412 2

原创 Hbase操作

两个列族，一个是meta_info，一个是user_action，versions=>1相当于是版本号，可以修改，修改之后旧的一样保存，IN_MEMORY有turn和false两个值，turn的话就是表的Column Family所有信息是保存到内存中的，false就是保存到hdfs上。刚才已经给mata_info添加数据了，user_action还没有数据的，写数据的时候，是先写到内存的，达到128M之后再溢出到磁盘，可以使用flush命名强制split出磁盘。批量读：scan 'item_table'

2023-05-27 10:44:11 1679

原创 Zookeeper学习笔记

Sever1与zookeeper连接，建立临时节点node1，node1会存储server1的元数据，包括IP地址，其它网络信息等，这个时候就知道了node1和server1的映射关系，当然这个架构了不止一个server1，所以也就不止一组node和server的映射关系，流量分发器就可以通过这个映射关系，知道server1的状态，从而判定给不给它流量。(1) Zookeeper是分布式锁服务，为分布式系统提供名字服务器，分布式同步，组服务的开源高效可靠的协同工作，对集群的稳定性起到了关键作用。

2023-05-27 10:43:37 1991

原创 Storm学习笔记

Apache Storm是一个分布式实时流式大数据处理框架。(1) Storm是在线处理数据方式，Mapreduce/spark是离线处理数据方式。(2) Mapreduce数据处理特点海量数据处理：G、T、P级都能处理全量数据集同时处理：有多少输入数据都一次性同时处理批处理方式：大数据输入、大批数据输出吞吐能力强(3) 其他数据处理类型：（mapredece满足不了的）实时数据分析：实时报表动态展现、数据流量波动状况、反馈系统（有输入立马又输出,机器学习迭代），比如：炒股票、数据报表。

2023-05-27 10:42:16 810

原创 Kafka学习笔记

(16)副本数据写成功：message真正存储还是要存储到磁盘上的，数据写入到leader后，从节点以异步的方式主动到leader拉取数据，数据到达从服务器后并不是立马写磁盘的，立即往磁盘写的话会消耗很多时间，时效性不高，而是先存储在内存中，写完内存后就返回ack给leader，说明副本数据写成功，之后再自己内部落地数据到磁盘，这样既高效也保证了数据可靠性。(15)kafka动态的维护了一组in-sync(ISR)的副本，表示已追上了leader，只有处于该状态的成员组才是能被选择为leader。

2023-05-27 10:41:42 1405

原创 Sqoop学习笔记

在 Sqoop 中可以使用 sqoop import -D property.name=property.value 这样的方式加入执行任务的参数，多个参数用空格隔开。该过程分为两步，第一步将数据导入到 HDFS，默认的临时目录是/user/admin/表名，第二步将导入到 HDFS的数据迁移到 Hive 仓库。在使用query的时候，后面必须加条件，在任务产生多个map的时候，用条件表示从哪个map开始读取数据。Mysql数据导入到hdfs，默认的列分隔是“，”，默认的行分隔符是“\n”

2023-05-27 10:38:42 1422

原创 Hive优化

按照JOIN顺序中的最后一个表应该尽量是大表，因为JOIN前一阶段生成的数据会存在于Reducer的buffer中，通过stream最后面的表，直接从Reducer的buffer中读取已经缓冲的中间结果数据（这个中间结果数据可能是JOIN顺序中，前面表连接的结果的Key，数据量相对较小，内存开销就小），这样，与后面的大表进行连接时，只需要从buffer中读取缓存的Key，与大表中的指定Key进行连接，速度会更快，也可能避免内存缓冲区溢出。没有进行分区限制的查询可能会消耗令人不可接受的巨大资源来处理这个表。

2023-05-27 10:36:40 1009

原创 Spark学习笔记

但是会出现多个任务竞争资源，相比mapreduce，不知道每个任务需要多少资源，一个进程挂了，里面的线程都挂了，所以spark稳定性没有mapreduce好。Mapreduce中间有partition这个环节，从map的输出到reduce的输入，这中间要跨一些网络的IO，而且map内部和reduce内部，都有把数据往磁盘上存储这个过程，spark内存计算，减少了这些流程，处理数据的过程中，数据不需要再去读写HDFS，全部是在内部中完成的，所以，spark就能够更好的使用于数据挖掘，机器学习等迭代算法中。

2023-05-27 10:35:41 1660

原创 Spark Streaming

离散流：连续不断流入的数据，按时间处理，比如，连续一分钟内收集的数据作为一个单元，单元之间是相互独立的，就是把连续不断的数据流，切出不同的离散分片。把数据进行离散化处理；DStream是Spark Streaming特有的数据类型，代表一系列连续的RDD，可以看做一组RDDs，即RDD的一个序列，相当于是在RDD的基础上做了对时间的依赖。小方块代表一个数据，虚线与虚线之间代表数据窗口，比如说一分钟，五分钟等，在时间创建内，把小数据积累起来，构成大的批量数据文件，多个小数据块DAG汇聚成的大数据流DAG；

2023-05-27 10:30:35 1116

原创 CentOS7.4安装OpenVPN

iptables -t nat -A POSTROUTING -s 10.8.0.0/16 -j SNAT --to-source 172.18.xxx.xxx #内网ip。[root@vpn 2.0]#./build-key-server server //server为自定义证书名，为了下面配置方便，这里就用server。或 openvpn --daemon --config /etc/openvpn/client.ovpn --cd /etc/openvpn。

2023-05-27 10:28:49 2789

原创 k8s部署单节点nacos-2.1

这里安装的是nacos:v2.1.0版本，官方yaml用的是自建的mysql、nfs，我这里之前用的是云mysql、nfs，配置微改，单节点部署。官网：https://nacos.io/zh-cn/docs/what-is-nacos.html。

2023-05-04 16:25:23 386

原创 docker 和 k8s 安装xxljob

docker 和k8s安装xxl

2022-10-07 23:54:04 405

转载 jenkins服务器拉取不了github依赖

jenkins服务器拉取不了github依赖

2022-08-10 10:40:18 650

原创反代 ClickHouse http 端口

ClickHouse是不开放外网连接的，通过nginx stream 可以反代 ClickHouse http 端口

2022-07-06 11:11:20 1091 4

原创病毒处理 kdevtmpfsi & kinsing

服务器遭到入侵，单删病毒进程解决不了，要找到它的根。病毒进程删了还会继续被拉起，估计就是被植入了实时任务，先查看服务器计划任务的日志/var/log/cron发现了病毒脚本：http://91.241.19.134/unk.sh希望有能力的大佬处理下，为民除害。从日志看到，病毒是普通用户执行的，到对应普通用户的定时任务下查看，在/var/spool/cron下的letsun用户定时任务中是发现有该病毒下载执行脚本的，清理掉。也有的病毒是root运行的，总之基本上都是在定时任务中，都要

2022-05-22 16:25:45 679

转载 nginx安装

# 添加nginx源vim /etc/yum.repos.d/nginx.repo[nginx-stable]name=nginx stable repobaseurl=http://nginx.org/packages/centos/7/$basearch/gpgcheck=1enabled=1gpgkey=https://nginx.org/keys/nginx_signing.keymodule_hotfixes=true[nginx-mainline]name=nginx...

2022-05-19 10:34:13 113

原创 AWS不同主体账号互通ECR镜像仓库

ECR是AWS是镜像仓库产品。不同主体账号的ECR是不能相登录的，当需要部署同一个镜像的时候就很麻烦，可以配置密钥登录。创建akckIAM---》创建用户--》点进用户--》安全证书--》创建访问密钥aws configure测试的服务器是A主体账号下的，先配置A账号的akck：[root@ip-xxx ~]# aws configure # 不指定用户会设置成默认用户，会被覆盖AWS Access Key ID [None]: AKIAYCxxxxxAWS Sec

2022-04-19 18:57:31 1226

原创 subscription-manager repos --enable ＜repo＞

刚安装的centos7.7，网络配置好，安装软件发现报错如下[root@localhost ~]# yum -y install wget已加载插件：fastestmirrorLoading mirror speeds from cached hostfileThere are no enabled repos. Run "yum repolist all" to see the repos you have. To enable Red Hat Subscription Managemen

2020-12-07 15:59:54 2289

原创 Ubuntu16.04安装zabbix

内容跟官网差不多，不过卡在不同系统版本要使用不同的包这里，浪费了不少时间，就记录下来了。先查看系统信息：root@devci:~# lsb_release -aLSB Version: core-9.20160110ubuntu0.2-amd64:core-9.20160110ubuntu0.2-noarch:security-9.20160110ubuntu0.2-a...

2020-04-14 09:45:48 274

原创 shell脚本小细节

自动输入确认过程过程的中的 y / yesecho -y | yum install -y yum-utils device-mapper-persistent-data lvm2

2019-12-16 11:02:07 319

原创 gitlab安装、备份、恢复

gitlab安装、备份、恢复gitlab安装gitlab代码备份gitlab代码恢复gitlab安装下载gitlab源curl -sS http://packages.gitlab.cc/install/gitlab-ce/script.rpm.sh | bash安装最新版本gitlbayum -y install gitlab-ce 安装对应某一版本gitlabyum -y i...

2019-08-10 19:08:06 287

原创 pycharm多个python版本转换及模块安装

之前使用的python版本是2.7，现在使用python3.6，pycharm也跟着切换Preferences----Project Interpreter完成上图信息，点击ok，到此添加新版本python完成，但是这时候是还没有几个模块的，看下图，先点击ok退出点击右下角python版本设置，选择新版本python，跑一个需要requests模块的项目出现Modu...

2019-08-08 12:02:36 1012

原创 Day2--正则表达式

1.正则表达式正则表达式，又称规则表达式。（英语：Regular Expression，在代码中常简写为regex、regexp或RE），正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。(百度概念)简单理解：按照...

2019-08-06 19:31:55 1625

原创 Day1--学习get与post请求

1.学习get与post请求，尝试使用requests或者是urllib用get方法向https://www.baidu.com/发出一个请求，并将其返回结果输出。在Http协议中，定义了八种请求方法。这里介绍两种常用的请求方法，分别是get请求和post请求。get请求：一般情况下，只从服务器获取数据下来，并不会对服务器资源产生任何影响的时候会使用get请求。post请求：向服务器发送数...

2019-08-06 18:14:55 238

原创 Ipython、Jupyter、Anaconda安装

Anaconda是一个开源的python包环境管理器，可以用于在同一个机器上安装不同版本的软件包及其依赖，并能够在不同的环境之间切换。其包含了conda、numpy、pandas等180多个科学包及其依赖项。安装Anaconda3yum install -y bzip2 wgetuseradd pythonsu - pythonwget https://mirrors.tuna.t...

2019-08-05 19:31:57 2698

原创单台服务器实现redis-sentinel集群

下面是开发环境、测试环境，单台服务器搭建redis-sentinel集群Redis端口：6379、6380、6381Sentinel端口：16379、16380、16381直接拿下面的配置文件就可以跑起来。安装redis4.0wget http://download.redis.io/releases/redis-4.0.10.tar.gztar xvf redis-4.0...

2019-07-27 10:04:36 629 1

原创安装postgresql11数据库

安装postgresql数据库yum -y install https://download.postgresql.org/pub/repos/yum/11/redhat/rhel-7-x86_64/pgdg-centos11-11-2.noarch.rpmyum -y install postgresql11-contrib postgresql11-server创建数据目录，...

2019-07-16 15:53:38 4836

转载 JDK下载账号密码

账号：[email protected]密码：Oracle123转：https://blog.csdn.net/weixin_42369687/article/details/90340691账号：[email protected]密码：OracleTest1234转：https://www.cnblogs.com/xiaostudy/p/9940167.ht...

2019-07-11 16:04:31 4377

原创 MapReduce理论笔记

一介绍MapReduce是一个用于处理海量数据的分布式计算框架这个框架解决了：(1) 数据分布式存储(2) 作用调度(3) 容错(4) 机器间通信等复杂问题 MapReduce只负责数据计算，不负责存储，数据是存储在HDFS上，因为HDFS：系统可靠、可扩展、可并发处理 MapReduce 采用多进程的并发方式，优点：多进程的并发方式这种模型便于每个任务占...

2018-08-16 10:51:40 894

原创 HDFS2.0理论笔记

HDFS2.0相对HDFS1.0有几个新特性1 NameNode HA在Hadoop1.0中NameNode在整个HDFS中只有一个，存在单点故障风险，一旦NameNode挂掉，整个集群无法使用，虽然有SNN，但还是不可靠；在Hadoop2.0中，就针对NameNode提供了一个高可用方案。1.0简图2.0简图HDFS的高可用性将通过在同一个集群中运行两个NameNod...

2018-08-16 02:07:08 1776

原创 HDFS1.0理论笔记

1 什么是HDFS？HDFS的全称是：Hadoop Distribute Files System，分布式文件系统在整个Hadoop技术体系中，HDFS提供了数据分布式存储的底层技术支持。HDFS 由三个组件构成：NameNode（NN）、DataNode（DN）、SecondaryNameNode（SNN）NameNode是主节点，也叫Master（进程），一个hadoop集群只...

2018-08-16 01:56:32 1046

原创 HADOOP认识

1、hadoop是什么？Hadoop是一个由Apache基金会所开发的分布式系统基础架构。（有不同组件）用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件...

2018-08-14 17:30:39 537

原创 hadoop、zookeeper、storm、hbase安装

以下环境全部基于此系统：[root@localhost ~]# cat /etc/redhat-releaseCentOS Linux release 7.5.1804 (Core) 安装软件及对应版本jdk-8u172-linux-x64.tar.gzHadoop-2.8.4Zookeeper-3.4.5apache-storm-1.0.6.tar.gzhba...

2018-08-14 15:34:24 863

原创 Mapreduce--wordcount

Mapreduce实现第一个wordcount1、数据[root@master mapreduce_wordcount_python]# ls1.data map_new.py red_new.py run.sh The_Man_of_Property.txt数据是一篇文章[root@master mapreduce_wordcount_python]# head T...

2018-08-09 10:18:25 303

redis 同步工具redis-port.tgz

redis-port（Linux 64 位）是一组开源工具集合，主要用于 Redis 节点间的数据库同步、数据导入、数据导出，支持 Redis 的跨版本数据迁移。其包括以下工具： redis-sync：支持在 Redis 实例之间进行数据迁移。 redis-restore：支持将 Redis 的备份文件（RDB）导入到指定 Redis 实例。 redis-dump：支持将 Redis 的数据备份为 RDB 格式文件。 redis-decode：支持将 Redis 备份文件（RDB）解析为可读的文件。

2023-02-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

redis 同步工具redis-port.tgz

sonar-7.3.zip

Jenkins 2 主要特性演练与实操 工作坊.pdf

阿里 Alibaba Cloud CodePipeline 基于Jenkins的CI _ CD探索之路 2017

监控知识体系

Wireshark中文简明使用教程

Jenkins X文档

CCNA-CCNP-Windows Server 2008 R2资料学习地址

A-Deep-Dive-into-CoreDNS-2018

Jenkins训练营之玩转pipline

scala-intellij-bin-2018.2.1.zip

resources_cn.jar

安装RPM包、源码包

空空如也

Jenkins 2 主要特性演练与实操工作坊.pdf