chenyanlong_v-CSDN博客

转载 bigdata_flink错误本-错误记录

一，flink集群启动失败。二，UnsupportedFileSystemSchemeException: Hadoop is not in the classpath/dependencies. 三，javademo错误四，flink wordcount没有输出五，Hadoop is not in the classpath/dependencies. 六，结果写入hdfs报错七，命令行提交per job报错八，运行滚动窗口demo报错九，使用flink sql时报错十，使

2023-04-08 11:47:59 318

原创 Clickhouse_表引擎

Clickhouse表引擎

2022-11-03 23:13:02 759

转载设计模式参考

设计模式面试题（总结最全面的面试题！！！）_小杰要吃蛋的博客-CSDN博客_常见设计模式面试题。

2022-10-20 10:30:46 240

原创查看CDH各版本，组件版本信息

https://www.yuque.com/chenyanlong-jljxg/mftwlb/fkblhx

2022-10-19 17:30:22 1273

原创大数据安全认证

它同样是做细粒度的权限控制。但相比较于Sentry而言，它能支持更丰富的组件，包括于 HDFS, Hive, HBase, Yarn, Storm, Knox, Kafka, Solr and NiFi。Sentry首先是由Cloudera公司内部开发而来的，初衷是为了让用户能够细粒度的控制Hadoop系统中的数据（这里主要指HDFS，Hive的数据）。平台用户的用户认证一般会采用kerberos，负责数据的权限管理一般采用大数据权限管理框架（sentry或是Ranger）。Kerberos认证。

2022-10-19 17:13:13 1257

转载 Hadoop 3.X 纠删码介绍和使用

Hadoop 3.x引入了纠删码技术（Erasure Coding），它可以提高50%以上的存储利用率，并且保证数据的可靠性。

2022-10-18 16:38:51 279

原创 Hbase、Kudu和Clickhouse对比

总结：Hbase更适合非结构化的数据存储；在既要求随机读写又要求实时更新的场景，Kudu+Impala可以很好的胜任，当然再结合CDH就更好了，瓶颈并不在Kudu，而在Impala的Apache部署，特别麻烦。详见 Apache集群安装Impala如果只要求静态数据的极速查询能力，Clickhouse则更好。

2022-10-18 15:55:32 491

原创 CDH平台服务端口号梳理

CDH平台服务端口号梳理

2022-07-11 10:05:36 2266

原创虚拟机报错：ping不通百度

如果某台Linux服务器ping不通域名, 如下提示: [root@localhost ~]# pingwww.baidu.comping: unknown hostwww.baidu.com首先确定已经连接上路由器，并且路由器能够访问外网，可以通过访问网关进行确定 [root@localhost ~]# ping 8.8.8.8 PING 192.168.1.1 (192.168.1.1) 56(84) bytes of data. 64 bytes from 192.168.1.1: icmp_...

2022-04-06 11:26:57 1137

原创 IDEA快捷键

1）快速生成程序入口：main输入main->回车def main(args: Array[String]): Unit = {}2）自动补全变量：.var输入1.var->回车val i: Int = 23）快速打印：.sout输入1.sout->回车println(1)4）快速生成for循环：遍历对象.for输入1 to 3.forfor (elem <- 1 to 3) {}5）查看当前文件的结构：Ctr.

2022-02-16 22:39:00 647

原创如何实现通过java实现类似于linux中Tree的输出

如何实现类似于linux中Tree的输出import java.io.File;import java.util.Scanner;public class Tree { public static int depth = 0; public static void main(String[] args) { boolean flag=true; while (flag) { System.out.println("-----

2021-04-09 10:56:12 213

原创解决VM 与 Device/Credential Guard 不兼容,全网有效解决思路

1，看了微软的官网，每个方法都尝试一下，奈何还是不行。2，最后尝试下面这个博主的方式，okhttps://segmentfault.com/a/1190000023554965

2021-03-17 14:54:53 847 1

原创 zookeeper和kafka的SASL认证

1. 搭建Kafka集群时, 对ZooKeeper认证与权限控制http://ohmycat.me/2019/05/08/kafka-with-zookeeper-authentication.html2. zookeeper和kafka的SASL认证以及生产实践https://developer.aliyun.com/article/7084493. zookeeper（client-server身份认证-SASL配置）https://bbs.huaweicloud.com/blogs

2020-10-27 17:14:41 942

原创如何给博客园添加动漫人物？

第一步：第二步：在页面找到这个，添加如下代码代码：<script> //鼠标在消息上时jQuery(document).ready(function ($) { $("#message").hover(function () { $("#message").fadeTo("100", 1); });});//鼠标在上方时jQuery(document).ready(function ($) { //..

2020-10-27 15:16:51 1335

原创 leetcode_136_只出现一次的数字

题目路径：https://leetcode-cn.com/problems/single-number/解题思路： public int singleNumber(int[] nums) { int temp=nums[0]; for (int i = 1; i < nums.length; i++) { temp = temp ^ nums[i]; } return temp; ..

2020-10-26 17:15:08 216

原创技术博客网站收藏

关于spark:http://spark.coolplayer.net/?cat=10

2020-10-12 11:22:48 199

原创 Kafka如何手动维护偏移量？

0：需求描述-手动维护kafka偏移量-做一个单词计数1.环境准备三台虚拟机：node01,node02,node03三台机器已经安装kafka集群。mysql用来存取kafka的偏移量 CREATE TABLE `t_offset` ( `topic` VARCHAR(255) NOT NULL, `partition` INT(11) NOT NULL, `groupid` VARCHAR(255) NOT NULL, `

2020-10-10 17:30:33 801

原创 kafka帮助文档

#启动kafka/export/servers/kafka_2.11-1.0.0/bin/kafka-server-start.sh -daemon /export/servers/kafka/config/server.properties#停止kafka/export/servers/kafka_2.11-1.0.0/bin/kafka-server-stop.sh#查看topic信息/export/servers/kafka_2.11-1.0.0/bin/kafka-t..

2020-10-10 14:10:11 272

原创 hbase参数配置优化

hbase.rootdir　　这个目录是region server的共享目录，用来持久化Hbase。URL需要是’完全正确’的，还要包含文件系统的scheme。例如，要表示hdfs中的/hbase目录，namenode运行在namenode.example.org的9090端口。则需要设置为hdfs://namenode.example.org:9000 /hbase。默认:file:///tmp/hbase-${user.name}/hbasehbase.master.port　　Hbase...

2020-09-28 14:51:47 661

原创 hbase与redis对比

HBase和Redis的功能上比较相似。都是nosql类型的数据库。但是在适用场景上，两者还是有比较明显的区别的。下面基于读写性能、数据类型、数据量、部署难易、数据可靠性、应用场景、两者的结合等多个维度来比较一下两者。读写性能：HBase写快读慢，HBase的读取时长通常是几毫秒，而Redis的读取时长通常是几十微秒。性能相差非常大。数据类型：HBase和Redis都支持KV类型。但是Redis支持List、Set等更丰富的类型。数据量：Redis支持的数据量通常受内存限制，而H

2020-09-28 14:49:54 779

原创 Apache Hive（3）

Apache Hivejson数据的解析内置函数get_json_object 一次可以解析出一个json值json_tuple 可以解析出多个扩展：如果是json数组呢？思路：想法把json数组转换成为array 交给explode来炸开结合 json_tuple 来使用regexp_replace('json数组', '\\}\\,\\{','\\}\\;\\{') --把json数组中的分隔符替换成为;regexp_replace('asdas','

2020-09-25 17:30:13 181

原创 Apache Hive(2)

修改表的操作增加分区第一步手动创建新增分区的目录第二步把该分区目录加载到hive表信息中ALTER TABLE t_user_p ADD PARTITION (guojia='riben') location '/user/hive/warehouse/itcast.db/t_user_p/guojia=riben';hive中错误的分类Error while compiling statement 编译期间的错误 sql语法错误 Error while processing

2020-09-25 17:20:13 166

原创数据仓库 Hive

数据仓库 Hive数据仓库是什么？集成化的数据分析平台如何由来？为了分析数据分析的结果支持企业的决策特点本身不生产数据也不消费数据数据分析的平台4个特性面向主题性主题是一个抽象概念数据综合体跟你分析的需求相关集成性确定分析的主题之后寻找跟主题相关的各个数据源数据经过抽取转化加载（ETL）最终把数据变成格式统一干净规整的数据填充数据仓库的主题下面非易失性数仓是数据分析的平台不是数据创造的平台分析数据的规律而不是修

2020-09-25 17:16:51 291

原创 HDFS的其他功能

不同集群之间的数据复制在我们实际工作当中，极有可能会遇到将测试集群的数据拷贝到生产环境集群，或者将生产环境集群的数据拷贝到测试集群，那么就需要我们在多个集群之间进行数据的远程拷贝，hadoop自带也有命令可以帮我们实现这个功能。集群内部文件拷贝scpcd /export/softwares/scp -r jdk-8u141-linux-x64.tar.gz root@node-2:/export/跨集群之间的数据拷贝distcpcd /export/servers

2020-09-25 14:46:29 169

原创如何下载cdh版本的软件包

由于cdh版本的所有的软件涉及版权的问题，所以并没有将所有的jar包托管到maven仓库当中去，而是托管在了CDH自己的服务器上面，所以我们默认去maven的仓库下载不到，需要自己手动的添加repository去CDH仓库进行下载，以下两个地址是官方文档说明，请仔细查阅https://www.cloudera.com/documentation/enterprise/release-notes/topics/cdh_vd_cdh5_maven_repo.htmlhttps://www.cloude

2020-09-25 14:37:32 1270

原创 Hadoop MapReduce

Hadoop MapReduce理解mapreduce思想核心：分而治之先分再合两个阶段map阶段（分）：如果任何可以拆分并且没有依赖那么就把复杂的任务拆分成小任务拆分成小任务之后可以并行计算提高处理效率reduce阶段（合）：把map阶段的各个局部结果进行汇总得到最终的结果来源：来源于生活包括Google和hadoop团队在内都是把这种思想提炼处理应用于大数据处理Hadoop MapReduce设计构思如何面对大数据的处理场景

2020-09-25 14:25:19 182

原创 hadoop hdfs

hadoop hdfshdfs特性首先，它是一个文件系统用于存储文件的提供统一命名空间的目录树结构便于用户操作文件系统其次，它是一个分布式文件系统分布式意味着多台机器当中有不同的角色各司其职共同配合。master slave 主从架构主角色：namenode 管理文件系统元数据（目录树结构文件和块的对应信息）从角色：datanode 负责具体数据块存储定时向nn进行块的汇报分块存储hadoop 2.x block size = 128Mh

2020-09-25 12:47:46 191

原创 Hadoop_1

Hadoop1hadoop是什么狭义上特指Apache 的一款软件 java语言开发开源软件大数据问题解决处理平台Hadoop HDFS:分布式文件系统解决了海量数据存储问题Hadoop MapReduce:分布式计算框架解决了海量数据的计算问题Hadoop YARN:资源管理任务调度系统广义上特指hadoop 生态圈包括了大数据解决的各个不同步骤的软件甚至一些非apache 的项目也会处于生态圈中hadoop的优点和应用优点：扩容能

2020-09-25 12:43:10 209

原创 CentOS如何快速安装docker

centos6.x$ sudo yum install http://mirrors.yun-idc.com/epel/6/i386/epel-release-6-8.noarch.rpm$ sudo yum install docker-ioCentOS7.xCentOS7 系统 CentOS-Extras 库中已带 Docker，可以直接安装：$ sudo yum install docker安装成功Docker 服务，设置开机自启动。$ sudo service doc

2020-09-21 19:47:37 171

原创 leedcode_1. 两数之和

问题：给定一个整数数组 nums和一个目标值 target，请你在该数组中找出和为目标值的那两个整数，并返回他们的数组下标。你可以假设每种输入只会对应一个答案。但是，数组中同一个元素不能使用两遍。示例:给定 nums = [2, 7, 11, 15], target = 9因为 nums[0] + nums[1] = 2 + 7 = 9所以返回 [0, 1]解题思路：这道题本身如果通过暴力遍历的话也是很容易解决的，时间复杂度在 O(n2),由于哈希查找的时间复...

2020-08-22 20:18:29 97

原创成为一个网络抓取专家以下5个技巧

互联网是21世纪的魔盒。搜索信息很容易。只需在浏览器中输入几个单词，就能获得所需的所有信息。丰富的数据不能转化为有目的或结构化的信息。如果您选择手动组织数据，那么您应该准备好长时间的艰苦工作，以及在此过程中可能出现的错误。这就是web抓取发挥作用的地方。无论你身处哪个行业，你都需要数据——这就是为什么科技公司能从数据中赚大钱的原因。要加入这个行列，你需要提高自己的网络抓取技能。无论你是一个想要提高技能的业余爱好者，还是这个行业的老手，这里有5个技巧可以帮助你成为一个专业的网络...

2020-08-22 09:51:30 237

转载 Python感知器算法的完整指南

Artificial neural networks are highly used to solve problems in machine learning. The perceptron algorithm is the simplest form of artificial neural networks. Machine learning programmers can use it to create a single Neuron model to solve two-class classi

2020-08-22 09:26:37 404

原创四、Spark性能调优

目录1.常规性能调优常规性能调优一：最优资源配置常规性能调优二：RDD优化RDD复用RDD持久化RDD尽可能早的filter操作常规性能调优三：并行度调节常规性能调优四：广播大变量常规性能调优五：Kryo序列化常规性能调优六：调节本地化等待时长2.算子调优算子调优一：mapPartitions算子调优二：foreachPartition优化数据库操作算子调优三：filter与coalesce的配合使用算子调优四：repartition解决Spar.

2020-07-14 13:54:02 338

原创三、HBase的优化(后期继续优化)

HBase高可用在HBase中Hmaster负责监控RegionServer的生命周期，均衡RegionServer的负载，如果Hmaster挂掉了，那么整个HBase集群将陷入不健康的状态，并且此时的工作状态并不会维持太久。所以HBase支持对Hmaster的高可用配置。1) 关闭HBase集群（如果没有开启则跳过此步） $ bin/stop-hbase.sh 2) 在conf目录下创建backup-masters文件 $ touch conf/backup-mas

2020-07-14 12:05:53 763

原创二、Hive调优

目录1.Fetch抓取(默认就有)2.本地模式(小数据集适用)3.表优化小表、大表Join (大表放右边)大表Join大表 (处理空key-过滤/替换)MapJoin (在Map端进行小表join,避免数据倾斜)Group By (Map端聚合,避免Reduce数据倾斜)Count(Distinct) 去重统计 (先group by再count避免job时间过长)避免笛卡尔积 (避免只有一个Reducer)行列过滤 (不使用select *)动态分区调整分区

2020-07-14 10:29:06 220

原创一、Hadoop企业优化

MapReduce 跑的慢的原因Mapreduce 程序效率的瓶颈在于两点：1）计算机性能 CPU、内存、磁盘健康、网络2）I/O 操作优化（1）数据倾斜（2）map和reduce数设置不合理（3）map运行时间太长，导致reduce等待过久（4）小文件过多（5）大量的不可分块的超大文件（6）spill次数过多（7）merge次数过多等。3）JVM优化:JVM重用mapred.job.reuse.jvm.num.tasks，默认是 1，表示一个 JVM..

2020-07-14 09:35:25 136

转载神奇的网站

（1）恶作剧大合集1. 在线抠图、证件照生成器 :t.cn/A67EE9UQ2.爱情小说生成器 :http://t.cn/ExN4qpW3.Cp短打生成器 :http://t.cn/Aid6pD1l4.爱豆翻牌体验器:http://t.cn/EoTPp7G5.口罩头像生成器:http://t.cn/A6vsVTFl6.今日吃什么:http://t.cn/zjgiYLq7.记仇表情生成器:http://t.cn/R3ZmNPa8.万能表情包生成器:http://t.cn/Ebu

2020-06-17 16:54:43 2213

原创 Java 语言编码规范(Java Code Conventions)

1 介绍• 1.1 为什么要有编码规范编码规范对于程序员而言尤为重要，有以下几个原因：- 一个软件的生命周期中，80%的花费在于维护- 几乎没有任何一个软件，在其整个生命周期中，均由最初的开发人员来维护- 编码规范可以改善软件的可读性，可以让程序员尽快而彻底地理解新的代码- 如果你将源码作为产品发布，就需要确任它是否被很好的打包并且清晰无误，一如你已构建的其它任何产品为了执行规范，每个软件开发人员必须一致遵守编码规范。每个人。• 1.2 版权声明本文档反映的是 Sun ..

2020-06-16 18:44:43 1302

原创 Git的基本使用

Git的安装与基本操作：10分钟搭建自己的Git仓库：https://mp.weixin.qq.com/s/6GyYlR9lpVcjgYmHMYLi0wIDEA中的Git操作，看这一篇就够了！：码云帮助中心https://gitee.com/help

2020-06-09 09:55:20 134

转载 Elasticsearch干货

Elasticsearch学习，请先看这一篇引用题记：Elasticsearch研究有一段时间了，现特将Elasticsearch相关核心知识、原理从初学者认知、学习的角度，从以下9个方面进行详细梳理。欢迎讨论……1. 带着问题上路——ES是如何产生的？（1）思考：大规模数据如何检索？如：当系统数据量上了10亿、100亿条的时候，我们在做系统架构的时候通常会从以下角度去考虑问题：1）用什么数据库好？(mysql、sybase、oracle、达梦、神通、mongodb、hbas.

2020-05-29 18:36:50 220

gitbook相关.zip

1. 安装node-v10.16.2-x64.msi 2. 命令行执行node -v成功就是安装好了 nodejs 3. 命令行执行npm install gitbook-cli -g 4. 在讲义目录执行 gitbook serve 5. 如果修改了内容需要 gitbook build 重新生成然后gitbook serve启动 6. 打开 http://localhost:4000 即可看到html形式的讲义书籍 7. 或者可以转成pdf看，命令 gitbook pdf 即可会生成一个叫做 book.pdf的文件转pdf需要安装 calibre-3.46.0.msi 安装好后重新打开命令行执行 gitbook pdf 即可 8. 如果pdf字体过小，可以在讲义目录下找到或者新建 book.json加入如下内容

2020-03-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

gitbook相关.zip

json解析工具.zip

EL表达式所有jar包（包含两个）

generator代码生成工具

taotao大型商城开发环境搭建

.m2解决方法

物联网技术资料

MySQL_5.1_zh.chm

空空如也