自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

BigData

把时间当做朋友,耐心积累才是龙道!

  • 博客(537)
  • 资源 (8)
  • 收藏
  • 关注

转载 bigdata_flink错误本-错误记录

一,flink集群启动失败。 二,UnsupportedFileSystemSchemeException: Hadoop is not in the classpath/dependencies. 三,javademo错误 四,flink wordcount没有输出 五,Hadoop is not in the classpath/dependencies. 六,结果写入hdfs报错 七,命令行提交per job报错 八,运行滚动窗口demo报错 九,使用flink sql时报错 十,使

2023-04-08 11:47:59 318

原创 Clickhouse_表引擎

Clickhouse表引擎

2022-11-03 23:13:02 759

转载 设计模式参考

设计模式面试题(总结最全面的面试题!!!)_小杰要吃蛋的博客-CSDN博客_常见设计模式面试题。

2022-10-20 10:30:46 240

原创 查看CDH各版本,组件版本信息

https://www.yuque.com/chenyanlong-jljxg/mftwlb/fkblhx

2022-10-19 17:30:22 1273

原创 大数据安全认证

它同样是做细粒度的权限控制。但相比较于Sentry而言,它能支持更丰富的组件,包括于 HDFS, Hive, HBase, Yarn, Storm, Knox, Kafka, Solr and NiFi。Sentry首先是由Cloudera公司内部开发而来的,初衷是为了让用户能够细粒度的控制Hadoop系统中的数据(这里主要指HDFS,Hive的数据)。平台用户的用户认证一般会采用kerberos,负责数据的权限管理一般采用大数据权限管理框架(sentry或是Ranger)。Kerberos认证。

2022-10-19 17:13:13 1257

转载 Hadoop 3.X 纠删码介绍和使用

Hadoop 3.x引入了纠删码技术(Erasure Coding),它可以提高50%以上的存储利用率,并且保证数据的可靠性。

2022-10-18 16:38:51 279

原创 Hbase、Kudu和Clickhouse对比

总结:Hbase更适合非结构化的数据存储;在既要求随机读写又要求实时更新的场景,Kudu+Impala可以很好的胜任,当然再结合CDH就更好了,瓶颈并不在Kudu,而在Impala的Apache部署,特别麻烦。详见 Apache集群安装Impala如果只要求静态数据的极速查询能力,Clickhouse则更好。

2022-10-18 15:55:32 491

原创 CDH平台服务端口号梳理

CDH平台服务端口号梳理

2022-07-11 10:05:36 2266

原创 虚拟机报错:ping不通百度

如果某台Linux服务器ping不通域名, 如下提示: [root@localhost ~]# pingwww.baidu.comping: unknown hostwww.baidu.com首先确定已经连接上路由器,并且路由器能够访问外网,可以通过访问网关进行确定 [root@localhost ~]# ping 8.8.8.8 PING 192.168.1.1 (192.168.1.1) 56(84) bytes of data. 64 bytes from 192.168.1.1: icmp_...

2022-04-06 11:26:57 1137

原创 IDEA快捷键

1)快速生成程序入口:main输入main->回车def main(args: Array[String]): Unit = {}2)自动补全变量:.var输入1.var->回车val i: Int = 23)快速打印:.sout输入1.sout->回车println(1)4)快速生成for循环:遍历对象.for输入1 to 3.forfor (elem <- 1 to 3) {}5)查看当前文件的结构:Ctr.

2022-02-16 22:39:00 647

原创 如何实现通过java实现类似于linux中Tree的输出

如何实现类似于linux中Tree的输出import java.io.File;import java.util.Scanner;public class Tree { public static int depth = 0; public static void main(String[] args) { boolean flag=true; while (flag) { System.out.println("-----

2021-04-09 10:56:12 213

原创 解决VM 与 Device/Credential Guard 不兼容,全网有效解决思路

1,看了微软的官网,每个方法都尝试一下,奈何还是不行。2,最后尝试下面这个博主的方式,okhttps://segmentfault.com/a/1190000023554965

2021-03-17 14:54:53 847 1

原创 zookeeper和kafka的SASL认证

1. 搭建Kafka集群时, 对ZooKeeper认证与权限控制http://ohmycat.me/2019/05/08/kafka-with-zookeeper-authentication.html2. zookeeper和kafka的SASL认证以及生产实践https://developer.aliyun.com/article/7084493. zookeeper(client-server身份认证-SASL配置)https://bbs.huaweicloud.com/blogs

2020-10-27 17:14:41 942

原创 如何给博客园添加动漫人物?

第一步:第二步:在页面找到这个,添加如下代码代码:<script> //鼠标在消息上时jQuery(document).ready(function ($) { $("#message").hover(function () { $("#message").fadeTo("100", 1); });});//鼠标在上方时jQuery(document).ready(function ($) { //..

2020-10-27 15:16:51 1335

原创 leetcode_136_只出现一次的数字

题目路径:https://leetcode-cn.com/problems/single-number/解题思路: public int singleNumber(int[] nums) { int temp=nums[0]; for (int i = 1; i < nums.length; i++) { temp = temp ^ nums[i]; } return temp; ..

2020-10-26 17:15:08 216

原创 技术博客网站收藏

关于spark:http://spark.coolplayer.net/?cat=10

2020-10-12 11:22:48 199

原创 Kafka如何手动维护偏移量?

0:需求描述-手动维护kafka偏移量-做一个单词计数1.环境准备三台虚拟机:node01,node02,node03三台机器已经安装kafka集群。mysql用来存取kafka的偏移量 CREATE TABLE `t_offset` ( `topic` VARCHAR(255) NOT NULL, `partition` INT(11) NOT NULL, `groupid` VARCHAR(255) NOT NULL, `

2020-10-10 17:30:33 801

原创 kafka帮助文档

#启动kafka/export/servers/kafka_2.11-1.0.0/bin/kafka-server-start.sh -daemon /export/servers/kafka/config/server.properties#停止kafka/export/servers/kafka_2.11-1.0.0/bin/kafka-server-stop.sh#查看topic信息/export/servers/kafka_2.11-1.0.0/bin/kafka-t..

2020-10-10 14:10:11 272

原创 hbase参数配置优化

hbase.rootdir  这个目录是region server的共享目录,用来持久化Hbase。URL需要是’完全正确’的,还要包含文件系统的scheme。例如,要表示hdfs中的/hbase目录,namenode运行在namenode.example.org的9090端口。则需要设置为hdfs://namenode.example.org:9000 /hbase。默认:file:///tmp/hbase-${user.name}/hbasehbase.master.port  Hbase...

2020-09-28 14:51:47 661

原创 hbase与redis对比

HBase和Redis的功能上比较相似。都是nosql类型的数据库。但是在适用场景上,两者还是有比较明显的区别的。下面基于读写性能、数据类型、数据量、部署难易、数据可靠性、应用场景、两者的结合等多个维度来比较一下两者。读写性能:HBase写快读慢,HBase的读取时长通常是几毫秒,而Redis的读取时长通常是几十微秒。性能相差非常大。数据类型:HBase和Redis都支持KV类型。但是Redis支持List、Set等更丰富的类型。数据量:Redis支持的数据量通常受内存限制,而H

2020-09-28 14:49:54 779

原创 Apache Hive(3)

Apache Hivejson数据的解析内置函数get_json_object 一次可以解析出一个json值json_tuple 可以解析出多个扩展:如果是json数组呢?思路:想法把json数组转换成为array 交给explode来炸开 结合 json_tuple 来使用regexp_replace('json数组', '\\}\\,\\{','\\}\\;\\{') --把json数组中的分隔符替换成为;regexp_replace('asdas','

2020-09-25 17:30:13 181

原创 Apache Hive(2)

修改表的操作增加分区第一步手动创建新增分区的目录第二步把该分区目录加载到hive表信息中ALTER TABLE t_user_p ADD PARTITION (guojia='riben') location '/user/hive/warehouse/itcast.db/t_user_p/guojia=riben';hive中错误的分类Error while compiling statement 编译期间的错误 sql语法错误 Error while processing

2020-09-25 17:20:13 166

原创 数据仓库 Hive

数据仓库 Hive数据仓库是什么?集成化的数据分析平台如何由来?为了分析数据 分析的结果支持企业的决策特点本身不生产数据 也不消费数据 数据分析的平台4个特性面向主题性主题是一个抽象概念 数据综合体 跟你分析的需求相关集成性确定分析的主题之后 寻找跟主题相关的各个数据源数据 经过抽取转化加载(ETL)最终把数据变成格式统一干净规整的数据 填充数据仓库的主题下面非易失性数仓是数据分析的平台 不是数据创造的平台 分析数据的规律 而不是修

2020-09-25 17:16:51 291

原创 HDFS的其他功能

不同集群之间的数据复制在我们实际工作当中,极有可能会遇到将测试集群的数据拷贝到生产环境集群,或者将生产环境集群的数据拷贝到测试集群,那么就需要我们在多个集群之间进行数据的远程拷贝,hadoop自带也有命令可以帮我们实现这个功能。集群内部文件拷贝scpcd /export/softwares/scp -r jdk-8u141-linux-x64.tar.gz root@node-2:/export/​​​​​​​跨集群之间的数据拷贝distcpcd /export/servers

2020-09-25 14:46:29 169

原创 如何下载cdh版本的软件包

由于cdh版本的所有的软件涉及版权的问题,所以并没有将所有的jar包托管到maven仓库当中去,而是托管在了CDH自己的服务器上面,所以我们默认去maven的仓库下载不到,需要自己手动的添加repository去CDH仓库进行下载,以下两个地址是官方文档说明,请仔细查阅https://www.cloudera.com/documentation/enterprise/release-notes/topics/cdh_vd_cdh5_maven_repo.htmlhttps://www.cloude

2020-09-25 14:37:32 1270

原创 Hadoop MapReduce

Hadoop MapReduce理解mapreduce思想核心:分而治之 先分再合两个阶段map阶段(分):如果任何可以拆分并且没有依赖 那么就把复杂的任务拆分成小任务拆分成小任务之后 可以并行计算 提高处理效率reduce阶段(合):把map阶段的各个局部结果进行汇总 得到最终的结果来源:来源于生活 包括Google和hadoop团队在内 都是把这种思想提炼处理 应用于大数据处理Hadoop MapReduce设计构思如何面对大数据的处理场景

2020-09-25 14:25:19 182

原创 hadoop hdfs

hadoop hdfshdfs特性首先,它是一个文件系统 用于存储文件的 提供统一命名空间的目录树结构 便于用户操作文件系统其次,它是一个分布式文件系统 分布式意味着多台机器 当中有不同的角色 各司其职 共同配合。master slave 主从架构主角色:namenode 管理文件系统元数据(目录树结构 文件和块的对应信息)从角色:datanode 负责具体数据块存储 定时向nn进行块的汇报分块存储hadoop 2.x block size = 128Mh

2020-09-25 12:47:46 191

原创 Hadoop_1

Hadoop1hadoop是什么狭义上特指Apache 的一款软件 java语言开发 开源软件 大数据问题解决处理平台Hadoop HDFS:分布式文件系统 解决了海量数据存储问题Hadoop MapReduce:分布式计算框架 解决了海量数据的计算问题Hadoop YARN:资源管理任务调度系统广义上特指hadoop 生态圈 包括了大数据解决的各个不同步骤的软件甚至一些非apache 的项目也会处于生态圈中hadoop的优点和应用优点:扩容能

2020-09-25 12:43:10 209

原创 CentOS如何快速安装docker

centos6.x$ sudo yum install http://mirrors.yun-idc.com/epel/6/i386/epel-release-6-8.noarch.rpm$ sudo yum install docker-ioCentOS7.xCentOS7 系统 CentOS-Extras 库中已带 Docker,可以直接安装:$ sudo yum install docker安装成功Docker 服务,设置开机自启动。$ sudo service doc

2020-09-21 19:47:37 171

原创 leedcode_1. 两数之和

问题:给定一个整数数组 nums和一个目标值 target,请你在该数组中找出和为目标值的那两个整数,并返回他们的数组下标。你可以假设每种输入只会对应一个答案。但是,数组中同一个元素不能使用两遍。示例:给定 nums = [2, 7, 11, 15], target = 9因为 nums[0] + nums[1] = 2 + 7 = 9所以返回 [0, 1]解题思路: 这道题本身如果通过暴力遍历的话也是很容易解决的,时间复杂度在 O(n2),由于哈希查找的时间复...

2020-08-22 20:18:29 97

原创 成为一个网络抓取专家以下5个技巧

互联网是21世纪的魔盒。搜索信息很容易。只需在浏览器中输入几个单词,就能获得所需的所有信息。丰富的数据不能转化为有目的或结构化的信息。如果您选择手动组织数据,那么您应该准备好长时间的艰苦工作,以及在此过程中可能出现的错误。这就是web抓取发挥作用的地方。无论你身处哪个行业,你都需要数据——这就是为什么科技公司能从数据中赚大钱的原因。要加入这个行列,你需要提高自己的网络抓取技能。无论你是一个想要提高技能的业余爱好者,还是这个行业的老手,这里有5个技巧可以帮助你成为一个专业的网络...

2020-08-22 09:51:30 237

转载 Python感知器算法的完整指南

Artificial neural networks are highly used to solve problems in machine learning. The perceptron algorithm is the simplest form of artificial neural networks. Machine learning programmers can use it to create a single Neuron model to solve two-class classi

2020-08-22 09:26:37 404

原创 四、Spark性能调优

目录1.常规性能调优常规性能调优一:最优资源配置常规性能调优二:RDD优化RDD复用RDD持久化RDD尽可能早的filter操作常规性能调优三:并行度调节常规性能调优四:广播大变量常规性能调优五:Kryo序列化常规性能调优六:调节本地化等待时长2.算子调优算子调优一:mapPartitions算子调优二:foreachPartition优化数据库操作算子调优三:filter与coalesce的配合使用算子调优四:repartition解决Spar.

2020-07-14 13:54:02 338

原创 三、HBase的优化(后期继续优化)

HBase高可用在HBase中Hmaster负责监控RegionServer的生命周期,均衡RegionServer的负载,如果Hmaster挂掉了,那么整个HBase集群将陷入不健康的状态,并且此时的工作状态并不会维持太久。所以HBase支持对Hmaster的高可用配置。1) 关闭HBase集群(如果没有开启则跳过此步) $ bin/stop-hbase.sh 2) 在conf目录下创建backup-masters文件 $ touch conf/backup-mas

2020-07-14 12:05:53 763

原创 二、Hive调优

目录1.Fetch抓取(默认就有)2.本地模式(小数据集适用)3.表优化小表、大表Join (大表放右边)大表Join大表 (处理空key-过滤/替换)MapJoin (在Map端进行小表join,避免数据倾斜)Group By (Map端聚合,避免Reduce数据倾斜)Count(Distinct) 去重统计 (先group by再count避免job时间过长)避免笛卡尔积 (避免只有一个Reducer)行列过滤 (不使用select *)动态分区调整分区

2020-07-14 10:29:06 220

原创 一、Hadoop企业优化

MapReduce 跑的慢的原因Mapreduce 程序效率的瓶颈在于两点:1)计算机性能 CPU、内存、磁盘健康、网络2)I/O 操作优化(1)数据倾斜(2)map和reduce数设置不合理(3)map运行时间太长,导致reduce等待过久(4)小文件过多(5)大量的不可分块的超大文件(6)spill次数过多(7)merge次数过多等。3)JVM优化:JVM重用mapred.job.reuse.jvm.num.tasks,默认是 1,表示一个 JVM..

2020-07-14 09:35:25 136

转载 神奇的网站

(1)恶作剧大合集1. 在线抠图、证件照生成器 :t.cn/A67EE9UQ2.爱情小说生成器 :http://t.cn/ExN4qpW3.Cp短打生成器 :http://t.cn/Aid6pD1l4.爱豆翻牌体验器:http://t.cn/EoTPp7G5.口罩头像生成器:http://t.cn/A6vsVTFl6.今日吃什么:http://t.cn/zjgiYLq7.记仇表情生成器:http://t.cn/R3ZmNPa8.万能表情包生成器:http://t.cn/Ebu

2020-06-17 16:54:43 2213

原创 Java 语言编码规范(Java Code Conventions)

1 介绍• 1.1 为什么要有编码规范编码规范对于程序员而言尤为重要,有以下几个原因:- 一个软件的生命周期中,80%的花费在于维护- 几乎没有任何一个软件,在其整个生命周期中,均由最初的开发人员来维护- 编码规范可以改善软件的可读性,可以让程序员尽快而彻底地理解新的代码- 如果你将源码作为产品发布,就需要确任它是否被很好的打包并且清晰无误,一如你已构建的其它任何产品为了执行规范,每个软件开发人员必须一致遵守编码规范。每个人。• 1.2 版权声明本文档反映的是 Sun ..

2020-06-16 18:44:43 1302

原创 Git的基本使用

Git的安装与基本操作:10分钟搭建自己的Git仓库:https://mp.weixin.qq.com/s/6GyYlR9lpVcjgYmHMYLi0wIDEA中的Git操作,看这一篇就够了!:码云帮助中心https://gitee.com/help

2020-06-09 09:55:20 134

转载 Elasticsearch干货

Elasticsearch学习,请先看这一篇引用题记:Elasticsearch研究有一段时间了,现特将Elasticsearch相关核心知识、原理从初学者认知、学习的角度,从以下9个方面进行详细梳理。欢迎讨论……1. 带着问题上路——ES是如何产生的?(1)思考:大规模数据如何检索?如:当系统数据量上了10亿、100亿条的时候,我们在做系统架构的时候通常会从以下角度去考虑问题:1)用什么数据库好?(mysql、sybase、oracle、达梦、神通、mongodb、hbas.

2020-05-29 18:36:50 220

gitbook相关.zip

1. 安装node-v10.16.2-x64.msi 2. 命令行执行node -v成功就是安装好了 nodejs 3. 命令行执行npm install gitbook-cli -g 4. 在讲义目录 执行 gitbook serve 5. 如果修改了内容需要 gitbook build 重新生成 然后gitbook serve启动 6. 打开 http://localhost:4000 即可看到html形式的讲义书籍 7. 或者 可以转成pdf看, 命令 gitbook pdf 即可 会生成一个 叫做 book.pdf的文件 转pdf需要安装 calibre-3.46.0.msi 安装好后重新打开命令行 执行 gitbook pdf 即可 8. 如果pdf字体过小,可以 在讲义目录下找到 或者新建 book.json加入如下内容

2020-03-09

json解析工具.zip

json的解析工具一共需要三个包 jackson-annotations-2.2.3.jar,jackson-core-2.2.3.jar,jackson-databind-2.2.3.jar ,我在博客里会有相应的使用教程。

2019-06-23

EL表达式所有jar包(包含两个)

el表达式的资源包,这个资源包和我写的片博客(统计网站的在线人数所对应)

2019-06-20

generator代码生成工具

设计数据库的数据表以后,可以直接根据数据表生成对应的相关实体类的代码.

2019-04-12

taotao大型商城开发环境搭建

近年来,中国的电子商务快速发展,交易额连创新高,电子商务在各领域的应用不断拓展和深化、相关服务业蓬勃发展、支撑体系不断健全完善、创新的动力和能力 不断增强。电子商务正在与实体经济深度融合,进入规模性发展阶段,对经济社会生活的影响不断增大,正成为我国经济发展的新引擎。

2018-05-03

.m2解决方法

Project build error: Non-resolvable parent POM for com.taotao:taotao-common:0.0.1-SNAPSHOT: Could not find artifact com.taotao:taotao-parent:pom:0.0.1-SNAPSHOT and 'parent.relativePath' points at wrong local POM

2018-05-02

物联网技术资料

物联网技术,核心代码,无线网络射频识别技术。

2018-03-21

MySQL_5.1_zh.chm

MySQL帮助文档

2017-06-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除