卢子墨-CSDN博客

原创解决：Spark以overwrite的方式写ES会造成该索引有一段时间的空窗期问题

【代码】解决：Spark以overwrite的方式写ES会造成该索引有一段时间的空窗期问题。

2024-01-17 21:34:37 300

原创 Pom.xml详解

POM全程，又称项目对象模型。他是Maven工程的基本工作单元，是一个XML（可扩展标记语言）文件，包含了项目的基本信息，用于描述项目如何构建，声明项目依赖等等。执行任务或目标时，Maven会在当前目录中查找 POM并读取从而获取所需的配置信息执行目标，属于项目级别的配置文件。

2023-02-15 16:44:56 12045 5

Kubernetes是一个开源的，用于管理云平台中多个主机上的容器化的应用，Kubernetes的目标是让部署容器化的应用简单高效，Kubernetes提供了应用部署、规划、更新、维护的一种机制。在Kubenetes中，所有的容器均在Pod中运行，一个Pod可以承载一个或者多个相关的容器。同一个Pod中的容器会部署在同一个物理机器上并且能够共享资源。一个Pod也可以包含0个或者多个磁盘卷组（volumes）,这些卷组将会以目录的形式提供给一个容器，或者被所有Pod中的容器共享。主要介绍一些什么知识。

2022-12-23 09:58:12 812

原创 ES的两种认证登录方式： JAVA REST Client/HTTP Client

ES的两种认证登录方式： JAVA REST Client/HTTP Client。

2022-12-14 11:06:09 2216

转载 Spark2.4.1源码解析

2万字硬核spark源码精讲手册

2022-12-09 10:07:03 175

转载 Springboot+Spark(http请求调用spark api，并以集群模式运行)

Springboot+Spark(http请求调用spark api，并以集群模式运行)

2022-11-08 14:37:34 668

转载 springboot基于spark-launcher构建rest api远程提交spark任务

springboot基于spark-launcher构建rest api远程提交spark任务

2022-11-08 14:35:57 150

原创 idea中设置类添加删除线条

在项目中对已经不使用的类class，但是也不想删除，可以使用。标记为过时，添加删除线条。

2022-11-07 11:45:14 1046

转载 The Full Stack

Web Performance Calendar » The Full StackDec 2010by Carlos BuenoOne of my most vivid memories from school was the day our chemistry teacher let us in on the Big Secret: every chemical reaction is a joining or separating of links between atoms. Which links

2022-11-03 09:33:51 258

转载 NFS搭建与自动挂载

默认就有sync，wdelay，hide 等等，no_root_squash 是让root保持权限，root_squash 是把root映射成nobody，no_all_squash 不让所有用户保持在挂载目录中的权限。NFS是network file sytem的缩写，他最大的特点就是可以通过网络，让不同的机器，不同的系统实现文件共享。• no_all_squash：与all_squash取反（默认设置）,保留访问用户的身份uid以及gid,一般只能查看，不能修改，权限问题，但是可以强制保存。

2022-10-28 11:18:05 6912

转载国产数据库梳理

网上对这些数据库介绍有些误导，流传各种说法，比如:流传OB基于MySQL、GaussDB 200/300 和openGauss有啥区别，没办法谁让当前国产数据库太多…TidbPolarDBTDSQLGaussDBOceanBase公司PingCap阿里云腾讯华为阿里历史基于Google Spnner论文实现的原生分布式数据库。

2022-09-28 10:12:46 6310

转载 TiDB、OceanBase、PolarDB-X、CockroachDB二级索引写入性能测评

二级索引是关系型数据库相较于NoSQL数据库的一个关键差异。二级索引必须是强一致的，因此索引的写入需要与主键的写入放在一个事务当中，事务的性能是二级索引性能的基础。本次测试将重点关注不同分布式数据库的索引性能，特别关注业内全局索引的性能与MySQL索引的性能差异。

2022-09-08 14:03:09 388

转载大数据融合初理解

在大数据时代下，数据源是多样的、自然形成的、海量的数据常常是半结构或无结构的。该数据的融合产生的是物理反应，数据属性本质没有改变。比如你的购物数据在京东天猫、通话数据在移动电信、交易数据在银行金融、社交数据在腾讯微信、搜索数据在百度等等。在大数据时代下，数据融合显得非常重要，数据融和是有效整合数据资源、分析挖掘数据价值最直接有效的方式，因此在进行数据融和时也应规避和解决其他问题和不安全因素。数据融合的方式从交互程度来讲，可分为数据组合、数据整合和数据聚合等三个层次，由低到高，逐步实现数据之间的深度交互。

2022-09-06 09:17:16 1991

原创 VMware16安装苹果OS及如何unlock(亲测有效)

vm16的下载下面这个版本即可： https://github.com/DrDonk/unlocker/releases。如果vm已经打开，建议重启电脑。重启之后进入任务管理器，如果进程还有VM的进程要全部杀掉。可以看到已经可以安装苹果系统。等待执行结束退出即可。...

2022-08-08 10:43:13 4080 1

转载 SparkMl之pipeline

一个Pipeline的stages被定义为一个顺序数组。目前这里给出的都是线性的Pipelines，即Pipeline每个stage使用前一stage产生的数据。Pipeline只要数据流图形成有向无环图（DAG），就可以创建非线性的Pipelines。该图目前是基于每个stage的输入和输出列名（通常指定为参数）隐含指定的。如果Pipeline形成为DAG，那么stage必须按拓扑顺序指定。...

2022-07-29 13:56:55 801

转载 spark性能调优：num-executors, execuor-cores, executor-memory

spark性能调优

2022-07-21 10:30:32 2873

原创 Spark on yarn使vcores可以使用多个生效（已解决）

yarn 默认情况下，只根据内存调度资源，所以 spark on yarn 运行的时候，即使通过–executor-cores 指定 core 个数为 N，但是在 yarn 的资源管理页面上看到使用的 vcore 个数还是 1

2022-07-08 14:25:17 636

原创 spark性能调优:执行器内存(executor_memory)、执行器个数(num_executor)、执行器核数(executor_cores)

执行器内存(executor_memory)、执行器个数(num_executor)、执行器核数(executor_cores)

2022-07-07 16:28:52 1355

原创 02 Infini-gateway部署实战+ES热备测试

Infini-gateway部署实战+ES热备测试

2022-06-30 10:56:08 599

原创 01 INFINI-GATEWAY简介

极限网关工作的方式和普通的反向代理一样，我们一般是将网关部署在 Elasticsearch 集群前面，将以往直接发送给 Elasticsearch 的请求都发送给网关，再由网关转发给请求到后端的 Elasticsearch 集群。因为网关位于在用户端和后端 Elasticsearch 之间，所以网关在中间可以做非常多的事情，比如可以实现索引级别的限速限流、常见查询的缓存加速、查询请求的审计、查询结果的动态修改等等。......

2022-06-30 10:33:17 618

原创 Mysql双机热备配置方案原理及实战

Mysql双机热备配置方案原理及实战

2022-06-30 10:14:52 1830

原创 failed to write 1 to memory.kmem.limit_in_by

memory.kmem.limit_in_by

2022-06-20 15:13:49 1553 1

原创云平台发放的虚拟机无法提交spark任务到大数据集群上（双IP）：Service ‘sparkDriver‘ failed after 16 retries...correct binding ...

1 现象描述部分异常： Service 'sparkDriver' failed after 16 retries.......correct binding address.云平台发放的虚拟机包含两个IP，包含虚拟机内部实际的网络地址（ifconfig查看到的内网IP：192.168.xx.xx）和对方访问的IP（绑定的外网虚拟IP：11.11.xx.xx）,想要在云平台外访问虚拟机需要使用外网IP经过一次网络地址转换，直接使用内部IP是无法访问的。所以在当任务提交的时候实际使用的是内部

2022-05-28 16:15:52 427 1

转载 Java SPI详解

1.什么是SPI SPI全称Service Provider Interface，是Java提供的一套用来被第三方实现或者扩展的接口，它可以用来启用框架扩展和替换组件。SPI的作用就是为这些被扩展的API寻找服务实现。2.SPI和API的使用场景 API （Application Programming Interface）在大多数情况下，都是实现方制定接口并完成对接口的实现，调用方仅仅依赖接口调用，且无权选择不同实现。从使用人员上来说，API 直接被应用开发人员使用。 ...

2022-05-09 17:45:37 18592 2

转载 OBS流程图

2022-05-05 17:03:13 669

转载 spark项目实战-电商分析平台

第1章项目概述电商分析平台是对用户访问电商平台的行为进行分析。1.1 项目简介本项目主要讲解一个大型电商网站后台的企业级大数据统计分析平台，该平台以 Spark 为主，对电商网站的流量进行离线和实时的分析。该大数据分析平台对电商网站的各类用户行为（访问行为、购物行为、广告点击行为等）进行复杂的分析。用统计分析出来的数据，辅助公司中的 PM（产品经理）、数据分析师以及管理人员分析现有产品的状况，并根据用户行为分析结果持续改进产品的设计，以及调整公司的战略和业务。最终达到用大数...

2022-03-25 09:53:54 12235 84

转载 Plantuml

程序员绘图工具-Plantuml - 简书

2022-03-23 15:46:28 385

转载图解JanusGraph内部数据存储结构

本文以图解的形式详细介绍了图数据库JanusGraph的内部数据存储结构，包括Vertex/Property/Edge等信息如何存储于HBase数据表中，以及各自的数据格式定义。在前面的文章中，我们介绍了图数据库的基本概念，并对Titan做了简单的介绍。开源Titan项目已经停止更新，JanusGraph是Titan项目的演进产品。到目前为止，JanusGraph与Titan在核心机制上相差不大。JanusGraph/Titan有如下关键设计：支持大规模图数据存储，Titan图数据库是建

2022-03-16 11:44:56 706 1

转载 ES在数据量很大的情况下如何提高查询效率？

一、性能优化的杀手锏——filesystem cache你往es里写的数据，实际上都写到磁盘文件里去了，查询的时候，操作系统会将磁盘文件里的数据自动缓存到filesystem cache里面去。es-search-processes 的搜索引擎严重依赖于底层的filesystem cache，你如果给filesystem cache更多的内存，尽量让内存可以容纳所有的idx segment file索引数据文件，那么你搜索的时候就基本都是走内存的，性能会非常高。性能...

2022-03-16 10:36:16 4050 1

原创 Malformed \uxxxx encoding(亲测解决)

（1）在./m2/文件夹下，找到path-to-the-library，然后删掉（若无此文件，可直接忽略此步骤）；（2）在./m2/repository文件夹下全局搜索:resolver-status.properties文件，将搜索到的所有此文件全部删除，然后重新编译即可。...

2022-03-16 09:23:32 4565 5

转载 atlas元数据存储之janusgraph

导语：Atlas 是一个可扩展的核心基础治理服务集 - 使企业能够有效地和高效地满足Hadoop中的合规性要求，并允许与整个企业数据生态系统的集成。该项目用于管理共享元数据、数据分级、审计、安全性以及数据保护等各个方面，是数据治理的重要组成部分。本文介绍Atlas的存储子系统，分析Atlas的存储模型和各个元数据要素的存储结构。Atlas简介Atlas 是一个可扩展和可扩展的核心基础治理服务集 - 使企业能够有效地和高效地满足 Hadoop 中的合规性要求，并允许与整个企业数据生态系统...

2022-03-15 19:19:30 590

转载 PLEG is not healthy

前言在 Kubernetes 社区中，PLEG is not healthy 成名已久，只要出现这个报错，就有很大概率造成 Node 状态变成 NotReady。社区相关的 issue 也有一大把，先列几个给你们看看：https://stackoverflow.com/questions/53872739/how-to-fix-container-runtime-is-down-pleg-is-not-healthy[1] https://github.com/kubernetes/kubern

2022-03-10 15:30:09 880

转载 atlas源码框架解读

本文转载自：开源血缘分析工具atlas源码讲解 - Tim&Blog - 博客园sql分析器：Antlr (ANother Tool for Language Recognition) 是一个强大的跨语言语法解析器，可以用来读取、处理、执行或翻译结构化文本或二进制文件。它被广泛用来构建语言，工具和框架。Antlr可以从语法上来生成一个可以构建和遍历解析树的解析器。可以参考：Antlr4 入门 - 虾米&老黄牛 - 博客园Apache Atlas版本号：2.0.0从官方网站下载Ap

2022-03-07 17:44:04 1733 2

原创 COS、OBS、OSS对比

对比维度类别具体腾讯云COS 华为云OBS 阿里云OSS 功能 ...

2022-03-04 09:05:42 2412

原创 Oracle、达梦、Gbase 8t、GaussDB（for openGauss）、OceanBase对比分析

序号对比维度类别 Oracle 达梦 Gbase 8s GaussDB（for openGauss） OceanBase 1 总体架构 Share-Nothing 是是是是是列存是是是是是架构图事务性事务保证数据ACID 事务保证数据ACID 事务保证数据ACID 事务保证原子性、强一致

2022-03-03 16:54:46 5372

原创解决：This function has none of DETERMINISTIC, NO SQL, or READS SQL DATA in its de异常

在MySQL中创建函数时出现这种错误的解决方法：mysql> set global log_bin_trust_function_creators=TRUE;

2022-03-03 16:35:48 388

原创 Doris、Clickhouse、Tidb三者对比

序号对比维度类别 Doris Clickhouse TiDB 1 总体架构 Share-Nothing 是是是 2 列存是是是 3 架构内置分布式协议进行元数据同步 Master/Follower/Observer节点类型依赖ZooKeeper进行DDL和Replica同步开源分布式NewSQL数据库 Maste

2022-02-11 08:55:55 8766

原创浅析 TO B 及 TO C

从概念到业务来看 To B 和 To C 产品区别在哪？ - xuyatao - 博客园三大方面，分析 to B和 to C产品的区别 | 人人都是产品经理

2022-01-24 10:51:20 408

原创 Helm-chart解决values.yaml公共变量无法加载command双引号问题

1 问题描述：编写一个应用charts,将一个模板yaml中的command命令提取到values.yaml中，但是在验证的时候发现command命令中包含的双引号无法正常加载，具体如下:values.yaml containers: command: [ "sh","-ce","source /etc/profile"] templates/test.yaml containers: command: { .Values....

2021-12-30 09:43:00 1877

原创 Helm 常用命令

查看版本#helm version查看当前安装的charts#helm list查询 charts#helm search redis安装charts#helm install --name redis --namespaces prod bitnami/redis查看charts状态#helm statusredis删除charts#helm delete --purge redis增加repo#helm repo add stable https...

2021-12-29 16:54:37 1362

json paser 属于idea插件用于解析json

懂得都懂 json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser

2022-04-22

适合hadoop2.9.* 以及 hadoop2.7.* 的winutils.exe_hadoop.dll 配置文件

分别取对应的文件夹下解压，之后将这两个文件替换到 hadoop-2.*.*/bin目录下即可 winutils.exe、hadoop.dll

2019-04-17

《Spark大数据商业实战三部曲：内核解密商业案例性能调优》2018.02出版

（限于文件1.3G大小，分享为云盘下载地址，请自行下载）本书基于Spark2.2.0版本，以Spark商业案例实战和Spark在生产环境下几乎所有类型的性能调优为核心，以Spark内核解密为基石，分为上篇、中篇、下篇，对企业生产环境下的Spark商业案例与性能调优抽丝剥茧地进行剖析。上篇基于Spark源码，从一个动手实战案例入手，循序渐进地全面解析了Spark2.2新特性及Spark内核源码；中篇选取Spark开发中具有代表的经典学习案例，深入浅出地介绍，在案例中综合应用Spark的大数据技术；下篇性能调优内容基本完全覆盖了Spark在生产环境下的所有调优技术。

2019-04-16

TA关注的人

json paser 属于idea插件 用于解析json

适合hadoop2.9.* 以及 hadoop2.7.* 的winutils.exe_hadoop.dll 配置文件

《Spark大数据商业实战三部曲：内核解密 商业案例 性能调优》2018.02出版

spark-2.3.1-bin-hadoop2.9-without-hive.tgz

spark-2.3.1-bin-hadoop2-without-hive.tgz

Python2.7基础教程-乔振梁

spark无法启动，日志无报错信息，具体如图片

json paser 属于idea插件用于解析json

《Spark大数据商业实战三部曲：内核解密商业案例性能调优》2018.02出版