梦想画家-CSDN博客

原创快速搞懂时间序列数据平稳检验

在对时间序列数据进行分析预测时，平稳时间序列数据预测效果更好。所以首先要检测数据是否平稳，没有趋势的时间序列数据，我们称为平稳的，即随着时间的推移，表现出恒定的方差，具有恒定的自相关结构。本文介绍如何检测数据集是否平稳的方法，并给出实战过程代码。常用的检测方法有KPSS，Phillips–Perron,和 Augmented Dickey-Fuller，本文主要介绍ADF检测。

2024-02-18 11:30:17 927

RAG可以使用来自外部资源的内容来生成准确的摘要，从而节省大量时间。例如，经理和高级管理人员都是忙碌的人，他们没有时间筛选大量的报告。使用基于RAG的应用程序，他们可以从文本数据中快速获取最关键的发现，并更有效地做出决策，而不必阅读冗长的文档。RAG系统的有效性在很大程度上取决于输入该系统的数据的质量。如果应用程序访问的源内容很差，生成的响应将是不准确的。组织必须提供高质量内容并实践微调过程。对于实际商业应用程序中，在RAG系统中使用数据集之前，非常有必要让业务专家来检查和补充业务空白信息。

2024-01-28 19:23:43 1009

原创用大模型增强数据分析应用

大模型出道即巅峰，它广受欢迎并在很多领域中成为有力的工具，当然包括数据分析领域。你可能不确定如何把大模型整合到你的工作中，如帮助你用数据驱动决策。本文介绍一些思路带你在不同应用场景下使用数据分析提示词。当然不仅局限与ChatGPT，其他国内大模型也一样适用。

2024-01-21 17:21:49 1282 1

原创 AWK快速入门教程

最近看到安装开源软件的相关脚本，其中大量用到AWK相关内容。本文介绍AWK的基础知识及典型用法、结合示例进行说明，方便备忘查询。了解awk基础知识将大大提高命令行上操作文本文件的能力。awk有几种不同的实现。我们将使用awk的GNU实现，它被称为gawk。在大多数Linux系统上，awk解释器只是gawk的符号链接。

2023-09-15 09:08:36 446

原创 Scikit-Learn快速生成分类数据集

现在你学会了使用scikit-learn的make_classification函数生成不同类型数据集了吧。包括二分类或多分类、不平衡数据集、挑战性难分类的数据集等。更多参数可以查看官方文档。

2023-09-13 20:12:40 1493

原创 Python快速检验数据分布

本文介绍了如何利用python进行数据分布检验。，通过官方文档可以进一步学习其他参数的，实现更多数据检验能力。假设检验的前提是确定数据的分布，本文介绍Python检验数据样本是否服从一定分布。使用方法是柯尔莫可洛夫-斯米洛夫检验（Kolmogorov–Smirnov test，K-S test），K-S检验方法适用于探索连续型随机变量的分布，对于离散分布（二项分布和泊松分布）需要使用其他方法进行检验。

2023-08-23 11:59:29 1835

原创用ClickHouse 文件表引擎快速查询分析文件数据

本文介绍了ClickHouse文件引擎的概念和使用方法。利用文件引擎我们快速实现对数据文件的查询统计分析。

2023-08-09 15:28:43 1193

原创快速掌握 Cypher 查询语言

> Cypher是最广泛采用的、开放的、专门用于图数据库查询语言。它提供了一种直观和快速的方式来处理图数据。>> 本文包含一些常见的Cypher查询及其解释。如果你不确定如何编写Cypher查询时，可以查看此文备忘单。如果你是图形数据库和Cypher的新手，你也可以使用这篇文章来熟悉Cypher提供的功能。

2023-07-27 13:55:25 855

原创 Neo4j数据库中导入CSV示例数据

本文简要介绍Neo4j数据库以及如何从CSV文件中导入示例数据，方便我们快速学习测试图数据库。首先介绍简单数据模型以及基本图查询概念，然后通过LOAD CSV命令导入数据，生成节点和关系。

2023-07-26 16:23:54 1555

原创 Python生成中文词云图

本文介绍了Python如何生成词云，主要过程包括加载数据、中文分词、自定义形状、生成词云。上面过程可以进一步改进，如过滤停顿词，保持结果为文件或流，让其他应用直接调用。

2023-07-23 20:55:06 1185

原创 ClickHouse如何处理实时更新

ClickHouse提供丰富的工具集处理实时更新，如：ReplacingMergeTree, CollapsingMergeTree (本文未提及), AggregatingMergeTree 和aggregate 函数。数据通过插入新版本进行修改，插入在ClickHouse中很快有多种有效方法实现类似OLTP中的更新语义实际修改不会立刻发生具体选择哪种方法依赖具体应用场景。ReplacingMergeTree对用户来说是最直接、方便，但一般用于数据量为中小量级或数据仅通过主键查询场景。

2023-07-13 08:29:54 1438

原创介绍几种ClickHouse的集合运算

实际应用中通常需要进行集合运算，如用户画像场景中，给同时复合两个条件集合的用户打标签。本文介绍intersect子句实现交集查询，另外还对比其他方法的实现逻辑。ClickHouse除了提供交集，还有并集和差集功能，实现逻辑一致，了解一个其他也都能理解并应用。

2023-06-28 12:14:57 1711 1

原创在ClickHouse中计算衍生度量

指标的核心任务就是把原始数据转换为专家数据，指标有维度和度量等要素组成，有时为了提高计算效率，会基于指标度量同时定义其衍生度量，一次性计算多个值。如有当月销售额派生出上月销售额、去年同期销售额等。本文通过示例介绍ClickHouse如何实现衍生度量计算。

2023-06-27 15:08:30 1015

原创使用EXPLAIN SYNTAX优化ClickHouse查询语句

ClickHouse 能够自动优化简单查询，可以使用`EXPLAIN SYNTAX`手动优化查询提升性能。虽然ClickHouse能够自动优化一些查询，但对于复杂查询并不能自动优化。基于EXPLAIN SYNTAX进行分析结果并结合查询日志，会对复杂查询优化提供更多的优化思路。

2023-06-25 20:30:00 1126

原创优化索引粒度参数提升ClickHouse查询性能

当对高基数列进行过滤查询时，总是希望尽可能跳过更多的行。否则需要处理更多数据、需要更多资源。ClickHouse缺省在MergeTree表读取8192行数据块，但我们可以在创建表时调整该`index_granularity` 参数。本文通过示例说明如何调整该参数优化查询性能。

2023-06-25 16:12:47 1370

原创 ClickHouse性能调优之排序和数据类型

每个DBA都关心数据库性能调优，我们知道不同数据类型可以描述不能业务场景，同时也影响数据访问和有效存储。ClickHoue支持高级压缩算法提升速度和降低存储成本，优化ClickHoue存储架构提升内存和网络带宽的性能。那我们如何选择压缩算法和数据类型呢？本文通过简单示例说明了排序和选择合适的数据类型，对ClickHouse存占用和处理性能有较大影响。

2023-06-20 09:13:16 1806

原创利用投影提升ClickHouse查询性能

本文介绍了排序键对查询的作用，并通过示例对比使用projection提升查询性能，最后也提及如何在命令行下查询性能统计信息。参考文档：https://www.tinybird.co/clickhouse/knowledge-base/improve-performance-inverted-index。

2023-06-19 22:02:09 2239

原创 # 正确删除并理解ClickHouse表和分区

ClickHouse表有一组数据块组成，称为分区和部分，分区是逻辑概念，对应磁盘上的目录，部分对应磁盘上的实际文件。我们可以从表中分离（detach) 分区(partition)或部分(parts)，并没有实际删除数据，意味着数据从表中删除，并没有从磁盘上删除，我们可以在未来某个时刻重新附着分区或部分。

2023-06-17 17:25:54 3678

原创 ClickHouse http错误代码与查询日志

本文介绍如何获取所有ClickHouse http查询错误代码，通过对比错误代码更好理解HTTP请求的响应头信息。另外ClickHouse会在系统表中保留所有查询日志，如何保留查询相对平衡，避免日志过大占用大量磁盘空间。

2023-06-16 17:32:48 3682

原创 ClickHouse APPLY对多列应用相同函数

日常工作中，通常会遇到相同函数需应用至多个列中，导致对多个列编写重复代码，举例：上面示例希望获取日志信息，但对三个bytes结尾的列使用函数，传统写法很冗余。我们可以使用语法，举例：。EXCEPT可以排除一些列。然后使用表达式选择多个列，可以使用正则表达式，举例：。最后使用APPLY修饰符应用函数至前面选择的每个列，举例：。应用流程为：先排除字段列表，然后选择列，最后对选择列应用函数。完整示例为：处理还有，下面通过示例进行分解说明，加深你的理解。首先创建表并插入示例数据：APPLY

2023-06-11 17:11:34 1631 1

原创 ClickHouse数据查询处理高级技巧

本文介绍ClickHouse查询远程服务、多表联合查询、查询特定分区，以及如何交换表和软删除表。这些功能一般RDBMS实现较难，ClickHouse提供的功能可以更高效、更便捷查询处理数据。

2023-06-06 10:54:58 2790

原创 ClickHouse性能调优——压缩和编码算法

本文主要介绍了ClickHouse的压缩类型及编码方法，并测试数据进行压缩率对比分析。根据分析结果，压缩率不仅和压缩算法和编码相关，也和数据类型，基数，数据特征有关。

2023-05-31 17:53:09 3769

原创介绍ClickHouse重要特性——系统表

系统表是ClickHouse的重要特性，主要提供数据库SCHEMA、配置和使用的元数据。主要用于数据库管理、查询优化以及系统监控。通过使用系统表DBA和开发者能优化ClickHouse数据库性能、提升整体效率。

2023-05-27 20:06:19 1866

原创 ClickHouse识别日期范围重叠的记录

结果显示，employee1和employee1有重叠，从 2022-08-05到2022-08-10；类似employee2和employee3也有重叠，从2022-09-08到2022-09-10。实际项目中遇到需要查询记录之间日期范围重叠的记录，因为每条记录都包括开始和结束时间，本质就是查询日期重叠的记录，不需要完全重叠，只有有重叠就满足条件。在ClickHouse中可以在SQL中查询比较每个范围的开始和结束日期，判断是否有任何重叠。对于数据集中包括日期范围，通过这个方法可以有效识别日期重叠的记录。

2023-05-24 08:13:56 1154

原创优化ClickHouse星型模型查询性能

ClickHouse中in查询大多数场景执行效果较好，另外反规范化也能提升性能。物化视图可以实现在插入阶段实时反规范化，但物化视图会增加磁盘空间、并影响插入性能。

2023-05-23 08:49:48 1202

原创利用ClickHouse派生表优化查询性能

本文介绍了ClickHouse派生表，如何显示或隐式创建派生表，利用好派生表不仅可以提升SQL可读性，还可以提升查询性能。

2023-05-22 12:55:50 1203

原创快速学Go依赖注入工具wire

Wire是代码依赖工具，它没有采用反射机制或运行时状态，使用Wire可以有效避免手动编写硬代码依赖。

2023-05-21 20:55:58 1547

原创使用TTL管理ClickHouse数据生命周期

ClickHouse提供强大数据生命周期管理工具实现自动删除、压缩或在不同存储类型中移动。TTL语句可以在表级别配置压缩和保留策略，也可以配置列级ttl策略。参考资料：https://dhqgwvxng9vgy.cloudfront.net/blog/using-ttl-to-manage-data-lifecycles-in-clickhouse。

2023-05-20 16:37:21 3102

原创 Golang实现简单WebSocket服务

我们每天接触到各类应用，如社交、在线文档、直播等，后端都需要使用WebSocket技术提供实时通信能力。本文介绍如何使用Golang实现实时后端WebSocket服务，首先使用Gin框架搭建http服务，然后使用库实现简单后端WebSocket服务，示例实现从0到1的过程，适合初学者快速入门。

2023-05-18 21:29:44 2407

原创 ClickHouse服务端配置最佳实践

Clickhouse 服务端配置包括两个部分：服务配置 (config.xml) 和用户配置 (users.xml)，它们缺省存储在目录下。建议不要改变默认配置文件，把我们的配置放在子目录下的独立文件中，这样更易于维护和升级。/etc/clickhouse-server/users.d – 存放用户配置的子目录./etc/clickhouse-server/config.d – 存放服务配置的子目录./etc/clickhouse-server/conf.d – 存放任何配置的子目录.

2023-05-12 14:41:30 3162

原创 ClickHouse 基于角色访问控制(RBAC)最佳实践

本文介绍ClickHouse RBAC访问控制模型。包括如何启用SQL管理，创建管理员用户，创建角色，授权，细粒度列和行级授权。并通过示例进行验证实现过程。

2023-05-11 13:37:41 984

原创如何在Java中调用Python

本文介绍了如何从Java调用Python脚本，使用jython脚本引擎比ProcessBuilder类更简单。另外Python可以便捷搭建http应用，Java也可以通过HTTP协议直接调用HTTP服务实现交互。参考内容：https://www.baeldung.com/java-working-with-python。

2023-04-30 21:54:45 5620 1

原创使用gopsutil获取OS信息

psutil (process and system utilities)是Python实现的跨平台库，用于获取进程和系统信息工具（CPU, memory, disk, network, sensors)，gopsutil是Go语言实现版本。gopsutil屏蔽了不同系统的差异，有良好的可移植性。另外，通过移植C结构体至Go，gopsutil没有cgo代码，跨平台编译更容易。

2023-04-29 18:08:05 1569

原创比较ClickHouse三种表字段默认值表达式

ClickHouse表字段支持三种默认值表达式的定义方法，分别是DEFAULT、MATERIALIZED和ALIAS。Default其他RDBMS也支持，比较常用，本文注意介绍后两者表达式的差异，并通过示例分别进行介绍。

2023-04-26 08:04:00 2754

原创如何合理使用ClickHouse分区表

在Clickhouse中分区功能实现透明地将表拆分为多个块，并能够独立管理这些块(例如删除它们)。分区键应该始终为低基数表达式(如有几十个值)。不要仅为了提高查询性能而考虑分区，同时也要注意到分区表数据写入性能可能会降低。

2023-04-20 09:20:08 4833

原创 ClickHouse自定义函数实例教程

通过函数封装复杂代码，可以在多个应用场景中复用通过给定输入参数，可以简化测试修改函数定义自动反应至所有函数调用，避免重复维护UDF可以消除重复工作，虽然强大，也不要过度滥用。

2023-04-19 08:13:53 3190

原创 ClickHouse实现大数据探索性分析

ClickHouse提供数学函数、聚集函数用于对大数据量进行探索性分析。，效率更高，通常用于数据分析的初始阶段。min(), max(), avg() and median() 最常用的几个聚集函数avgWeighted(col, weights) 计算加权平均quantile(level)(col) 计算分位数histogram(bins)(col) and bar() 计算并画直方图skewPop(col) 计算偏度，判断数据是否对称uniq(col) 近似唯一值计算。

2023-04-17 16:30:16 2042

原创如何合理选择ClickHouse表主键

基于ClickHouse优化结构和排序数据，正确利用主键索引能节约资源，极大提升查询性能。选择计划在大多数查询中使用的列选择大部分查询需要的列，如主键包含3列，查询包括1列或2列如果查询不确定，首先使用低基数列，然后再使用高基数列，从而获得更好的压缩和提高磁盘利用率参考资料：https://medium.com/datadenys/how-clickhouse-primary-key-works-and-how-to-choose-it-4aaf3bf4a8b9。

2023-04-14 17:27:52 3726

原创优化Key顺序提升ClickHouse查询性能

如果不确定order键顺序，使用低基数列作为第一列，高基数列作为最后列，从而确保第二索引列的查询性能。参考文档：https://medium.com/datadenys/improving-clickhouse-query-performance-tuning-key-order-f406db7cfeb9。

2023-04-14 09:00:00 1266

原创如何给ClickHouse表生成随机真实测试数据

本文介绍了生成随机测试的函数，包括基本语法及一些数据分布函数的应用，这些函数需至少22.10版本。利用这些函数让数据更真实、更贴近实际业务场景。参考资料：https://clickhouse.com/blog/generating-random-test-distribution-data-for-clickhouse官方文档：https://clickhouse.com/docs/en/sql-reference/functions/random-functions#randuniform。

2023-04-13 21:31:13 1586

R实战综合指数评价法示例教程的示例数据

2022-01-08

Spring Cloud Spring Boot and Netflix OSS.pdf

2021-08-26

kafka学习资料合集

Apache Kafka Cookbook(PACKT,2015) kafka-definitive-guide-complete learning-apache-kafka-second-edition 学习kafka的最好资料，希望对你有用。

2020-09-22

嵌套聚集示例数据--nested-data.json

学习elasticsearch嵌套聚集所需的示例数据，方便学习者进行测试。关于城市宠物注册的web应用，系统包括下列一些实体： * City(city, type) * Citizen(occupation,age) * Pet(kind,name,age) city包括多个citizen，citizen包括多个注册pet。

2020-04-04

Elasticsearch Painless Script入门教程--示例数据-sat.json

Elasticsearch Painless Script入门教程--示例数据。自Elasticsearch 5.x 引入Painless，使得Elasticsearch拥有了安全、可靠、高性能脚本的解决方案。Painless是Elastic开发并做了专门的优化，相较之前的脚本更快、安全、易使用、可靠。 Painless脚本的目标是使编写脚本对用户来说无痛，特别是对于来自Java或Groovy环境的用户。可能你还不熟悉Elasticsearch脚本，让我们从基础开始。

2020-03-23

Elasticsearch Painless Script入门教程--示例数据-sat.json

2020-03-23

深入理解 significant terms 和 significant text 分组聚集代码 sports&news.json

深入理解 significant terms 和 significant text 分组聚集代码。地址：https://blog.csdn.net/neweastsun/article/details/104467440

2020-02-23

Elasticsearch聚合分析实战(2)-employees.json

Elasticsearch聚合分析实战(2) 博客地址：https://blog.csdn.net/neweastsun/article/details/104324747

2020-02-15

Effective Java 3rd Edition

Effective Java 3rd Edition,Effective Java 3rd EditionEffective Java 3rd EditionEffective Java 3rd EditionEffective Java 3rd EditionEffective Java 3rd Edition

2018-09-18

kettle生成xml示例

http://blog.csdn.net/neweastsun/article/details/52457290;文章的示例程序。

2016-09-07

YSJSW(Yet Another Java Service Wrapper)

YSJSW(Yet Another Java Service Wrapper) 可以配置java应用为windows服务。

2016-08-30

《在Tomcat上安装部署SAIKU》资源下载

Saiku是一个强大的独立工具，用于查询构建数据集市，如：即席查询报表、图表展示、导出报表成excel或csv格式等。Saiku是基于Mondrian OLAP引擎。本文主要是一步一步解释如何在tomcat下部署saiku，为了让你更好更快的使用。开始之前，假设你已经比较熟悉数据集市数据库，以及如何建立Mondrian Schema。

2015-02-10