- 博客(89)
- 问答 (2)
- 收藏
- 关注
原创 数据仓库(13)大数据数仓经典最值得阅读书籍推荐
从事数仓工作,在工作学习过程也看了很多数据仓库方面的数据,此处整理了数仓中经典的,或者值得阅读的书籍,推荐给大家一下,希望能帮助到大家。建议收藏起来,后续有新的书籍清单会更新到这里。书籍推荐《数据仓库工具箱(第3版)——维度建模权威指南》本书会介绍基本知识,然后逐个讨论具体实例内容,最后进行综合总体分析,在内容的结构方面很有特色。本书涉及的行业较多,但这些内容从不同角度体现了数据仓库的各个方面,因而对于完整的学习与掌握数据仓库知识显得十分必要。这本书是数据维度建模的鼻祖,从这个意义上讲,就挺有
2022-05-10 12:16:38 1670 2
原创 Midjourney是什么?Midjourney怎么用?怎么注册Midjourney账号?国内怎么使用Midjourney?多人合租Midjourney拼车
Midjourney是一个由位于美国加州旧金山的同名研究实验室开发之人工智能程序,可根据文本生成图像,于2022年7月12日进入公开测试阶段,用户可透过Discord的机器人指令进行操作。该研究实验室由Leap Motion的创办人大卫·霍尔兹(David Holz)负责领导。合租,也叫“发车”,让你和别人一起分摊账号费用。就像拼车,有一个“车主”和几个“车位”。可以共享一个账号。这样就可以更高性价比,更便宜的使用Midjourney的功能。Midjourney使用教程攻略。
2024-04-20 11:25:02 853
原创 GPT-5:更强的ChatGPT!将在高级推理功能上实现重大进步!GPT-5有哪些功能作用?
自 Claude 3 发布以来,外界对 GPT-5 的期待越来越强。毕竟Claude 3已经全面超越了 GPT-4,成为迄今为止最强大模型。GPT-5:更强的ChatGPT!将在高级推理功能上实现重大进步!国内怎么使用?
2024-04-02 12:43:56 392
原创 中国国内怎么使用订阅升级Duolingo多邻国plus?多邻国使用教程
多邻国(英文名Duolingo)是一款外语学习移动应用,它提供了英语、日语、西班牙语等多国语言的学习课程。该软件采用的是“应用内付费”的形式,再加上其模仿游戏通关式的学习方式,更贴近母语化的内容,在中国推出之后就受到了大量用户的欢迎。在不少外语学习爱好者社群中,许多人还会用App打卡学习的方式相互激励。
2024-03-26 23:30:17 846
原创 国内怎么观看Netflix网飞奈飞?Netflix会员怎么注册订阅?Netflix会员国内观看Netflix攻略
Netflix,作为美国的流媒体播放平台,汇集了全球热门的电视剧和电影资源,支持在电脑和手机上使用,让你随时随地享受高质量影片。然而,对于国内用户来说,如何使用Netflix却是个挑战。不过,别担心,今天我将为大家提供解决方案,让你轻松畅享Netflix的精彩内容。如何在中国使用Netflix?奈飞的海量优质影视内容吸引了大量用户,您是否也想体验一下呢?如果答案是肯定的,那就跟随我们的指南开始您的奈飞之旅吧!
2024-03-26 21:24:15 1510
原创 Python win32com.client.Dispatch打开Word文档并导出为 PDF时失败Command failed
Python win32com.client.Dispatch打开Word文档并导出为 PDF时失败Command failed。解决办法,查看任务管理器,然后找到word应用的进程,杀死即可。解决办法,就是先判断路径是否存在,不存在就创建。
2024-03-12 14:38:05 603 1
原创 国内哪个工具可以平替chatgpt?国内有哪些比较好用的大模型gpt?
当然,我觉得,有机会有能力的话,也是先玩玩chatgpt4.0,这样,你用起国内的大模型的时候,可能好快的差距,你更加清晰,不是说谁好谁不好,就是有个参考物。我自己试用了很多的平台,发现三个比较好的大模型平台,对普通用户也比较的友好的,而且返回内容相对来说,正确率更高的,并且相关场景插件比较丰富的国内厂商。天工是昆仑万维的大模型,首页类似与搜索引擎,还分为AI对话,AI创作,AI阅读三个场景的页面,如果用他来创作和阅读,个人感觉还是很不错的。本文说的,是我自己觉得的,比较有主观的喜欢,大家参考就好。
2024-03-02 21:23:24 1704 2
原创 ClickHouse(24)ClickHouse集成mongodb表引擎详细解析
ClickHouse(24)ClickHouse集成mongodb表引擎详细解析。MongoDB 引擎是只读表引擎,允许从远程 MongoDB 集合中读取数据(引擎只支持非嵌套的数据类型。— MongoDB 服务器地址.— MongoDB 用户.
2024-01-30 20:04:30 1381
原创 ClickHouse(23)ClickHouse集成Mysql表引擎详细解析
MySQL引擎可以对存在远程MySQL服务器上的数据执行SELECT查询。host:portdatabasetableuserpasswordINSERT此时,简单的WHERE子句(例如)是在MySQL服务器上执行。其余条件以及LIMIT采样约束语句仅在对MySQL的查询完成后才在ClickHouse中执行。MySQL引擎不支持NULL值,因此,当从MySQL表中读取数据时,NULL将转换为指定列类型的默认值(通常为0或空字符串)。
2024-01-28 11:02:34 1349
原创 ClickHouse(22)ClickHouse集成HDFS表引擎详细解析
如果指定了hadoop_kerberos_keytab, hadoop_kerberos_principal或者hadoop_kerberos_kinit_command,将会调用kinit工具.在此情况下,hadoop_kerberos_keytab和hadoop_kerberos_principal参数是必须配置的.kinit工具和 krb5 配置文件是必要的.数据节点的安全通信无法由SASL保证 ( HADOOP_SECURE_DN_USER 是这种安全方法的一个可靠指标)。创建具有名为文件的表。
2024-01-27 13:55:44 1348
原创 GPT4.5人工智能即将来临,ChatGPT的正面影响和负面影响(好处和坏处),利弊分析
我们必须意识到ChatGPT的出现是人工智能进步的必然产物。我们不能因为恐惧和忧虑而选择避开或反对这项技术的进步。相反,我们应积极地学习和掌握这项技术,寻找将其应用到自身领域的方法,以提升工作效率和质量。同时,我们也要重视人工智能技术的伦理问题和社会影响,制定合理的政策和标准,确保技术的进步符合社会和道德的利益。ChatGPT的影响既有利也有弊。我们需要以积极的心态来应对这项技术的挑战和机遇,通过学习和应用这一技术来提升我们的工作和生活品质。
2024-01-26 19:27:15 1388
原创 什么是ChatGPT,什么是大模型prompt
ChatGPT是一个由美国的OpenAI公司开发的聊天机器人,它使用了大型语言模型,现在有GPT-3、GPT-3.5、GPT-4.0多个版本,目前还在快速发展,通过监督学习和强化学习进行了微调。它可以根据用户的提示执行各种语言任务,例如回答问题、编写或调试代码、创作音乐和文本等。目前ChatGPT广义上已经是一个代名词,指代通过大型语言模型,开发出的智能聊天机器人,国内的大公司,目前通过大模型也出了很多相应的应用,比较出名的有百度的文心一言、阿里的通义千问、华为的盘古大模型、以及讯飞的星火等。
2024-01-16 22:40:26 872
原创 ClickHouse(21)ClickHouse集成Kafka表引擎详细解析
以下kafka_format是支持的格式,ClickHouse可以接受和返回各种格式的数据。受支持的输入格式可用于提交给INSERT语句、从文件表(File,URL,HDFS或者外部目录)执行SELECT语句,受支持的输出格式可用于格式化SELECT语句的返回结果,或者通过INSERT写入到文件表。对于使用了kerberos的kafka, 将security_protocol 设置为sasl_plaintext就够了,如果kerberos的ticket是由操作系统获取和缓存的。将数据转换为所需要的格式。
2024-01-12 21:01:16 1404
原创 Chunjun纯钧(Flinkx)同步任务开发通用配置参数详解
Chunjun纯钧(Flinkx)是一款稳定、易用、高效、批流一体的数据集成框架,目前基于实时计算引擎Flink实现多种异构数据源之间的数据同步与计算,支持JSON模版配置任务,兼容FlinkSQL语法。本文对chunjun同步任务的配置文件进行详细的介绍和总结。
2024-01-07 11:09:03 1262
原创 ClickHouse(20)ClickHouse集成PostgreSQL表引擎详细解析
这样创建,可以在同一列的不同表行中包含不同维度的多维数组。但是在 ClickHouse 中,只允许在同一列的所有表行中包含相同维数的多维数组。PostgreSQL 引擎允许 ClickHouse 对存储在远程 PostgreSQL 服务器上的数据执行。采样约束都是在 PostgreSQL 的查询结束后才在ClickHouse中执行的。要小心 - 一个在 PostgreSQL 中的数组数据,像。的方式在只读 PostgreSQL 事务中运行,每次。的方式在 PostgreSQL 事务中运行,每条。
2024-01-02 20:00:17 1400
原创 ClickHouse(19)ClickHouse集成Hive表引擎详细解析
Hive引擎允许对HDFS Hive表执行 `SELECT` 查询。当ClickHouse为远程文件系统启用了本地缓存时,用户仍然可以选择不使用缓存,并在查询中设置。我们强烈建议您为远程文件系统启用本地缓存。基准测试显示,如果使用缓存,它的速度会快两倍。Parquet:支持所有简单标量列类型;Hive引擎允许对HDFS Hive表执行。— Hive Metastore 地址。-文本:只支持简单的标量列类型,除了。ORC:支持简单的标量列类型,除了。在使用缓存之前,请将其添加到。
2023-12-23 13:58:13 1868
原创 ClickHouse(18)ClickHouse集成ODBC表引擎详细解析
ODBC集成表引擎使得ClickHouse可以通过ODBC方式连接到外部数据库.为了安全地实现 ODBC 连接,ClickHouse 使用了一个独立程序. 如果ODBC驱动程序是直接从中加载的,那么驱动问题可能会导致ClickHouse服务崩溃。当有需要时,ClickHouse会自动启动。ODBC桥梁程序与来自相同的安装包.该引擎支持Nullable数据类型。
2023-12-18 16:46:15 1312
原创 ClickHouse(17)ClickHouse集成JDBC表引擎详细解析
允许CH通过JDBC连接到外部数据库。要实现JDBC连接,CH需要使用以后台进程运行的程序。该引擎支持Nullable数据类型。
2023-12-11 19:23:32 1362
原创 ClickHouse(16)ClickHouse日志引擎Log详细解析
`Log` 引擎为表中的每一列使用不同的文件。`StripeLog` 将所有的数据存储在一个文件中。因此 `StripeLog` 引擎在操作系统中使用更少的描述符,但是 `Log` 引擎提供更高的读性能。`TinyLog` 引擎是该系列中最简单的引擎并且提供了最少的功能和最低的性能。`TinyLog` 引擎不支持并行读取和并发数据访问,并将每一列存储在不同的文件中。它比其余两种支持并行读取的引擎的读取速度更慢,并且使用了和 `Log` 引擎同样多的描述符。你可以在简单的低负载的情景下使用它。
2023-12-04 17:01:58 1449
原创 ClickHouse(15)ClickHouse合并树MergeTree家族表引擎之GraphiteMergeTree详细解析
GraphiteMergeTree该引擎用来对Graphite数据(图数据)进行瘦身及汇总。对于想使用ClickHouse来存储Graphite数据的开发者来说可能有用。如果不需要对Graphite数据做汇总,那么可以使用任意的ClickHouse表引擎;但若需要,那就采用GraphiteMergeTree引擎。它能减少存储空间,同时能提高Graphite数据的查询效率。该引擎继承自MergeTree.
2023-09-21 19:15:33 453
原创 如何在工作中利用Prompt高效使用ChatGPT
AI 不是来替代你的,是来帮助你更好工作。用better prompt使用chatgpt,替换搜索引擎,让你了解如何在工作中利用Prompt高效使用ChatGPT。
2023-07-24 08:25:23 2039
原创 大数据面试题集锦-Hadoop面试题(五)-优化
你准备好面试了吗?这里有一些面试中可能会问到的问题以及相对应的答案。如果你需要更多的面试经验和面试题,关注一下"张飞的猪大数据分享"吧,公众号会不定时的分享相关的知识和资料。
2023-04-09 15:05:56 179 1
原创 大数据面试题集锦-Hadoop面试题(四)-YARN
(1)默认的调度器FIFOHadoop中默认的调度器,它先按照作业的优先级高低,再按照到达时间的先后选择被执行的作业。(2)计算能力调度器Capacity Scheduler支持多个队列,每个队列可配置一定的资源量,每个队列采用FIFO调度策略,为了防止同一个用户的作业独占队列中的资源,该调度器会对同一用户提交的作业所占资源量进行限定。调度时,首先按以下策略选择一个合适队列:计算每个队列中正在运行的任务数与其应该分得的计算资源之间的比值,选择一个该比值最小的队列;
2023-02-28 22:04:53 544
原创 大数据面试题集锦-Hadoop面试题(三)-MapReduce
你准备好面试了吗?这里有一些面试中可能会问到的问题以及相对应的答案。如果你需要更多的面试经验和面试题,关注一下"张飞的猪大数据分享"吧,公众号会不定时的分享相关的知识和资料。
2023-02-06 20:00:38 295
原创 大数据面试题集锦-Hadoop面试题(二)-HDFS
你准备好面试了吗?这里有一些面试中可能会问到的问题以及相对应的答案。如果你需要更多的面试经验和面试题,关注一下"张飞的猪大数据分享"吧,公众号会不定时的分享相关的知识和资料。
2023-01-16 21:08:12 459
原创 利用WordPress搭建属于自己的网站
怎么用WordPress给自己搭建了一个网站?可能很多人都想拥有属于自己的网站,这篇文章就找你怎么利用WordPress搭建属于自己的网站。如果你也正好有搭建个人网站的想法,那么本文会给你一个参考,我尽量写的比较详细,给自己做一个记录,也给大家一个参考。
2022-12-26 20:22:12 1758
原创 ClickHouse(14)ClickHouse合并树MergeTree家族表引擎之VersionedCollapsingMergeTree详细解析
VersionedCollapsingMergeTree引擎继承自MergeTree并将折叠行的逻辑添加到合并数据部分的算法中。VersionedCollapsingMergeTree用于相同的目的折叠树但使用不同的折叠算法,允许以多个线程的任何顺序插入数据。特别是,Version列有助于正确折叠行,即使它们以错误的顺序插入。相比之下,CollapsingMergeTree只允许严格连续插入。
2022-11-11 22:42:26 1169 1
原创 ClickHouse(13)ClickHouse合并树MergeTree家族表引擎之CollapsingMergeTree详细解析
该引擎继承于MergeTree,并在数据块合并算法中添加了折叠行的逻辑。CollapsingMergeTree会异步的删除(折叠)这些除了特定列Sign有1和-1的值以外,其余所有字段的值都相等的成对的行。没有成对的行会被保留。因此,该引擎可以显著的降低存储量并提高SELECT查询效率。简单来说就是,clickhouse会自动的合并有效和无效的数据,减少数据存储,并减少update所产生的性能消耗。具体的逻辑,下面介绍。
2022-10-24 19:37:13 1589
原创 ClickHouse(12)ClickHouse合并树MergeTree家族表引擎之AggregatingMergeTree详细解析
AggregatingMergeTree引擎继承自 MergeTree,并改变了数据片段的合并逻辑。ClickHouse会将一个数据片段内所有具有相同主键(准确的说是排序键)的行替换成一行,这一行会存储一系列聚合函数的状态。可以使用AggregatingMergeTree表来做增量数据的聚合统计,包括物化视图的数据聚合。AggregatingMergeTree适用于能够按照一定的规则缩减行数的情况。
2022-10-07 22:00:00 1671 1
原创 ClickHouse(11)ClickHouse合并树MergeTree家族表引擎之SummingMergeTree详细解析
SummingMergeTree引擎继承自MergeTree。区别在于,当合并SummingMergeTree表的数据片段时,ClickHouse会把所有具有相同主键的行合并为一行,该行包含了被合并的行中具有数值数据类型的列的汇总值。如果主键的组合方式使得单个键值对应于大量的行,则可以显著的减少存储空间并加快数据查询的速度。一般SummingMergeTree和MergeTree一起使用。
2022-10-06 22:00:00 1139
原创 ClickHouse(10)ClickHouse合并树MergeTree家族表引擎之ReplacingMergeTree详细解析
创建ReplacingMergeTree表的参数中,与MergeTree不同的是[ver]。在数据合并的时候,ReplacingMergeTree 从所有具有相同排序键的行中选择一行留下:如果ver列未指定,保留最后一条。ReplacingMergeTree是另外一个常用的表引擎,ReplacingMergeTree和MergeTree的不同之处在于它会删除排序键值相同的重复项。因此,ReplacingMergeTree适用于在后台清除重复的数据以节省空间,但是它不保证没有重复的数据出现。
2022-10-05 22:30:23 1441
原创 ClickHouse(09)ClickHouse合并树MergeTree家族表引擎之MergeTree引擎详细解析
Clickhouse中最强大的表引擎当属MergeTree(合并树)引擎及该系列(MergeTree)中的其他引擎。MergeTree系列的引擎被设计用于插入极大量的数据到一张表当中。数据可以以数据片段的形式一个接着一个的快速写入,数据片段在后台按照一定的规则进行合并。相比在插入时不断修改(重写)已存储的数据,这种策略会高效很多。
2022-10-03 20:46:13 1431 1
原创 ClickHouse(08)ClickHouse表引擎概况
目前ClickHouse的表引擎主要有下面四个系列,合并树家族、日志引擎系列、集成的表引擎和其他特殊的引擎。#合并树家族Clickhouse中最强大的表引擎当属MergeTree(合并树)引擎及该系列(MergeTree)中的其他引擎。MergeTree系列的引擎被设计用于插入极大量的数据到一张表当中。数据可以以数据片段的形式一个接着一个的快速写入,数据片段在后台按照一定的规则进行合并。相比在插入时不断修改(重写)已存储的数据,这种策略会高效很多。#日志引擎系列。
2022-10-02 21:57:15 846 1
原创 猿创征文|python连接操作达梦数据库
DMPython 是 DM 提供的依据 Python DB API version 2.0 中 API 使用规定而开发的数据库访问接口。DMPython 实现这些 API,使 Python 应用程序能够对 DM 数据库进行访问。DMPython 通过调用 DM DPI 接口完成 Python 模块扩展。在其使用过程中,除 Python 标准库以外,还需要 DPI 的运行环境。获取达梦 python 驱动源码并解压。DM 数据库:DM 8.0 及以上版本。
2022-10-01 22:31:52 2543
原创 ClickHouse(07)ClickHouse数据库引擎解析
ClickHouse几种数据库引擎,已经对应的特点和应用的场景。数据库引擎允许您处理数据表。默认情况下,ClickHouse使用Atomic数据库引擎。它提供了可配置的table engines和SQL dialect。目前的数据库引擎:* MySQL* MaterializeMySQL* Lazy* Atomic* PostgreSQL* MaterializedPostgreSQL* Replicated* SQLite
2022-09-26 16:30:16 606
原创 ClickHouse(06)ClickHouse建表语句DDL详细解析
DEFAULT是在插入的时候计算填充,MATERIALIZED和ALIAS是在查询的时候,或者说用到的时候填充,而EPHEMERAL,有点类似于我们在建表的时候,创建一个变量,一个代码块。特殊编码与通用的压缩算法相比,区别在于,通用的LZ4和ZSTD压缩算法是普适行的,不关心数据的分布特点,而特殊编码类型对于特定场景下的数据会有更好的压缩效果。无论是列级别还是表级别的TTL,都需要依托某个DateTime或Date类型的字段,通过对这个时间字段的INTERVAL操作,来表述TTL的过期时间。
2022-09-16 17:17:46 2329
原创 数据仓库数据治理数据管理实践心得
聊聊对数据治理开发实践的一些思路,聊聊怎么开始去做数据治理这件事情。说起数据治理,有时候虽然看了很多文章,看了很多的介绍,了解数据治理的理论,但是实际上需要我们去搞的时候,就会踩很多的坑。这里记一下自己做数据治理的一些思路,做做笔记,也分享给需要的同学。当然,想要做数据治理,想要学习了解,一下数据治理的范围,理论等,一般来说数据治理的范围包含下面几个部分。那接下来就继续说说数据治理的一些思路心得。接到数据治理的任务?要怎么做?
2022-09-16 16:35:10 246
原创 ClickHouse(05)ClickHouse数据类型详解
ClickHouse属于分析型数据库,ClickHouse提供了许多数据类型,它们可以划分为基础类型、复合类型和特殊类型。其中基础类型使ClickHouse具备了描述数据的基本能力,而另外两种类型则使ClickHouse的数据表达能力更加丰富立体。
2022-09-02 12:12:59 2502
原创 linux如何配置ssh密钥登录
ssh-keygen为ssh生成、管理和转换认证密钥,ssh-keygen命令用于为“ssh”生成、管理和转换认证密钥,它支持RSA和DSA两种认证密,SSH 密钥默认保留在 ~/.ssh 目录中。这里需要注意,如果 authorized_keys 文件、$HOME/.ssh 目录 或 $HOME 目录让本用户拥有者之外的用户有写权限,那么 sshd 就会拒绝使用 ~/.ssh/authorized_keys 文件中的 key 来进行认证。购买的服务器设置密码很容易被暴力破解,用密钥登录安全很多。...
2022-08-03 20:15:36 1761
腾讯邮箱垃圾邮箱解密-机器学习之贝叶斯分类.docx
2024-01-24
微信小程序练手项目-公众号热门文章信息流(完整代码)
2024-01-12
微信小程序练手项目-图片展示类app(完整代码)-demo
2024-01-06
微信小程序练手项目-电子商城app(完整代码)
2024-01-06
微信小程序练手项目-技术社区小程序(完整代码)-demo
2024-01-06
微信小程序练手项目-诗词展示小程序(完整代码)
2024-01-06
微信小程序练手项目-小闹钟(完整代码)-demo
2024-01-06
微信小程序练手项目-音乐播放器(完整代码)
2024-01-06
微信小程序练手项目-小游戏狼人杀(完整代码)
2024-01-06
微信小程序练手项目-小程序贪吃蛇小游戏(完整代码)
2024-01-06
微信小程序练手项目-吃货菜谱APP(完整代码)-菜谱小程序
2024-01-06
微信小程序练手项目-2048小游戏(完整代码)
2024-01-06
微信小程序练手项目-知乎日报(完整代码)
2024-01-06
全国手机号码归属地信息,包含移动联动电信
2024-01-06
VB6.0教程-从入门到精通.ppt
2024-01-03
Hbase面试练手题经典常见的面试题
2024-01-03
大数据治理平台解决方案
2024-01-03
基于引文内容分析的引用情感识别研究.pdf
2024-01-03
RGB颜色对照表大全.docx
2024-01-03
网站小图标简历小图标400多个精美实用图标.docx
2024-01-03
大数据面试宝典 .docx
2024-01-03
微信公众平台开发流程.docx
2024-01-03
php集成开发环境搭建.docx
2024-01-03
Java内存与垃圾回收调优.docx
2024-01-03
HashMap底层实现原理HashMap与HashTable区别HashMap与HashSet区别.docx
2024-01-03
C语言终极面试宝典.docx
2024-01-03
c语言编程经典例题.docx
2024-01-03
25个经典的Spring面试问答
2024-01-03
java-python-web-爬虫等程序员简历精美单页模板
2024-01-03
大数据学习进阶实战大纲,学习路径
2023-12-23
swot数据分析模板swot分析模板swot-analysis.xlsx
2023-12-23
2022年中华人民共和国县以上行政区划代码
2023-11-16
gpedit.msc自动修复安装脚本
2023-09-27
sparkSQL底层实现原理-sparkSQL调优资料包附课件、代码、资料
2022-10-08
TA创建的收藏夹 TA关注的收藏夹
TA关注的人