Smile to everyday-CSDN博客

原创 ubantu上如何使用rpm

rpm文件在ubantu中使用遇到的问题

2022-05-24 23:11:22 1630

原创创建linux虚拟机配置DNS1如何配置

一、windows环境中启动黑窗口按住快捷键win+R 输入cmd命令二、复制address后面的地址复制地址粘贴到/etc/sysconfig/network-scripts/ifcfg-ens33文件里配置注释：有些后面是没有双引号直接写的也是可以的...

2022-04-10 21:54:02 2265

原创 DBeaver或者navicat等批量执行sql脚本

如何使用连接工具实现批量执行sql

2022-03-29 10:55:02 3483

原创 python安装第三方包的两种方式【conda和pip】

python安装第三方包的第一种方式【conda命令】安装前提需要安装anaconda，可以参考博主其他博客anaconda安装教程安装第三包方式单机右键已管理员身份运行Anaconda Prompt命令以安装basemap第三方包为例输入命令conda install basemap用pip函数安装输入命令pip install numpy...

2021-08-22 17:26:51 264

1.1 DorisDB是什么DorisDB是一款经过业界检验、现代化，面向多种数据分析场景的、兼容MySQL协议的、高性能分布式关系型列式数据库。DorisDB脱胎于百度广告业务的实时分析场景，于2018贡献于Apache开源社区，之后在美团，小米，字节跳动，京东等互联网企业被适用于核心业务实时数据分析，得到了工业界的检验。DorisDB充分吸收关系型OLAP数据库和分布式存储系统在大数据时代的优秀研究成果，并在业界实践的基础上，进一步改进优化，架构升级和添加新功能，形成了全新的

2021-08-13 11:10:07 8250

原创 Anaconda 安装教程【配有安装包】

Anaconda安装包下载链接：Anaconda windows64位安装包链接提取码：lyq6Anaconda安装步骤以管理员身份打开安装程序点击Next点击 I Agree选择用户使用权限，这里没有特殊要求，所以我选择了all Users，然后选择next选择安装目录，点击next此步骤什么都不选择，点击Install 安装成功点击next验证是否安装成功点击打开下图圈红的文件输入conda验证，出现下图表示成功...

2021-08-04 11:48:00 3124 1

原创 python发送邮件代码+注释(带数据库，纯发送邮件看博主其他博客)

代码功能利用python查询数据库，发送报警邮件的案例案例演示import smtplibfrom email.mime.text import MIMETextfrom email.header import Headerfrom email.mime.multipart import MIMEMultipartimport pymysqlfrom datetime import timedelta, date,datetime# from impala.dbapi import con

2021-05-11 17:23:17 379

原创 clickhouseMergeTree系列引擎之SummingMergeTree

SummingMergeTree引擎功能介绍根据排序见对数值类型的列进行汇总求和相同排序见的行合并为一行。如果一个排序键对应大量的行，则该引擎能显著减少存储空间并加快数据查询速度。建议该引擎于MergeTree引擎结合使用。完整的数据存储在MergeTree表中，使用SummingMergeTree存储聚合数据，可以防止排序键的组合不正确而丢失有价值的数据。指定表引擎ENGINE = SummingMergeTree([columns])参数: columns,具有列名称的元组，其中的值

2021-04-02 11:09:20 429

原创 clickhouse输入输出格式之CSV---分隔符换成别的，如何导入数据

将数据上传至服务器输入命令cat table.csv | clickhouse-client -m -h 172.29.88.93 -u default --password shuqinkeji --format_csv_delimiter="$" --query="insert into tssl.table FORMAT CSV"可以使用 --format_csv_delimiter 去指定使用的是什么分隔符。...

2021-04-01 18:13:44 3355 4

原创 clickhouse踩过的坑-----建表建库on cluster命令使用超时（code:159）distributed_ddl_task_timeout (=180) seconds

建库建表语句create database test on cluster clickhouse_cluster;报错信息↘ Progress: 0.00 rows, 0.00 B (0.00 rows/s., 0.00 B/s.) Received exception from server (version 20.1.4):Code: 159. DB::Exception: Received from localhost:9000. DB::Exception: Watching task /

2021-03-28 18:27:07 5905

原创 clickhouseMergeTree系列引擎之ReplacingMergeTree

ReplacingMergeTree的作用删除据有相同排序键值的重复项。数据去重是在合并期间进行的后台的合并操作在未知的时间出发，因此用户无法对合并进行计划。可使用OPTIMEZE语句运行计划外的合并，但OPTIMIZE是一个很重要的操作。ReplacingMergeTree适合清除后台的重复数据以节省空间。指定表引擎：ENGINE - ReplaceMergeTree[ver]参数：ver，版本列。版本列的类型为UInt*、Date或DateTime。可选参数。合并的时候，Repla

2021-03-24 11:22:22 1478

原创 clickhouse 数据标记的工作机制

数据存储bin文件是真正存储数据的文件bin文件的数据是按照排序建排序后存储的一个bin文件由N个压缩数据块组成。一个压缩数据块存储压缩前大小为64K~1M子节的数据。数据标记mkt文件是存储数据标记的文件。存储索引标记、压缩数据块在BIN文件的偏移量、解压缩数据块的偏移量。假设age字段，每个值占用1子节空间，在该列则一个索引粒度范围内占用8192*1子节 = 8192子节 = 8KB。每8(64KB/8KB=8) 个索引粒度，占用一个压缩数据块。压缩数据块的切分规则：一个压缩数

2021-03-24 10:25:06 458

原创 clickhouse 主键、索引的工作机制

MergeTree的稀疏索引数据按照主键排序后存储的每个索引记录对应8192条(由index——grandularity指定) 记录索引是常驻内存的。索引的生成过程索引由Primary Key指定。索引数据保存在primary.idx文件中。这里假设索引力度(index_grandularity)为3，即每3条数据生成一条索引记录。索引的查询前后相邻的两个索引的值，构成索引的范围根据主键的查询条件，确定索引范围。id in (‘A02’,‘A08’),转化为索引范围区间[A01

2021-03-24 09:57:01 1728

原创 clickhouse自定义分区及底层存储合并机制

自定义分区键分区是在建表时使用PARTITION BY expr 自居指定。分区键可以是表列中的任何表达式。例如，按月指定分区：PARTITION BY toYYYYMM(date_column).使用元组指定分区：PARTITION BY(toMondat(StartDate),EventType)在将新数据插入表中时，每个分区的数据存储为单独的数据片段(每个数据片段的数据是按逐渐排序的)，在插入后的10~15分钟内，同一个分区的数据片段将合并为一个整体的数据片段。分区目录的命名规则

2021-03-19 18:25:46 2451

原创 MergeTree系列引擎概述与存储结构

MergeTree系列引擎介绍MergeTree系列引擎事clickhouse中最强大的表引擎数据按照片段被一批批写入表数据片段在后台按照一定规则进行合并。主要特性数据按照主键排序，稀疏索引快速检索数据数据分区增加查询性能数据副本 ReplicatedMergeTree系列的引擎支持数据副本，替身查询性能和容错数据采样设置采样方法，快速分析数据建表模板CREATE TABLE [IF NOT EXISTS] [db.]table_name [ON CLUSTER cluster

2021-03-18 18:30:15 245

原创 clickhouse输入输出格式之不常用数据格式

1. Native数据以二进制数据块的方式进行读写。数据的导出：clickhouse-client --query=“SELECT * FROM tsv_demo FORMAT Native” > a.native数据的导入：clickhouse-client --query=“insert into tsv_demo FORMAT Native” < a.native2. Null主要用于测试性能。查询会被处理，并且数据会被传送到客户端，但是什么也不输出。Null格式只能用于

2021-03-18 16:36:25 351

原创 clickhouse输入输出格式之ORC

ORC数据的输入输出仅支持ORC格式的写入。ORC和CH数据类型的匹配关系ORC data type (INSERT)ClickHouse data typeUINT8, BOOLUInt8INT8Int8UINT16UInt16INT16Int16UINT32UInt32INT32Int32UINT64UInt64INT64Int64FLOAT, HALF_FLOATFloat32DOUBLEFloat64

2021-03-18 16:34:35 486

原创 clickhouse输入输出格式之Parquet

Parquet输入输出格式支持Parquet格式的导出和导入。Parquet和ClickHouse类型的匹配关系Parquet data type (INSERT)ClickHouse data typeParquet data type (SELECT)UINT8,BOOLUInt8UINT8INT8Int8INT8UINT16UInt16UINT16INT16Int16INT16UINT32UInt32UINT32INT32

2021-03-18 16:14:14 907

原创 clickhouse输入输出格式之JSON系列【JSON、JSONCompact和JSONEachRow】

JSONJSON格式的输入输出JSON格式只支持数据的输出，不支持数据的解析（数据导入）。案例演示建表插数据create table t_json_demo(id UInt8, prov String) ENGINE=TinyLog;insert into t_json_demo values(1, 'jiangsu'),(1, 'jiangsu'),(2, 'anhui'),(2, 'anihu'),(3, 'beijing');查询演示以JSON格式查询select id,c

2021-03-18 15:52:35 5360 1

原创 clickhouse输入输出格式之CSV系列【CSV、CSVWithNames】

CSVCSV默认的分隔符为逗号，format_csv_delimiter设置自定义的分隔符。CSV中的双引号使用两个双引号转义。支持数据的查询和数据导入的。案例演示clickhouse中建表create table csv_demo(create_date Date, update_time DateTime, desc String) ENGINE=TinyLog;数据导入数据准备# 创建csv_demo.csv文件vim csv_demo.csv# 填入以下数据2014-0

2021-03-17 18:06:21 2640

原创 clickhouse输入输出格式之TSKV格式

TSKV需要了解的点TSKV格式不适合有大量小列的输出.(因为每一行都是需要输出key，value，会比较浪费)TSKV的效率并不比JSONEachRow差.TSKV支持数据查询和数据导入。不需要保证列的顺序。支持忽略某些值，这些列使用默认值，例如0和空白行。复杂类型的值必须指定，无法使用默认值。数据的查询数据的产生https://blog.csdn.net/lyq7269/article/details/114937643?spm=1001.2014.3001.5501数据的查询s

2021-03-17 17:50:11 163

原创 clickhouse输入输出格式之TabSeparated系列【TabSeparated、TabSeparatedRaw、TabSeparatedWithNames和TabSeparatedWith】

TabSeparated(默认格式，简写：TSV)数据的导入导出数据按行写入，tab制表符分隔。使用严格Unix命令行。注意注意：最后一行必须包含换行符。格式的适用范围数据插入和数据查询时，均可使用。案例演示进入clickhouse 创建数据库创建数据表clickhouse-client -m#进入clickhouse创建数据库create database if not exists test;#创建所需表use test;CREATE TABLE tsv_demo(srcip

2021-03-17 17:31:39 4697

原创 sqoop导出mysql数据到hive中，因mysql中string类型字段中含有换行符导致拉取到hive，格式不正确，出现错误等现象

问题描述sqoop拉取mysql数据到hive中出现现象mysql数据到hive结构不对了，被打散了，变成一行一行中只有第一列有数据，其他均为null。或者压根就直接报错sqoop Opening field-encloser expected at position 0出现原因因为mysql某个字段中出现换行符，导致数据拉取时出现还没有拉去完直接进行了换行，算作下一行数据的开头。解决办法再sqoop拉取命令中加上这样一个命令--hive-drop-import-delims这条命令

2021-03-12 14:36:15 458

原创 sqoop数据导入hive及到处到mysql

条件准备复制jar包到sqoop的lib目录下#复制hive的jar包cp /opt/software/hive110/lib/hive-common-1.1.0-cdh5.14.2.jar /opt/software/sqoop146/libcp /opt/software/hive110/lib/hive-shims* /opt/software/sqoop146/libmysql数据导入hivesqoop import \--connect jdbc:mysql://localhost

2021-03-12 11:36:20 203

原创 clickhouse单机安装【安装文件百度云盘提供，无需官网下载，也不收费】

安装文件及官方演示数据下载安装文件下载链接：https://pan.baidu.com/s/1n0myvXxfBQVUwJm9qnJ9gA 提取码：y9q4官方演示数据下载链接：https://pan.baidu.com/s/1Gk7Vf68yMvwvJFwW2ie-VQ 提取码：osm5安装及卸载操作安装方式一:rpm命令安装rpm -ivh *.rpm方式二：yum命令安装yum install *.rpm两者区别yum在安装过程中如果有没有安装的依赖，会自动安装上去

2021-03-11 15:22:03 742

原创 dolphinscheduler调度hive

找到dolphinscheduler的lib目录，移除hive*.jar原因：可能hive的jar包与你自己安装的jar包不同，这时需要将你自己的hive下相应的jar包放入进来。操作命令cd /opt/dolphinscheduler/lib/mv hive* /tmp 这里最好是移动到tmp目录下，不要删除，删除也没关系将自己安装的hive下的lib目录下的jar包复制到dolphinscheduler的lib目录下需要复制的jar包，对应的命令（目录有变化自行修改）cp /o

2021-03-11 14:59:25 2587 3

原创 hive分布式搭建【带有hive配套博客的安装包，在hive单节点演示链接中】

hive分布式搭建首先hive单机搭建注：现在master机器上搭建，并初始化生成mysql中hive数据库参考博主的单机搭建博客试一试（里面包含了安装包无需寻找对应安装包）hive单机安装教程，简单实用hive集群搭建在server节点上进行安装hive，配置hive-site.xml文件，并且配置相应的环境变量等。但是不要进行初始化，即使你进行了也不会成功，但最好别这样做。配置hive-site.xml文件有变化<?xml version="1.0"?><?xml-

2021-03-11 13:58:16 125

原创 dolphinscheduler 如何在安装时配置邮箱【以qq邮箱为例】

dolphinscheduler配置邮箱打开qq邮箱点击设置、再点击账户往下拉找到下图所示，打开途中圈出的两个的服务生成授权码，并复制授权码将授权码粘贴至一键部署配置文件()中(找到下文中字段，双引号中内容替换成授权码)# sender password# 邮箱密码，这里是开启协议后服务商提供的密码# note: The mail.passwd is email service authorization code, not the email login password.ma

2020-12-21 10:33:09 899

原创 dolphinscheduler集群搭建1.3.2版本【步骤详细，且有说明，配备安装包下载连接及配套软件安装链接】

dolphinscheculer集群搭建前期铺垫dolphinscheduler简单介绍Apache DolphinScheduler是一个分布式去中心化，易扩展的可视化DAG工作流任务调度系统。致力于解决数据处理流程中错综复杂的依赖关系，使调度系统在数据处理流程中开箱即用。高可靠性：其中新华的多Master和多Worker，自身支持HA功能，采用任务队列来避免过载，不会造成机器卡死。简单易用： DAG监控界面，所有流程定义都是可视化，通过拖拽任务定制DAG，通过API方式与第三方系统对接，一键

2020-12-18 14:55:07 2056 5

原创 clickhouse集群搭建【三节点为例】

下载clickhouse的rpm包首先创建RPM包所在位置mkdir -p /opt/software/clickhouse/cd /opt/software/clickhouse/下载地址clickhouse安装包下载链接按照顺序安装rpm -ivh clickhouse-server-common-19.3.6-1.el7.x86_64.rpmrpm -ivh clickhouse-common-static-19.3.6-1.el7.x86_64.rpmrpm -ivh click

2020-11-19 13:52:05 2754 2

原创线性回归--梯度下降【理论+案例演示】

线性回归梯度下降理论概述在之前KNN算法中我们涉及到了权重的问题，在线性回归梯度下降的算法中，就是通过先规定0的权重，带入式子中，计算出损失值，通过公式计算出新的权重，如此反复迭代，找出最适合的步长，得出最接近真实值得权重，从而进行预测。数据准备链接：练习数据提取码：lyq6代码演示导入jar包读取数据集import numpy as npimport pandas as pddata = pd.read_csv("boston.csv")# 显示数据详细信息data.info()

2020-09-29 15:56:30 603

原创 K-means聚类算法【理论+案例演示】

K-means聚类算法K-means聚类算法也称k均值聚类算法，时集简单和经典于一身的基于距离的聚类算法。它采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。该算法认为类族是由距离靠近的对象组成的，取中心点作为质心，把靠近质心的归为一类。K-means核心思想K-means聚类算法是一种迭代求解的过程，是一种自学习算法，其步骤是先设定质心的个数，随机找质心位置，把每个点离各个质心的位置算出来，然后取最近的质心，该点归为该质心一类。然后再相同类里重新计算，再次找出新的质心，再进行第

2020-09-29 11:52:03 4580 2

edraw-max_cn_setup_full5676.exe

空空如也