古城的风cll-CSDN博客

原创 azkban设置重试不起作用，且有的任务一直running，无日志

azkaban失败不重试，报错

2022-11-13 11:18:06 690 1

原创职业规划——提升

于职业发展而言，成长才是硬道理

2022-04-13 16:03:20 437 1

可以使用现有函数获取，如下select trunc('2022-04-12','mm'); --获取当月第一天select last_day('2022-04-12'); -- 获取当月最后一天select next_day('2022-04-12','MO'); --获取下周一select date_add(next_day('2022-04-12','MO'),6); --获取下周日select date_add(next_

2022-04-12 10:04:29 1341

原创 python找不到第三方包

pycharm在运行的时候，默认调用的是虚拟环境的python解释器，即venv (为了保证多个python版本不会冲突)，这个和系统的python环境不一样如果在命令行中安装了第三方包，需要使用系统的python环境才能找到1、找到系统的python环境路径2、将系统的python环境作为解释器，不使用虚拟环境的python解释器如果使用默认的虚拟环境的python解释器，可以直接在pycharm中安装第三方包...

2022-01-28 16:22:32 1988

原创 dataworks创建emr任务进行数据开发流程

dataworks

2022-01-14 18:39:04 562

原创 pycharm如何安装python第三方包

2022-01-14 17:19:57 415

原创 python报错 Non-ASCII character ‘\xe5‘

报错信息：SyntaxError: Non-ASCII character '\xe5' in file /Users/dhc/Desktop/nxcl_code/python_learn/my.py on line 7, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details解决方法：python文件头部没有添加以下内容#! user/bin/python#- * -coding:UTF-8

2021-12-20 16:37:22 494

原创 This version of Kibana (v7.13.4) is incompatible with the following Elasticsearch -安装kibana启动，报兼容性问题

安装kibana完成后，启动失败，报兼容性问题错误描述：This version of Kibana (v7.13.4) is incompatible with the following Elasticsearch nodes in your cluster: v7.5.1 @ 10.2.4.247:9200 (10.2.4.247)出现原因：我安装的kibana版本是7.13.4，es版本是7.5.1，kibana版本高于es版本，所以导致报错解决方案：从官网上重新下载与es版本相同的

2021-07-28 16:41:38 38640

原创解决element-ui的下拉框有值却无法选中的问题

问题描述：在使用Vue框架和element-ui开发时，下拉框遇见一个问题，在函数中改变了页面中的某个值，在函数中查看是修改成功了，但在页面中没有及时刷新改变后的值，也就是下拉框值无法选中。（踩坑踩得莫名其妙）代码段：<el-select v-model="value" placeholder="请选择" @change="change()"> <el-option v-for="item in options" :key="item.value" :label="ite

2020-12-22 09:56:21 33523

原创 springboot访问地址返回404

解决办法：需要把controller包和启动程序放在同一个目录下

2020-12-04 10:32:01 33497

原创 Cannot resolve plugin org.apache.maven.plugins:maven-site-plugin:3.8.2

1、先在pom文件中添加版本号2、如果还不行，就删除meavn仓库中的相关依赖，重新下载。方法如下如何删除依赖并重新下载

2020-11-26 10:46:45 5695

原创 Could not find resource xml文件 --mybatis找不到xml映射文件

查看原文

2020-11-24 14:22:37 5214

原创 ideal中如何创建多级包

点击项目右上方的小齿轮。取消compact middle packages的勾选之后创建包的时候，包名使用.分割，创建的包自动会变成多级的

2020-11-24 14:16:00 72750 3

原创 IDEA报错：Error : Java 不支持发行版本5

https://blog.csdn.net/qq_39424178/article/details/100189644

2020-11-24 11:42:42 4316

原创 python代码--截取文件名中的日期作为表格中的列，并把这些结构相同的excel合并成一个

import osimport pandas as pdpwd = r'C:\Users\chenl\Desktop\睿智\需求文档\评分业务\D3分\FICO_SCORE_D3_history'#新建文件列表，存放文件名file_list =[]#新建列表存放每个文件得数据dfs = []#os.walk 遍历目录内的各个子目录和文件for root, dirs, files in os.walk(pwd): # 第一个为起始路径，第二个为起始路径下的文件夹，第三个是起始路径下的文

2020-11-19 10:59:56 4597

原创 impala查询内存限制Memory limit exceeded

https://blog.csdn.net/oosongoo/article/details/78435779

2020-10-19 11:04:11 5931

原创 linux命令--文件中字符串定位

1.命令模式下[:]2./需要查询的内容—回车3.通过点击[n]键定位内容位置

2020-10-19 11:03:19 5529

原创 kafka常用命令

查看topic信息：bin/kafka-topics.sh --list --bootstrap-server common1:9092查看topic内容：bin/kafka-console-consumer.sh --bootstrap-server common1:9092 --topic hbcs_db --from-beginning创建topic:bin/kafka-topics.sh --create --bootstrap-server common1:9092 --topic ct

2020-10-10 15:25:34 4314

原创 hive中not in函数的坑

not in () --括号中是不为Null的字符串，但是最后得到的结果不包含Null原因：上述语句返回的结果是null，而不是true，not in 只会筛选出结果是true的

2020-10-09 14:31:51 5112

原创新增字段后，旧分区无法更新该列的值（全为Null）

解决方案：使用cascade(级联)alter table 表名 add columns (列名类型) cascade使用cascade不仅该表新分区的表结构，也改变旧分区的表结构

2020-10-09 14:24:50 4278

原创 hive表修复分区--（导入hdfs文件，hive表刷新不出来）

msck repair table 表名作用是将任何存在于hdfs，但不在metastore上的partition元信息更新到metastore中

2020-10-09 14:21:16 5113

原创 group_concat() 拼接字符串长度限制

group_concat() 拼接列的时候长度受限，字符串的长度不能超过1024，超出1024会被截断设置Mysql 配置set session group_concat_max_len = 150000;

2020-10-09 10:17:36 4945

原创使用impala 查询parquet表异常

参考链接：https://cloud.tencent.com/developer/article/1399918

2020-10-09 10:15:39 4488

原创 presto和clickhouse简单介绍

presto是由facebook开发的分布式sql查询引擎，被设计用来专门进行高速，实时的数据分析。它的产生是为了解决hive 的Mapreduce模型太慢以及不能通过bi或者dashboards直接展现hdfs数据的问题，presto是一个纯粹的计算引擎。它不存储数据，通过connector获取第三方storage服务的数据clickhouse是一个款用于大数据实时分析的列式数据库管理系统，而非数据库，通过向量化的执行以及对cpu底层指令集的使用，可以对海量数据进行并行处理，从而加快数据的处理速度，现在

2020-09-27 15:13:30 8338 1

原创列式数据库和行式数据库区别

转载自：https://blog.csdn.net/nieson2012/article/details/79551337列存储不同于传统的关系型数据库，其数据在表中是按行存储的，列方式所带来的重要好处之一就是，由于查询中的选择规则是通过列来定义的，因此整个数据库是自动索引化的。按列存储每个字段的数据聚集存储，在查询只需要少数几个字段的时候，能大大减少读取的数据量，一个字段的数据聚集存储，那就更容易为这种聚集存储设计更好的压缩/解压算法。传统的行存储和列存储的区别1、数据是按行存储的2、没有索引的查

2020-09-27 14:50:05 6757

原创 kerberos和ldap和sentry

sentry 是权限控制kerberos是身份认证，类似于防火墙.它是一个用于安全认证的第三方协议，并不是hadoop专用。可以用于其它系统，它采用了传统的共享密钥的方式，实现了client和server的通信ldap是用户密码认证，clouderl登录hive和impala的时候，不输密码也可以登录,加了ldap就是必须输入账号密码...

2020-09-27 14:35:54 4861

原创 truncate和delete和drop的区别

truncate会清空表数据和索引truncate table table_name;delete会清楚表数据，但是索引不会清楚，再次插入数据时索引会接着之前的索引delete from table_name;drop会把表结构也删除drop table table_name;

2020-09-27 14:34:10 4206

原创 kudu介绍和使用

kudu架构同hdfs和Hbase相似,kudu使用单个的master节点，用来管理集群的元数据，并且使用任意数量的tablet server节点来存储实际数据。可以部署多个master节点来提高容错性，一个table表的数据，被分割成一个或多个tablet,tablet被部署在 tablet server来提高数据读写服务Kudu有列长度限制，不能超过64k不支持CHAR、VARCHAR、DATE和数组等复杂类型。不能通过ALTER TABLE更改现有列的类型和是否可为空属性DECIMAL类型

2020-09-27 14:29:01 6070

原创 hbase预分区

1、什么是预分区？ hbase表在刚创建时，只有一个分区region,当一个region过大（达到hbase.hregion.max.filesize属性中定义的阈值，默认10GB ）时，表会进行split分割成两个region.表在进行split的时候，会耗费大量的资源，频繁的分区对hbase的性能有巨大的影响。 hbase提供了预分区的功能，即用户在创建表时就对表按照一定的规则分区2、如何预分区？ a、通过hbase shell命令来创建create 't1', 'f1', S

2020-09-27 14:21:31 4785

原创 UTC和CST时区

UTC:世界协调时间，也就是零时区的时间CST: 中国标准时间，中国是东八区，故比UTC大8小时

2020-09-27 14:11:24 6789

原创 impala查询带有map类型字段的表

impala不支持复杂类型字段的查询，当使用select * 查询时，只会返回基本类型的列对复杂类型的处理方式是，把复杂类型当作一张表api_event表中的response_data是一个map类型的字段SELECT a.dt,t.`key`,t.value from finhub_eventlog.api_event a,a.response_data t where t.`key`='haspassword'注意：如果给表写了别名 map字段前的表名要用别名不然关联不上查出来的就是笛卡尔

2020-09-27 14:07:30 5556

原创 hive数据导入到hbase

方式一： hbase中建表，然后hive中建外部表，这样当hive中写入数据后，hbase中的表也会同时更新创建hbase表create 'classes','user' --表名是class,有一个列族user查看表结构describe 'classes'加入两行数据put 'classes','001','user:name','jack'put 'classes','001','user:age','20'查看表中的而数据scan 'classes'创建hive外表，之

2020-09-27 11:44:15 5772

原创 hive获取周，月

SELECT next_day(current_date(),‘MO’); --取当前周的下周一SELECT date_add(next_day(current_date(),‘MO’),-7); --取当前周的周一SELECT last_day(current_date()); --取当前月的最后一天SELECT to_date(‘2018-12-08 10:03:01’); --返回日期格式字符串中的日期部分SELECT date_format(‘2018-12-08 1

2020-09-27 11:39:51 6025

原创 hive中得字符串连接函数concat,concat_ws,group_concat

contact() 连接多个字符串，如果其中有一个字符串为Null，则最后结果为nullcontact_ws() 第一个参数是分隔符，即多个字符串要使用该分隔符连接起来group_concat() 该结果由分组中的值连接而成

2020-09-15 16:21:42 6117

原创 jupyter notebook安装介绍

jupyter notebook是一款交互式笔记本，可以使用网页打开，支持40多种编程语言，可以在该网页中直接编写代码和运行代码，代码的结果会直接显示在每个代码块下面安装方式1、如果电脑上已经安装了python,可以在命令行中直接通过pip install jupyter 进行安装安装成功后，cmd中使用jupyter notebook命令即可打开2、对于小白来说，可以下载安装最新版的Anaconda，因为Anaconda已经自动为你安装了Jupter Notebook及其他工具，还有python中

2020-07-09 10:47:00 4403

原创 hive中常用的时间格式转化

select from_unixtime(unix_timestamp('20180905','yyyyMMdd'),'yyyy-MM-dd');SELECT next_day(current_date(),'MO'); --取当前周的下周一SELECT date_add(next_day(current_date(),'MO'),-7); --取当前周的周一SELECT last_day(current_date()); --取当前月的最后一天SELECT to_date(

2020-06-23 09:48:05 5301

原创 hive中得到周一，周五等

select date_sub('2020-04-05',pmod(datediff('2020-04-05','1900-01-08'),7)) as Last_Monday; --得到2020-02-01所在周的周一select date_sub('2020-04-05',pmod(datediff('2020-04-05','1900-01-08'),7)-4) as Last_Monday; --得到2020-02-01所在周的周五select date_sub(date,pmod(dat

2020-06-23 09:46:45 7949

空空如也

空空如也