自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小白学编程

记录小白学编程的历程,每日都会进行更新

  • 博客(218)
  • 收藏
  • 关注

原创 azkban设置重试不起作用,且有的任务一直running,无日志

azkaban失败不重试,报错

2022-11-13 11:18:06 690 1

原创 职业规划——提升

于职业发展而言,成长才是硬道理

2022-04-13 16:03:20 437 1

原创 获取本周一,本周日,当月第一天,最后一天等简单方法

可以使用现有函数获取,如下select trunc('2022-04-12','mm'); --获取当月第一天select last_day('2022-04-12'); -- 获取当月最后一天select next_day('2022-04-12','MO'); --获取下周一select date_add(next_day('2022-04-12','MO'),6); --获取下周日select date_add(next_

2022-04-12 10:04:29 1341

原创 python找不到第三方包

pycharm在运行的时候,默认调用的是虚拟环境的python解释器,即venv (为了保证多个python版本不会冲突),这个和系统的python环境不一样如果在命令行中安装了第三方包,需要使用系统的python环境才能找到1、找到系统的python环境路径2、将系统的python环境作为解释器,不使用虚拟环境的python解释器如果使用默认的虚拟环境的python解释器,可以直接在pycharm中安装第三方包...

2022-01-28 16:22:32 1988

原创 dataworks创建emr任务进行数据开发流程

dataworks

2022-01-14 18:39:04 562

原创 pycharm如何安装python第三方包

2022-01-14 17:19:57 415

原创 python报错 Non-ASCII character ‘\xe5‘

报错信息:SyntaxError: Non-ASCII character '\xe5' in file /Users/dhc/Desktop/nxcl_code/python_learn/my.py on line 7, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details解决方法:python文件头部没有添加以下内容#! user/bin/python#- * -coding:UTF-8

2021-12-20 16:37:22 494

原创 This version of Kibana (v7.13.4) is incompatible with the following Elasticsearch -安装kibana启动,报兼容性问题

安装kibana完成后,启动失败,报兼容性问题错误描述:This version of Kibana (v7.13.4) is incompatible with the following Elasticsearch nodes in your cluster: v7.5.1 @ 10.2.4.247:9200 (10.2.4.247)出现原因:我安装的kibana版本是7.13.4,es版本是7.5.1,kibana版本高于es版本,所以导致报错解决方案:从官网上重新下载与es版本相同的

2021-07-28 16:41:38 38640

原创 解决element-ui的下拉框有值却无法选中的问题

问题描述:在使用Vue框架和element-ui开发时,下拉框遇见一个问题,在函数中改变了页面中的某个值,在函数中查看是修改成功了,但在页面中没有及时刷新改变后的值,也就是下拉框值无法选中。(踩坑踩得莫名其妙)代码段:<el-select v-model="value" placeholder="请选择" @change="change()"> <el-option v-for="item in options" :key="item.value" :label="ite

2020-12-22 09:56:21 33523

原创 springboot访问地址返回404

解决办法:需要把controller包和启动程序放在同一个目录下

2020-12-04 10:32:01 33497

原创 Cannot resolve plugin org.apache.maven.plugins:maven-site-plugin:3.8.2

1、先在pom文件中添加版本号2、如果还不行,就删除meavn仓库中的相关依赖,重新下载。方法如下如何删除依赖并重新下载

2020-11-26 10:46:45 5695

原创 Could not find resource xml文件 --mybatis找不到xml映射文件

查看原文

2020-11-24 14:22:37 5214

原创 ideal中如何创建多级包

点击项目右上方的小齿轮。取消compact middle packages的勾选之后创建包的时候,包名使用.分割,创建的包自动会变成多级的

2020-11-24 14:16:00 72750 3

原创 IDEA报错:Error : Java 不支持发行版本5

https://blog.csdn.net/qq_39424178/article/details/100189644

2020-11-24 11:42:42 4316

原创 python代码--截取文件名中的日期作为表格中的列,并把这些结构相同的excel合并成一个

import osimport pandas as pdpwd = r'C:\Users\chenl\Desktop\睿智\需求文档\评分业务\D3分\FICO_SCORE_D3_history'#新建文件列表,存放文件名file_list =[]#新建列表存放每个文件得数据dfs = []#os.walk 遍历目录内的各个子目录和文件for root, dirs, files in os.walk(pwd): # 第一个为起始路径,第二个为起始路径下的文件夹,第三个是起始路径下的文

2020-11-19 10:59:56 4597

原创 impala查询内存限制Memory limit exceeded

https://blog.csdn.net/oosongoo/article/details/78435779

2020-10-19 11:04:11 5931

原创 linux命令--文件中字符串定位

1.命令模式下[:]2./需要查询的内容—回车3.通过点击[n]键定位内容位置

2020-10-19 11:03:19 5529

原创 kafka常用命令

查看topic信息:bin/kafka-topics.sh --list --bootstrap-server common1:9092查看topic内容:bin/kafka-console-consumer.sh --bootstrap-server common1:9092 --topic hbcs_db --from-beginning创建topic:bin/kafka-topics.sh --create --bootstrap-server common1:9092 --topic ct

2020-10-10 15:25:34 4314

原创 hive中not in函数的坑

not in () --括号中是不为Null的字符串,但是最后得到的结果不包含Null原因:上述语句返回的结果是null,而不是true,not in 只会筛选出结果是true的

2020-10-09 14:31:51 5112

原创 新增字段后,旧分区无法更新该列的值(全为Null)

解决方案:使用cascade(级联)alter table 表名 add columns (列名 类型) cascade使用cascade不仅该表新分区的表结构,也改变旧分区的表结构

2020-10-09 14:24:50 4278

原创 hive表修复分区--(导入hdfs文件,hive表刷新不出来)

msck repair table 表名作用是将任何存在于hdfs,但不在metastore上的partition元信息更新到metastore中

2020-10-09 14:21:16 5113

原创 group_concat() 拼接字符串长度限制

group_concat() 拼接列的时候长度受限,字符串的长度不能超过1024,超出1024会被截断设置Mysql 配置set session group_concat_max_len = 150000;

2020-10-09 10:17:36 4945

原创 使用impala 查询parquet表异常

参考链接:https://cloud.tencent.com/developer/article/1399918

2020-10-09 10:15:39 4488

原创 presto和clickhouse简单介绍

presto是由facebook开发的分布式sql查询引擎,被设计用来专门进行高速,实时的数据分析。它的产生是为了解决hive 的Mapreduce模型太慢以及不能通过bi或者dashboards直接展现hdfs数据的问题,presto是一个纯粹的计算引擎。它不存储数据,通过connector获取第三方storage服务的数据clickhouse是一个款用于大数据实时分析的列式数据库管理系统,而非数据库,通过向量化的执行以及对cpu底层指令集的使用,可以对海量数据进行并行处理,从而加快数据的处理速度,现在

2020-09-27 15:13:30 8338 1

原创 列式数据库和行式数据库区别

转载自:https://blog.csdn.net/nieson2012/article/details/79551337列存储不同于传统的关系型数据库,其数据在表中是按行存储的,列方式所带来的重要好处之一就是,由于查询中的选择规则是通过列来定义的,因此整个数据库是自动索引化的。按列存储每个字段的数据聚集存储,在查询只需要少数几个字段的时候,能大大减少读取的数据量,一个字段的数据聚集存储,那就更容易为这种聚集存储设计更好的压缩/解压算法。传统的行存储和列存储的区别1、数据是按行存储的2、没有索引的查

2020-09-27 14:50:05 6757

原创 kerberos和ldap和sentry

sentry 是权限控制kerberos是身份认证,类似于防火墙.它是一个用于安全认证的第三方协议,并不是hadoop专用。可以用于其它系统,它采用了传统的共享密钥的方式,实现了client和server的通信ldap是用户密码认证,clouderl登录hive和impala的时候,不输密码也可以登录,加了ldap就是必须输入账号密码...

2020-09-27 14:35:54 4861

原创 truncate和delete和drop的区别

truncate会清空表数据和索引truncate table table_name;delete会清楚表数据,但是索引不会清楚,再次插入数据时索引会接着之前的索引delete from table_name;drop会把表结构也删除drop table table_name;

2020-09-27 14:34:10 4206

原创 kudu介绍和使用

kudu架构同hdfs和Hbase相似,kudu使用单个的master节点,用来管理集群的元数据,并且使用任意数量的tablet server节点来存储实际数据。可以部署多个master节点来提高容错性,一个table表的数据,被分割成一个或多个tablet,tablet被部署在 tablet server来提高数据读写服务Kudu有列长度限制,不能超过64k不支持CHAR、VARCHAR、DATE和数组等复杂类型。不能通过ALTER TABLE更改现有列的类型和是否可为空属性DECIMAL类型

2020-09-27 14:29:01 6070

原创 hbase预分区

1、什么是预分区?​ hbase表在刚创建时,只有一个分区region,当一个region过大( 达到hbase.hregion.max.filesize属性中定义的阈值,默认10GB )时,表会进行split分割成两个region.表在进行split的时候,会耗费大量的资源,频繁的分区对hbase的性能有巨大的影响。​ hbase提供了预分区的功能,即用户在创建表时就对表按照一定的规则分区2、如何预分区?​ a、通过hbase shell命令来创建create 't1', 'f1', S

2020-09-27 14:21:31 4785

原创 UTC和CST时区

UTC:世界协调时间,也就是零时区的时间CST: 中国标准时间,中国是东八区,故比UTC大8小时

2020-09-27 14:11:24 6789

原创 impala查询带有map类型字段的表

impala不支持复杂类型字段的查询,当使用select * 查询时,只会返回基本类型的列对复杂类型的处理方式是,把复杂类型当作一张表api_event表中的response_data是一个map类型的字段SELECT a.dt,t.`key`,t.value from finhub_eventlog.api_event a,a.response_data t where t.`key`='haspassword'注意:如果给表写了别名 map字段前的表名要用别名 不然关联不上 查出来的就是笛卡尔

2020-09-27 14:07:30 5556

原创 hive数据导入到hbase

方式一:​ hbase中建表,然后hive中建外部表,这样当hive中写入数据后,hbase中的表也会同时更新创建hbase表create 'classes','user' --表名是class,有一个列族user查看表结构describe 'classes'加入两行数据put 'classes','001','user:name','jack'put 'classes','001','user:age','20'查看表中的而数据scan 'classes'创建hive外表,之

2020-09-27 11:44:15 5772

原创 hive获取周,月

SELECT next_day(current_date(),‘MO’); --取当前周的下周一SELECT date_add(next_day(current_date(),‘MO’),-7); --取当前周的周一SELECT last_day(current_date()); --取当前月的最后一天SELECT to_date(‘2018-12-08 10:03:01’); --返回日期格式字符串中的日期部分SELECT date_format(‘2018-12-08 1

2020-09-27 11:39:51 6025

原创 hive中得字符串连接函数concat,concat_ws,group_concat

contact() 连接多个字符串,如果其中有一个字符串为Null,则最后结果为nullcontact_ws() 第一个参数是分隔符,即多个字符串要使用该分隔符连接起来group_concat() 该结果由分组中的值连接而成

2020-09-15 16:21:42 6117

原创 jupyter notebook安装介绍

jupyter notebook是一款交互式笔记本,可以使用网页打开,支持40多种编程语言,可以在该网页中直接编写代码和运行代码,代码的结果会直接显示在每个代码块下面安装方式1、如果电脑上已经安装了python,可以在命令行中直接通过pip install jupyter 进行安装安装成功后,cmd中使用jupyter notebook命令即可打开2、对于小白来说,可以下载安装最新版的Anaconda,因为Anaconda已经自动为你安装了Jupter Notebook及其他工具,还有python中

2020-07-09 10:47:00 4403

原创 hive中常用的时间格式转化

select from_unixtime(unix_timestamp('20180905','yyyyMMdd'),'yyyy-MM-dd');SELECT next_day(current_date(),'MO'); --取当前周的下周一SELECT date_add(next_day(current_date(),'MO'),-7); --取当前周的周一SELECT last_day(current_date()); --取当前月的最后一天SELECT to_date(

2020-06-23 09:48:05 5301

原创 hive中得到周一,周五等

select date_sub('2020-04-05',pmod(datediff('2020-04-05','1900-01-08'),7)) as Last_Monday; --得到2020-02-01所在周的周一select date_sub('2020-04-05',pmod(datediff('2020-04-05','1900-01-08'),7)-4) as Last_Monday; --得到2020-02-01所在周的周五select date_sub(date,pmod(dat

2020-06-23 09:46:45 7949

原创 hive复制表结构

1、复制非分区表结构CREATE TABLE bigdata17_new AS SELECT * FROM bigdata17_old;2、复制分区表结构CREATE TABLE bigdata17_new like bigdata17_old;

2020-05-09 19:50:17 4652

原创 hive数据导入导出方式

1、数据导入load data local inpath '/usr/local/data/user.txt' into table jiuye partition(grade='1');local 表示从本地加载数据,不加local,表示从hdfs上加载数据2、数据导出insert overwrite local direactory '/tmp/11' select * from ...

2020-05-08 09:59:18 4328

原创 linux中用户相关命令

1、查看所有用户cat /etc/passwd2、新增用户useradd 用户名 --创建用户passwd 用户名 --设置新用户的密码注意:创建用户的时候,默认会创建一个和新用户同名的用户租3、删除用户userdel 用户名4、切换用户su 用户名exit 可以退出到root用户5、查看用户所属用户租groups 用户名...

2020-05-08 09:43:14 4476

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除