4 super_chenzhou

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 17w+

ORACLE常用时间查询

ORACLE 常用时间查询–取当前日期的本月末SELECT TO_CHAR(LAST_DAY(TRUNC(TO_DATE(20200903,'YYYYMMDD'),'MONTH')),'YYYYMMDD') 本月末 FROM DUAL;SELECT TO_CHAR(LAST_DAY(TRUNC(TO_DATE(20200903,'YYYYMMDD'),'MM')),'YYYYMMDD') 本月末 FROM DUAL;–取当前日期的上个月末SELECT TO_CHAR(LAST_DAY(ADD_

2020-10-11 00:51:04

Hive窗口函数

Hive窗口函数1.什么时候用开窗函数?开窗函数常结合聚合函数使用,一般来讲聚合后的行数要少于聚合前的行数,但是有时我们既想显示聚集前的数据,又要显示聚集后的数据,这时我们便引入了窗口函数.例如:+-------+-------------+-------+---------------+--+| name | orderdate | cost | sum_window_0 |+-------+-------------+-------+---------------+--+| j

2020-09-06 12:25:37

Spark 数据倾斜解决方案

Spark 数据倾斜解决方案Spark 中的数据倾斜问题主要指shuffle过程中出现的数据倾斜问题,是由于不同的key对应的数据量不同导致的不同task所处理的数据量不同的问题。例如,reduce点一共要处理100万条数据,第一个和第二个task分别被分配到了1万条数据,计算5分钟内完成,第三个task分配到了98万数据,此时第三个task可能需要10个小时完成,这使得整个Spark作业需要10个小时才能运行完成,这就是数据倾斜所带来的后果。注意,要区分开数据倾斜与数据量过量这两种情况,数据倾斜是指

2020-09-06 12:24:38

Hadoop资源调度器

资源调度器        目前,Hadoop作业调度器主要有三种:FIFO Scheduler、Capacity Scheduler和Fair Scheduler。Hadoop2.7.2默认的资源调度器是Capacity Scheduler。具体设置详见:yarn-site.xml文件<property> <description>The class to use as the resour

2020-09-06 12:23:35

Spark Streaming

Spark Streaming1.spark.streaming.kafka.maxRatePerPartition 控制spark streaming消费kafka速度spark.streaming.backpressure.enabled 打开背压消费速度是动态浮动的,上线由spark.streaming.kafka.maxRatePerPartitionspark.streaming.stopGracefullyOnShutdown 优雅关闭 防止程序处理数据处理一般被kill

2020-09-06 12:22:16

Redis理论简述

一、Redis简介Redis是一款高性能的NOSQL数据库。NoSQL最初指不使用SQL标准的数据库,现在泛指所有的非关系型数据库。NoSQL和SQL数据库是相辅相成,不存在相互替换的可能。NoSQL数据库都复合CAP定理。CAP定理:C(强一致性),A(高可用性),P(高分区容错性)只能满足其二,无法同时满足!常见NOSQL数据库:①Redis : 常见在java应用中。特点: Key-value结构存储②Mongodb: 常见在前端或Java应用中。特点: 存储具有自我描述性

2020-09-05 22:11:20

Hive常用函数

Hive常用函数常用日期函数unix_timestamp:返回当前或指定时间的时间戳 from_unixtime:将时间戳转为日期格式current_date:当前日期current_timestamp:当前的日期加时间to_date:抽取日期部分year:获取年month:获取月day:获取日hour:获取时minute:获取分second:获取秒weekofyear:当前时间是一年中的第几周dayofmonth:当前时间是一个月中的第几天months_between: 两个

2020-09-05 22:09:14

正则表达式语法

正则表达式语法:注:¦表示|字符说明\将下一字符标记为特殊字符、文本、反向引用或八进制转义符。例如,“n"匹配字符"n”。"\n"匹配换行符。序列"\\“匹配”","\(“匹配”("。^匹配输入字符串开始的位置。如果设置了 RegExp 对象的 Multiline 属性,^ 还会与"\n"或"\r"之后的位置匹配。$匹配输入字符串结尾的位置。如果设置了 RegExp 对象的 Multiline 属性,$ 还会与"\n"或"\r"之前的位置匹配。*零次或多次匹

2020-09-05 22:08:09

MongoDB技术实践V1.0

MongoDB1 MongoDB简介MongoDB 是由C++语言编写的,是一个基于分布式文件存储的开源数据库系统。MongoDB 旨在为WEB应用提供可扩展的高性能数据存储解决方案。MongoDB 将数据存储为一个文档,数据结构由键值(key=>value)对组成。MongoDB 文档类似于 JSON 对象。字段值可以包含其他文档,数组及文档数组。2 MongoDB优缺点2.1 优点MongoDB是一个面向文档存储的数据库,操作起来比较简单;内置GridFS,支持大容量的存储;可以在

2020-09-05 22:07:08

Hive优化

Hive优化1)MapJoin如果不指定MapJoin或者不符合MapJoin的条件,那么Hive解析器会将Join操作转换成Common Join,即:在Reduce阶段完成join。容易发生数据倾斜。可以用MapJoin把小表全部加载到内存在map端进行join,避免reducer处理。2)行列过滤列处理:在SELECT中,只拿需要的列,如果有,尽量使用分区过滤,少用SELECT *。行处理:在分区剪裁中,当使用外关联时,如果将副表的过滤条件写在Where后面,那么就会先全表关联,之后再过滤。

2020-09-05 22:05:11

Spark 性能优化

Spark 性能优化1 常规性能调优1.1 最优资源配置Spark 性能调优的第一步,就是为任务分配更多的资源,在一定范围内,增加资源的分配与性能的提升是成正比的,实现了最优的资源配置后,在此基础上再考虑进行后面论述的性能调优策略。资源的分配在使用脚本提交Spark任务时进行指定,标准的Spark任务提交脚本如代码清单:/opt/modules/spark/bin/spark-submit \--class com.zhouchen.spark.Analysis \--num-executor

2020-08-20 20:34:23

Apache Atlas技术实践V1.0

Atlas(元数据管理)1 Atlas入门1.1 Atlas概述Apache Atlas为组织提供开放式元数据管理和治理功能,用以构建其数据资产目录,对这些资产进行分类和管理,并为数据分析师和数据治理团队,提供围绕这些数据资产的协作功能。1)表与表之间的血缘依赖2)字段与字段之间的血缘依赖1.2 Atlas架构原理2 Atlas安装及使用1)Atlas官网地址:https://atlas.apache.org/2)文档查看地址:https://atlas.apache.org/0.8

2020-08-14 15:17:26

VMware设置IP地址

VMware设置IP地址1网络连接的三种方式2.设置IP地址2.1确认网络连接模式为NAT模式2.2获取设置IP地址的必要参考信息2.3完成

2020-08-13 15:17:25

Hive解决数据倾斜方法

Hive解决数据倾斜方法1)group by注:group by 优于distinct group情形:group by 维度过小,某值的数量过多后果:处理某值的reduce非常耗时解决方式:采用sum() group by的方式来替换count(distinct)完成计算。2)count(distinct)count(distinct xx)情形:某特殊值过多后果:处理此特殊值的reduce耗时;只有一个reduce任务解决方式:count distinct时,将值为空的情况单独处理

2020-08-13 09:42:48

Linux破解Root密码

破解root密码启动虚拟机在读秒过程中按任意键系统选择界面如果一台计算机上安装了多个操作系统,那么就可以在这里进行选择。被选中的操作系统高亮显示。现在我 们只有一个操作系统所以 CentOS 默认就是高亮的。 此时按"e"键表示针对这个系统的启动进行相关设置。按"e"键后看到如下界面按"↓"键,选中 kernel 行按"e"键,进入 kernel 编辑界面在 kernel 编辑界面,按一下空格键,然后在后面输入 single,同时按下回车键 enter

2020-08-12 16:36:51

修改Hive支持中文注释

修改Hive支持中文注释修改hive-site.xml中的参数[zhouchen@hadoop102 conf]$ vim hive-site.xml<property><name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://hadoop102:3306/metastore?createDatabaseIfNotExist=true&useUnicode

2020-08-11 14:21:20

Ranger技术实践V1.0

Ranger1 Ranger概述1.1 什么是RangerApache Ranger是一个用来在Hadoop平台上进行监控,启用服务,以及全方位数据安全访问管理的安全框架。Ranger的愿景是在Apache Hadoop生态系统中提供全面的安全管理。随着企业业务的拓展,企业可能在多用户环境中运行多个工作任务,这就要求Hadoop内的数据安全性需要扩展为同时支持多种不同的需求进行数据访问,同时还需要提供一个可以对安全策略进行集中管理,配置和监控用户访问的框架。Ranger由此产生!Ranger的官网

2020-08-10 17:54:46

Oozie技术实践V1.0

1 Oozie简介Oozie英文翻译为:驯象人。一个基于工作流引擎的开源框架,由Cloudera公司贡献给Apache,提供对Hadoop MapReduce、Pig Jobs的任务调度与协调。Oozie需要部署到Java Servlet容器中运行。主要用于定时调度任务,多任务可以按照执行的逻辑顺序调度。2 Oozie的功能模块介绍2.1模块1) Workflow顺序执行流程节点,支持fork(分支多个节点),join(合并多个节点为一个)2) Coordinator定时触发workflow

2020-08-10 10:14:35

ClickHouse技术实践V1.0

1 CLICKHOUSE简述ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。能够使用SQL查询实时生成分析数据报告。1.1 CLICKHOUSE架构组成介绍ClickHouse数据始终是按列存储的,包括矢量(向量或列块)执行的过程。ClickHouse的内部架构包括列(column)、字段、抽象漏洞、块(block)、块流(block stream)、格式(format)、I/O、表(tables)、解析器、函数(Function)、服务(server)、合并树等。

2020-08-10 09:42:49

Kerberos技术实践V1.0

1 安全之Kerberos安全认证1.1 Kerberos概述1.1.1 什么是KerberosKerberos是一种计算机网络授权协议,用来在非安全网络中,对个人通信以安全的手段进行身份认证。这个词又指麻省理工学院为这个协议开发的一套计算机软件。软件设计上采用客户端/服务器结构,并且能够进行相互认证,即客户端和服务器端均可对对方进行身份认证。可以用于防止窃听、防止重放攻击、保护数据完整性等场合,是一种应用对称密钥体制进行密钥管理的系统。Kerberos不是k8s,Kubernetes简称k8s,是

2020-08-07 17:14:26

查看更多

勋章 我的勋章
  • 签到达人
    签到达人
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 阅读者勋章Lv2
    阅读者勋章Lv2
    授予在CSDN APP累计阅读博文达到7天的你,是你的坚持与努力,使你超越了昨天的自己。
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv4
    勤写标兵Lv4
    授予每个自然周发布9篇以上(包括9篇)原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 分享学徒
    分享学徒
    成功上传1个资源即可获取