太和վ'ᴗ' ի-CSDN博客

原创三数之和、删除有序数组中的重复项、移除元素

三数之和思路标签：数组遍历首先对数组进行排序，排序后固定一个数 nums[i]nums[i]，再使用左右指针指向 nums[i]nums[i]后面的两端，数字分别为 nums[L]nums[L] 和 nums[R]nums[R]，计算三个数的和 sumsum 判断是否满足为 00，满足则添加进结果集如果 nums[i]nums[i]大于 00，则三数之和必然无法等于 00，结束循环如果 nums[i]nums[i] == nums[i-1]nums[i−1]，则说明该数字重复，会导致结果重复，

2022-02-16 00:25:34 153

原创 hive ql 使用 posexplode函数实现多行转多列

lv1、lv2:对应的视图名称lvs1、lvs2：生成对应的索引值,从0、1、2...开始递增lvws1、lvws2:视图的字段名称

2021-06-09 19:31:22 397 1

原创异常检测基本概念和方法

1.异常检测基本概念异常检测：识别与正常数据不同的数据，与预期行为差异大的数据。1.1 异常的类别点异常：指的是少数个体实例是异常的，大多数个体实例是正常的。条件异常：又称上下文异常，指的是在1. 异常检测基本概念异常检测：识别与正常数据不同的数据，与预期行为差异大的数据。1.1异常的类别点异常：指的是少数个体实例是异常的，大多数个体实例是正常的。条件异常：又称上下文异常，指的是在特定情境下个体实例是异常的，在其他情境下都是正常的。群体异常：在群体集合中的个体实例出现异常的情况，而该个体

2021-05-12 01:29:35 512

原创异常检测基本概念和方法

1. 异常检测基本概念异常检测：识别与正常数据不同的数据，与预期行为差异大的数据。1.1异常的类别点异常：指的是少数个体实例是异常的，大多数个体实例是正常的。条件异常：又称上下文异常，指的是在特定情境下个体实例是异常的，在其他情境下都是正常的。群体异常：在群体集合中的个体实例出现异常的情况，而该个体实例自身可能不是异常，在入侵或欺诈检测等应用中，离群点对应于多个数据点的序列，而不是单个数据点。1.2 异常检测任务分类有监督：训练集的正例和反例均有标签无监督：训练集无标签半监督：在训练集中

2021-05-12 01:04:23 333

原创在shell 中 presto 执行sql 语句

presto 执行sql 文件：/opt/edw/clients_presto/presto-cli --server ${ip:port} --source ${bdp} --user ${user} -f ${sql文件}presto 执行sql 语句：/opt/edw/clients_presto/presto-cli --server ${ip:port} --source ${bdp} --user ${user} --execute ${sql语句}...

2020-12-08 21:19:20 2812

原创 hive sql行转列后列转行

hive sql行转列后列转行场景：对拼接的手机号拆分后解密，解密完再拼接总结使用函数：concat_ws(’,’,collect_set(column))说明：collect_list 不去重，collect_set 去重。 column的数据类型要求是string

2020-11-12 21:10:34 221

原创吴恩达_深度学习概论

吴恩达深度学习笔记，不严谨之处还请斧正。2. 什么是神经网络？由一个或多个参数输入信息经过算法计算、计算后结果输出的过程可以看做一个计算单元，可以比作神经元。一个或多个计算单元的输出可以是做另一个计算单元的输入，多个输入、输出相连接的计算单元可以看做计算图，可以比作网状的神经结构。除了两端的输入层和输出层，中间计算单元可称作隐藏单元。3. 用神经网络进行监督学习神经网络算法威力的爆发...

2020-04-09 18:32:50 131

原创 Hql取上周、上月、上季度、去年第一天和最后一天

【代码】Hql取上周、上月、上季度、去年第一天和最后一天。

2020-02-21 15:57:33 10369 7

原创 hive loading 时嵌套目录报错

hive loading 时嵌套目录报错添加set hive.mapred.supports.subdirectories=true;

2019-10-24 21:44:08 155

翻译 Scala语言基础

一、语言概述编程范式编程范式是指计算机编程的基本风格或典范模式。常见的编程范式主要包括命令式编程和函数式编程。面向对象编程就属于命令式编程，比如C++、Java等命令式语言是植根于冯·诺依曼体系的，一个命令式程序就是一个冯·诺依曼机的指令序列，给机器提供一条又一条的命令序列让其原封不动地执行函数式编程，又称泛函编程，它将计算机的计算视为数学上的函数计算函数编程语言最重...

2019-05-15 15:36:25 1184

原创云数据库

1. 云数据库概述1.1. 云计算是云数据库兴起的基础1.2. 云数据库概念云数据库是部署和虚拟化在云计算环境中的数据库。云数据库是在云计算的大背景下发展起来的一种新兴的共享基础架构的方法，它极大地增强了数据库的存储能力，消除了人员、硬件、软件的重复配置，让软、硬件升级变得更加容易。云数据库具有高可扩展性、高可用性、采用多租形式和支持资源有效分发等特点。1.3. 云数据库的特性...

2019-02-23 17:44:47 11800

原创 NoSQL数据库

1. NoSQL简介通常NoSQL数据库具有以下几个特点：(1)灵活的扩展性。(2)灵活的数据模型。(3)与云计算紧密结合。2. NoSQL兴起的原因关系型数据库已经无法满足web2.0的需求。主要表现在以下几个方面：关系型数据库已经无法满足web2.0的需求。主要表现在以下几个方面：(1)无法满足海量的数据管理需求。(2)无法满足数据高并发的需求。(3)无法满足高可扩展性...

2019-01-19 14:49:19 6023

原创使用java程序读写HDFS文件，判断文件是否存在

判断文件是否存在import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;public class Chapter3 { public static void main(Strin...

2018-10-23 14:07:56 7856 1

原创使用hadoop jar命令和linux命令运行jar包

使用hadoop jar 命令运行jar包：./bin/hadoop jar ./myapp/HDFSExample.jar使用linux命令运行jar包java -jar /myapp/HDFSExample.jar

2018-10-23 12:50:21 10915 2

原创 Linux批量替换文件中多个字符

sed -i 's/原字符/目标字符/g' sed -i 's/原字符/目标字符/g' `grep 原字符 -rl ./`格式: sed -i 's/查找字段/替换字段/g' `grep 查找字段 -rl 路径` 文件名-i 表示inplace edit，就地修改文件-r 表示搜索子目录-l 表示输出匹配的文件名s表示替换，d表示删除示例：sed -i ‘...

2018-08-21 16:50:09 2607

原创 hivesql优化

1. 业务处理优化原则Hive对复杂SQL没有关系形数据库表现好，业务过程可使用临时表使用过程更清晰简单；关联条件尽可能避免使用函数、正则表达式。使用MAPJOIN()会将较小的表加载到内存中，使连结过程在Map阶段完成分区避免数据倾斜问题。jobs数比较多的作业运行效率相对比较低。可选择tez方式加快小数据量的查询速度。不要求全局有序时使用Distribute By + S...

2018-06-14 20:43:29 2287

原创 linux 统计目录大小

du -ah --max-depth=1 a表示显示目录下所有的文件和文件夹（不含子目录），h表示以人类能看懂的方式，max-depth表示目录的深度。du -sh 查看当前目录总共占的容量。而不单独列出各子项占用的容量du -lh --max-depth=1 查看当前目录下一级子文件和子目录占用的磁盘容量。...

2018-06-14 20:15:51 9024

原创 linux 文件转码iconv

iconv --list ：列出iconv支持的编码列表iconv -f 原编码 -t 新编码 filename -o newfile -f ： from 来源编码 -t ： to 转换后新编码 -c：忽略无效字符 -s： –silent，忽略警告 -o file ：可选，没有的话直接转换当前文件，使用-o 保留源文件。...

2018-06-14 09:49:19 2450

原创 oracle 字符串操作

TRIM()函数去掉最后一个字符select TRIM('市' from region_desc) from dual;

2018-06-13 15:35:53 410

原创大数据处理架构Hadoop

1.概述 1. 概述Hadoop是一个能够对大量数据进行分布式处理的软件框架，并且是以一种可靠、高效、可伸缩的方式进行处理的，它具有以下几个方面的特性： • 高可靠性 • 高效性 • 高可扩展性 • 高容错性 • 成本低 • 运行在Linux平台上 • 支持多种编程语言 2. Hadoop不同版本...

2018-06-11 13:09:41 2167

原创 Python基本语法元素

1.程序设计基本方法 1. 计算机与程序设计2 . 编译和解释3.程序的基本编写方法4.计算机编程单元小结2.Python开发环境配置1. Python语言概述2.Python语言windows系统开发环境 3.Pyt...

2018-06-10 19:08:41 370

原创大数据概述

1. 大数据时代2. 大数据概念和影响科学研究的四范式；大数据时代是数据驱动，发现问题，解决问题。抽样分析经常把算法的精度放的非常高；全样分析不存在误差被放大的情况；很多时候数据就在一瞬间有价值，如果没有快速分析结果的话，他的价值就消失了。 3. 大数据应用4. 大数据的关键技术...

2018-06-10 14:43:47 272

转载 oracle基本数据类型—RAW类型

oracle中用于保存位串的数据类型是RAW，LONG RAW（推荐使用BLOB）。RAW，类似于CHAR，声明方式RAW（L），L为长度，以字节为单位，作为数据库列最大2000，作为变量最大32767字节。LONG RAW，类似于LONG，作为数据库列表最大存储2G字节的数据，作为变量最大32760字节RAW类型的好处就是：在网络中的计算机之间传输RAW数据时，或者使用的Oracle

2018-01-29 17:17:56 10854

原创 Hive 添加表字段，给字段排序

添加字段alter table 表名 add column (列名 STRING COMMENT 'Department name');排序ALTER TABLE 表名 CHANGE column 列名列名类型 after 列名（放在哪个字段后）；

2018-01-15 19:36:52 18470

原创分布式数据库HBase

1.概述1.1.1 从BigTable说起 BigTable是一个分布式存储系统 BigTable起初用于解决典型的互联网搜索问题 • 建立互联网索引 1 爬虫持续不断地抓取新页面，这些页面每页一行地存储到BigTable里 2 MapReduce计算作业运行在整张表上，生成索引，为网络搜索应用做准备 • 搜索互联网 3 用户发起网络搜索请求 4 网络搜索应用查询建立好的索

2018-01-14 16:45:24 2380

原创分布式文件系统HDFS

1.1简介HDFS实现目标兼容廉价的硬件设备实现流数据读写支持大数据集支持简单的文件模型强大的跨平台兼容性HDFS自身的局限性不适合低延迟数据访问无法高效存储大量小文件不支持多用户写入及任意修改文件2.1概念块的概念支持面向大规模数据存储降低分布式节点的寻址开销HDFS采用这种抽象的块的概念设计好处1.支持大规模文件存储:

2018-01-07 01:21:04 8726

原创 Hive空值处理

Hive在使用过程中不可避免需要对NULL、’’（空字符串）进行判断和识别。Hive默认情况下底层存储空值跟其他传统数据库有所不同。1、hive默认存储空值的规则（1）不同数据类型对空值的存储规则 Int与String类型，NULL底层默认存储为\N，查询时显示为NULL。String类型的数据如果为”“，存储则是”“，另外往Int类型的字段插入数据””时，结果还是\N。（2）不同数据类型

2017-12-20 19:49:48 7877 1

原创 Hive库导出

导出到本地：insert overwrite local directory '/app1/ai/nn/' row format delimited fields terminated by '|' select * from DIM_NE_EC 导出本地目录：’/app1/ai/nn/’ 分隔符： ‘|’

2017-12-12 20:12:11 441

原创 Linux vim 替换命令

：n，$s/NN/SS/g 替换第 n 行开始到最后一行中每一行所有 NN 为 SS n 为数字，若 n 为 .，表示从当前行开始到最后一行。

2017-12-12 20:03:37 542

原创 oracle 取前一分钟、类型转换、时间差

SELECT '一分钟前' TITLE ,TO_CHAR(SYSDATE -1/24/60,yyyyMMdd HH24:MI:SS) FROM DUAL;SYSDATE -1即为当前时间的前一天的时间,所以前一分钟：SYSDATE -1/24/60前一小时（略）前一天（略）转换为数字类型：TO_NUMBER()SELECT TO_NUMBER('20181024.16','99999999

2017-11-28 19:43:22 988

原创 Oracle查看、添加分区（持续更新）

查看表分区：SELECT * FROM USER_TAB_PARTITIONS WHERE TABLE_NAME='tb';增加分区：ALTER TABLE tb ADD PARTITIONS "P20180702" VALUES LESS THAN ("20180702") TABLESPACE "CACHETBS"

2017-11-23 18:42:58 1238

原创 Hadoop常用命令（持续更新）

Hadoop常用命令FS Shell 调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统，scheme是hdfs，对本地文件系统，scheme是file。其中scheme和authority参数都是可选的，如果未加指定，就会使用配置中指定的

2017-11-23 18:09:55 243

williamjame的博客

原创三数之和、删除有序数组中的重复项、移除元素

原创 hive ql 使用 posexplode函数实现多行转多列

原创异常检测基本概念和方法

原创异常检测基本概念和方法

原创在shell 中 presto 执行sql 语句

原创 hive sql行转列后列转行

原创吴恩达_深度学习概论

原创 Hql取上周、上月、上季度、去年第一天和最后一天

原创 hive loading 时嵌套目录报错

翻译 Scala语言基础

原创云数据库

原创 NoSQL数据库

原创使用java程序读写HDFS文件，判断文件是否存在

原创使用hadoop jar命令和linux命令运行jar包

原创 Linux批量替换文件中多个字符

原创 hivesql优化

原创 linux 统计目录大小

原创 linux 文件转码iconv

原创 oracle 字符串操作

原创大数据处理架构Hadoop

原创 Python基本语法元素

原创大数据概述

转载 oracle基本数据类型—RAW类型

原创 Hive 添加表字段，给字段排序

原创分布式数据库HBase

原创分布式文件系统HDFS

原创 Hive空值处理

原创 Hive库导出

原创 Linux vim 替换命令

原创 oracle 取前一分钟、类型转换、时间差

原创 Oracle查看、添加分区（持续更新）

原创 Hadoop常用命令（持续更新）

zookeeper-3.4.5-cdh5.14.2.tar.gz

空空如也