1 zZsS松

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 26w+

很有意思的hive SQL面试题1

题目描述数据源是有a,b两列,然后根据b列的连续相同值,加一列序号先准备测试数据CREATE TABLE IF NOT EXISTS `test1`( yy int, nn int) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'; insert into table test1 values(2010,1);insert into table test1 values(2011,1);insert into table test1

2020-10-16 11:25:24

大数据-初识flume

目录flume概述flume基础架构flume概述flume百度百科flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集.聚合和传输系统,基于流式架构,灵活简单flume基础架构agentagent是一个JVM进程,它以事件的形式将数据从源头送到目的地,主要由 source channel sink 三部分组成sourcesource 是负责接收数据到flume agent 的组件,source 组件可以处理各种类型,各种格式的日志数据,包括a

2020-08-17 16:09:54

大数据-浅谈hive优化

浅谈hive调优fetch抓取本地模式表优化大小表join大表join大表MR优化并行执行严格模式JVM重用推测执行fetch抓取hive在某些情况下可以不必使用MapReduce计算,例如select * from table1;这种情况下,hive可以简单的读取table1对应的存储目录下的文件,然后输出查询结果到控制台.在hive-default.xml文件里配置,默认是more,在全局查找,字段查找,limit查找等都不走MapReduce本地模式大多数的hadoop job是需要h

2020-08-14 10:19:25

大数据-hive入门详解

目录hive概述什么是hive?HQL转换成MR流程hive的优缺点hive的架构hive概述什么是hive?维基百科-hiveApache Hive 中文手册hive是建立在hadoop架构上的数据仓库工具,能够提供数据精炼、查询和分析,能够将结构化的数据文件映射成一张表,并提供类SQL查询功能,底层是将SQL转换成MR程序HQL转换成MR流程首先hive通过对SQL进行统计分析,将SQL语言中常用的操作用MapReduce写成很多模板,所有的MapReduce模板都封装在hive中

2020-08-13 10:16:14

大数据-分布式锁(数据库,redis,zookeeper)

目录分布式锁的实现方式分布式锁需要考虑的问题基于数据库实现分布式锁基于数据库表实现分布式锁基于数据库排他锁实现基于Redis实现分布式锁set命令和lua脚本Redisson框架基于zookeeper实现分布式锁排他锁、共享锁及羊群效应基于Curator客户端实现分布式锁分布式锁的实现方式基于数据库实现分布式锁;基于缓存(Redis等)实现分布式锁;基于Zookeeper实现分布式锁;分布式锁需要考虑的问题在分布式环境下,同一个方法同一时间只能由一个机器的一个线程执行高可用的获取和释放锁

2020-08-06 13:40:48

大数据-zookeeper(上)

Zookeeper概述zookeeper的wikizookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目zookeeper负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦数据发生了变更,zookeeper就负责通知已经注册的那些观察者zookeeper是一主(leader)多从(follower)组成的集群集群中只要有半数以上的节点存活,zookeeper就能正常提供服务全局数据保持一致,每个server都保存一份相同的数据副本,client不论连接到那个

2020-08-05 15:54:12

力扣:旋转矩阵(scala)

题目描述给你一幅由 N × N 矩阵表示的图像,其中每个像素的大小为 4 字节。请你设计一种算法,将图像旋转 90 度。不占用额外内存空间能否做到? 示例 1:给定 matrix = [ [1,2,3], [4,5,6], [7,8,9]],原地旋转输入矩阵,使其变为:[ [7,4,1], [8,5,2], [9,6,3]]示例 2:给定 matrix =[ [ 5, 1, 9,11], [ 2, 4, 8,10], [13, 3.

2020-08-04 16:48:25

大数据-redis进阶

redis持久化redis主要工作在内存中,断电后数据会清空,redis提供了两种不同级别的持久化机制.① RDB 能够在指定的时间间隔内对数据进行快照存储② AOF 记录每次对服务器写的操作,当服务器重启的时候会重新执行这些命令来恢复原始数据,AOF命令以redis协议追加保存每次写的操作到文件末尾,redis还能对AOF文件进行后台重写,使得AOF文件的体积不至于过大.同时开启两种持久化机制的时候,当redis重启的时候会优先导入AOF文件来恢复原始的数据,在通常情况下AOF文件保存的数据集.

2020-08-04 16:47:09

大数据-Redis基础

redis维基百科Redis是一个使用ANSI C编写的开源、支持网络、基于内存、可选持久性的键值对存储数据库(非关系型数据库)。redis的特性① 远程: 分为客户端,服务端.可以分别部署到不同的机器上,通多自定义协议进行传输交互,平时说的redis通常指的是redis的服务端② 基于内存: 所有数据结构存在内存中,所有操作非常高效③ 非关系型数据库: 本质是数据库,存储数据,区别于mysqlredis的应用场景① 缓存: 当系统的接口数据比较慢的时候,...

2020-07-31 11:11:36

力扣: 合并区间 (scala)

题目描述给出一个区间的集合,请合并所有重叠的区间。示例 1:输入: [[1,3],[2,6],[8,10],[15,18]]输出: [[1,6],[8,10],[15,18]]解释: 区间 [1,3] 和 [2,6] 重叠, 将它们合并为 [1,6].示例 2:输入: [[1,4],[4,5]]输出: [[1,5]]解释: 区间 [1,4] 和 [4,5] 可被视为重叠区间。来源:力扣(LeetCode)链接:https://leetcode-cn.com/problems.

2020-07-30 14:35:43

大数据-hadoop之MR

MapReduce维基百科MR是一个分布式运算框架,主要分为Map和reduce两个阶段,map负责把一个任务分解成多个任务,reduce负责把分解后多个任务的处理结果汇总优缺点① 易编程,简单的实现一些接口,就可以完成一个分布式程序,可以分布到大量机器上运行.② 易扩展, 当计算力不够的时候,可以通过简单的增加机器来扩展计算能力③ 高容错, 当一个机器挂了,可以把上面的计算任务转移到另一个节点上,不至于任务失败④ 大数据量, 可以实现上千台服务器集群并发工作,提供数据处理能力缺点..

2020-07-29 14:27:49

力扣: 寻找数组中心索引java+scala

给定一个整数类型的数组 nums,请编写一个能够返回数组 “中心索引” 的方法。我们是这样定义数组 中心索引 的:数组中心索引的左侧所有元素相加的和等于右侧所有元素相加的和。如果数组不存在中心索引,那么我们应该返回 -1。如果数组有多个中心索引,那么我们应该返回最靠近左边的那一个。示例 1:输入:nums = [1, 7, 3, 6, 5, 6]输出:3解释:索引 3 (nums[3] = 6) 的左侧数之和 (1 + 7 + 3 = 11),与右侧数之和 (5 + 6 = 11) 相等。

2020-07-28 17:00:36

大数据-hadoop之HDFS

HDFS百度百科HDFS是个分布式文件系统,用来存储文件,通过目录树定位文件,由多台服务器联合实现HDFS的功能,适合一次写入多次读出的场景,不支持文件修改.HDFS的优缺点3.1 优点3.1.1 高容错性数据保存多个副本,提高容错性,某个副本丢失后,会自动恢复3.1.2 大数据处理能够处理数据量达到GB,TB,PB级别的数据,能够处理百万规模的文件量3.1.3 成本低可以搭建在廉价的机器上,通过多副本机制,提高可靠性3.2 缺点3.2.1 不适合低延时的数据访问,比如毫秒级的存储数.

2020-07-27 09:50:40

大数据-Hadoop概念

Apache_Hadoop维基百科hadoop官网链接hadoop的优点3.1 高可靠hadoop维护了多个数据副本,当存储故障或计算故障时,不会导致数据丢失3.2 高扩展可以很方便的扩展节点3.3 高效率在MapReduce的思想下,hadoop是并行工作的,加快任务处理速度3.4 高容错性失败的任务重新分配执行hadoop的组成hadoop 1.x MapReduce + HDFS + Commonhadoop 2.x MapReduce + Yarn + HDFS + .

2020-07-24 14:23:44

Linux.2- shell命令(部分)

1. shell概述shell是一个命令行解释器,接收用户操作指令,然后调用操作系统内核.shell还是一个功能丰富的编程语言2. shell解析器cat /etc/shells有 sh bash 等3. 入门操作写shell脚本, 文件首行 #!/bin/bash 指定解析器脚本的执行 sh + 绝对或相对路径如果赋予了脚本可执行权限,则可以直接使用相对路径和绝对路径执行脚本文件4. 变量系统变量直接 $JAVA_HOME显示当前shell变量: set$# 显示脚本输

2020-07-24 13:24:07

Linux.1-常用命令(详细)

**Linux的维基百科**常用的几个top 查看内存df -h 查看磁盘存储情况iotop 查看磁盘IO读写(yum install iotop安装)iotop -o 直接查看比较高的磁盘读写程序netstat -tunlp | grep 端口号 查看端口占用情况uptime 查看报告系统运行时长及平均负载ps -aux 查看进程详细命令系统信息arch 显示机器的处理器架构uname -m 显示机器的处理器架构uname -r 显示正在使用的内核版本dmideco..

2020-07-24 09:28:00

体育馆人流量

X 市建了一个新的体育馆,每日人流量信息被记录在这三列信息中:序号 (id)、日期 (visit_date)、 人流量 (people)。请编写一个查询语句,找出人流量的高峰期。高峰期时,至少连续三行记录中的人流量不少于100。例如,表 stadium:±-----±-----------±----------+| id | visit_date | people |±----...

2019-12-05 11:45:14

力扣: 行程和用户

Trips 表中存所有出租车的行程信息。每段行程有唯一键 Id,Client_Id 和 Driver_Id 是 Users 表中 Users_Id 的外键。Status 是枚举类型,枚举成员为 (‘completed’, ‘cancelled_by_driver’, ‘cancelled_by_client’)。±—±----------±----------±--------±--------...

2019-12-04 16:26:33

部门工资前三高所有员工

Employee 表包含所有员工信息,每个员工有其对应的工号 Id,姓名 Name,工资 Salary 和部门编号 DepartmentId 。±—±------±-------±-------------+| Id | Name | Salary | DepartmentId |±—±------±-------±-------------+| 1 | Joe | 85000 ...

2019-12-04 16:23:35

LeetCode(力扣) :完全平方数

来源:力扣(LeetCode)链接:https://leetcode-cn.com/problems/perfect-squares给定正整数 n,找到若干个完全平方数(比如 1, 4, 9, 16, …)使得它们的和等于 n。你需要让组成和的完全平方数的个数最少。示例 1:输入: n = 12输出: 3解释: 12 = 4 + 4 + 4.示例 2:输入: n = 13输出: ...

2019-12-04 16:10:36

查看更多

勋章 我的勋章
  • 领英
    领英
    绑定领英第三方账户获取
  • 脉脉勋章
    脉脉勋章
    绑定脉脉第三方账户获得
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。