1 唯有智者千虑

尚未进行身份认证

学无止境

等级
TA的排名 37w+

大数据面试题

1.离线数据1. hdfs存/取文件过程2. yarn提交任务流程3. spark和Mr的shuffle4. spark提交任务的三种运行过程5. spark的调优6. oom的调优7. hive架构,hive开窗函数,窗口函数8. udf, udaf, udpf区别和使用9. hive扩容,子查询10. Hbase架构,存取流程11. Hbase二级索引12. Hbase...

2019-08-22 23:06:29

Linux常用命令

Linux常用命令$代表普通用户,#代表root用户1.man命令(manual操作系统的简称) : 可以通过man命令查看某一个命令的使用方法 栗子: man su 查看su命令的使用方法2.useradd : 添加用户命令 用法: useradd[选项] 用户名栗子 : useradd Li -g<群组> 指定用户的所述群组 -G<群组&g...

2019-06-05 19:15:58

GitHub

GitGit简介Git是目前世界上最先进的分布式版本控制系统Git命令操作git log : 查看git提交日志git reset --hard HEAD^ :回退到上一个版本,HEAD^^ 上两个版本git reset --hard 版本号git reflog : 记录每一次命令,去到未来git add . :把修改后的文件加入暂存区git commit -m '' ...

2019-06-04 20:40:48

Kafka

Kafka是一个分布式,支持分区的(partition),多副本的(replica),基于zookeeper协调的分布式消息系统是一个分布式消息队列,生产者,消费者的功能对消息保存时根据Topic进行分类,发送消息的为Producer,消息接受者为consummer,依赖于zookeeperbroker:每个kafka实例topic:partition:zookeeper:依赖集群保...

2019-06-02 21:34:07

HBase

HBase架构:关键词: client,zookeeper,hmaster,hregoinserver,hlog,hregoin,store,memstore,storefile,hfilehmaster:(hbase的老大) 为regoinserver分配region 负责region的重新分配 hdfs的垃圾文件回收hregoinserver:(hbase的小弟)负责维护...

2019-06-02 20:29:58

快速排序

快速排序在每一轮挑选一个基准元素,并让其他比它大的元素移动到数列一边,比它小的元素移动到数列的另一边,从而把数列拆解成了两个部分。这种思路就叫做分治法。元素的移动选定了基准元素以后,我们要做的就是把其他元素当中小于基准元素的都移动到基准元素一边,大于基准元素的都移动到基准元素另一边。挖坑法:import java.util.Arrays;public class QuickSort ...

2019-06-01 09:47:28

Spark

1.spark安装 (1)上传,解压 (2)进入conf目录并重命名并修改spark-env.sh.template文件 cd conf/ mv spark-env.sh.template spark-env.sh vi spark-env.sh 在该配置文件中添加如下配置 export JAVA_HOME=/usr/local/jdk1.8.0_152 export SPAR...

2019-06-01 08:59:07

Mysql存储引擎与索引

Mysql存储引擎:Mysql有两种存储引擎:MyISAM和InnoDBMyISAM:MyISAM 引擎是 MySQL 5.1 及之前版本的默认引擎,它的特点是: (1)不支持行锁,读取时对需要读到的所有表加锁,写入时则对表加排它锁 (2)不支持事务 (3)不支持外键 (4)不支持崩溃后的安全恢复 (5)在表有读取查询的同时,支持往表中插入新纪录 (6)支持 BLOB 和 T...

2019-05-30 20:39:58

冒泡排序

冒泡排序 冒泡排序又叫做交换排序,两两比较,根据自身的大小一点一点往一侧移动思想: 相邻的元素两两比较,根据大小来交换元素的位置,每冒泡一遍,有序数列+1原始的冒泡排序是稳定排序。由于该排序算法的每一轮要遍历所有元素,轮转的次数和元素数量相当,所以时间复杂度是O(N^2) 。冒泡排序第一版:public class BubbleSort{ private sta...

2019-05-29 20:02:06

数据仓库

数据仓库部分前言(hive优化,hive数据倾斜的原因及优化,hive内置函数的使用,hive开窗函数,hive基本练习题,sqoop导入hive,hbase,mysql,及分段导入,全表导入,sql导入,导入原理,ETL概念,维度概念,建模概念, 雪花型和星型区别,数据仓库架构,hbase rowkey设计原则,hbase如何使用)hive优化1.表连接优化 (1)大表放在后...

2019-05-29 12:54:54

基础数据结构总结

数据结构复习前言数据结构(hashmap基本原理,currenthashmap基本原理,二叉树,平衡二叉树,红黑树,单例模式手写,工厂模式手写,快速排序手写,堆排序概念,jvm堆列栈概念,JVM垃圾回收概念(算法看自己想不先做,说出来加分),java集合全部概念,什么是链表,java实现链表相关,java多线程,线程锁概念,线程池概念,所有排序算法时间复杂度(要先懂什么是时间复杂度))...

2019-05-28 21:08:18
勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv3
    勤写标兵Lv3
    授予每个自然周发布7篇到8篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。