夏至&未至-CSDN博客

转载（十六）Hive 优化策略

正文一、Hadoop 框架计算特性1、数据量大不是问题，数据倾斜是个问题2、jobs 数比较多的作业运行效率相对比较低，比如即使有几百行的表，如果多次关联多次汇总，产生十几个 jobs，耗时很长。原因是 map reduce 作业初始化的时间是比较长的3、sum,count,max,min 等 UDAF，不怕数据倾斜问题，hadoop 在 map 端的汇总合并优化，使数据...

2018-12-25 10:49:12 1053

转载（十五）Hive 执行过程实例分析

目录一、Hive 执行过程概述1、概述2、Hive 操作符列表3、Hive 编译器的工作职责4、优化器类型二、join1、对于 join 操作2、实现过程3、具体实现过程三、Group By1、对于 group by操作2、实现过程四、Distinct1、对于 distinct的操作2、实现过程3、详细过程解释正文一、Hive...

2018-12-25 10:41:11 1113

转载（十四）Hive的数据倾斜

目录1、什么是数据倾斜？2、Hadoop 框架的特性3、主要表现4、容易数据倾斜情况5、产生数据倾斜的原因6、业务场景（1）空值产生的数据倾斜（2）不同数据类型关联产生数据倾斜（3）大小表关联查询产生数据倾斜正文1、什么是数据倾斜？由于数据分布不均匀，造成数据大量的集中到一点，造成数据热点2、Hadoop 框架的特性　　A、不怕数据大，怕数...

2018-12-18 11:47:48 1045

转载（十三）Hive的Shell操作

目录一、Hive的命令行1、Hive支持的一些命令2、语法结构3、示例二、Hive的参数配置方式1、Hive的参数配置大全2、Hive的参数设置方式正文一、Hive的命令行1、Hive支持的一些命令Command Descriptionquit Use quit or exit to leave the interactive shell....

2018-12-18 11:02:32 1122

转载（十二）Hive分析窗口函数(三) CUME_DIST和PERCENT_RANK

目录数据准备数据格式创建表玩一玩CUME_DIST说明查询语句查询结果结果说明玩一玩PERCENT_RANK说明查询语句查询结果结果说明正文这两个序列分析函数不是很常用，这里也练习一下。数据准备数据格式cookie3.txtd1,user1,1000d1,user2,2000d1,user3,3000...

2018-12-17 15:17:18 1542

转载（十一）Hive分析窗口函数(二) NTILE,ROW_NUMBER,RANK,DENSE_RANK

目录概述数据准备数据格式创建表玩一玩NTILE说明查询语句查询结果比如，统计一个cookie，pv数最多的前1/3的天玩一玩ROW_NUMBER说明分组排序查询结果玩一玩RANK 和 DENSE_RANK查询语句查询结果ROW_NUMBER、RANK和DENSE_RANK的区别正文概述本文中介绍前几个序列函数，N...

2018-12-17 14:16:30 694

转载（十）Hive分析窗口函数(一) SUM,AVG,MIN,MAX

目录数据准备数据格式创建数据库及表玩一玩SUM 查询语句查询结果说明玩一玩AVG 查询语句查询结果玩一玩MIN 查询语句查询结果玩一玩MAX 查询语句查询结果正文数据准备数据格式cookie1,2015-04-10,1cookie1,2015-04-11,5cookie1,2...

2018-12-17 10:59:04 1108

原创（二）垃圾收集器与内存分配策略

上一篇主要讲解的是JVM内存管理，内存分区，在本篇博客中主要讲解的是垃圾收集器以及内存分配策略。1、概述 JAVA语言中，JVM内存管理都是“自动化”的，为啥还需要继续关注JVM内存管理呢？原因很简单，JVM内存管理不是万能的，也会出现内存泄漏以及内存溢出等问题，当垃圾收集成为系统达到更高并发量的瓶颈时，我们就需要对JVM内存管理进行监控、干预。由上一篇博客知道，...

2018-12-14 15:50:50 693

原创（一）JAVA内存区域与内存溢出异常

目录0、前沿1、概述2、运行时数据区域2.1、程序计数器2.2、JAVA虚拟机栈2.3、本地方法栈2.4、JAVA堆2.5、方法区2.5.1、运行时常量池3、HotSpot虚拟机3.1、对象的创建3.2、对象的内存布局3.3、对象的访问定位0、前沿借用JVM书中一句话：JAVA和C++之间有一堵由内存动态分配和垃圾收集技术...

2018-12-13 18:04:37 820

转载拥抱人工智能，从机器学习开始

在阿里天池上看到这篇文章，还是很值得一看的。转载链接：https://yq.aliyun.com/articles/604097?spm=a2c4e.11163080.searchblog.100.65e02ec1Sk1FCu目录1. 机器学习2. 机器学习算法：是使计算机具有智能的关键下面我们将选取几种常见的算法，一一介绍。1. 线性回归：找到一条直线来预测目标值2....

2018-12-06 16:45:40 1123

写在前面Kaggle的数据挖掘比赛近年来很火，以至于中国兴起了很多很多类似的比赛，做了两个这种类型的比赛了，Jdata用户商品购买预测和用户位置精准预测，积累了相当多的比赛经验了，虽然两次成绩都不是特别好，59/4590 和 179/2844 。这些比赛的套路从根本上都是一毛一样的，我下面可以和大家探讨一个大致的做题套路以及怎么往高分走的方向，但是总结来说这就是个拼体力的任务，和智力无关。（虽...

2018-12-06 12:44:47 25100 6

转载 Kaggle比赛----入门指导

介绍参加Kaggle比赛，我必须有哪些技能呢？你有没有面对过这样的问题？最少在我大二的时候，我有过。过去我仅仅想象Kaggle比赛的困难度，我就感觉害怕。这种恐惧跟我怕水的感觉相似。怕水，让我无法参加一些游泳课程。然而，后来，我得到的教训是只要你不真的跨进水里，你就不知道水有多深。相同的哲学对Kaggle也一样适用。没有试过之前不要下结论。 Kaggle，数据科学的家园，为竞赛...

2018-12-06 11:44:11 5929

转载七大统计模型

一、多元回归 1、概述：在研究变量之间的相互影响关系模型时候，用到这类方法，具体地说：其可以定量地描述某一现象和某些因素之间的函数关系，将各变量的已知值带入回归方程可以求出因变量的估计值，从而可以进行预测等相关研究。 2、分类分为两类：多元线性回归和非线性线性回归；其中非线性回归可以通过一定的变化转化为线性回归，比如：y=lnx 可以转化为y=u u=ln...

2018-12-05 16:50:48 12757

转载 SSM框架中MVC各层的作用以及运行流程

这篇博文主要介绍的是SSM（Spring、SpringMVC、Mybatis）框架中，MVC各层的作用以及各层之间的交互和框架整体运行流程。一、MVC各层级间的作用及关系表现层（springMVC）：Controller层（Handler层）负责具体的业务模块流程的控制Controller层通过要调用Service层的接口来控制业务流程，控制的配置也在Spring...

2018-12-05 08:59:44 9029 2

翻译 Spring IoC 容器的设计与实现原理

上一篇文章讲解的是IOC的原理，这一篇文章主要讲解Spring IoC 容器的设计与实现原理 1.spring的IOC容器在 Spring IoC 容器的设计中，容器有两个系列，可以看成是容器的具体表现形式： BeanFactory 简单容器：实现了容器的基本功能，典型方法如 getBean、containsBean、isSingleton； ApplicationCo...

2018-12-04 11:32:34 1929

原创 IOC概念的详解

1.1.IOC是什么？ Ioc—Inversion of Control，即“控制反转”，不是什么技术，而是一种设计思想。在Java开发中，Ioc意味着将你设计好的对象交给容器控制，而不是传统的在你的对象内部直接控制。●谁控制谁，控制什么：传统Java SE程序设计，我们直接在对象内部通过new进行创建对象，是程序主动去创建依赖对象；而IoC是有专门一个容器来创建这些对象，即由...

2018-12-04 10:47:12 10410

转载 Redis单线程的原因

一、前言近乎所有与Java相关的面试都会问到缓存的问题，基础一点的会问到什么是“二八定律”、什么是“热数据和冷数据” ，复杂一点的会问到缓存雪崩、缓存穿透、缓存预热、缓存更新、缓存降级等问题，这些看似不常见的概念，都与我们的缓存服务器相关，一般常用的缓存服务器有Redis、Memcached等，而笔者目前最常用的也只有Redis这一种。如果你在以前面试的时候还没有遇到过面试官问你：为什么说...

2018-12-04 10:33:34 869

原创 Ubuntu16.04环境下搭建Hadoop3.0.3伪分布式集群

最近刚好赶上双11腾讯促销，于是抢购了一个8核16G内存的云服务器，加上业务上需要用到hadoop，hive，于是想搭建搭建一个hadoop分布式集群，但是限于自己手头上服务器数量不多，因此打算先搭建一个hadoop伪分布式集群。首先介绍一下我的安装环境：（1）java version （2）hadopp version 接下来，开始我的环境搭...

2018-11-14 23:32:36 1751 1

原创基于tableau进行APP高频访问场景数据分析

上周接到一个任务，就是进行APP月活数据分析，想到之前一直被学弟安利的一款BI软件---tableau，于是乎直接上手操作起来。直接进入主题（1）数据源是什么？系统下载的一个excel文件，内容如下所示：（由于数据不方便外泄，所以就打码了...）里面我利用到的字段是页面名称、访问量、访客量。（2）连接excel数据到ta...

2018-11-09 09:04:18 2276

原创利用Tableau绘制湖北省市区县用户访问App时的热力图

最近一个任务：利用Tableau绘制出用户访问手机某App时热力图，这其实难度不大，但是一个很好熟悉Tableau功能机会的例子，毕竟要玩透Tableau还是需要下很多工夫的，所以本着学习分享的态度就记下这篇博客了。目录（1）我们有什么？（2）我们还差什么？（3）我们需要哪些数据？（4）我们还需要进行数据处理（5）绘制热力图信息（1）...

2018-11-09 00:13:15 9043 1

转载 Java虚拟机发展史

从1996年初Sun公司发布的JDK1.0中包含的Sun Classic VM到今天，曾经涌现了很多优秀的虚拟机实现，我们先回顾一下Java虚拟机的发展轨迹.。目录（1）如何查看自己的虚拟机版本？（2）Sun Classic / Exact VM（3）Sun HotSpot VM（4）Sun Mobile-Embedded VM / Meta-Circular VM（5）B...

2018-11-07 10:49:32 734

转载（九）Hive的5个面试题

（九）Hive的5个面试题目录一、求单月访问次数和总访问次数 1、数据说明 2、数据准备 3、结果需求 4、需求分析二、学生课程成绩 1、说明 2、需求三、求每一年最大气温的那一天 + 温度 1、说明 2、需求 3、解析四、求学生选课情况 1、数据说明 2、数据准备 3、需求 4、解析五、求月销售额和总销售额...

2018-10-30 21:20:55 2582 3

转载（八）Hive中文乱码

（八）Hive中文乱码目录Hive注释中文乱码针对元数据库metastore中的表,分区,视图的编码设置 1、进入数据库 Metastore 中执行以下 5 条 SQL 语句 2、修改 metastore 的连接 URL 验证正文回到顶部Hive注释中文乱码创建表的时候，comment说明字段包含中文，表成功创建成功之后，中文说明显示乱码 ...

2018-10-30 21:01:19 1329

转载（七）Hive的DDL操作

（七）Hive的DDL操作目录1、创建库语法结构创建库的方式 2、查看库查看库的方式 3、删除库说明示例 4、切换库语法示例 1、创建表语法示例 2、查看表（1）查看表列表（2）查看表的详细信息查看表的信息（3）查看表的详细建表语句 3、修改表（1）修改表名（2）修改字段定...

2018-10-30 20:43:14 637

转载（六）Hive SQL之数据类型和存储格式

（六）Hive SQL之数据类型和存储格式目录一、数据类型 1、基本数据类型 2、复杂类型二、存储格式（1）textfile （2）SequenceFile （3）RCFile （4）ORCFile （5）Parquet 三、数据格式正文回到顶部一、数据类型1、基本数据类型Hive 支持关系型数据中大...

2018-10-30 20:22:35 750

转载 DbVisualizer配置连接hive

（五）DbVisualizer配置连接hive 目录一、安装DbVisualizer 二、配置DbVisualizer里的hive jdbc 1、在DbVisualizer的安装目录jdbc文件夹下新建hive文件夹 2、拷贝Hadoop的相关jar包放入新建的hive文件夹里面 3、拷贝Hive的相关jar包放入新建的hive文件夹里面 4、结果 5、在too...

2018-10-29 23:21:58 4311

转载 HIVE常见问题集锦

1. 缺少MySQL驱动包1.1 问题描述 Caused by: org.datanucleus.store.rdbms.connectionpool.DatastoreDriverNotFoundException: The specified datastore driver ("com.mysql.jdbc.Driver") was not found in the CLASSPAT...

2018-10-29 21:42:54 4073

转载（4.1）搭建HWI(HiveWebInterface)步骤总结

搭建HWI(HiveWebInterface)步骤总结　　众所周知，Hive有三种使用方式：CLI、HWI浏览器、Thrift客户端。安装配置完Hive后无需进行额外操作即可使用CLI。但是HWI则需要单独搭建。本文主要记录我自己搭建HWI的过程。　　说明：本文主要介绍HWI的安装，后续会完成下面两篇博文：HWI的介绍 HWI的使用　　本博主主要是记录自己的学习内容，有哪些理解不到...

2018-10-28 23:50:08 742

转载（四）Hive的连接3种连接方式

（四）Hive的连接3种连接方式目录一、CLI连接二、HiveServer2/beeline 1、修改 hadoop 集群的 hdfs-site.xml 配置文件 2、修改 hadoop 集群的 core-site.xml 配置文件三、Web UI 正文回到顶部一、CLI连接进入到 bin 目录下，直接输入命令： [hadoop@ha...

2018-10-28 23:48:37 4211

转载（三）Hive元数据信息对应MySQL数据库表

（三）Hive元数据信息对应MySQL数据库表目录概述一、存储Hive版本的元数据表（VERSION）二、Hive数据库相关的元数据表（DBS、DATABASE_PARAMS） 1、DBS 2、DATABASE_PARAMS 三、Hive表和视图相关的元数据表 1、TBLS 2、TABLE_PARAMS 3、TBL_PRIVS 四、Hive文...

2018-10-28 18:54:58 736

转载（二）Hive安装

（二）Hive安装目录Hive的下载 Hive的安装 1、本人使用MySQL做为Hive的元数据库，所以先安装MySQL。 2、上传Hive安装包 3、解压安装包 4、修改配置文件 5、一定要记得加入 MySQL 驱动包（mysql-connector-java-5.1.40-bin.jar）该 jar 包放置在 hive 的根路径下的 lib 目录 6、安...

2018-10-28 08:58:46 888

转载 Kafka分布式集群安装

Kafka分布式集群安装目录一、下载二、安装前提（zookeeper安装）三、安装 2.1　上传解压缩 2.2　修改配置文件 2.3　将kafka的安装包分发到其他节点 2.4　创建软连接 2.5　修改环境变量三、启动 3.1　首先启动zookeeper集群 3.2　启动Kafka集群服务 3.3　创建的topic 3.4　查看topic...

2018-10-27 22:51:59 686

转载 Kafka在zookeeper中的存储

Kafka在zookeeper中的存储目录一、Kafka在zookeeper中存储结构图二、分析 2.1　topic注册信息 2.2　partition状态信息 2.3　Broker注册信息 2.4　Controller epoch 2.5　Controller注册信息 2.6　补充Consumer and Consumer group 2.7　Co...

2018-10-27 22:44:13 1301

转载 Kafka高可用详解

Kafka的高可用目录一、高可用的由来 1.1　为何需要Replication 1.2　Leader Election 二、Kafka HA设计解析 2.1　如何将所有Replica均匀分布到整个集群 2.2　Data Replication（副本策略）三、HA相关ZooKeeper结构 3.1　admin 3.2　broker 3.3　contr...

2018-10-27 22:32:39 1119

转载（一）Hive初识

Hive学习之路（一）Hive初识目录Hive 简介什么是Hive 为什么使用 Hive Hive 特点 Hive 和 RDBMS 的对比 Hive的架构 1、用户接口: shell/CLI, jdbc/odbc, webui Command Line Interface 2、跨语言服务： thrift server 提供了一种能力，让用户可以使用多种...

2018-10-27 22:19:14 2811

原创程序员小灰漫画系列

为了方便查看《程序员小灰漫画系列》文章，索性就把连接贴到自己的博客了....程序员小灰2017年原创汇总程序员小灰2018上半年原创汇总

2018-10-25 22:50:19 6816 1

翻译 HDFS简介

Hadoop文件系统使用分布式文件系统设计开发。它是运行在普通硬件。不像其他的分布式系统，HDFS是高度容错以及使用低成本的硬件设计。HDFS拥有超大型的数据量，并提供更轻松地访问。为了存储这些庞大的数据，这些文件都存储在多台机器。这些文件都存储以冗余的方式来拯救系统免受可能的数据损失，在发生故障时。 HDFS也使得可用于并行处理的应用程序。HDFS的特点它适用于在分布式存储和处理。...

2018-10-20 21:21:50 668

原创 Hadoop HDFS基本操作（ubuntu16.04 、Hadoop 3.0.3）

hdfs shell的基本操作以及hdfsWeb查看文件在安装好hadoop集群并成功的启动了hdfs之后，我们就可以利用hdfs对文件进行操作了，一下是对文件的一些基本操作特别注意：访问HDFS目录时，一定要带有/ 否则命令会出错！hdfs基本操作1、查询命令　　hdfs dfs -ls / 查询/目录下的所有文件和文件夹　　hdfs dfs -ls -R 以递归的...

2018-10-20 20:54:16 2213

原创 Hadoop三种运行模式（单机模式、伪分布式模式、全分布式集群模式）

Hadoop的三种运行模式（启动模式）1.1、单机模式（独立模式）（Local或Standalone Mode）　　-默认情况下，Hadoop即处于该模式，用于开发和调式。　　-不对配置文件进行修改。　　-使用本地文件系统，而不是分布式文件系统。　　-Hadoop不会启动NameNode、DataNode、JobTracker、TaskTracker等守护进程，Map()和R...

2018-10-20 20:38:12 14757

转载漫画：什么是CAS机制？（进阶篇）

上一期为大家讲解的CAS机制的基本概念，没看过的小伙伴们可以点击下面的链接：漫画：什么是 CAS 机制？目录1、Java当中CAS的底层实现2、CAS的ABA问题和解决方法这一期我们来深入介绍之前遗留的两个问题：1、Java当中CAS的底层实现2、CAS的ABA问题和解决方法 1、CAS的底层实现首先...

2018-09-30 10:19:19 1317 1

空空如也

空空如也