自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

天天乐见的笔记本

记录平凡中的不平凡

  • 博客(70)
  • 资源 (3)
  • 收藏
  • 关注

原创 Hive源码分析(1)——CLi输入处理

##Hive源码分析(一)——CLi输入处理北京时间:2020年04月28日10:30环境Hive3.1.11、程序栈主要执行流程main:683, CliDriver (org.apache.hadoop.hive.cli)程序入口:public static void main(String[] args) throws Exception { int ret = ...

2020-04-28 13:46:49 713

原创 Hive源码环境搭建(二)——配置与Debug

Hive源码环境搭建(二)——配置与Debug北京时间:2020年04月27日22:30接着上次写Hive源码环境搭建(一)源码编译,下面接着做Hive的环境配置,以及对Hive进行Debug本人环境:系统:macOS 10.14.6、Maven版本:3.5.4、JDK版本:1.8.0_201IDE版本:IntelliJ IDEA 2020.1Hive版本:3.1.1(当前最新的HI...

2020-04-27 23:51:39 670

原创 Hive源码环境搭建(一)——源码编译

Hive源码环境搭建(一)——源码编译北京时间:2020年04月21日12:16:00Hive项目地址本人环境:系统:macOS 10.14.6、Maven版本:3.5.4、JDK版本:1.8.0_201IDE版本:IntelliJ IDEA 2020.1Hive版本:3.1.1(当前最新的HIve分支4.0我也编译了)1、下载源码可以通过git clone xxxxxxx...

2020-04-21 12:23:28 3391

原创 IDEA快捷键总结

MAC下:跳转:光标行首/位:command+左右光标单词首/位:option+左右选中行:shift+command+左右选中单词:shift+option+左右选中单个字符:shift+方向跳转最近查看的文件:command+E跳转顶部标签左文件:shfit+command+[跳转顶部标签右文件:shfit+command+]跳转上一个浏览处:commad+[跳转下一...

2019-06-24 19:47:15 461

原创 git合并分支

首先我们查看当前分支,带*的是自己当前的分支git branch将刚写完成的代码,提交至自己的分支devgit add .git commit -m 'dev'git push -u origin dev切换分支,为mastergit checkout master切换为master,为了防止其他人对master有修改。最好先pull一下git pull origin...

2019-06-11 15:51:47 131

原创 基于Jenkins的自动化部署到Docker的Coding项目

环境:Centos7DockerSringBoot部署dockerJAVA8安装Docker可以参考:Docker安装SringBoot部署docker可以参考:SringBoot部署dockerJAVA环境可以参考:JAVA环境安装环境准备完毕,开始安装Jenkins:Jenkins下载:https://jenkins.io/zh/download/Jenki...

2019-06-11 15:33:57 947

原创 SpringBoot部署docker

首先这是个Maven项目Docker开启远程访问系统环境:Centos7安装Docker,参考我的另一篇文章:安装docker首先修改Docker配置文件vim /usr/lib/systemd/system/docker.service在ExecStart=后添加/usr/bin/dockerd -H tcp://0.0.0.0:2375 -H unix://var/run/d...

2019-06-08 11:52:57 182

原创 Linux安装Docker

环境:Centos7安装Docker离线安装下载安装包Docker下载官方地址Linux:https://download.docker.com/linux/staticMacOS: https://download.docker.com/mac/staticWindows: https://download.docker.com/win/static其中需要三个r...

2019-06-08 11:50:15 186

原创 java生成API文档

最近想要对java项目自动生成API文档,发现一个工具apidoc。这个工具可以依据一定格式的注释生成相应的HTML格式API接口文档,具体可以参考apidoc的官网。使用方法如下:安装命令npm install apidoc -g生成文档命令apidoc -i myapp/ -o apidoc/ myapp是项目的文件夹,需要包含apidoc.json,以及含有接口注释的...

2019-05-27 14:07:59 3988

原创 机器学习(十四)——强化学习

14 强化学习1 马尔科夫决策过程(MDP)一个马尔可夫决策过程(Markov decision process)由一个元组(tuple) (S,A,{Psa},γ,R)(S, A, \{P_{sa}\}, \gamma, R)(S,A,{Psa​},γ,R)组成,其中元素分别为:SSS 是一个状态集合(a set of states)。(例如,在无人直升机飞行的案例中,SSS 就可以是直...

2019-05-24 10:09:47 567

原创 机器学习(十三)——独立成分分析(ICA)

13 独立成分分析(ICA)和PCA类似找到一组新的向量组来表示原样本数据,但是和PCA又完全不同。先假设有某个样本数据 s∈Rns \in R^ns∈Rn,这个数据是由 nnn 个独立的来源(independent sources)生成的。我们观察到的则为:x=As,x = As,x=As,上面式子中的 AAA 是一个未知的正方形矩阵(square matrix),叫做混合矩阵。 通过重...

2019-05-24 10:09:40 981

原创 机器学习(十二)——主成分分析(PCA)

12.主成分分析(PCA)PCA主要是去除相关联特征中的噪声,从而使得关联特征数量转化为同一平面(直线),从而达到降纬的目的。也就是寻找数据变更主轴。应用:可视化压缩数据提高机器学习速度减少过拟合异常检测距离计算例如我们有一个关于飞行员水平数据集,其中一个特征代表飞行员对飞行的热情,另一个特征代表飞行员飞行水平。这两个特征很可能是线性相关的,但是由于数据中存在噪声的影响导致这...

2019-05-24 10:09:33 359

原创 机器学习(十一)——因子分析法

11.因子分析法对于高斯混合模型而言,需要足够的样本才能对模型进行拟合。但是如果出现样本数量远远少于特征数量的情况下怎么办?首先,我们需要了解为什么在这种情况下单一高斯模型不行?在高斯模型中,我们是利用最大似然来估计高斯分布中的参数(平均值、协方差):ϕ=1m∑i=1m1{y(i)=1}μ0=∑i=1m1{y(i)=0}x(i)∑i=1m1{y(i)=0}μ1=∑i=1m1{y(i)=1}...

2019-05-24 10:09:20 2123

原创 机器学习(十)——期望值最大算法(EM算法)

10.期望值最大算法(EM算法)1.Jensen不等式设 fff 为一个函数,其定义域(domain)为整个实数域(set of real numbers)。这里要回忆一下,如果函数 fff 的二阶导数 f′′(x)≥0f''(x) \ge 0f′′(x)≥0 (其中的 x∈Rx \in Rx∈R),则函数 fff 为一个凸函数(convex functio...

2019-05-23 14:25:09 996

原创 机器学习(九)——均值聚类算法(k-means)

9.均值聚类算法(k-means)在聚类的问题中,我们得到了一组训练样本集 {x(1),...,x(m)}\{x^{(1)},...,x^{(m)}\}{x(1),...,x(m)},然后想要把这些样本划分成若干个相关的“类群(clusters)”。其中的 x(i)∈Rnx^{(i)}\in R^nx(i)∈Rn,而并未给出分类标签 y(i)y^{(i)}y(i) 。所以这就是一个无监督学习的问...

2019-05-23 14:23:38 466

原创 机器学习(八)——学习理论

8.学习理论1.交叉验证k-折交叉验证将数据集划分为k份,每次选取一份作为测试数据,其他的为训练数据。重复k次。计算每次错误的平均值。以此验证模型的性能。随机将训练集 SSS 切分成 kkk 个不相交的子集。其中每一个子集的规模为 m/km/km/k 个训练样本。这些子集为 S1,⋯ ,SkS_1,\cdots,S_kS1​,⋯,Sk​对每个模型 Mi...

2019-05-23 14:22:42 205

原创 机器学习(七)——支持向量机

7.支持向量机硬间隔支持向量机:求解:每个样本点到超平面的距离,取最小值,并且使这个最小值最大,即:求到样本集合几何距离最小的超平面,写作:maxγ,w,bγs.t.y(i)((w∥w∥)Tx(i)+b∥w∥)≥γ,i=1,...,m\begin{aligned}max_{\gamma,w,b} \quad& \gamma \\s.t. \quad &amp...

2019-05-23 14:21:47 160

原创 机器学习(六)——高斯判别法(GDA)

6.高斯判别法(GDA)多元正态分布p(x;μ,Σ)=1(2π)n/2∣Σ∣1/2exp(−12(x−μ)TΣ−1(x−μ))p(x;\mu,\Sigma)=\frac{1}{(2\pi)^{n/2}|\Sigma|^{1/2}} exp(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))p(x;μ,Σ)=(2π)n/2∣Σ∣1/21​exp(−21​(x−μ...

2019-05-23 14:19:38 2767

原创 机器学习(五)——广义线性模型

5.广义线性模型指数族p(y;η)=b(y)e(ηTT(y)−a(η))\large p(y;η)=b(y)e^{(η^TT(y)−a(η))}p(y;η)=b(y)e(ηTT(y)−a(η))​ η\etaη 叫做此分布的自然参数,一般T(y)=yT(y)=yT(y)=y伯努利分布属于指数族p(y;ϕ)=ϕy(1−ϕ)1−y=e[ylogϕ+(1−y)log(1−ϕ)]=e...

2019-05-23 14:16:10 206

原创 机器学习(四)——牛顿迭代法

4.牛顿迭代法迭代方法变为:θ:=θ−l′′(θ)l′(θ)θ:=θ− \frac{l′′(θ)}{l′(θ)}θ:=θ−l′(θ)l′′(θ)​

2019-05-23 14:12:56 737

原创 机器学习(三)——逻辑回归(二元分类)

3.逻辑回归(二元分类)逻辑回归是一个二分类问题,所以我们需要将预测的结果,映射到{0,1}之上。所以针对θTxθ^TxθTx的值,我们修改为:hθ(x)=11+e−θTxh_θ(x)=\frac{1}{1+e^{-θ^Tx}}hθ​(x)=1+e−θTx1​当θTxθ^TxθTx趋近正无穷时,hθ(x)h_θ(x)hθ​(x)趋近于1。当θTxθ^TxθTx趋近负无穷时,hθ(x)h_...

2019-05-23 14:11:27 856

原创 机器学习(二)——局部加权线性回归(非参数算法)

2.局部加权线性回归(非参数算法)在线性回归的基础上,对最小二乘使用权值:J(θ)=12∑i=1mw(i)(θTx(i)−y(i)))2J(θ)=\frac{1}{2}\sum^m_{i=1}w^{(i)}(θ^Tx^{(i)}-y^{(i)}))^2J(θ)=21​i=1∑m​w(i)(θTx(i)−y(i)))2添加权值的方法有多种,我们这里选择的权值是:w(i)=exp(−(x(...

2019-05-23 14:09:14 1061 1

原创 机器学习(一)——线性回归

1. 线性回归成本函数:最小二乘J(θ)=12∑i=1m(θTx(i)−y(i)))2J(θ)=\frac{1}{2}\sum^m_{i=1}(θ^Tx^{(i)}-y^{(i)}))^2J(θ)=21​i=1∑m​(θTx(i)−y(i)))2利用梯度下降法:θj=θj−α∂J(θ)∂θjθ_j=θ_j-α\frac{\partial J(θ)}{\partial θ_j}θj​...

2019-05-23 14:08:37 190

原创 线性代数(五)——矩阵微积分补充

矩阵微积分补充约定1:令y=f(x)\mathbf y=f(\mathbf x)y=f(x),其中y\mathbf yy是含有m个元素的向量,x\mathbf xx是含有n个元素的向量,则:∂y∂x=[∂y1∂x1∂y1∂x2⋯∂y1∂xn∂y2∂x1∂y2∂x2⋯∂y2∂xn⋮⋮⋱⋮∂ym∂x1∂ym∂x2⋯∂ym∂xn]\frac{\partial \mathbf y}{\partia...

2019-04-26 13:46:50 247

原创 康托展开及其逆运算

康托展开:有1,⋯ ,n1,\cdots,n1,⋯,n个数字,进行全排列。按照字典序将全排列排序如:1,2,3,41,2,4,31,3,2,41,3,4,21,4,2,31,4,3,2⋮1,2,3,4\\1,2,4,3\\1,3,2,4\\1,3,4,2\\1,4,2,3\\1,4,3,2\\\vdots1,2,3,41,2,4,31,3,2,41,...

2019-04-26 13:41:25 212

翻译 线性代数(四)——矩阵微积分

4 Matrix Calculus(矩阵微积分)在本节中,我们给出了矩阵微积分的一些基本定义,并提供了一些例子。4.1 The Gradient(梯度)假设有这样一个函数f:Rm×n→Rf:\R^{m \times n} \rightarrow\Rf:Rm×n→R,输入一个矩阵A∈Rm×nA \in \R^{m\times n}A∈Rm×n,返回一个实数。那么关于矩阵A的函数fff的梯度是偏...

2019-04-12 14:48:51 1443

翻译 线性代数(三)——矩阵操作和属性

3 Operations and Properties(矩阵的操作和属性)3.1 The Identity Matrix(单位矩阵) and Diagonal Matrices(对角矩阵)单位矩阵:对角线元素都为1,其他都为0任何矩阵与单位矩阵相乘都为自身,且单位矩阵满足交换律对角矩阵:对角线元素都为非零,其他都为0其中,如果对角矩阵的对角线元素都为1,则该对角矩阵也是单位矩阵...

2019-04-12 14:48:06 711

翻译 线性代数(二)——矩阵乘法

2 Matrix Multiplication(矩阵的乘法)矩阵A∈Rm×nA \in \mathbb{R}^{m \times n}A∈Rm×n,矩阵B∈Rn×pB \in \mathbb{R}^{n \times p}B∈Rn×p,相乘得到矩阵C=AB∈Rm×pC=AB \in \mathbb{R}^{m \times p}C=AB∈Rm×p中间详细解释乘法的运算,过于简单省略。。。矩阵...

2019-04-12 14:47:14 544

翻译 线性代数(一)——基本概念

1 Basic Concepts and NotationLinear algebra provides a way of compactly representing and operating on sets of linear equations. For example, consider the following system of equations:线性代数提供了一种快捷表示和...

2019-04-12 14:46:31 776

原创 整数翻转

前几天在写道进制翻转的题目,发现JAVA提供了直接调用的方法Integer.reverse(int i):二进制按位反转很好奇点进去发现,源码如下:/** * Returns the value obtained by reversing the order of the bits in the * two's complement binary representation of th...

2019-04-09 12:38:00 106

原创 批量excel转csv

使用Python的pandas库将excel批量转为csv格式excel文件都放在./数据样例目录下,输出文件在./csv目录下代码如下# 导入pandasimport pandas as pdimport os# 建立单个文件的excel转换成csv函数,file 是excel文件名,to_file 是csv文件名。def excel_to_csv(file, to_fil...

2019-03-15 15:41:32 1754

原创 HDFS管理界面无权限

在HDFS管理页面,查看/tmp目录出现如下错误:Permission denied: user=dr.who, access=READ_EXECUTE, inode="/tmp":hadoop:supergroup:drwx------​ 先开始一直纠结我是用hadoop用户登录操作的,为什么会是dr.who,dr.who其实是hadoop中http访问的静态用户名,并没有啥特殊含...

2019-03-15 15:35:53 1436

转载 druid.io 去重计数

https://blog.csdn.net/xiaobai51509660/article/details/82011877

2019-03-11 13:53:17 727

转载 探索HyperLogLog算法(含Java实现)

https://www.jianshu.com/p/55defda6dcd2

2019-03-08 14:48:57 605

原创 搭建Druid 0.13 集群

需要搭建的节点:如图所示,需要搭建的节点:MiddieManager:执行提交的任务的工作节点,数据的导入(流式数据、批量式数据)Coordinator:管理段,加载新段,丢弃过时段,管理段复制以及平衡段负载Overlord:负责接收任务、协调任务分配Broker:转发查询(sql、API)Historical:用于查询深度存储内容存储方案:元数据存储:mysql深度存储...

2019-03-06 15:23:02 1762

转载 美团点评:基于Druid的Kylin存储引擎实践

https://mp.weixin.qq.com/s/y0wxLqtCkYcc-kLMmtawYA

2019-02-20 16:50:58 232

转载 OLAP引擎这么多,为什么苏宁选择用Druid?

https://www.itcodemonkey.com/article/12448.html

2019-02-20 16:48:26 1458

转载 列式存储简介

业务背景关系表结构是被人们普遍接受的数据模型,通常一行数据由多个属性组成,每个属性是一列。但是磁盘是一维的,文件只能顺序写,那么先写谁后写谁呢?不同的写文件顺序就对应了不同的存储模型。传统数据库通常采用行式存储,即先存一行数据,再存下一行数据。在大数据时代,一个常见分析型场景是在数据仓库中进行分析,如商店的商品信息,有商品号,进货日期,价格等包含多个属性,这就是一个很常见的数据模型。而查询很多...

2019-02-20 16:36:31 269

原创 OLAP-联机分析处理基本概念

OLTP(On Line Transaction Processing)联机分析处理,它具有FASMI(Fast Analysis of Shared Multidimensional Information),快速、可分析、多维性逻辑概念维(Dimension):是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维(时间维、地理维等)维的层次(Level):人们观察...

2019-02-20 14:38:53 375

原创 Spark修改为python3.6.5

前提:需要安装python3.6.5,请参考本博客其他文章:Centos7安装Python3.6.5在spark目录下修改文件:./conf/spark-env.sh在文件末尾添加export PYSPARK_PYTHON=/usr/local/src/python3export PYSPARK_DRIVER_PYTHON=/usr/bin/python3...

2019-02-12 19:00:22 1953

线性代数2017原文

主要是回顾一些简单的线性代数知识,是文章的英文原文,方便大家对照查看错误。

2019-04-12

阿里巴大数据智能ppt

阿里巴巴数据技术及产品部王赛在2017杭州云栖大会中做了题为《阿里巴巴大数据智能技术》的分享,就问题与挑战,Dataphin,关键技术变革,阿里数据中台普惠社会做了深入的分析。

2018-12-15

阿里云Hbase PPT

阿里巴巴数据技术及产品部王赛在2017杭州云栖大会中做了题为《阿里巴巴大数据智能技术》的分享,就问题与挑战,Dataphin,关键技术变革,阿里数据中台普惠社会做了深入的分析。

2018-12-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除