自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(161)
  • 收藏
  • 关注

原创 SVM-拉格朗日乘子法

学习:b站白板推导公式来源:https://www.yuque.com/bystander-wg876/yc5f72/pdv5rySVM hard margin 思想是间隔最大化,即将样本点都投影到另一个平面,使得投影点之间的间隔最大。那么怎么找到这个平面呢,就是有无数个平面,样本点投影到平面,那么这其中肯定有距离最短的点,每一个平面面取一个最短距离点,这些点做为一个集合,再在这个集...

2020-03-10 10:46:12 573 1

原创 贝叶斯公式

1. 概念 贝叶斯定理由英国数学家贝叶斯发展,用来描述两个条件概率之间的关系,比如 P(A|B) 和 P(B|A)。 通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A的条件下的概率是不一样的。 这两个条件概率的关系就是贝叶斯公式。2. 公式 按照乘法法则,可以立刻导出:P(A∩B) = P(A) * P(B|A) = P(B) * P(A|B) ...

2020-01-13 15:19:08 1377

原创 联合分布概率密度函数

定义:二维随机变量(X,Y)的分布函数,或称为随机变量X和Y的联合分布函数。随机变量X和Y的联合分布函数是设(X,Y)是二维随机变量,对于任意实数x,y,二元函数:F(x,y) = P{(X<=x) ∩ (Y<=y)} => P(X<=x, Y<=y)称为二维随机变量(X,Y)的分布函数。对于离散变量,联合分布概率密度函数:P(AB) = P(A|B)...

2020-01-13 14:55:18 18484

原创 极大似然估计

0.极大似然估计方法(Maximum Likelihood Estimate,MLE) 也称为最大概似估计或最大似然估计 如英文的意思,Maximum最大,likelihood像,也就是最像的意思,一种估计方法。1.原理: 极大似然估计提供了一种给定数据来评估模型参数的方法,即“模型已定,参数未知”。 通过若干次试验,观察其结果,利用试验结果得到某个参数值能够使样本出现的...

2020-01-13 14:31:18 435

原创 Linux I/O网络模型

Linux内核将所有外部设备都看作一个文件来操作,而对一个一个文件的读写操作会调用内核提供的系统命令,返回一个file descriptor(即fd,文件描述符)。描述符是一个数字,它指向内核中的一个结构体(文件路径、数据区等属性)因此对socket的读写操作,会返回一个socketfd(socket描述符)Unix提供5种I/O模型1. 阻塞I/O模型:默认条件下,所有文件操作都...

2020-01-13 10:41:08 138

原创 Spark-创建执行环境SparkEnv

SparkEnv 构造步骤:1.创建安全管理器SecurityManager: 主要对权限、账号进行设置,若用YARN作为集群管理器,则需要证书生成secret key登录。2.创建基于Akka的分布式消息系统ActorSystem: Spark使用它来实现并发编程,也用它来发送分布式消息。 Spark1.6后已使用Netty完全替代Akka 3.创建Map任务输出跟踪...

2020-01-10 15:29:21 206

原创 KMP算法

1. KMP算法是一种改进的字符串匹配算法。2. 算法改进的核心:在匹配字符串失败时,不丢弃前面匹配的信息(即不从头开始再匹配)。如图:(参考:https://www.zhihu.com/question/21923021) 1. 一般我们在匹配失败时(主串的i位置和模式串的j位置),都会把 i 打回开始的位置+1,然后 j 就到开头,重新匹配。 2. 但现在失败后,我们知道 主串 i 之...

2020-01-09 17:35:58 85

原创 Coursera-MachineLearning-NeuralNetwork(2)

Coursera机器学习-吴恩达上一篇神经网络只有正向传播,这次加入反向传播。背景:同样是识别手写体。% 1.加载并可视化数据%% 初始化clear ; close all; clc%% 设置参数input_layer_size = 400; % 20x20 Input Images of Digitshidden_layer_size = 25; % 25 hidde...

2019-10-21 14:36:16 114

原创 Coursera-MachineLearning-NeuralNetwork

Coursera机器学习-吴恩达背景:判别手写体数字,分别实现逻辑回归和神经网络,并对比正确率% 1.读取训练集,并随机打印一下clear ; close all; clcinput_layer_size = 400; % 20x20 Input Images of Digitsnum_labels = 10; % 10 labels, from 1 to...

2019-10-12 17:15:21 121

原创 MachineLearning-Neural Network与Logistic Regression关系

神经网络与逻辑回归的关系: 逻辑回归就是没有隐含层的神经网络。 两个的假设函数都是 h(x) = sigmoid(theta * x)1.神经网络:1.1 为什么需要神经网络 当一个非线性分类,特征数很大时,使用逻辑回归会导致 theta 出现很多高阶项, 计算效率下降,才能对训练集完成拟合。 这时逻辑回归分类器就不适用了。1.2 神经网络 图解:第一列为输入层,第二列...

2019-10-12 15:50:49 308

原创 Coursera-MachineLearning-LogisticRegression-Regularization

Coursera机器学习-吴恩达线性回归和逻辑回归解决过拟合:1.减少特征数量: 1.手动选择要保留的特征,剔除一些特征 2.使用模型选择算法2.正则化(Regularization): 1.保留所有特征,但减少参数 theta 的大小; 2.有许多稍微有用的特征时,正则化很有效。% 1.读取训练集,并打印正负样本data = load('ex2data2.txt');X =...

2019-10-12 11:02:17 133

原创 Coursera-MachineLearning-LogisticRegression

Octave 代码背景:使用逻辑回归预测学生是否会被大学录取。% 1.读取训练集,并打印正负样本:data = load('ex2data1.txt');X = data(:, [1, 2]); y = data(:, 3);plotData(X, y);% 函数plotData:function plotData(X, y)figure; hold on;% 打印正样...

2019-10-11 15:13:15 108

原创 Coursera-MachineLearning-LinearRegression-MultipleVariables

% 1.对特征进行特征缩放:%首先读取训练集数据,有两列特征data = load('ex1data2.txt');X = data(:, 1:2);y = data(:, 3);m = length(y);%进行特征缩放[X mu sigma] = featureNormalize(X);% 函数featureNormalize:function [X_norm, mu,...

2019-10-11 10:41:55 89

原创 Coursera-MachineLearning-LinearRegression

Octave 代码% 1.用图表展示数据:data = load('ex1data1.txt'); % 读取训练集数据X = data(:, 1); % 第一列是城市人口y = data(:, 2); % 第二列是收入m = length(y); % 训练集数目plot(X, y, 'rx', 'MarkerSize', 10);ylabel('Prof...

2019-10-10 17:00:58 113

原创 Kafka-高效原因

Kafka 对于其他日志分析系统或者消息队列的优势:1.传统日志分析系统擅长离线处理日志信息,并且可扩展。但是对实时无能为力2.现有消息队列能提供实时处理,但大多不支持将未处理数据写到磁盘上。Kafka 高效原因:1.直接使用Linux文件系统的Cache高效缓存数据。2.采用Linux的 Zero-Copy 来提高发送性能。 传统数据发送需要4次数据拷贝 而Zero-Co...

2019-09-03 15:01:13 417

原创 CentOS7 安装 k8s+docker

1. 安装Docker-ce--安装依赖yum install -y yum-utils device-mapper-persistent-data lvm2--更改镜像库yum-config-manager --add-repo https://download.docker.com/linux/centos/docker-ce.repo--安装docker-ceyum ins...

2019-08-22 16:10:49 590

原创 PostgreSQL 模糊匹配表名

1.需求:PG数据库有很多日期结尾的表需要删除2.解决: 1.先用一下SQL查出匹配的表名: SELECT DISTINCT(table_name) from information_schema.columns WHERE table_name LIKE 'ads_dv_plan_alarm_%'; 2.然后把结果贴在Excel处理一下加个drop table就行了,复制下来在贴...

2019-08-16 10:59:34 4241

原创 SQL-查询语句执行顺序

SQL语句执行顺序(8)SELECT (9) DISTINCT (11)(1) FROM(3) JOIN(2) ON(4) WHERE(5) GROUP BY(6) WITH {CUBE | ROLLUP}(7) HAVING(10) ORDER BY1)FROM:对FROM子句中的表执行笛卡尔积(交叉联接),生成虚拟表VT1。2)ON:对VT1应用ON...

2019-08-09 20:50:54 197

原创 CentOS6 NAT模式 配置静态IP

CentOS 6.4 使用NAT模式联网,并配置静态IP。实现Xshell连接,并且ping通www.baidu.com 注意:使用 VMWare Workstation pro 15 不要用VMWare player,没有虚拟网络编辑器,怎么配都连不了网。首先虚拟网卡8:先自己配置IP和子网掩码后面VMWare里面,编辑->虚拟网络编辑器,1.使用dhcp哪个选项不...

2019-08-01 11:21:12 693 1

原创 数据分析-维度表与事实表

一个典型的逻辑业务:如图有三个维度:市场、产品、日期那么三个维度之间的交点,即坐标轴中的交点就是一个事实,比如现实生活中的一个购买过程。事实表:是多个维度表的交点,反过来说事实表中一行存储了一个事实(业务), 还存储了维度表的主键维度表:分析事实表的其中一个维度,里面还包含了很多维度属性;用主键和事实表相连。结构如下图:...

2019-07-18 11:26:25 1585

转载 指标、维度与度量

何谓指标、维度、度量?先看这样一个指标:上海男性互联网从业人数如果是对数据敏感的分析师,立马就可以看出,数据中有三个维度。分别是:城市、性别、行业数据中的度量就是从业人数。一个数据指标一般由一种或多种维度加上一种度量组成。为何要维度和度量?从最终效果来看,维度和度量有助于我们发现问题真相,找到一些难以解释(异常)现象的原因。加入我们不从维度和度量下手,容易导致这些问...

2019-07-18 10:44:25 10029 2

原创 维度-实际销售模式

零售事实表每个列都包含POS事务号码POS看起来像维度键,但清空后会报错,因为维度是空的下面是维度模型和关联查询之间的关系

2019-07-17 17:11:52 144

原创 CentOS 7 桥接配置连接网络

vi /etc/sysconfig/network-scripts/ifcfg-ens33这个文件:1.BOOTPROTO 配成Static2.ONBOOT 配成Yes3.配置IP、网关、掩码, IP要和物理主机的可用网卡的IP在一个字段, 网关、掩码和可用网卡的相同。win10 cmd 命令 ipconfig 得到可以上网的网卡的IP、网关、掩码vi /etc/r...

2019-07-16 14:37:23 234

原创 机器学习-逻辑回归

逻辑回归的原理:就是在一个平面里,找到一条直线将两个不同的类分开。直线函数(直线也称为超平面): Wx+b = 0逻辑回归中,将这条直线(超平面)通过样本训练出来,即找出这条直线。 如何将样本事先分好类进行训练? 使用阈值函数分类,通常使用Sigmoid函数:Sigmoid函数判断分类: 对于输入向量X,它属于正例的概率: 对于输入向量X,它是负例的概率:这...

2019-07-15 17:29:18 162

转载 CentOS6.5详细安装(转发)

https://blog.csdn.net/z1941563559/article/details/80615691

2019-07-15 15:51:12 112

原创 GreenPlum架构

GreenPlum总体架构:Master和Segment节点的功能: 其实每个Master和Segment都是一个单独的PostgreSQL数据库,都有自己的一套数据字典Master与Segment的关系: Segment有镜像来做数据备份(mirror),防止单机故障...

2019-07-11 17:21:27 104

原创 MPPDatabase(GreenPlum)和Hadoop

1.MPPDB: 1.基于MPP并行处理架构的数据库 2.Shared-nothing架构,各个节点之间互不干预,但一个节点崩了后就得等待重启才能访问该 节点里的数据 3.无master节点的扁平型架构 4.更擅长处理关系型数据 5.适合多维度自助分析、数据仓库、数据集市等。 6.存储的数据价值密度高2.Hadoop: 1.Had...

2019-07-11 16:58:10 1589

原创 PostgreSQL优势

PostgreSQL是一种非常先进的关系型数据库管理系统(ORDBMS),几乎是目前功能最强大、特性最丰富技术最先进的数据库系统。PostgreSQL支持绝大多数主流数据库特性:...

2019-07-11 16:18:34 994

原创 OLAP与OLTP

数据库系统分为两种: 1.OLAP 联机分析处理,是基于数据仓库的信息分析处理过程,是跨部门、面向主题的。 2.OLTP(Online Transaction Processing) 联机事务处理,也称为生产系统,是面向应用的,例如淘宝网这种电子商务网站。OLTP特点:OLAP特点:...

2019-07-11 15:33:29 128

原创 企业数据仓库

1.数仓总线架构 总线架构中技术与数据库平台都是独立的,关系型数据库和OLAP维度结构都能参与其中。2.数仓总线矩阵 设计用来与总线架构交互的。 矩阵的列代表维度,行代表业务过程。点代表维度与给定的业务过程是否关联...

2019-07-10 17:13:15 218

原创 Kimball维度建模(维度表技术)

维度表: 1.每个维度表都包含单一的主键列,作为与事实表的外键 2.维度表有自己的维度代理键,即用来标识唯一性,无意义。+1 3.下钻 商业分析的基本方法: 上卷(roll-up):上卷是沿着维的层次向上聚集汇总数据。 例如,对产品销售数据,沿着时间维上卷,可以求出所有产品在所有地区每月 (或季度或年或全部)的销售额。 下探(dril...

2019-07-10 16:58:17 1275

原创 Kimball维度建模(事实表技术)

事实表: 1.就是现实中产生的可度量数值都存在一张表中,设计只与现实活动有关,与最终的报表无关。 并且事实表有很多外键与维度表相连 2.事实表中的数字度量分为三种,分别为可加,半可加,和不可加事实。最有用的是可加事实,可以以任意维度汇总。半可加就例如 差额,...

2019-07-10 15:51:40 888

原创 Kimball维度建模(基础)

1.收集业务需求与数据实现2.协作维度建模探讨: 工作由建模者承担,但维度模型英语熟悉业务的业务代表探讨3.四步骤维度设计: 1.选择业务过程 业务过程是一系列操作活动,转换为事实表中的事实,例如每个月每个账单快照 2.声明粒度 粒度是指事实表中的一行代表什么。同一事实表不要混用粒度,最好从最小粒度开始设计维度, 因其能承受用户无法预知的查询...

2019-07-10 15:13:49 1443

原创 数据集市

数据集市通常只用于部门内部

2019-07-10 14:38:57 389

原创 阿里系大数据产品

1. MaxCompute(ODPS) 相当于Hadoop + Hive,是一个数据仓库解决方案 0.PB、TB、EB级别完全托管的数据仓库解决方案 1.也有内部表、外部表 2.也有分区表。 3.也有UDF函数,需依赖Resource来完成 4.支持Spark,Streaming暂不支持,Spark能运行在阿里的调度平台Cupid上。使用Spark引擎运行作业2.DataWorks...

2019-05-15 14:47:36 2167

原创 Python Splinter和Chrome集成报错

报错:出现 chrome drive not in the path解决:把chromedriver.exe 放在python项目目录下面

2019-04-15 20:21:21 289

转载 Anaconda 入门及操作

转自:https://blog.csdn.net/qq_37392932/article/details/81210470

2019-04-12 20:12:08 273

原创 Anaconda安装Scrapy框架,新建项目错误

win10 Anaconda3 (这里是用了32位的,尝试解决错误;64位应该也可以)无python环境在win10 power shell下直接输入命令:conda install scrapy (会自动装python环境)安装成功!但是用Scrapy新建一个项目:scrapy startproject douban报错!错误原因如下: 由...

2019-04-12 20:08:35 827

原创 SQL练习

参考答案:select t.std_nm, t.class, t.score, t.od from(select std_nm, class, score, row_number() over (partition by class order by score desc) as od from pub_f_class_score)t where od<=3;Select...

2019-04-12 19:55:23 117

原创 Java-平衡二叉树旋转

转载自:https://blog.csdn.net/qq_24336773/article/details/81712866

2019-03-11 15:38:59 438

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除