Jsoooo-CSDN博客

原创 SVM-拉格朗日乘子法

学习：b站白板推导公式来源：https://www.yuque.com/bystander-wg876/yc5f72/pdv5rySVM hard margin 思想是间隔最大化，即将样本点都投影到另一个平面，使得投影点之间的间隔最大。那么怎么找到这个平面呢，就是有无数个平面，样本点投影到平面，那么这其中肯定有距离最短的点，每一个平面面取一个最短距离点，这些点做为一个集合，再在这个集...

2020-03-10 10:46:12 573 1

原创贝叶斯公式

1. 概念贝叶斯定理由英国数学家贝叶斯发展，用来描述两个条件概率之间的关系，比如 P(A|B) 和 P(B|A)。通常，事件A在事件B(发生)的条件下的概率，与事件B在事件A的条件下的概率是不一样的。这两个条件概率的关系就是贝叶斯公式。2. 公式按照乘法法则，可以立刻导出：P(A∩B) = P(A) * P(B|A) = P(B) * P(A|B) ...

2020-01-13 15:19:08 1377

原创联合分布概率密度函数

定义：二维随机变量(X,Y)的分布函数，或称为随机变量X和Y的联合分布函数。随机变量X和Y的联合分布函数是设(X,Y)是二维随机变量，对于任意实数x,y，二元函数：F(x,y) = P{(X<=x) ∩ (Y<=y)} => P(X<=x, Y<=y)称为二维随机变量(X,Y)的分布函数。对于离散变量，联合分布概率密度函数：P(AB) = P(A|B)...

2020-01-13 14:55:18 18484

原创极大似然估计

0.极大似然估计方法（Maximum Likelihood Estimate，MLE）也称为最大概似估计或最大似然估计如英文的意思，Maximum最大，likelihood像，也就是最像的意思，一种估计方法。1.原理：极大似然估计提供了一种给定数据来评估模型参数的方法，即“模型已定，参数未知”。通过若干次试验，观察其结果，利用试验结果得到某个参数值能够使样本出现的...

2020-01-13 14:31:18 435

原创 Linux I/O网络模型

Linux内核将所有外部设备都看作一个文件来操作，而对一个一个文件的读写操作会调用内核提供的系统命令，返回一个file descriptor（即fd，文件描述符）。描述符是一个数字，它指向内核中的一个结构体（文件路径、数据区等属性）因此对socket的读写操作，会返回一个socketfd（socket描述符）Unix提供5种I/O模型1. 阻塞I/O模型：默认条件下，所有文件操作都...

2020-01-13 10:41:08 138

原创 Spark-创建执行环境SparkEnv

SparkEnv 构造步骤：1.创建安全管理器SecurityManager：主要对权限、账号进行设置，若用YARN作为集群管理器，则需要证书生成secret key登录。2.创建基于Akka的分布式消息系统ActorSystem： Spark使用它来实现并发编程，也用它来发送分布式消息。 Spark1.6后已使用Netty完全替代Akka 3.创建Map任务输出跟踪...

2020-01-10 15:29:21 206

原创 KMP算法

1. KMP算法是一种改进的字符串匹配算法。2. 算法改进的核心：在匹配字符串失败时，不丢弃前面匹配的信息（即不从头开始再匹配）。如图：（参考：https://www.zhihu.com/question/21923021） 1. 一般我们在匹配失败时（主串的i位置和模式串的j位置），都会把 i 打回开始的位置+1，然后 j 就到开头，重新匹配。 2. 但现在失败后，我们知道主串 i 之...

2020-01-09 17:35:58 85

原创 Coursera-MachineLearning-NeuralNetwork（2）

Coursera机器学习-吴恩达上一篇神经网络只有正向传播，这次加入反向传播。背景：同样是识别手写体。% 1.加载并可视化数据%% 初始化clear ; close all; clc%% 设置参数input_layer_size = 400; % 20x20 Input Images of Digitshidden_layer_size = 25; % 25 hidde...

2019-10-21 14:36:16 114

原创 Coursera-MachineLearning-NeuralNetwork

Coursera机器学习-吴恩达背景：判别手写体数字，分别实现逻辑回归和神经网络，并对比正确率% 1.读取训练集，并随机打印一下clear ; close all; clcinput_layer_size = 400; % 20x20 Input Images of Digitsnum_labels = 10; % 10 labels, from 1 to...

2019-10-12 17:15:21 121

原创 MachineLearning-Neural Network与Logistic Regression关系

神经网络与逻辑回归的关系：逻辑回归就是没有隐含层的神经网络。两个的假设函数都是 h(x) = sigmoid(theta * x)1.神经网络：1.1 为什么需要神经网络当一个非线性分类，特征数很大时，使用逻辑回归会导致 theta 出现很多高阶项，计算效率下降，才能对训练集完成拟合。这时逻辑回归分类器就不适用了。1.2 神经网络图解：第一列为输入层，第二列...

2019-10-12 15:50:49 308

原创 Coursera-MachineLearning-LogisticRegression-Regularization

Coursera机器学习-吴恩达线性回归和逻辑回归解决过拟合：1.减少特征数量： 1.手动选择要保留的特征，剔除一些特征 2.使用模型选择算法2.正则化（Regularization）： 1.保留所有特征，但减少参数 theta 的大小； 2.有许多稍微有用的特征时，正则化很有效。% 1.读取训练集，并打印正负样本data = load('ex2data2.txt');X =...

2019-10-12 11:02:17 133

原创 Coursera-MachineLearning-LogisticRegression

Octave 代码背景：使用逻辑回归预测学生是否会被大学录取。% 1.读取训练集，并打印正负样本：data = load('ex2data1.txt');X = data(:, [1, 2]); y = data(:, 3);plotData(X, y);% 函数plotData：function plotData(X, y)figure; hold on;% 打印正样...

2019-10-11 15:13:15 108

原创 Coursera-MachineLearning-LinearRegression-MultipleVariables

% 1.对特征进行特征缩放：%首先读取训练集数据，有两列特征data = load('ex1data2.txt');X = data(:, 1:2);y = data(:, 3);m = length(y);%进行特征缩放[X mu sigma] = featureNormalize(X);% 函数featureNormalize：function [X_norm, mu,...

2019-10-11 10:41:55 89

原创 Coursera-MachineLearning-LinearRegression

Octave 代码% 1.用图表展示数据：data = load('ex1data1.txt'); % 读取训练集数据X = data(:, 1); % 第一列是城市人口y = data(:, 2); % 第二列是收入m = length(y); % 训练集数目plot(X, y, 'rx', 'MarkerSize', 10);ylabel('Prof...

2019-10-10 17:00:58 113

原创 Kafka-高效原因

Kafka 对于其他日志分析系统或者消息队列的优势：1.传统日志分析系统擅长离线处理日志信息，并且可扩展。但是对实时无能为力2.现有消息队列能提供实时处理，但大多不支持将未处理数据写到磁盘上。Kafka 高效原因：1.直接使用Linux文件系统的Cache高效缓存数据。2.采用Linux的 Zero-Copy 来提高发送性能。传统数据发送需要4次数据拷贝而Zero-Co...

2019-09-03 15:01:13 417

原创 CentOS7 安装 k8s+docker

1. 安装Docker-ce--安装依赖yum install -y yum-utils device-mapper-persistent-data lvm2--更改镜像库yum-config-manager --add-repo https://download.docker.com/linux/centos/docker-ce.repo--安装docker-ceyum ins...

2019-08-22 16:10:49 590

原创 PostgreSQL 模糊匹配表名

1.需求：PG数据库有很多日期结尾的表需要删除2.解决： 1.先用一下SQL查出匹配的表名： SELECT DISTINCT(table_name) from information_schema.columns WHERE table_name LIKE 'ads_dv_plan_alarm_%'; 2.然后把结果贴在Excel处理一下加个drop table就行了，复制下来在贴...

2019-08-16 10:59:34 4241

原创 SQL-查询语句执行顺序

SQL语句执行顺序(8)SELECT (9) DISTINCT (11)(1) FROM(3) JOIN(2) ON(4) WHERE(5) GROUP BY(6) WITH {CUBE | ROLLUP}(7) HAVING(10) ORDER BY1)FROM：对FROM子句中的表执行笛卡尔积(交叉联接)，生成虚拟表VT1。2)ON：对VT1应用ON...

2019-08-09 20:50:54 197

原创 CentOS6 NAT模式配置静态IP

CentOS 6.4 使用NAT模式联网，并配置静态IP。实现Xshell连接，并且ping通www.baidu.com 注意：使用 VMWare Workstation pro 15 不要用VMWare player，没有虚拟网络编辑器，怎么配都连不了网。首先虚拟网卡8：先自己配置IP和子网掩码后面VMWare里面，编辑->虚拟网络编辑器，1.使用dhcp哪个选项不...

2019-08-01 11:21:12 693 1

原创数据分析-维度表与事实表

一个典型的逻辑业务：如图有三个维度：市场、产品、日期那么三个维度之间的交点，即坐标轴中的交点就是一个事实，比如现实生活中的一个购买过程。事实表：是多个维度表的交点，反过来说事实表中一行存储了一个事实（业务），还存储了维度表的主键维度表：分析事实表的其中一个维度，里面还包含了很多维度属性；用主键和事实表相连。结构如下图：...

2019-07-18 11:26:25 1585

转载指标、维度与度量

何谓指标、维度、度量？先看这样一个指标：上海男性互联网从业人数如果是对数据敏感的分析师，立马就可以看出，数据中有三个维度。分别是：城市、性别、行业数据中的度量就是从业人数。一个数据指标一般由一种或多种维度加上一种度量组成。为何要维度和度量？从最终效果来看，维度和度量有助于我们发现问题真相，找到一些难以解释（异常）现象的原因。加入我们不从维度和度量下手，容易导致这些问...

2019-07-18 10:44:25 10029 2

原创维度-实际销售模式

零售事实表每个列都包含POS事务号码POS看起来像维度键，但清空后会报错，因为维度是空的下面是维度模型和关联查询之间的关系

2019-07-17 17:11:52 144

原创 CentOS 7 桥接配置连接网络

vi /etc/sysconfig/network-scripts/ifcfg-ens33这个文件：1.BOOTPROTO 配成Static2.ONBOOT 配成Yes3.配置IP、网关、掩码， IP要和物理主机的可用网卡的IP在一个字段，网关、掩码和可用网卡的相同。win10 cmd 命令 ipconfig 得到可以上网的网卡的IP、网关、掩码vi /etc/r...

2019-07-16 14:37:23 234

原创机器学习-逻辑回归

逻辑回归的原理：就是在一个平面里，找到一条直线将两个不同的类分开。直线函数（直线也称为超平面）： Wx+b = 0逻辑回归中，将这条直线（超平面）通过样本训练出来，即找出这条直线。如何将样本事先分好类进行训练？使用阈值函数分类，通常使用Sigmoid函数：Sigmoid函数判断分类：对于输入向量X，它属于正例的概率：对于输入向量X，它是负例的概率：这...

2019-07-15 17:29:18 162

转载 CentOS6.5详细安装（转发）

https://blog.csdn.net/z1941563559/article/details/80615691

2019-07-15 15:51:12 112

原创 GreenPlum架构

GreenPlum总体架构：Master和Segment节点的功能：其实每个Master和Segment都是一个单独的PostgreSQL数据库，都有自己的一套数据字典Master与Segment的关系： Segment有镜像来做数据备份（mirror），防止单机故障...

2019-07-11 17:21:27 104

原创 MPPDatabase（GreenPlum）和Hadoop

1.MPPDB： 1.基于MPP并行处理架构的数据库 2.Shared-nothing架构，各个节点之间互不干预，但一个节点崩了后就得等待重启才能访问该节点里的数据 3.无master节点的扁平型架构 4.更擅长处理关系型数据 5.适合多维度自助分析、数据仓库、数据集市等。 6.存储的数据价值密度高2.Hadoop： 1.Had...

2019-07-11 16:58:10 1589

原创 PostgreSQL优势

PostgreSQL是一种非常先进的关系型数据库管理系统（ORDBMS），几乎是目前功能最强大、特性最丰富技术最先进的数据库系统。PostgreSQL支持绝大多数主流数据库特性：...

2019-07-11 16:18:34 994

原创 OLAP与OLTP

数据库系统分为两种： 1.OLAP 联机分析处理，是基于数据仓库的信息分析处理过程，是跨部门、面向主题的。 2.OLTP（Online Transaction Processing）联机事务处理，也称为生产系统，是面向应用的，例如淘宝网这种电子商务网站。OLTP特点：OLAP特点：...

2019-07-11 15:33:29 128

原创企业数据仓库

1.数仓总线架构总线架构中技术与数据库平台都是独立的，关系型数据库和OLAP维度结构都能参与其中。2.数仓总线矩阵设计用来与总线架构交互的。矩阵的列代表维度，行代表业务过程。点代表维度与给定的业务过程是否关联...

2019-07-10 17:13:15 218

原创 Kimball维度建模（维度表技术）

维度表： 1.每个维度表都包含单一的主键列，作为与事实表的外键 2.维度表有自己的维度代理键，即用来标识唯一性，无意义。+1 3.下钻商业分析的基本方法：上卷（roll-up）：上卷是沿着维的层次向上聚集汇总数据。例如，对产品销售数据，沿着时间维上卷，可以求出所有产品在所有地区每月（或季度或年或全部）的销售额。下探（dril...

2019-07-10 16:58:17 1275

原创 Kimball维度建模（事实表技术）

事实表： 1.就是现实中产生的可度量数值都存在一张表中，设计只与现实活动有关，与最终的报表无关。并且事实表有很多外键与维度表相连 2.事实表中的数字度量分为三种，分别为可加，半可加，和不可加事实。最有用的是可加事实，可以以任意维度汇总。半可加就例如差额，...

2019-07-10 15:51:40 888

原创 Kimball维度建模（基础）

1.收集业务需求与数据实现2.协作维度建模探讨：工作由建模者承担，但维度模型英语熟悉业务的业务代表探讨3.四步骤维度设计： 1.选择业务过程业务过程是一系列操作活动，转换为事实表中的事实，例如每个月每个账单快照 2.声明粒度粒度是指事实表中的一行代表什么。同一事实表不要混用粒度，最好从最小粒度开始设计维度，因其能承受用户无法预知的查询...

2019-07-10 15:13:49 1443

原创数据集市

数据集市通常只用于部门内部

2019-07-10 14:38:57 389

原创阿里系大数据产品

1. MaxCompute（ODPS）相当于Hadoop + Hive，是一个数据仓库解决方案 0.PB、TB、EB级别完全托管的数据仓库解决方案 1.也有内部表、外部表 2.也有分区表。 3.也有UDF函数，需依赖Resource来完成 4.支持Spark，Streaming暂不支持，Spark能运行在阿里的调度平台Cupid上。使用Spark引擎运行作业2.DataWorks...

2019-05-15 14:47:36 2167

原创 Python Splinter和Chrome集成报错

报错：出现 chrome drive not in the path解决：把chromedriver.exe 放在python项目目录下面

2019-04-15 20:21:21 289

转载 Anaconda 入门及操作

转自：https://blog.csdn.net/qq_37392932/article/details/81210470

2019-04-12 20:12:08 273

原创 Anaconda安装Scrapy框架，新建项目错误

win10 Anaconda3 （这里是用了32位的，尝试解决错误；64位应该也可以）无python环境在win10 power shell下直接输入命令：conda install scrapy （会自动装python环境）安装成功！但是用Scrapy新建一个项目：scrapy startproject douban报错！错误原因如下：由...

2019-04-12 20:08:35 827

原创 SQL练习

参考答案：select t.std_nm, t.class, t.score, t.od from(select std_nm, class, score, row_number() over (partition by class order by score desc) as od from pub_f_class_score)t where od<=3;Select...

2019-04-12 19:55:23 117

原创 Java-平衡二叉树旋转

转载自：https://blog.csdn.net/qq_24336773/article/details/81712866

2019-03-11 15:38:59 438

空空如也

空空如也