Kolo_Tong-CSDN博客

原创机器学习——贝叶斯分类器

1.贝叶斯分类器属于生成式模型对于数据的判别分类有两种策略模型：判别式模型和生成式模型判别式模型: 逻辑回归、决策树、支持向量机等为常见的判别式模型，这种模型需要人为的设定好模型框架，假如Y=WX+B>1为好瓜，Y=WX+B<=1为坏瓜，然后通过数据的训练，不断地修正模型参数，模型对于目标变量的条件预测也就更加准确。再比如决策树，通过信息熵，信息增益等判断标准，对好瓜具有的属性进行判别选择，通过对数据的学习，得到决策模型。生成式模型: 生成方法由数据学习联合概率分布P(Y,X)，然后

2022-04-13 15:33:39 6889 1

原创简单学SQL——练习题

练习：1. 各部门工资最高的员工练习所需的表员工表+----+-------+--------+--------------+| Id | Name | Salary | DepartmentId |+----+-------+--------+--------------+| 1 | Joe | 70000 | 1 || 2 | Henry | 80000 | 2 || 3 | Sam | 60000 | 2

2021-09-27 22:26:04 202

原创简单学SQL——窗口函数

1.窗口函数怎么理解窗口函数？在group up 分组结果的基础上施加可操作的函数，如rank排序、sum求和等。书写语法<窗口函数> OVER ([PARTITION BY <列名>] ORDER BY <排序用列名>) [PARTITION BY <列名>] 表示按照某属性（列名）来分窗（分组）ORDER BY <排序用列名>表示分窗后每个独立窗口内的数据

2021-09-24 23:09:00 220

原创简单学SQL —— 集合运算

1.集合运算用一张文氏图来说明什么是集合运算。1.1 交集 union举例：SELECT product_id, product_name FROM Product UNIONSELECT product_id, product_name FROM Product2;1.1.1 union等效转换对同一张表的不同条件下作用的结果可以用 union 来转换(or —> union)举例：-- 使用 OR 谓词SELECT * FROM Product WHE

2021-09-22 22:00:57 412

原创简单学SQL——select 查(二)

1. 视图视图是什么，在我看来视图相当于给文件创建了一个快捷方式，但是对打开的内容进行了限制。视图就是对表创建的一个或者多个快捷方式。视图，从词本意理解，就是创建一个窗口去看表的内容，内容可以是局部的，也可以是全局的，视实际使用而定。如图所示，透过（通过）视窗改动数据，就是改动表的数据。1.1 视图的优势通过定义视图可以将频繁使用的SELECT语句保存以提高效率通过定义视图可以使用户看到的数据更加清晰通过定义视图可以不对外公开数据表全部字段，增强数据的保密性通过定义视图可以降低数据的冗

2021-09-20 21:20:06 116

原创简单学SQL——select 查(一)

1.查询简介2.比较，逻辑运算书写范式SELECT <列名1>,<列名2>, <列名3>, …… FROM <表名> GROUP BY <列名1>, <列名2>, <列名3>, ……;其中SELECT <列名1>,<列名2>, <列名3>中的列名可与加减乘除运算配合使用加减乘法运算，举例如下：SELECT (sale_price-purchase_price)

2021-09-18 21:04:36 156

原创简单学SQL——基础部分

1.总览基础常见常用的语句一般来自DML，即常说的增，删，查，改。2.增删查改操作的演示2.1 创建表格 CREATE TABLE先看实例CREATE TABLE product(product_id CHAR(4) NOT NULL, product_name VARCHAR(100) NOT NULL, product_type VARCHAR(32) NOT NULL, sale_price INTEGER , purchase_price INTEGER , regist_d

2021-09-15 17:05:26 80

原创机器学习——支持向量机

文章目录1.形象理解支持向量机2.距离最大化——支持向量到最优超平面3.对偶问题3.1为什么要将拉格朗日函数转为它的对偶函数3.2 下确界，对偶性1.形象理解支持向量机简单来说，支持向量机是逻辑回归的升级版。逻辑回归=线性回归+激活函数，通过找到一个超平面如图中1,2,3,法向量（垂直于超平面）所指向的方向为正类。这其中有一个问题：训练出能分类的超平面有很多，如何找到在实际使用中泛化效果最好的那一个超平面？图解辨析：图中的2号超平面为最佳，但是在训练学习过程中机器没有找到，训练结果为1号或者3号超

2021-09-06 16:19:38 1084 1

原创机器学习——神经网络

该文章针对本人所需记录的点进行叙述。1.神经网络该名词源自生物学，是认知科学家对神经网络所做的一个类比解释，表示该算法学习的过程类似生物对外界刺激的反馈与记忆，如图所示。该图很像人的眼睛接收光信息的过程，各个角度的光具有不同的信息，经过眼球的处理，转化为大脑能明白的电信号。X是光，W是光差异的权重，Y是处理的结果。2. 感知机与多层网络2.1感知机感知机，简单的理解是线性回归模型的输出+激活函数，如图：感知机只能处理简单的线性问题，即存在一个线性超平面能将特征空间划分开。超平面（D-1维）就

2021-09-01 22:15:37 230

原创机器学习——决策树的要点

1.决策树树，是数据结构中的一种形式，而决策树在机器学习中的形成源自对数据样本特征进行逻辑选择后的结果。再说的明白一点就是一系列 if /else 选择后的结果。决策树是人类在面临决策问题时一种很自然的处理机制——Yes or No。决策树的要点就是判断标准，一般来说会使用信息增益，信息增益率和基尼指数等作为判断选择的依据。信息增益和信息增益率的基本点源自信息熵。2.为什么是信息熵初一看这个信息熵就是某样本的概率乘概率的log值，很简单。只要能计算出某个数值，然后按信息增益排序选择相应的特征。但再仔

2021-08-26 17:04:25 361

原创机器学习——重新认识线性回归模型

1. 线性回归模型中所要数学储备1.1 均方误差方差是用来描述真实值偏离均值的程度均方误差是误差平方和的平均数，用来描述测量值与真实值的误差程度1.2 凸函数此处的凸函数强调的是来自最优化理论中的概念，不同于高数书中的凸函数的概念（两者表示的东西是相反的）。机器学习中的凸函数概念：...

2021-08-22 18:10:38 387

原创机器学习——西瓜书中的基本概念

1、机器学习与假设空间1.1 什么是机器学习“记住”训练样本，就是所谓的“机器学习”——Cohen and Feigenbaum通过对训练集进行学习，建立了一个从输入空间X到输出Y的映射，映射形成的过程就是机器学习1.2假设空间将数据特征通过数值量化的过程建立一个多维度的数学空间。如西瓜的特征，色泽、根蒂、敲声，三个特征分别用X、Y、Z轴表示。特征的程度通过人为设置来规范，如色泽的X轴上，X=1（青绿），X=2（乌黑）…、根蒂的Y轴上，Y=1（蜷缩）、Y=2（硬挺）…。这样就建立了一个描述西瓜

2021-08-16 14:58:46 403

原创解决——pycharm连接远程服务器后Python无法找到文件

1. 问题呈现：在一次迷糊的配置后，连接测试显示成功，以为可以在本地用远程服务器的解释器跑程序，然而如图所示 —— python3.7 -u 后面出现了某地址乱码，并且报错无法找到该文件。2. 问题缘由上图中的Running code on the remote server（在远程服务器上跑程序）——sync folders:-> 地址与下图中的Deployment path（部署地址）不一致3. 解决——两种方法3.1 第一种——删除远程部署重新配置第一步：在配置完Conne

2021-04-07 16:37:54 19329 13

原创数据挖掘HeartbeatClassification——模型融合

模型融合的目的是进一步加强数据模型的鲁棒性，由单一模型转换到多个模型的协调处理中，yong合的目的是进一步加强数据模型的鲁棒性，由单一模型转换到多个模型的协调处理中，用一句诙谐的话来讲——三个臭皮匠顶个诸葛亮。这里介绍几个融合的方法——简单加权融合、stacking、blending1.简单加权融合——分类与回归1.1 分类加权平均，就是简单地将多个模型预测的预测值通过赋予相同或者不同的权值，融合为与目标值一样的数据类型（单个分类或多分类），然后用这个融合后的值去与真实的标签作比较得到误差值。举个

2021-03-28 17:43:11 343

原创数据挖掘HeartbeatClassification——基于lightgbm的简单建模

我们首先来梳理一下搭建模型的过程——import相关的包读取数据，划分数据集搭建模型，或是导入模型，设置模型相关参数将数据导入模型，模型训练的相关参数评估最优模型1.整体浏览，了解框架import pandas as pdimport numpy as npfrom sklearn.metrics import f1_scoreimport osimport seaborn as snsimport matplotlib.pyplot as pltimport warnin

2021-03-25 21:51:26 132

原创机器学习——如何优化模型(下)

这一部分会讲，对模型的超参数调优1.参数和超参数分别是什么参数是什么，比如 Y = WX+Z中，（X,Y）是数据值，Z是偏差，而W则是这个线性回归模型中的系数。超参数，我们常见的便是神经网络的学习率L，通过人为的设置数值去调节算法优化的学习步长。1.1参数————参数是从数据估计或获悉的参数通常被保存为学习模型的一部分参数是机器学习算法的关键，它们通常由过去的训练数据中总结得出参数通常不由编程者手动设置参数，可以说是数据内部存在的隐含逻辑，通过它，便能将X映射到Y’。在现实中我们的研究

2021-03-24 16:43:23 214

原创机器学习——如何优化模型(上)

在机器学习中，我们常见的优化模型的方法是结果导向型，通过观察损失函数的趋势曲线图，去调整学习率，优化器等。这是对模型参数的调整，以达到优化的效果。殊不知，还有一种是对数据的处理，但这里的处理又非指的是简单的预处理。...

2021-03-22 22:08:05 1737

原创数据挖掘HeartbeatClassification——特征工程

这一部分所要讲的是，将收集到的数据进行专项处理，得到一个合理的数据格式，我们后面所要用的模型便能利用这样的数据，通过机器学习的方式进行数学建模。如此一来，挖掘到的数据就变得有价值了，通过这些数字表象找到了背后的意义。本项目是处理的是患者的心跳信号，意义便是建立起来的模型可以对某些病症进行检测。1.数据预处理对心电特征进行行转列处理，同时为每个心电信号加入时间步特征timetrain_heartbeat_df = data_train["heartbeat_signals"].str.split(","

2021-03-21 21:57:45 307 1

原创数据挖掘HeartbeatClassification——数据分析

如同计算机视觉中一样，在训练目标识别的网络之前，会对图片进行预处理，如裁切，旋转、放大缩小，以加强网络的泛化能力。在数据挖掘中，我们首先要做的就是对拥有的数据进行分析( 涉及到《概率论与数理分析》的知识 )，这里我们可以利用一些好的数据科学库和可视化库如 pandas、numpy、matplotlib等来辅助数据分析的工作。1.载入需要的各种库#coding:utf-8#导入warnings包，利用过滤器来实现忽略警告语句。import warningswarnings.filterwarnin

2021-03-19 17:38:08 373 4

原创机器学习——回归模型

回归模型的功能一般是预测，分为线性回归，决策树(回归树)，支持向量机(SVR)1.线性回归线性回归一般使用的公式如下：y’ = w[0]*x[0] +w[1]*x[1] +w[2]*x[2] +… +w[p]*x[p] +biasx[0]到x[p] 表示单个数据点的特征，w 和 bias是模型需要学习的参数，y则是模型预测的结果。从高维来看，这里的彩色斜平面便是y所在的平面。1.1最小二乘法（线性回归）通过数据点找到参数w和b，使得对训练集的预测值y与真实的回归目标值y’之间的MSE(均方

2021-03-17 22:44:08 2576

原创数据挖掘HeartbeatClassification——多分类评价指标

首先该项目来自零基础入门数据挖掘-心跳信号分类预测,在该项目中，数据具有多个类型的属性，所以有必要在本文中简单地讲述一下多分类评价指标。1.多分类评价指标评价指标：召回率、精确度、准确率、F1分数多分类与二分类的评价指标有什么不同？其实没什么不同，就是将多分类细分为多个单类，然后再计算各自的指标分数值。这里会使用混淆矩阵，所以先介绍一下它。1.1混淆矩阵混淆矩阵：若一个实例是正类，并且被预测为正类，即为真正类TP(True Positive )若一个实例是正类，但是被预测为负类，即为假负类

2021-03-16 21:57:11 340 1

原创机器学习概述

1.机器学习的简要概念机器学习，是对我们人类自身的学习过程的一个模仿，即从已知的经验中得到适用的规律，对机器而言，就是通过设计恰当的算法使得计算机能利用已给的数据得到恰当的模型，这个模型在新的场景中依旧能够做出判断。2.机器学习的类型机器学习的类型主要分为监督学习、无监督学习、迁移学习、强化学习等四类。这里主要讲监督与无监督学习的区别2.1 监督与无监督学习的区别两者的区别主要是数据的导向性不同。2.1.1监督学习是从一组带有标记的数据中心学习得到一个模型，模型具有的功能由数据的因变量决定

2021-03-15 16:42:10 132

原创目标检测—— 训练过程

1.目标检测网络的训练大致是如下的流程：设置各种超参数定义数据加载模块 dataloader定义网络 model定义损失函数 loss定义优化器 optimizer遍历训练数据，预测-计算loss-反向传播2.对网络输出的后处理待续...

2020-12-27 20:13:51 929

原创目标检测——损失函数

目录1.求损失的第一步——定位匹配1.1 SSD策略2.Hard negative mining3.损失函数1.求损失的第一步——定位匹配首先我们要做的就是ground truth boxes 与 prior bboxes 的匹配，ground truth boxes 与 prior bboxes匹配程度便是损失值的由来。1.1 SSD策略第一步：从ground truth box出发，寻找与每一个ground truth box有最大的jaccard overlap的prior bbox。若pri

2020-12-23 17:14:14 489

原创 matplolib小试牛刀——图例，文字

上菜—— 思维导图密码：9bsh幕布链接资料：1.datawhale 数据的可视化2.matplotlib官方文档

2020-12-22 23:12:54 62

原创 Matplotlib小试牛刀——子图来秀

目录1.常用的子图模式——均匀分布画图1.1 sharex（sharey）的使用展示2.GridSpec ——绘制==非均匀==子图1.常用的子图模式——均匀分布画图我们常用的子图显示是使用如下代码写的： plt.subplots在画子图之前，我们一般要先设置好字体，不然在画图的时候会报错。代码如下：plt.rcParams['font.sans-serif'] = ['SimHei']plt.rcParams['axes.unicode_minus'] = Falsesubplots(1

2020-12-20 22:19:22 428 1

原创目标检测——先验框

先验框的样式，这里使用的三款样式不同比例，如下：1.先验框的使用场景先验框的表示使用的是中心坐标center XY，再加高度H和宽度W来确定的。先验框一般在特征图（随着卷积的深入，池化的使用，原图会随着变小的）这个尺度使用，而不是原图（投入网络的图片），这样在遍历原图的每个像素的时候，先验框的总量就少了。对此我的理解是，不仅仅是数量少这个明显的变换，而是因为源图的尺寸大，着重于清晰度的展示，而在网络中，随着卷积的深入，特征图中能很好地获得图片的特征信息，即使清晰度不佳，对于我们来说可能看不出是什么，

2020-12-19 19:26:26 868 1

原创学习matplotlib——架构，容器，基本元素

目录1.matplotlib 的架构分层2.无处不在的Artist对象3.matplotlib中的容器3.1 Figure容器3.2 Axes容器3.3 Axis容器3.4 Tick容器4.基础元素1.matplotlib 的架构分层在python中一切皆对象，这个API也是如此。matplotlib是用来对数据绘图的，这里就可以按照对象的思维或者说绘画的步骤来了解该API的架构。绘制的工具需要“纸墨笔砚”和绘制的执笔者。所以它的架构是这样的：英文版matplotlib.backend_base

2020-12-18 16:41:38 221

原创初步了解目标检测

目录1.目标检测1.1怎么检测2.目标框2.1目标框坐标的格式2.2目标框的作用1.目标检测目标检测，这就好比我们的行李箱过安检，安全员通过扫描的图片对行李箱内的物品进行检查，什么东西可以通过，什么又不能通过，而这一前提是安全员知道什么行李里面哪里有什么物品，它们又是否是安全和非安全物品，并在检查中识别出来。目标检测是物品分类识别的进一步应用。物体分类的任务中，我们只需要对物品进行特征提取，然后预判出该无物品是什么类别的概率；目标检测在这个基础上必须知道该物体在图像中的位置并标记出来。1.1怎么检测

2020-12-16 20:40:26 234

空空如也

空空如也