自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(56)
  • 收藏
  • 关注

原创 机器学习——贝叶斯分类器

1.贝叶斯分类器属于生成式模型对于数据的判别分类有两种策略模型:判别式模型和生成式模型判别式模型: 逻辑回归、决策树、支持向量机等为常见的判别式模型,这种模型需要人为的设定好模型框架,假如Y=WX+B>1为好瓜,Y=WX+B<=1为坏瓜,然后通过数据的训练,不断地修正模型参数,模型对于目标变量的条件预测也就更加准确。再比如决策树,通过信息熵,信息增益等判断标准,对好瓜具有的属性进行判别选择,通过对数据的学习,得到决策模型。生成式模型: 生成方法由数据学习联合概率分布P(Y,X),然后

2022-04-13 15:33:39 6889 1

原创 简单学SQL——练习题

练习:1. 各部门工资最高的员工练习所需的表员工表+----+-------+--------+--------------+| Id | Name | Salary | DepartmentId |+----+-------+--------+--------------+| 1 | Joe | 70000 | 1 || 2 | Henry | 80000 | 2 || 3 | Sam | 60000 | 2

2021-09-27 22:26:04 202

原创 简单学SQL——窗口函数

1.窗口函数怎么理解窗口函数?在group up 分组结果的基础上施加可操作的函数,如rank排序、sum求和等。书写语法<窗口函数> OVER ([PARTITION BY <列名>] ORDER BY <排序用列名>) [PARTITION BY <列名>] 表示按照某属性(列名)来分窗(分组)ORDER BY <排序用列名>表示分窗后每个独立窗口内的数据

2021-09-24 23:09:00 220

原创 简单学SQL —— 集合运算

1.集合运算用一张文氏图来说明什么是集合运算。1.1 交集 union举例:SELECT product_id, product_name FROM Product UNIONSELECT product_id, product_name FROM Product2;1.1.1 union等效转换对同一张表的不同条件下作用的结果可以用 union 来转换(or —> union)举例:-- 使用 OR 谓词SELECT * FROM Product WHE

2021-09-22 22:00:57 412

原创 简单学SQL——select 查(二)

1. 视图视图是什么,在我看来视图相当于给文件创建了一个快捷方式,但是对打开的内容进行了限制。视图就是对表创建的一个或者多个快捷方式。视图,从词本意理解,就是创建一个窗口去看表的内容,内容可以是局部的,也可以是全局的,视实际使用而定。如图所示,透过(通过)视窗改动数据,就是改动表的数据。1.1 视图的优势通过定义视图可以将频繁使用的SELECT语句保存以提高效率通过定义视图可以使用户看到的数据更加清晰通过定义视图可以不对外公开数据表全部字段,增强数据的保密性通过定义视图可以降低数据的冗

2021-09-20 21:20:06 116

原创 简单学SQL——select 查(一)

1.查询简介2.比较,逻辑运算书写范式SELECT <列名1>,<列名2>, <列名3>, …… FROM <表名> GROUP BY <列名1>, <列名2>, <列名3>, ……;其中SELECT <列名1>,<列名2>, <列名3>中的列名可与加减乘除运算配合使用加减乘法运算,举例如下:SELECT (sale_price-purchase_price)

2021-09-18 21:04:36 156

原创 简单学SQL——基础部分

1.总览基础常见常用的语句一般来自DML,即常说的增,删,查,改。2.增删查改操作的演示2.1 创建表格 CREATE TABLE先看实例CREATE TABLE product(product_id CHAR(4) NOT NULL, product_name VARCHAR(100) NOT NULL, product_type VARCHAR(32) NOT NULL, sale_price INTEGER , purchase_price INTEGER , regist_d

2021-09-15 17:05:26 80

原创 机器学习——支持向量机

文章目录1.形象理解支持向量机2.距离最大化——支持向量到最优超平面3.对偶问题3.1为什么要将拉格朗日函数转为它的对偶函数3.2 下确界,对偶性1.形象理解支持向量机简单来说,支持向量机是逻辑回归的升级版。逻辑回归=线性回归+激活函数,通过找到一个超平面如图中1,2,3,法向量(垂直于超平面)所指向的方向为正类。这其中有一个问题:训练出能分类的超平面有很多,如何找到在实际使用中泛化效果最好的那一个超平面?图解辨析:图中的2号超平面为最佳,但是在训练学习过程中机器没有找到,训练结果为1号或者3号超

2021-09-06 16:19:38 1084 1

原创 机器学习——神经网络

该文章针对本人所需记录的点进行叙述。1.神经网络该名词源自生物学,是认知科学家对神经网络所做的一个类比解释,表示该算法学习的过程类似生物对外界刺激的反馈与记忆,如图所示。该图很像人的眼睛接收光信息的过程,各个角度的光具有不同的信息,经过眼球的处理,转化为大脑能明白的电信号。X是光,W是光差异的权重,Y是处理的结果。2. 感知机与多层网络2.1感知机感知机,简单的理解是线性回归模型的输出+激活函数,如图:感知机只能处理简单的线性问题,即存在一个线性超平面能将特征空间划分开。超平面(D-1维)就

2021-09-01 22:15:37 230

原创 机器学习——决策树的要点

1.决策树树,是数据结构中的一种形式,而决策树在机器学习中的形成源自对数据样本特征进行逻辑选择后的结果。再说的明白一点就是一系列 if /else 选择后的结果。决策树是人类在面临决策问题时一种很自然的处理机制——Yes or No。决策树的要点就是判断标准,一般来说会使用信息增益,信息增益率和基尼指数等作为判断选择的依据。信息增益和信息增益率的基本点源自信息熵。2.为什么是信息熵初一看这个信息熵就是某样本的概率乘概率的log值,很简单。只要能计算出某个数值,然后按信息增益排序选择相应的特征。但再仔

2021-08-26 17:04:25 361

原创 机器学习——重新认识线性回归模型

1. 线性回归模型中所要数学储备1.1 均方误差方差是用来描述真实值偏离均值的程度均方误差是误差平方和的平均数,用来描述测量值与真实值的误差程度1.2 凸函数此处的凸函数强调的是来自最优化理论中的概念,不同于高数书中的凸函数的概念(两者表示的东西是相反的)。机器学习中的凸函数概念:...

2021-08-22 18:10:38 387

原创 机器学习——西瓜书中的基本概念

1、机器学习与假设空间1.1 什么是机器学习“记住”训练样本,就是所谓的“机器学习”——Cohen and Feigenbaum通过对训练集进行学习,建立了一个从输入空间X到输出Y的映射,映射形成的过程就是机器学习1.2假设空间将数据特征通过数值量化的过程建立一个多维度的数学空间。如西瓜的特征,色泽、根蒂、敲声,三个特征分别用X、Y、Z轴表示。特征的程度通过人为设置来规范,如色泽的X轴上,X=1(青绿),X=2(乌黑)…、根蒂的Y轴上,Y=1(蜷缩)、Y=2(硬挺)…。这样就建立了一个描述西瓜

2021-08-16 14:58:46 403

原创 解决——pycharm连接远程服务器后Python无法找到文件

1. 问题呈现:在一次迷糊的配置后,连接测试显示成功,以为可以在本地用远程服务器的解释器跑程序,然而如图所示 —— python3.7 -u 后面出现了某地址乱码,并且报错无法找到该文件。2. 问题缘由上图中的Running code on the remote server(在远程服务器上跑程序)——sync folders:-> 地址与下图中的Deployment path(部署地址)不一致3. 解决——两种方法3.1 第一种——删除远程部署重新配置第一步:在配置完Conne

2021-04-07 16:37:54 19329 13

原创 数据挖掘HeartbeatClassification——模型融合

模型融合的目的是进一步加强数据模型的鲁棒性,由单一模型转换到多个模型的协调处理中,yong合的目的是进一步加强数据模型的鲁棒性,由单一模型转换到多个模型的协调处理中,用一句诙谐的话来讲——三个臭皮匠顶个诸葛亮。这里介绍几个融合的方法——简单加权融合、stacking、blending1.简单加权融合——分类与回归1.1 分类加权平均,就是简单地将多个模型预测的预测值通过赋予相同或者不同的权值,融合为与目标值一样的数据类型(单个分类或多分类),然后用这个融合后的值去与真实的标签作比较得到误差值。举个

2021-03-28 17:43:11 343

原创 数据挖掘HeartbeatClassification——基于lightgbm的简单建模

我们首先来梳理一下搭建模型的过程——import相关的包读取数据,划分数据集搭建模型,或是导入模型,设置模型相关参数将数据导入模型,模型训练的相关参数评估最优模型1.整体浏览,了解框架import pandas as pdimport numpy as npfrom sklearn.metrics import f1_scoreimport osimport seaborn as snsimport matplotlib.pyplot as pltimport warnin

2021-03-25 21:51:26 132

原创 机器学习——如何优化模型(下)

这一部分会讲,对模型的超参数调优1.参数和超参数分别是什么参数是什么,比如 Y = WX+Z中,(X,Y)是数据值,Z是偏差,而W则是这个线性回归模型中的系数。超参数,我们常见的便是 神经网络的学习率L,通过人为的设置数值去调节算法优化的学习步长。1.1参数————参数是从数据估计或获悉的参数通常被保存为学习模型的一部分参数是机器学习算法的关键,它们通常由过去的训练数据中总结得出参数通常不由编程者手动设置参数,可以说是数据内部存在的隐含逻辑,通过它,便能将X映射到Y’。在现实中我们的研究

2021-03-24 16:43:23 214

原创 机器学习——如何优化模型(上)

在机器学习中,我们常见的优化模型的方法是结果导向型,通过观察损失函数的趋势曲线图,去调整学习率,优化器等。这是对模型参数的调整,以达到优化的效果。殊不知,还有一种是对数据的处理,但这里的处理又非指的是简单的预处理。...

2021-03-22 22:08:05 1737

原创 数据挖掘HeartbeatClassification——特征工程

这一部分所要讲的是,将收集到的数据进行专项处理,得到一个合理的数据格式,我们后面所要用的模型便能利用这样的数据,通过机器学习的方式进行数学建模。如此一来,挖掘到的数据就变得有价值了,通过这些数字表象找到了背后的意义。本项目是处理的是患者的心跳信号,意义便是建立起来的模型可以对某些病症进行检测。1.数据预处理对心电特征进行行转列处理,同时为每个心电信号加入时间步特征timetrain_heartbeat_df = data_train["heartbeat_signals"].str.split(","

2021-03-21 21:57:45 307 1

原创 数据挖掘HeartbeatClassification——数据分析

如同计算机视觉中一样,在训练目标识别的网络之前,会对图片进行预处理,如 裁切,旋转、放大缩小,以加强网络的泛化能力。在数据挖掘中,我们首先要做的就是对拥有的数据进行分析( 涉及到《概率论与数理分析》的知识 ),这里我们可以利用一些好的数据科学库和可视化库如 pandas、numpy、matplotlib等来辅助数据分析的工作。1.载入需要的各种库#coding:utf-8#导入warnings包,利用过滤器来实现忽略警告语句。import warningswarnings.filterwarnin

2021-03-19 17:38:08 373 4

原创 机器学习——回归模型

回归模型的功能一般是预测,分为线性回归,决策树(回归树),支持向量机(SVR)1.线性回归线性回归一般使用的公式如下:y’ = w[0]*x[0] +w[1]*x[1] +w[2]*x[2] +… +w[p]*x[p] +biasx[0]到x[p] 表示单个数据点的特征,w 和 bias是模型需要学习的参数,y则是模型预测的结果。从高维来看,这里的彩色斜平面便是y所在的平面。1.1最小二乘法(线性回归)通过数据点找到参数w和b,使得对训练集的预测值y与真实的回归目标值y’之间的MSE(均方

2021-03-17 22:44:08 2576

原创 数据挖掘HeartbeatClassification——多分类评价指标

首先该项目来自 零基础入门数据挖掘-心跳信号分类预测,在该项目中,数据具有多个类型的属性,所以有必要在本文中简单地讲述一下多分类评价指标。1.多分类评价指标评价指标:召回率、精确度、准确率、F1分数多分类与二分类的评价指标有什么不同?其实没什么不同,就是将多分类细分为多个单类,然后再计算各自的指标分数值。这里会使用混淆矩阵,所以先介绍一下它。1.1混淆矩阵混淆矩阵:若一个实例是正类,并且被预测为正类,即为真正类TP(True Positive )若一个实例是正类,但是被预测为负类,即为假负类

2021-03-16 21:57:11 340 1

原创 机器学习概述

1.机器学习的简要概念机器学习,是对我们人类自身的学习过程的一个模仿,即从已知的经验中得到适用的规律,对机器而言,就是通过设计恰当的算法使得计算机能利用已给的数据得到恰当的模型,这个模型在新的场景中依旧能够做出判断。2.机器学习的类型机器学习的类型主要分为 监督学习、无监督学习、迁移学习、强化学习等四类。这里主要讲 监督与无监督学习的区别2.1 监督与无监督学习的区别两者的区别主要是数据的导向性不同。2.1.1监督学习是从一组带有标记的数据中心学习得到一个模型,模型具有的功能由数据的因变量决定

2021-03-15 16:42:10 132

原创 目标检测—— 训练过程

1.目标检测网络的训练大致是如下的流程:设置各种超参数定义数据加载模块 dataloader定义网络 model定义损失函数 loss定义优化器 optimizer遍历训练数据,预测-计算loss-反向传播2.对网络输出的后处理待续...

2020-12-27 20:13:51 929

原创 目标检测——损失函数

目录1.求损失的第一步——定位匹配1.1 SSD策略2.Hard negative mining3.损失函数1.求损失的第一步——定位匹配首先我们要做的就是ground truth boxes 与 prior bboxes 的匹配,ground truth boxes 与 prior bboxes匹配程度便是损失值的由来。1.1 SSD策略第一步:从ground truth box出发,寻找与每一个ground truth box有最大的jaccard overlap的prior bbox。若pri

2020-12-23 17:14:14 489

原创 matplolib小试牛刀——图例,文字

上菜—— 思维导图密码:9bsh幕布链接资料:1.datawhale 数据的可视化2.matplotlib官方文档

2020-12-22 23:12:54 62

原创 Matplotlib小试牛刀——子图来秀

目录1.常用的子图模式——均匀分布画图1.1 sharex(sharey)的使用展示2.GridSpec ——绘制==非均匀==子图1.常用的子图模式——均匀分布画图我们常用的子图显示是使用如下代码写的: plt.subplots在画子图之前,我们一般要先设置好字体,不然在画图的时候会报错。代码如下:plt.rcParams['font.sans-serif'] = ['SimHei']plt.rcParams['axes.unicode_minus'] = Falsesubplots(1

2020-12-20 22:19:22 428 1

原创 目标检测——先验框

先验框的样式,这里使用的三款样式不同比例,如下:1.先验框的使用场景先验框的表示使用的是中心坐标center XY,再加高度H和宽度W来确定的。先验框一般在特征图(随着卷积的深入,池化的使用,原图会随着变小的)这个尺度使用,而不是原图(投入网络的图片),这样在遍历原图的每个像素的时候,先验框的总量就少了。对此我的理解是,不仅仅是数量少这个明显的变换,而是因为源图的尺寸大,着重于清晰度的展示,而在网络中,随着卷积的深入,特征图中能很好地获得图片的特征信息,即使清晰度不佳,对于我们来说可能看不出是什么,

2020-12-19 19:26:26 868 1

原创 学习matplotlib——架构,容器,基本元素

目录1.matplotlib 的架构分层2.无处不在的Artist对象3.matplotlib中的容器3.1 Figure容器3.2 Axes容器3.3 Axis容器3.4 Tick容器4.基础元素1.matplotlib 的架构分层在python中一切皆对象,这个API也是如此。matplotlib是用来对数据绘图的,这里就可以按照对象的思维或者说绘画的步骤来了解该API的架构。绘制的工具需要“纸墨笔砚”和绘制的执笔者。所以它的架构是这样的:英文版matplotlib.backend_base

2020-12-18 16:41:38 221

原创 初步了解目标检测

目录1.目标检测1.1怎么检测2.目标框2.1目标框坐标的格式2.2目标框的作用1.目标检测目标检测,这就好比我们的行李箱过安检,安全员通过扫描的图片对行李箱内的物品进行检查,什么东西可以通过,什么又不能通过,而这一前提是安全员知道什么行李里面哪里有什么物品,它们又是否是安全和非安全物品,并在检查中识别出来。目标检测是物品分类识别的进一步应用。物体分类的任务中,我们只需要对物品进行特征提取,然后预判出该无物品是什么类别的概率;目标检测在这个基础上必须知道该物体在图像中的位置并标记出来。1.1怎么检测

2020-12-16 20:40:26 234

原创 Matplotlib小试牛刀——数据的可视化

标题1.数据的呈现从画布开始1.1画图中层级关系1.2 画布说明书2.小试牛刀——有两把刀2.1 第一刀——面向对象的2.2 第二把——隐蔽式的1.数据的呈现从画布开始1.1画图中层级关系figure:它指的就是我们数据可视化中所需要的的媒介。就好比客厅中未开机的电视,画板上未画的白纸axes:它是指数学中所说的轴,这好比修房子时搭的铁架子,在这个架子的基础上,怎么盖就是我们的数据来引导了axis:它处理的是轴,网格等的一些细节的东西tick:它是用来处理所有和刻度有关的1.2 画布说明书

2020-12-14 22:26:34 119 1

原创 机器学习——了解逻辑回归

1.功能——分类逻辑回归,不是回归方程,不同于通过数据来拟合曲线,对未知数据进行预判,它是通过数据的不同标签来得到一个数学模式,然后再预测数据分类,分类的评判标准是大于某个预定的阈值,便属于对应的分类。2. 图说图1 显示了数据的分布情况,图2 显示了选取的分类边界图3 显示了对新数据的预测分类3. 数说(待写)...

2020-08-20 22:19:10 119

原创 Python基础——文件操作

下面说几个关于文件对象的操作1.文件对象方法——打开文件open(file, mode='r', buffering=None, encoding=None, errors=None, newline=None, closefd=True) Open file and return a stream. Raise OSError upon failure.file: 必需,文件路径(相对或者绝对路径)mode: 可选,文件打开模式buffering: 设置缓冲encoding: 一般使用

2020-08-08 22:03:28 153

原创 Python基础——模块

模块,这个思想源自于当今生产活动中流水线模块化生产的理念。想一想我们自己所用的电脑就是很多模块组装成的,而不是一体成型。在量产之前,设计好各个模块,什么CPU,什么键盘布局,什么样的屏幕,怎么样设计散热排风等,这样既利于组装生产,也利于售后维修,什么模块坏了就更换什么模块。而在这里,模块指的包含一些函数,类,变量的Python文件。这些文件统一服务于针对某方向的应用。比如numpy模块,主要服务于支持大量的维度数组与矩阵运算。1.模块的导入三种方式:第一种:import 模块名第二种:impor

2020-08-07 17:51:35 106

原创 Python基础——类中的几个知识点

本文会记录一些本人想记录的几个关于类的知识点1.selfPython 的 self 相当于 C++ 的 this 指针,在Python中指代类对象。因为Python中万物皆可对象,在创建类的时候,Python中就会开辟出一块空间,指定该类为对象。与之相应的还有实例对象。实例对象就是就是创建类的实例化对象。实例对象可以有多个,但是类对象只有一个。class A(): #执行完A()内的代码,类对象A就创建了 passB = A() #创建实例对象BC = A() #创建实例对象CD =

2020-08-05 22:12:57 275

原创 Python基础——函数方法,匿名函数lamada表达式

本文记录了本人在学习过程中想记录的一些知识1.函数函数的定义类似于C语言中的定义,不过返回的类型会是多样的,可以是列表,元组,函数等。而且函数的参数也更加丰富,可变参数,关键字参数,命名关键字参数是三个新鲜的参数 。def functionname(parameters): "函数_文档字符串" # 新颖知识,专门用来对函数进行描述的字符串 function_suite return [expression]其中参数定义的顺序必须是:位置参数、默认参数、可变参数和关键字

2020-08-02 20:51:53 190

原创 Python基础——字典和集合在一起玩

1.字典对于字典这个数据类型,可能有点陌生。其实它是 键:值(key:value)对集合。结合实际想一想,查新华字典的时候,是不是我们需要查找它的拼音或者偏旁部首来查找某一个字。其中拼音或者偏旁部首就是键值,而所要查找的字便是键值对应的值。多个键可以对应一个值,但是键不能有重复的。结合真实的字典想一想便能很好的理解了。1.1 字典的创建注意字典的创建,是用大括号 { } 括起来的#创建模式1:键可为数值或字符串dic1 = {1: 'one', 2: 'two', 3: 'three'}pri

2020-07-31 17:20:03 185

原创 Python基础——元组怎么玩

本文记录了一些本人想记录的学习要点目录1.元组2.元组的更新3.解压元组3.1 解压中的不屑一顾——用通配符「*」1.元组(元素1, 元素2, …, 元素n)创建元组时,是使用小括号(与列表的创建区别开),元素为任意类型的数据x = (1, 10.31, 'python'), ('data', 11)print(x)# ((1, 10.31, 'python'), ('data', 11))print(x[0])# (1, 10.31, 'python')print(x[0][0],

2020-07-29 13:06:38 111

原创 Python基础——列表怎么玩儿

1.什么是列表列表是有序集合,没有固定大小,能够保存任意数量任意类型的 Python 对象,语法为 [元素1, 元素2, …, 元素n]其中我们需要留意的是列表里面可以放任意类型的数据,并且是用[ ]来将数据集中起来的普通型的列表x = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday']print(x[0]) # Monday混合型的列表mix = [1, 'lsgo', 3.14, [1, 2, 3]]print(mix, t

2020-07-25 12:04:30 128

原创 python基础——异常处理——try

本人会先介绍几种异常处理的常见语句,然后以一个 猜数大小游戏 来使用部分异常处理,其中包括Python自带的异常处理和自我定义的异常1.常见的异常处理语句1.1 try - except 语句try: 检测范围 #如果此处没有检测出错误,将跳过except相应的部分,执行后续的代码 #否则就会执行except相应的代码,以except Exception[as reason]: 出现异常后的处理代码...

2020-07-24 11:30:02 168

原创 python基础——循环怎么玩儿

这是本人在学习中的一些记录,只是针对自己的情况做记录,起到回顾,提醒的作用。1. for循环1.1 Python中的for不同于C语言中的形式C语言中的for循环:for(i=0;i<10;i++){ print(i) }在Python中for是这样的:s="good"for i in s: print(i,end=' ')这就体现了Python是面向对象的。对for的使用定义如下:for 迭代变量 in 可迭代对象:代码块如果我们要实现上述C语言

2020-07-23 14:52:00 156

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除