樱缘之梦-CSDN博客

原创操作系统——进程管理算法和例题

带权平均周转时间：（10/10+11/1+13/2+14/1+19/5）/5。带权平均周转时间：（1/1+6/5+16/10+18/2+19/1）/5。带权平均周转时间：（19/10+2/1+7/2+4/1+14/5）/5。带权平均周转时间：（1/1+2/1+4/2+9/5+19/10）/5。平均周转时间：（10+11+13+14+19）/5。平均周转时间：（1+6+16+18+19）/5。平均周转时间：（19+2+7+4+14）/5。平均周转时间：（1+2+4+9+19）/5。

2023-12-21 13:53:27 130

原创数据结构——图的应用（仅于考试）

邻接表是对图中每个顶点建立一条单链表，第i个单链表中的节点表示依附于顶点Vi的边，即边表，边表的头指针的顶点信息用顺序存储（顶点表）来表示，无向图的存储空间是o(|V|+2|E|),有向图的存储空间是o(|V|+|E|)，邻接表不唯一。关键路径是d(i) = l(i)-e(i)=0的关键活动的路径，a2对应V1-V3,a5对应V3-V4，a7对应V4-V6，{V1,V3,V4,V6}。图的遍历是指从图中的某一顶点出发，按照某种搜索方法沿着图中的边对图中的所有顶点访问一次且仅访问一次。

2023-12-20 18:16:52 408

原创机器学习-自定义Loss函数

机器学习框架中使用自定义的Loss函数

2023-08-09 09:47:19 595 1

原创 AutoML工具-AutoGluon

核心参数是num_bag_folds和num_stack_levels等，但是会增加训练时间和内存占用，num_bag_sets控制k-fold进程的时间，auto_stack自动进行stack操作。可以在数据集增加静态变量，例如位置信息（国家、州、城市）、产品的性质（品牌、颜色、大小、重量等）流程：training、prediction、evaluation。流程：training、prediction、evaluation。covariates）：例如假期、工作日、周末等。目标：完成分类和回归任务。

2023-08-04 15:35:57 494

原创数据结构——排序【仅用于考试】

排序

2022-11-09 17:58:45 492 1

原创操作系统——内存管理例题

内容管理大题——例题

2022-08-30 13:52:37 3297 1

原创操作系统——内存管理

内存管理

2022-08-29 16:16:28 858

原创操作系统——死锁（银行家算法）

银行家算法实例

2022-08-02 15:44:57 3798

原创操作系统——经典同步问题

经典同步问题

2022-07-27 11:59:13 1867

原创深度学习——模型的压缩和加速

1. 简介随着深度学习发展，越来越多的模型被发现和应用，模型的体量也越来越大，出现了模型过于庞大和参数冗余的问题。同时，移动端对模型的需求也是越轻量越好，因此，模型压缩和加速技术应运而生。模型压缩和加速的方案有4种：参数修剪和共享（去除不重要的参数）、低秩分解（使用矩阵/张量分解来估计深层CNN【应该适应于其他神经网络模型】中具有信息量的参数）、迁移/压缩卷积滤波器（通过设计特殊结构的卷积核以减少存储和计算成本）、知识精炼（设计教师模型和学生模型，即训练一个更加紧凑的神经网络模型以再现大型网络的输出

2022-01-27 17:26:35 2992 1

原创 OCR系列——文本检测任务

1. 简介文本检测任务是找出图像或视频中的文字位置。不同于目标检测任务，目标检测不仅要解决定位问题，还要解决目标分类问题。目标检测和文本检测同属于“定位”问题。但是文本检测无需对目标分类，并且文本形状复杂多样。当前所说的文本检测一般是自然场景文本检测，其难点在于：自然场景中文本具有多样性：文本检测受到文字颜色、大小、字体、形状、方向、语言、以及文本长度的影响；复杂的背景和干扰；文本检测受到图像失真，模糊，低分辨率，阴影，亮度等因素的影响；文本密集甚至重叠会影响文字的检测；文字存在

2022-01-18 11:43:14 3361 2

原创 OCR系列——总体概述

最近参加了百度Paddle的动手学OCR课程，特此做一个学习总结。1. 简介OCR（Optical Character Recognition，光学字符识别）是计算机视觉重要方向，传统的OCR一般面向扫描文档类对象，现在的OCR是指场景文字识别（Scene Text Recogntion，STR）主要面向自然场景。2. 前沿算法2.1 文本检测文本检测是定位出输入图像中的文字区域。可以将文本检测作为目标检测中的一个特定场景，基于通用目标检测算法进行改进适配，如TextBoxes基于SSD

2022-01-13 17:59:33 2714

原创目标检测模型——One stage（YOLO v5的模型解析及应用）

1. 简介2. 原理3. 模型解析下载地址：https://github.com/ultralytics/yolov3该地址中已包含简单调用，可作为简单参考。3.1.文件内容解析从上述地址下载文件，解压之后，获得如下文件：data：数据文件夹 ————hyps：超参数文件 ————images：yolo v5测试的两张图片，zidian.jpg，bus.jpg ————各项数据集的yaml文件，里边包括存储路径path、train、val、...

2021-12-30 11:50:06 7766

原创目标检测发展路程(一)——Two stage

目标检测是计算机视觉领域中非常重要的一个研究方向，它是将图像或者视频中目标与其他不感兴趣的部分进行区分，判断是否存在目标，确定目标位置，识别目标种类的任务，即定位+分类。传统的目标检测模型有VJ.Det[1,2],HOG.Det[3],DPM[4,5,6]，直到2012年，CNN模型日益成熟化，以深度学习为基础的目标检测模型开始发展，主要分为单阶段模型（One stage）和两阶段模型（Two stage），发展路径如下：目标检测也面临许多挑战：环境影响密集遮挡重叠多尺度：大目标

2021-12-28 16:09:41 4408

原创李宏毅的可解释模型——三个任务

1、问题观看了李宏毅老师的机器学习进化课程之可解释的机器学习，课程中对主要是针对黑盒模型进行白盒模型转化的技巧和方法进行了简单介绍，详细细节可以参考《Interpretable Machine Learning》。像一些线性模型、树形模型是可解释的ML model，但是，深度学习一直被称为“黑盒子”，是end-to-end模型，2、任务3、解析...

2021-11-23 15:42:31 1262

原创语音处理入门——语音的声学处理

1、

2021-09-24 17:39:45 6412

原创数据库实操——pandas写入数据库数据

1、Mysql（1）插入数据因为pymysql不识别除%s之外的其他字符，例如%d，%f，因此，将sql语句的values全部设置为%sdef insertdata(data,table_name,connect): c_name = str(data.columns.tolist()).replace("'","").replace("[",'').replace("]",'').replace(" ","") c_type = str(['%s' for i in ran

2021-09-13 17:33:49 3239

原创 Transformer模型拆解分析

资源来自：DataWhale学习资料最近看了DataWhale 的Transformer图解，突然对Transformer的结构图有了更加清晰的理解，特此记录。1、大框架Transformer是由6个encoder和6个decoder组成，模型的具体实现是model变量里边，参数有Encoder[编码器]、Decoder[解码器]、Embedding(src_vocab)[输入文本进行词向量化]、Embedding(tgt_vocab)[目标文本进行词向量化]，Genera...

2021-09-13 14:13:25 1165

原创机器学习面试——XGBoost，GBDT，RF（上）

1、常见的集成思想bagging

2021-06-29 10:10:47 481

原创机器学习面试——逻辑回归和线性回归

1、什么是广义线性模型（generalize linear model）？普通线性回归模型是假设X为自变量，Y为因变量，当X是一维的，y是一维的，共进行n次观测，则其中，w是待估计的参数，称为回归系数，b是随机误差（统计学相关书籍会写）,服从正态分布，称该模型为一元线性回归。当X为多维时，y是一维，称模型是多元线性回归，公式为因为b是服从正态分布的，重要假设：因变量也服从正态分布。广义线性模型是做了两点补充，一是因变量不一定是服从正态分布，而是推广到一个指数分布族（包含正态分布、二项

2021-06-24 15:11:26 947

原创机器学习面试——分类算法SVM

1、什么是硬间隔和软间隔？当训练数据线性可分时，通过硬间隔最大化，学习一个线性的分类器，即线性可分支持向量机。当训练数据近似线性可分时，通过软间隔最大化

2021-06-22 14:40:25 1762

原创 NLP——序列标注之命名实体识别

1.概述在NLP任务中，命名实体识别是找到文本中提到的每个命名实体，并标记其类型。2.相关算法3.思路

2021-06-16 13:15:30 2952

原创 Paddle——常见的评估指标

在模型评估过程中，分类、回归、标注问题往往使用不同的指标进行评估。22.1.Paddle2.2.Paddlenlp

2021-06-08 17:27:58 2790

原创深度学习-超参数调优

在机器学习中有很多调优的方式机器学习——超参数调优，深度学习中也存在同样的方式

2021-06-03 10:35:49 2295

原创这些年，NLP常见的预训练模型剖析

“预训练-微调”（pre-training and fine-tune）已经成为解决NLP任务的一种新的范式。基于预训练语言模型的词表示由于可以建模上下文信息，进而解决传统静态词向量不能建模“一词多义”语言现象的问题。...

2021-06-01 15:19:25 1141

原创深度学习之负荷分解——LSTM（一对多）任务场景

1.任务场景以家庭为例，假设该家庭有m种电器和总负荷的曲线，其中，总负荷为,各个电器的负荷有（m是电器个数，n是n个时刻）。我们需要通过对总负荷曲线进行分解，识别出该负荷有几种电器同时运行实现。之前的博客已经用NILMTK的组合优化和因子隐马尔可夫实现过了，因为效果不是很好，考虑用LSTM实现。2.算法原理RNN是循环神经网络，与CNN不同，循环神经网络可以很好地处理文本数据变长且有序的输入序列。RNN设计的初衷是解决长距离输入之间的依赖，但是在用基于时间距离的反向传播算法（BPTT）时，会

2021-05-26 15:10:10 3631 6

原创 Pandas使用小技巧

在进行缺失值筛选时，可以对缺失严重的行和列进行删除，首先进行缺失值的确定。1.缺失值的列和每列的缺失情况#对每列的缺失值进行统计，并逆序排列data.isnull.sum().sort_values(ascending=False)2.缺失值的行和每行的缺失情况#对每行的缺失值进行统计，并逆序排列data.isnull.sum(axis=1).sort_values(ascending=False)3.获取以列为单位的指定缺失值个数的列名#num是阈值，可以设定满足条件的数

2021-05-25 10:49:02 332

原创聚类算法——Birch详解

1 原理1.1 B树（1）m路查找树一棵m路查找树，它或者是一棵空树，或者是满足如下性质的树：根最多有m棵子树，并具有以下结构：,是指向子树的指针，是关键码，在子树中所有的关键码都大于，小于。在子树中所有的关键码都大于在子树中所有的关键码都小于子树也是m路查找树（2）B树m阶B树时一棵m路查找树，它或是空树，或者满足以下性质：树中每个节点至多有m棵子树根节点至少有两棵子树除根节点以外的所有非终端节点至少有棵子树所有的叶子节点都位于同一层1.2 步骤

2021-05-13 16:16:05 3088

原创 NLP实战-中文新闻文本分类

实现环境：AI studio1、思路文本分类任务步骤通常是文本预处理文本预处理的方法很多，类似于词性分析，句法分析，命名实体识别等，在进行文本分类之前，需要将文本进行结构化，常见的方法有one-hot，n_gram，word2vec等，与英文不同（可以简单用空格和符号进行分词），中文是比较紧密连接的，结构化之前需要对文本进行分词，如jieba分词，此外还需要将分词之后的语料转化为ID序列，然后进行训练。DL分类模型适合文本的dlmodel有RNN，LSTM，GRU等。预测训练完，.

2021-05-12 15:27:58 2842 2

原创机器学习——超参数调优

超参数是在开始学习过程之前设置值的参数，而不是通过训练得到的参数数据。超参数可以分为两种类型：定义模型及结构本身的参数，目标函数与与优化算法所需的参数，前者用于训练和预测阶段，后者用于训练阶段。在实战过程中，需要对机器学习模型进行优化以确保模型的最高准确率，因此，超参数调优参数应运而生，常见的超参数搜索算法有网格搜索、随机搜索、贝叶斯优化等。超参数搜索算法一般包括三个要素：目标函数，即算法需要最大化/最小化目标；搜索范围，一般通过上限和下限来确定；算法的其他参数，如搜索步

2021-05-11 10:02:12 4866

原创 Python学习——常见的字符串匹配

在处理字符串的时候，经常会有需要提取和替换的情况，记录自己常用的方法。这个涉及正则表达式的用法，因为我是在Series的str属性在用，方法是同宗，存在略微格式的不一致。1、替换str的中括号Series.str.replace('[\\[\\]]','')2.提取两个字符串之间的字符Series.str.findall("a(.+?)b")...

2021-04-25 11:57:49 623

原创 cx_Oracle安装出现的问题

1.安装cx_Oracle（1）在线安装pip install cx_Oracle（2）源码安装下载源码：https://pypi.org/project/cx-Oracle/tar -zxvf cx_Oracle-8.1.0.tar.gzcd cx_Oracle-8.1.0python setup.py install2.测试import cx_Oracle导入包时未出错，当运用connect函数时，则提示错误！！需要安装oracle客户端解决问题，这个安装

2021-03-29 15:17:12 1214

原创大数据学习-python通过Pyhive连接hive数据库

1.hbase和hive结合（1）hbase建表添加数据#test是表名，name是列族#hbase可以一个列族里边多个字段create 'test','name'#添加数据put 'test','1','name:t1','1'put 'test','1','name:t2','2'#查询scan 'test'#查询 get 表名，row-key，列族get 'test','1','name:t1'#删除表disable 'test'drop 'test'#

2021-02-07 17:49:35 1399

原创大数据——spark安装部署和python环境配置

需要配置多台服务器，实验环境：master和data两台服务器，已安装好hadoop，可参考前文！！！1.spark安装master安装（1）下载scala和spark（2）解压并配置环境变量export SCALA_HOME=/usr/local/scalaexport PATH=$PATH:$SCALA_HOME/binexport SPARK_HOME=/home/spark-2.4.5-bin-hadoop2.6export PATH=$PATH:$SPARK_HOME

2021-02-07 17:36:26 832

原创大数据——sqoop操作mysql和hive导出导入数据

1.sqoop安装（1）下载CDH版本的sqoop（2）解压并进行环境配置环境变量为：export SQOOP_HOME=/home/sqoop-1.4.6-cdh5.15.1export PATH=$PATH:$SQOOP_HOME/bin在sqoop安装目录/conf/下：#新建sqoop-env.sh文件cp sqoop-env-template.sh sqoop-env.sh#增加环境变量1、hadoop_home2、hive_home3、hbase_hom

2021-01-25 13:43:29 347

原创大数据工具使用——安装Hadoop（多台服务器）和Hive、Hbase

1.配置环境版本资料上传百度云，自取：（之前安装的是apache版本的Hadoop2.6.4,在启动hive的时候，报错，无奈又统一换成CDH）2.安装前的配置工作2.1 安装jdk（1）下载jdk（2）解压，然后在/etc/profile文件配置环境变量export JAVA_HOME=/home/jdk1.8.0_131export PATH=${JAVA_HOME}/bin:${PATH}2.2 ssh免密登录ssh-keygen根据文件的路径更改

2021-01-22 17:07:45 440

原创 NILMTK——因子隐马尔可夫之隐马尔可夫

因子隐马尔可夫(FHMM)由Ghahramani在1997年提出，是一种多链隐马尔可夫模型，适合动态过程时间序列的建模，并具有强大的时序模型的分类能力，特别适合非平稳、再现性差的序列的分析。马尔可夫链随机过程的研究对象是随时间演变的随机现象，它是从多维随机变量向一族（无限多个）随机变量的推广。设T是一个集合，是随机试验的样本空间。是定义在T和上的二元实函数，对于每个，是一个确定的时间函数，对每个，是一个随机变量。则 ...

2020-11-25 11:53:19 1819

原创 NILMTK——深扒组合优化（CO）和FHMM细节

前面的博客讲了具体实现，现在深究算法代码实现细节！！！1.CO(1)关于train从以下代码可知，CO首先是对各个电器的功率数据做了train，为了了解其原生实现对代码进行了深究：classifiers = {'CO':CombinatorialOptimisation()}predictions = {}sample_period = 120 ## 采样周期是两分钟for clf_name, clf in classifiers.items(): print("*"*2

2020-11-09 14:44:47 3005 7

原创 NILMTK——经典数据集REDD介绍和使用

配置了NILMTK包的环境之后，想找数据测试一下，在NILMTK官网的API Docs里边发现dataset_converters模块中有内置的数据集处理函数，如图：将数据转换成HDF文件，这些数据都是比较优秀的，其中，常用的数据集是REDD和UK_DALE。1. REDD数据集目前版本的下载地址为:http://redd.csail.mit.edu，需要向作者发送邮件，才能获取用户名和密码进行下载！论文为：J. Zico Kolter and Matthew J. Johnson. .

2020-11-04 18:02:54 12699 49

原创 NILMTK在Windows下的安装教程

近期，要进行负荷辨识，找到NILMTK安装包，特意将过程记录下来。（1）Windows安装本机已安装了Anaconda，环境是Python3，NILMTK包的项目地址为：https://github.com/nilmtk/nilm_metadata/，首先需要安装git命令，才能进行git资源下载。a、下载nilmtkgit clone https://github.com/nilmtk/nilmtk.git就会在目录下发现nilmtk文件夹，并有setup.py文件切换到该目

2020-11-02 16:20:36 2966 7

机器学习实践指南

背包九讲问题

空空如也