cxykk1217-CSDN博客

概念：JWT 全称 JSON Web Token，是一种基于 Token 的认证授权机制。可以生成 token，也可以解析验证 token。官网地址先看看官网上 JWT 的具体样式基于 session 和基于 Token 认证方式，本质上没有什么区别，都是对用户身份的认证机制，只是在使用过程中校验的方式不同，各有优缺点，不能说哪个好哪个不好，要根据实际需求选择响应的方式，后续会有文章实现基于 token 的方式去实现用户登录访问控制。改变你能改变的，接受你不能改变的，关注我，一起成长，共同进步。

2024-01-02 21:53:13 974

原创 SpringBoot集成swagger报错Failed to start bean ‘documentationPluginsBootstrapper‘

Spring Boot升级到2.6.x版本后，突然发现与Swagger集成时报错如下org.springframework.context.ApplicationContextException: Failed to start bean 'documentationPluginsBootstrapper'; nested exception is java.lang.NullPointerException原因：因为Springfox使用的路径匹配是基于AntPathMatcher的，而Spring

2022-05-28 17:35:54 267

原创 scikit-learn决策树算法

scikit-learn决策树算法类库内部实现是使用了调优过的CART树算法，既可以做分类，又可以做回归。分类决策树的类对应的是DecisionTreeClassifier，而回归决策树的类对应的是DecisionTreeRegressor。两者的参数定义几乎完全相同，但是意义不全相同。下面就对DecisionTreeClassifier和DecisionTreeRegressor的重要参数...

2022-05-28 17:23:01 348

原创 Day 7--K Nearest Neighbours （K近邻）

2018-11-26 21:32:36 380

原创机器学习笔试、面试题七

1、若两个变量相关，它们之间一定有线性关系吗？A 是B 否正确答案是： B解析：不是必要条件，二者可以没有线性关系2、相关变量的相关系数可以为零，对吗？A 是B 否正确答案是：A3、假设对数据提供一个逻辑回归模型，得到训练精度X和测试精度Y。在数据中加入新的特征值，则下列哪一项是正确的？提示：其余参数是一样的A 训练精度总是下降B 训练精度总是上升或不变C 测试...

2018-11-26 21:26:42 1680

原创机器学习笔试、面试题六

1、在线性回归问题中，我们用“R方”来衡量拟合的好坏。在线性回归模型中增加特征值并再训练同一模型。下列哪一项是正确的？A 如果R方上升，则该变量是显著的B 如果R方下降，则该变量不显著C 单单R方不能反映变量重要性，不能就此得出正确结论D 都不正确正确答案是：C解析：单单R方不能表示变量显著性，因为每次加入一个特征值，R方都会上升或维持不变。但在“调整R方”的情况下这也有误（如果特...

2018-11-04 22:26:03 2748

原创 Day6--Logistic Regression代码

数据集 | 社交网络该数据集包含了社交网络中用户的信息。这些信息涉及用户ID,性别,年龄以及预估薪资。一家汽车公司刚刚推出了他们新型的豪华SUV，我们尝试预测哪些用户会购买这种全新SUV。并且在最后一列用来表示用户是否购买。我们将建立一种模型来预测用户是否购买这种SUV，该模型基于两个变量，分别是年龄和预计薪资。因此我们的特征矩阵将是这两列。我们尝试寻找用户年龄与预估薪资之间的某种相关性，...

2018-11-01 10:30:55 598

原创机器学习笔试、面试题五

1、Logistic回归分类器是否能对下列数据进行完美分类？注：只可使用X1和X2变量，且只能使用两个二进制值（0,1）。A 是B 否C 不确定D 都不是正确答案是： B解析：逻辑回归只能形成线性决策面，而图中的例子并非线性可分的。2、假设对给定数据应用了Logistic回归模型，并获得了训练精度X和测试精度Y。现在要在同一数据中添加一些新特征，以下哪些是错误的选项。...

2018-10-28 22:33:13 16950

原创 Day5--Logistic Regression理论推导

逻辑回归今天没有概念图和代码，只有一段话如下：今天我深入研究了逻辑回归到底是什么，以及它背后的数学是什么。学习了如何计算代价函数，以及如何使用梯度下降法来将代价函数降低到最小。由于时间关系，我将隔天发布信息图。如果有人在机器学习领域有一定经验，并愿意帮我编写代码文档，也了解github的Markdown语法，下面是我自己整理的逻辑回归理论推导逻辑回归就是这样的一个过程：面对一个回...

2018-10-28 17:44:02 366

原创目标检测（二）——Fast R-CNN

论文链接：https://arxiv.org/abs/1504.08083学习Fast R-CNN之前我们先了解一下SPP-Net网络SPP-netSPP-net（Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition, He et al. 2014）提出的起因是解决图像分类中要求输入...

2018-10-28 09:24:27 509

原创 Day4--Logistic Regression

第四天主要是讲逻辑回归问题，今天只是有一张图

2018-10-26 20:09:08 251

原创深度学习笔试、面试题三

1、声明1：可以通过将所有权重初始化为0 来训练网络。声明2：可以通过将偏差初始化为0来很好地训练网络以上哪些陈述是真实的？A 1对2错B 1错2对C 1和2都对D 1和2都错正确答案是： B解析：即使所有的偏差都为零，神经网络也有可能学习。另一方面，如果所有的权重都是零; 神经网络可能永远不会学习执行任务。具体可查看这里博客2、对于MLP，输入层中的节...

2018-10-26 20:05:33 14543 1

原创目标检测（一）——R-CNN

arxiv: http://arxiv.org/abs/1311.2524 github: https://github.com/rbgirshick/rcnn 一 R-CNNR-CNN（R. Girshick et al., 2014）是基于region proposal方法的目标检测算法系列开山之作，其先进行区域搜索，然后再对候选区域进行分类。在R-CNN中，选用Selective s...

2018-10-25 16:37:27 514

原创 Day3--Multiple_Linear_Regression

第三天：多元线性回归第1步: 数据预处理导入库import pandas as pdimport numpy as np 导入数据集dataset = pd.read_csv('50_Startups.csv')X = dataset.iloc[ : , :-1].valuesY = dataset.iloc[ : , 4 ].values将类别数据数字化...

2018-10-25 11:13:15 291

原创深度学习笔试、面试题二

1、梯度爆炸问题是指在训练深度神经网络的时候，梯度变得过大而损失函数变为无穷。在RNN中，下面哪种方法可以较好地处理梯度爆炸问题？A 用改良的网络结构比如LSTM和GRUsB 梯度裁剪C DropoutD 所有方法都不行正确答案是： B解析：为了处理梯度爆炸问题，最好让权重的梯度更新限制在一个合适的范围。LSTM可以解决梯度消失问题，但是不适于解决梯度爆炸问题2...

2018-10-24 20:29:47 8211 1

原创 sklearn：GBDT调参

官方文档：文档1. scikit-learn GBDT类库概述　　　　在sacikit-learn中，GradientBoostingClassifier为GBDT的分类类，而GradientBoostingRegressor为GBDT的回归类。两者的参数类型完全相同，当然有些参数比如损失函数loss的可选择项并不相同。这些参数中，类似于Adaboost，我们把重要参数分为两类，第一...

2018-10-23 15:37:30 1920

原创 Day2--Simple Linear Regression

第二天：简单线性回归第一步：数据预处理import pandas as pdimport numpy as npimport matplotlib.pyplot as pltdataset = pd.read_csv('studentscores.csv')X = dataset.iloc[ : , : 1 ].valuesY = dataset.iloc[ : ,...

2018-10-22 15:40:14 213

原创机器学习笔试、面试题四

1、下面是三个散点图（A，B，C，从左到右）和和手绘的逻辑回归决策边界。正则化项惩罚度最高的是？A AB BC CD 都具有相同的正则化正确答案是：A解析：因为正则化意味着更多的罚值和图A所示的较简单的决策界限。2、下图显示了三个逻辑回归模型的AUC-ROC曲线。不同的颜色表示不同超参数值的曲线。以下哪个AUC-ROC会给出最佳结果？A 黄色B ...

2018-10-22 14:59:44 4255

原创 Day1--Data Preprocessing

这是一个由Youtuber Siraj Raval发起的机器学习挑战活动，旨在号召大家每天至少花1个小时的时间在Machine Learning的学习上，内容涵盖了机器学习，深度学习等很多方面。活动有Github链接，在量子位公众号的一篇文章里有对这个活动的详细描述。同时GitHub上也有人在进行汉化，链接为https://github.com/MLEveryday/100-Days-Of...

2018-10-21 17:04:35 267

原创深度学习笔试、面试题一

1、神经网络模型（Neural Network）因受人类大脑的启发而得名，神经网络由许多神经元（Neuron）组成，每个神经元接受一个输入，对输入进行处理后给出一个输出，如下图所示。请问下列关于神经元的描述中，哪一项是正确的？ A 每个神经元可以有一个输入和一个输出B 每个神经元可以有多个输入和一个输出C 每个神经元可以有一个输入和多个输出D 每个神经元可以有多个输入...

2018-10-19 22:28:23 36455 1

原创机器学习笔试、面试题三

1、假定你用一个线性SVM分类器求解二类分类问题，如下图所示，这些用红色圆圈起来的点表示支持向量,如果移除这些圈起来的数据，决策边界（即分离超平面）是否会发生改变？如果移除这些圈起来的数据，决策边界（即分离超平面）是否会发生改变？A YesB No正确答案是： B解析：从数据的分布来看，移除那三个数据，决策边界不会受影响。2、如果将数据中除圈起来的三个点以外...

2018-10-12 12:10:37 9769

原创机器学习数据、特征处理、模型融合

一解决问题流程：o 了解场景和目标o 了解评估准则o 认识数据o 数据预处理(清洗，调权)o 特征工程o 模型调参o 模型状态分析o 模型融合二数据预处理（1）数据清洗 a: 不可信的样本丢掉 b: 缺省值极多的字段考虑不用 (2) 数据采样 a:下/上采样...

2018-09-30 21:48:12 7350 2

原创 sofasofa竞赛：一公共自行车使用量预测

一简介背景介绍: 公共自行车低碳、环保、健康，并且解决了交通中“最后一公里”的痛点，在全国各个城市越来越受欢迎。本练习赛的数据取自于两个城市某街道上的几处公共自行车停车桩。我们希望根据时间、天气等信息，预测出该街区在一小时内的被借取的公共自行车的数量。数据下载地址：http://sofasofa.io/competition.php?id=1数据文件（三个）： train.cs...

2018-09-28 10:30:52 2432

原创机器学习笔试面试题目二

1、使用k=1的knn算法, 下图二类分类问题, “+” 和 “o” 分别代表两个类, 那么, 用仅拿出一个测试样本的交叉验证方法, 交叉验证的错误率是多少：A 0%B 100%C 0%到100D 以上都不是正确答案是： B解析：knn算法就是, 在样本周围看k个样本, 其中大多数样本的分类是A类, 我们就把这个样本分成A类. 显然, k=1 的knn在上图...

2018-09-26 16:48:55 47699 1

原创机器学习笔试面试题目一

笔试题： 1、下列时间序列模型中,哪一个模型可以较好地拟合波动性的分析和预测。A AR模型B MA模型C ARMA模型D GARCH模型正确答案是：D解析：AR模型是一种线性预测，即已知N个数据，可由模型推出第N点前面或后面的数据（设推出P点），所以其本质类似于插值。MA模型(moving average model)滑动平均模型，其中使用趋势移动平均...

2018-09-21 14:37:26 25576

原创 sklearn ：Xgboost

1. XGBoost的优势XGBoost算法可以给预测模型带来能力的提升。当我对它的表现有更多了解的时候，当我对它的高准确率背后的原理有更多了解的时候，我发现它具有很多优势：1.1 正则化标准GBM的实现没有像XGBoost这样的正则化步骤。正则化对减少过拟合也是有帮助的。实际上，XGBoost以“正则化提升(regularized boosting)”技术而闻名。1.2 并行处...

2018-09-20 16:34:29 1442

原创 sklearn：随机森林

官方文档地址：http://sklearn.apachecn.org/cn/0.19.0/modules/ensemble.html#id8分类：class sklearn.ensemble.RandomForestClassifier(n_estimators=10, criterion='gini', max_depth=None, min_samples_split=2, min_...

2018-09-20 15:46:12 865 2

原创 Sklearn-GridSearchCV网格搜索

GridSearchCV官方网址：http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.htmlGridSearchCV，它存在的意义就是自动调参，只要把参数输进去，就能给出最优化的结果和参数。但是这个方法适合于小数据集，一旦数据的量级上去了，很难得出结果。这个时候就是需要动脑...

2018-09-19 11:08:28 633

原创 TensorFlow实战：Chapter-3 CNN(卷积神经网络)

卷积神经网络简介卷积神经网络(convolutional neural network，CNN)最初是用来解决图像识别等问题设计的，随着计算机的发展，现在CNN的应用已经非常广泛了，在自然语言处理(NLP)、医药发现、文本处理等等中都有应用。这里我们着重分析CNN在图像处理上的应用。在早期图像处理识别研究中，最大的问题是如何组织特征，这是因为图像数据不像其他类型的数据可以通过人工理解来提取...

2018-09-18 16:46:25 993 1

原创机器学习：GBDT（梯度提升决策树）

一简介GBDT通过多轮迭代,每轮迭代产生一个弱分类器，每个分类器在上一轮分类器的残差基础上进行训练。对弱分类器的要求一般是足够简单，并且是低方差和高偏差的。因为训练的过程是通过降低偏差来不断提高最终分类器的精度。GBDT主要由三个概念组成：Regression Decistion Tree（即DT)，Gradient Boosting（即GB)，Shrinkage (算法的一个重要演进分...

2018-09-18 09:56:59 910

原创机器学习：AdaBoost算法

一、AdaBoost简介 Boosting, 也称为增强学习或提升法，是一种重要的集成学习技术，能够将预测精度仅比随机猜度略高的弱学习器增强为预测精度高的强学习器，这在直接构造强学习器非常困难的情况下，为学习算法的设计提供了一种有效的新思路和新方法。其中最为成功应用的是，Yoav Freund和Robert Schapire在1995年提出的AdaBoost算法。 Ad...

2018-09-16 10:15:28 2270 1

原创机器学习：随机森林

随机森林是一种重要的基于Bagging的集成学习方法，可以用来做分类、回归等问题。随机森林指的是利用多棵树对样本进行训练并预测的一种分类器。决策树相当于一个大师，通过自己在数据集中学到的知识用于新数据的分类。但是俗话说得好，一个诸葛亮，玩不过三个臭皮匠。随机森林就是希望构建多个臭皮匠，希望最终的分类效果能够超过单个大师的一种算法。1 什么是随机森林？如果读者接触过决策树（Decisi...

2018-09-14 16:50:12 596

原创 Tensorflow实战：MNIST数字识别问题

TensorFlow实现Softmax Regression 识别手写数字MNIST(Mixed National Institute of Standards and Technology database)是一个非常有名的机器视觉数据集，由几万张28x28像素的手写数字组成，这些图片只包含灰度值。我们的任务就是对这些图片分成数字0~9类。下载和加载数据： from te...

2018-09-13 09:06:22 473

原创 Tensorflow实战：深层神经网络

深层神经网络Wiki上对深度学习的定义为“一类通过多层非线性变换对高复杂性数据建模算法的合集”。深度学习有两个非常重要的特性—多层和非线性去线性化因为线性模型只能解决线性可分的问题，针对较多的线性不可能问题，需要对模型去线性化。这里引入了激活函数,激活函数可以实现去线性化。普通的神经元的输出通过一个非线性函数，整个神经网络的模型由线性转为非线性了.常用的激活函数有:针对...

2018-09-10 16:00:34 628

空空如也

空空如也