RLilyX-CSDN博客

转载深度神经网络

一、深度神经网络发展史1943年，由Warren McCulloch和Walter Pitts提出MP神经元模型。它是神经网络的一个处理单元。1958年，由美国心理学家Frank Rosenblatt提出感知机，它是神经网络和支持向量机的基础。1966年，Minisky和Papert在他们的《感知器》一书中提出了上述的感知器的研究瓶颈，指出理论上还不能证明将感知器模型扩展到多层网络是有意义的。...

2019-04-24 21:32:52 6630 1

转载激光雷达与毫米波雷达对比

激光雷达是一种采用非接触激光测距技术的扫描式传感器，其工作原理与一般的雷达系统类似，通过发射激光光束来探测目标，并通过搜集反射回来的光束来形成点云和获取数据，这些数据经光电处理后可生成为精确的三维立体图像。采用这项技术，可以准确的获取高精度的物理空间环境信息，测距精度可达厘米级，因此，该项技术成为汽车自动驾驶、无人驾驶、定位导航、空间测绘、安保安防等领域最为核心的传感器设备。激光雷达激光雷达的...

2019-04-10 19:55:46 26060 1

转载从贝叶斯方法谈到贝叶斯网络

贝叶斯方法长久以来，人们对一件事情发生或不发生的概率，只有固定的0和1，即要么发生，要么不发生，从来不会去考虑某件事情发生的概率有多大，不发生的概率又是多大。而且概率虽然未知，但最起码是一个确定的值。比如如果问那时的人们一个问题：“有一个袋子，里面装着若干个白球和黑球，请问从袋子中取得白球的概率是多少？”他们会想都不用想，会立马告诉你，取出白球的概率就是1/2，要么取到白球，要么取不到白球，即θ...

2019-04-09 07:25:43 395

转载 TensorFlow有两种数据格式NHWC和NCHW

TensorFlow有两种数据格式NHWC和NCHW，默认的数据格式是NHWC，可以通过参数data_format指定数据格式。这个参数规定了 input Tensor 和 output Tensor 的排列方式。1、data_format设置为 “NHWC” 时，排列顺序为 [batch, height, width, channels]设置为 “NCHW” 时，排列顺序为 [batch,...

2019-01-25 08:02:49 20554 5

原创多标签模型评价方法

每一个事物可能对应多个标签，例如一个人的身份可以是学生、老师、歌手等多重身份。1、基于相似度的评价指标1.1 hamming_lossmetrics.hamming_loss(np.array([[0, 1], [1, 1]]), np.zeros((2, 2)))1.2 jaccard_similarity_scoremetrics.jaccard_similarity_score...

2019-01-18 22:30:51 1714

原创多分类模型评价方法

1、准确率metrics.accuracy_score(y_true=y_true, y_pred=y_pred)2、平均准确率针对不平衡数据，对n个类，分别计算每个类别的准确率，然后求平均值。metrics.average_precision_score(y_true=y_true, y_score=y_pred)3、基于相似度的评价指标3.1 log-loss指示矩阵Y(N...

2019-01-18 08:00:57 10456

原创二分类模型评价方法

二分类模型是输出只有0，1的分类模型。本文介绍二分类模型的评价指标。from sklearn import metricsy_pred = [0, 1, 0, 0] #模型的预测输出y_true = [0, 1, 0, 1] #真实值二分类模型中可能的分类结果如下图的混淆矩阵，混淆矩阵涵盖了二分类模型所有可能的输出。Sklearn计算混淆矩阵metrics.confusion_m...

2019-01-16 22:17:29 6248

原创机器学习数据不平衡问题及其解决方法

数据不平衡是机器学习任务中的一个常见问题。真实世界中的分类任务中，各个类别的样本数量往往不是完全平衡的，某一或某些类别的样本数量远少于其他类别的情况经常发生，我们称这些样本数量较少的类别为少数类，与之相对应的数量较多的类别则被称为多数类。在很多存在数据不平衡问题的任务中，我们往往更关注机器学习模型在少数类上的表现，一个典型的例子是制造业等领域的缺陷产品检测任务，在这个任务中，我们希望使用机器学习方...

2019-01-11 08:12:28 9794 2

原创半监督学习方法

在只有少量标记样本，大部分数据都是无标记的情况下，可以通过半监督学习方法，基于无标记样本与标记样本之间的相似度、无标记样本潜在的分布两个核心思想，对无标记的样本进行标记，该标记算法也称为标签传播（Label Propagation）1、scikit-learn 半监督学习scikit-learn提供了两个标签传播模型：LabelPropagation and LabelSpreading.L...

2019-01-09 22:59:51 6359 3

原创最近邻模型

1、模型概述判别模型，不具有显示的学习过程，但是需要存储训练样本。包括K最近邻模型（KNeighborsClassifier）和区域最邻近模型（RadiusNeighborsClassifier）。适用于类别之间没有明确界限或者界限不规则的数据场景。可以用于采集样本不均衡的情况，但是采集样本均衡有助于提高模型的准确性。K最近邻模型用K个与待判别数据距离最近的数据的类别，确定待判别数据所属的类别...

2019-01-03 08:12:10 1205

转载集成学习概述

集成学习(ensemble learning)本身不是一个单独的机器学习算法，而是通过构建并结合多个机器学习器来完成学习任务。也就是我们常说的“博采众长”。集成学习可以用于分类问题集成，回归问题集成，特征选取集成，异常点检测集成等等，可以说所有的机器学习领域都可以看到集成学习的身影。本文就对集成学习的原理做一个总结。1. 集成学习概述从下图，我们可以对集成学习的思想做一个概括。对于训练集数据，...

2018-12-20 21:03:14 192

原创灰色关联分析法

灰色关联分析方法，是根据因素之间发展趋势的相似或相异程度，亦即“灰色关联度”，作为衡量因素间关联程度的一种方法。灰色关联分析法的步骤设有n个评价对象，m个评价指标，评价对象指标数据矩阵X为1、确定参考序列参考数据列应该是一个理想的比较标准，可以以各指标的最优值（或最劣值）构成参考数据列，也可根据评价目的选择其它参考值。记作由评价指标数据矩阵和参考值组成矩阵2．对指标数据进行无量纲...

2018-12-18 21:18:24 7186 2

原创评价/评估方法概述

1、评价的步骤(1) 确定评价的目的(2) 确定评价指标及评价指标体系(3) 选择/建立评价模型(4) 对评价值进行排序和分类2、指标选取原则指标选取不宜过多，也不宜过少。指标过多，会存在重复，也会加大计算的工作量；指标过少，可能会使所选指标缺乏代表性，从而使得到的结果存在片面性。评分指标体系时遵循以下基本原则系统性原则首先，指标体系应全面反映评价对象的本质特征；其次，指标体系层...

2018-12-17 23:38:22 2034

原创 DS证据理论

1、基本概念假设空间（识别框架）：对于全域X，X={A,B}，那么假设空间为{空，A，B，AB}Mass函数和BPA：mass函数给假设空间每一个假设都分配了概率，我们称为基本概率分配（BPA, Basic Probability Assignment），如下式由上式可以看出，基本概率分配在空集是为0，假设空间内其他假设概率和为1。比如一个证人证明一个案件的犯罪嫌疑人，证人给出所有可能性的...

2018-12-15 11:10:11 6562

原创频繁模式挖掘算法及其原理

1、基本概念下图为5次交易的数据，每行代表一个事务，每个事务包好几个项。数据内隐含着内在关联。事务：由事务号和项集组成。事务是一次购买行为项：最小处理单位，即购买的物品项集：由一个或多个项组成支持度计数：包含某个项集的事务数支持度：包含某个项集的事务数的比例置信度：在所有包含X项集的事务中包含Y项集事务的比例频繁项集：支持度不小于指定阈值的项集关联规则：X和Y都是项集，X-...

2018-12-14 22:10:11 9543

原创轨迹大数据关键技术

1、轨迹大数据的种类2、轨迹大数据的特点时空序列性。轨迹数据是具有位置、时间信息的采样序列,轨迹点蕴含了对象的时空动态性,时空序列性是轨迹数据最基本的特征;异频采样性。由于活动轨迹的随机性、时间差异较大的特征,轨迹的采样间隔差异显著,例如导航服务的秒级或者分钟级的采样、社交媒体行为轨迹是以小时或者以天作为间隔的采样.差异性的轨迹增加了轨迹数据分析的难度;数据质量差。由于连续性的运动轨迹...

2018-12-14 21:54:23 5368

原创机器学习需要多少数据

从数据搜集到机器学习的各个阶段，我们都面临着一个问题，就是到底需要多少数据来完成我们的分析任务。数据搜集阶段由于数据的搜集是高投入的，所以在开始数据搜集之前，业务负责人会向数据分析师抛出一些问题，例如“你需要什么样的数据？”，“你需要多少数据？”数据分析阶段在数据分析阶段，数据分析师会拿到一批数据，这时面临的问题是，哪些数据是和分析目标相关的？数据量是否够用？如果数据量够用，用多少数据进行...

2018-12-11 21:32:06 2444

原创 skip-gram模型

Skip-gram模型原理参考链接：https://blog.csdn.net/rlnlo2pnefx9c/article/details/78747970skip-gram模型原理Skip-gram模型的输入为一个单词，输出为窗口大小h中各个单词的概率，如下图所示。例如对于句子I always go to work by bus，对于单纯work，窗口大小2包括的单词为go，to，by，...

2018-12-10 20:38:58 1975 2

转载 BIRCH聚类算法原理

原文地址：https://www.cnblogs.com/pinard/p/6179132.html在K-Means聚类算法原理中，我们讲到了K-Means和Mini Batch K-Means的聚类原理。这里我们再来看看另外一种常见的聚类算法BIRCH。BIRCH算法比较适合于数据量大，类别数K也比较多的情况。它运行速度很快，只需要单遍扫描数据集就能进行聚类，当然需要用到一些技巧，下面我们就对...

2018-12-09 10:51:18 438

原创概率密度估计方法-核密度估计和高斯混合分布

1、概率密度估计方法概率密度估计方法用于估计一组数据集的概率密度分布，分为参数估计方法和非参数估计方法。参数估计方法假定样本集符合某一概率分布，然后根据样本集拟合该分布中的参数，例如：似然估计，混合高斯等，由于参数估计方法中需要加入主观的先验知识，往往很难拟合出与真实分布的模型；非参数估计法非参数估计并不加入任何先验知识，而是根据数据本身的特点、性质来拟合分布，这样能比参数估计方法得出更...

2018-12-09 10:17:12 16648 1

原创层次聚类（Hierarchical Clustering）

1、层次聚类算法概述层次聚类算法通过将数据组织成若干组并形成一个相应的树状图来进行聚类, 它又可以分为两类, 即自底向上的聚合层次聚类和自顶向下的分解层次聚类。聚合聚类的策略是先将每个对象各自作为一个原子聚类, 然后对这些原子聚类逐层进行聚合, 直至满足一定的终止条件;后者则与前者相反, 它先将所有的对象都看成一个聚类, 然后将其不断分解直至满足终止条件。对于聚合聚类算法来讲, 根据度量两个...

2018-12-08 14:40:28 6123

原创 Mean Shift 聚类

算法原理Mean shift 算法是基于核密度估计的爬山算法，可用于聚类、图像分割等。样本点集：上图中的实心点，n个样本点yi，i=1,2,…,n区域圆心：蓝色空心圆x感兴趣区域Sh：蓝色圆形区域，以x为圆心，h为半径的圆形内部。表达式为Mean Shift向量：从蓝色空心圆到黄色空心圆的偏移向量，表达式为三维高斯核概率密度分布如下图所示高斯核密度分布等高线图如下图所示M...

2018-12-08 13:15:42 282

原创 Affinity Propagation Clustering

AP聚类算法是基于数据点间的“信息传递"的一种聚类算法。AP算法不需要在运行算法之前确定聚类的个数。AP算法寻找数据集合中实际存在的点为聚类中心点，作为每类的代表。基本概念相似性矩阵S（similarity）：使得s(i,j)&gt;s(i,k)当且仅当xi与xj的相似性程度要大于其与xk的相似性，s(i,j)使用负的欧式距离，相似矩阵的定义方式可以参考我的另一篇文章：谱聚类吸引信息矩阵R（...

2018-12-05 21:07:06 1918

转载谱聚类（spectral clustering）

1. 谱聚类概述谱聚类是从图论中演化出来的算法，后来在聚类中得到了广泛的应用。它的主要思想是把所有的数据看做空间中的点，这些点之间可以用边连接起来。距离较远的两个点之间的边权重值较低，而距离较近的两个点之间的边权重值较高，通过对所有数据点组成的图进行切图，让切图后不同的子图间边权重和尽可能的低，而子图内的边权重和尽可能的高，从而达到聚类的目的。乍一看，这个算法原理的确简单，但是要完全理解这个算法...

2018-12-04 21:28:26 1585

原创聚类算法评估

1、调整兰德指数（Adjusted Rand Index）兰德指数需要给定类别信息C，假设K是聚类结果，兰德指数表达式如下a为在C中为同一类且在K中也为同一类别的数据点对数b为在C中为同一类但在K中却隶属于不同类别的数据点对数c为在C中不在同一类但在K中为同一类别的数据点对数d为在C中不在同一类且在K中也不属于同一类别的数据点对数RI的取值范围为[0,1]，值越大意味着聚类结果与真实...

2018-12-03 22:15:26 1281

原创 DBSCAN算法

DBSCAN算法是一种基于密度的聚类算法，它的优势是能够发现任意形状的类别同时DBSCAN还有很强的抗噪性，并且DBSCAN只需扫描一遍数据集即可完成聚类，不用迭代执行。1、相关定义Eps近邻：Eps为距离阈值，数据p的Eps近邻指的是那些与其距离小于Eps的数据核心数据点：那些Eps近邻数量大于MinPts的数据点密度直达：p是q的Eps近邻并且q是一个核心数据点，对象p从对象q出发...

2018-12-02 10:48:01 1692

原创 K-Means算法

1、 K-Means算法说明K个簇的中心分别为，每个簇的样本量为，目标函数为平方误差（欧式距离），即所有样本到自己所属的簇的中心距离最小。求下述目标函数的最优解可以得到聚类中心的更新公式为如果使用曼哈顿距离度量公式，簇中心更新公式为中值，适用于凸形状，簇大小相近，簇数量较少的聚类。2、 K-Means算法流程输入：样本集，聚类的簇数K，最大的迭代次数N输出：类簇划分（1）...

2018-12-01 09:56:15 1666

原创聚类算法概述

聚类是一种常见的数据分析工具, 其目的是把大量数据点的集合分成若干类, 使得每个类中的数据之间最大程度地相似, 而不同类中的数据最大程度地不同。聚类在数据挖掘、数据管理（数据索引、检索）领域有着广泛的应用。聚类的种类如下图所示。1、层次聚类算法聚合聚类的策略是先将每个对象各自作为一个原子聚类, 然后对这些原子聚类逐层进行聚合, 直至满足一定的终止条件。分解聚类与聚合聚类相反。2、分割聚类...

2018-11-30 21:29:40 1713

原创机器学习-激活函数

激活函数是作用于神经网络神经元输出的函数。 linear为线性激活函数，表达式为，用于回归神经网络输出（或二分类问题） tanh为非线性激活函数，用于隐层神经元输出 sigmoid为非线性激活函数，用于隐层神经元输出 ReLU为分段激活函数，用于隐层神经元输出 Softmax为非线性激活函数，用于多分类神经网络输出...

2018-07-25 19:50:59 1320

原创学术之路-做研究与发论文之己见分享总结

昨天参加了来自昆士兰大学周晓方教授的《学术之路-做研究与发论文之己见》经验分享会议，在这里借花献佛将我的收获分享给大家。一篇优秀的论文的评价标准是什么？目标明确怎么做到目标明确呢，当我们打算开始一项研究时，问自己三个问题你是否能够清楚的阐述工作的目的？你的目标是否是实际的、可实现的？你是否清楚实现目标所要解决的关键问题？当我们踏入一个新的领域，为了树立明确的目标，可...

2018-07-23 22:28:30 451

原创数学基础-求解优化问题的算法比较

问题类型在对比算法之前，我们先给出不同类型问题的定义P问题：可以在多项式时间内求解的问题NP问题：可以在多项式时间内验证解是否为问题的解，猜解和验证解的过程，NP问题存在多项式级的算法，所有的P类问题都是NP问题，P≠NPNPC问题：不存在多项式求解算法的问题 NPC问题是一个NP问题，所有的NP问题都可以约化到NPC问题。所有的NP问题都能约化成NPC问题，只要任意一个NPC问...

2018-07-08 07:11:43 1412

原创数学基础-梯度下降法

导数的概念导数的公式如下士所示对点x0x0x_{0}的导数反映了函数在点处的瞬时变化速率。在多维函数中，梯度是一个向量组合，反映了多维图形中变化速率最快的方向。凸函数的概念如果f(x)在[a,b]上连续，在(a,b)上有二阶导数 ,f(x)是[a,b]上的凹函数 ,f(x)是[a,b]上的凸函数如下图所示，凹函数f(x)的一阶导数递增，凸函数f(x)的一阶导数...

2018-06-30 07:17:51 1055

原创数据基础-最优化问题

统计机器学习求解模型参数的过程是最优化问题求解过程，有的时候求解的问题比较简单，解析解存在，直接通过公式计算即可，而有的时候解析解不存在，需要通过数值计算和启发式算法求解。无约束优化无约束优化问题是不带任何约束的优化问题， f(x)是x的函数 ,如下: ∇f(x)= 0的点即为该问题的解，如果没有解析解，可以使用梯度下降或牛顿方法等迭代算法来求解。等式约束优化等...

2018-06-29 22:42:28 470

原创数学基础-时间复杂度和空间复杂度

时间复杂度：是用来衡量当问题规模扩大后，算法运行的时间增长程度。而不是程序解决问题需要的时间，解决问题所需要的时间取决于计算机性能和问题规模。解决相同规模的问题时，时间复杂度越大，解决问题所需的时间就越长。问题的规模：排序问题，需要排序的数据量即为问题的规模；有的搜索算法，解空间的规模为问题的规模。 O(1)：常数级复杂度，程序运行时间恒定，不随数据规模而变化；单一表达式复杂度 O(n)：...

2018-06-28 08:34:57 820

原创轨迹纠偏

一、为什么需要轨迹纠偏在理想情况下GPS定位数据精度为5m-10m，然而，由于各种外界干扰，实际的定位精度要低于理想值。影响GPS定位精度的因素主要包括：定位硬件、环境因素。 1、定位硬件博通发布新一代GPS芯片，定位精度达到30厘米。目前不同手机定位芯片不同，精度高一点，抗干扰性好一点的定位芯片，价钱就会高一点。下图不同颜色的线表示不同型号手机的GPS芯片定位精度，可以看出不同型号手...

2018-06-22 20:53:02 17147 5

原创手机内置传感器和定位技术

我们的SDK以智能手机为驾驶过程数据采集和驾驶行为分析终端。先来看一下手机内置的传感器和手机定位技术吧一、手机内置传感器GPS定位：导航、地图、打车、跑步、计步、辅助驾驶加速计：摇一摇、游戏、跑步、计步、辅助驾驶陀螺仪：游戏、辅助驾驶磁力计：指南针距离传感器：位于手机的听筒附近，接电话自动黑屏，省电光线传感器：检测环境的亮度麦克风：语音、测量环境噪音摄像头：...

2018-06-21 21:42:32 2784

原创地理信息系统

本来想总结GPS设备采集的原始数据存在的一系列质量问题，翻阅之前总结的材料发现了地图数据、定位技术的总结文档，不记得参考哪些大神的博客，本节介绍地图数据相关知识。一、什么是地理信息系统地理信息系统（Geographic Information System，GIS）是一种空间信息系统。它是在计算机软硬件系统支持下，对整个或部分地球表层（包括大气层）空间中的有关地理分布数据进行采集、储存...

2018-06-20 17:38:37 440

原创数学基础-回归分析

一、什么是回归分析回归分析是一种预测性的建模技术，它研究的是因变量和自变量之间的关系，在已知自变量的情况下，可以预测因变量的取值。回归技术主要分为线性回归和非线性回归，针对目标函数和求解算法又出现的其他类型的回归。二、回归技术的分类1、线性回归（LR）（1）基本线性回归基本线性回归使用直线建立因变量一个或多个自变量之间的关系 Y=aX+bY=aX+bY=aX+b 基本线...

2018-06-20 09:04:47 819

原创车联数据分析

一、业务定位下图描述的我6年工作生涯的奋斗目标，通过车辆数据的分析，发现并管理风险，进而让每一个人的出行更加安全。我们希望通过我们的努力为驾驶员、保险公司、车队、车厂、政府提供优质的车联数据分析服务，辅助他们规避风险，节省成本，提升效益。二、发展历程下面这张图描述了我们团队的发展历程。我们从一个Demo级的车主APP-爱驾驶起步，建立的私有车联数据分析平台；开发了终端驾驶行为分...

2018-06-14 12:57:34 960

原创数学基础-损失函数

一、损失函数的种类损失函数是机器学习中求解模型参数最优化问题的目标函数，损失函数主要有以下几种类型。 1、0-1损失函数 L(Y,f(X))={10Y≠f(X)Y=f(X)L(Y,f(X))={1Y≠f(X)0Y=f(X)L(Y,f(X)) =\left\{\begin{array}{rcl}1 & & {Y \ne f(X)}\\0 & ...

2018-06-13 16:03:12 824

空空如也

空空如也