PyYuan-CSDN博客

原创 2019.8.13

对不确定时间序列进行预处理（转换为确定时间序列）的三种方法：（1）概率最大法根据不确定时间序列模型，得到每个时隙的每一个检测值的概率，选出概率最大的那个检测值，作为确定时间序列的候选值，最终得到一条确定的时间序列。（2）考虑相关性由于不确定时间序列的每一个点是一个集合，由相关性得出确定的时间序列实际是集合与集合之间的笛卡儿积．由于不确定时间序列的连续性，...

2019-08-13 15:58:06 122

转载 2019.8.4

两数之和给定一个整数数组 nums和一个目标值 target，请你在该数组中找出和为目标值的那两个整数，并返回他们的数组下标。你可以假设每种输入只会对应一个答案。但是，你不能重复利用这个数组中同样的元素。示例: 给定 nums = [2, 7, 11, 15], target = 9；因为 nums[0] + nums[1] = 2 + 7 = 9，所以返...

2019-08-04 10:36:04 118

原创 2019.8.2

相对熵相对熵（relative entropy），又被称为Kullback-Leibler散度（Kullback-Leibler divergence）或信息散度（information divergence），是两个概率分布（probability distribution）间差异的非对称性度量。在信息理论中，相对熵等价于两个概率分布的信息熵（Shannon entropy）的...

2019-08-02 22:16:02 83

原创 2019.7.31

准确率（Accuracy）、精确率（Precision）、召回率（Recall）和F值（F-Measure）：TP-将正类预测为正类FN-将正类预测为负类FP-将负类预测位正类TN-将负类预测位负类准确率（正确率）=所有预测正确的样本/总的样本（TP+TN）/总精确率= 将正类预测为正类 / 所有预测为正类 TP/（TP+FP）召回率 = 将正类预测为正类...

2019-07-31 14:50:03 92

转载 2019.7.29

MUNICH、PROUD和DUST三种方法的对比1.不确定性模型和假设我们所审查的所有三种技术都是基于这样的假设：时间序列的值是相互独立的。也就是说，假设每个时间戳的值是独立于给定分布的。显然，这是一个简化的假设，因为时间序列中的相邻值通常具有很强的时间相关性。 MUNICH与其他两种技术的主要区别在于，MUNICH通过记录每个时间戳的多次观测来表示时间序列...

2019-07-29 21:29:03 79

转载 2019.7.25

Skyline Query（天际线查询） Skyline query是多维度数据库中一种非常重要的point query，它最初由 Börzsönyi 等人于2001年提出。一个数据库中的数据对象（也就是空间中的点）可能有成千上万个，但是我们往往对其中一些更感兴趣，Skyline就是定义这里的“更感兴趣”的一种方式。他们在论文中举了两个著名的例子。其中一个是纽约曼...

2019-07-25 15:30:22 143

转载 2019.7.24

蒙特卡罗方法：概述：蒙特卡罗方法又称统计模拟法、随机抽样技术，是一种随机模拟方法，以概率和统计理论方法为基础的一种计算方法，是使用随机数（或更常见的伪随机数）来解决很多计算问题的方法。将所求解的问题同一定的概率模型相联系，用电子计算机实现统计模拟或抽样，以获得问题的近似解。为象征性地表明这一方法的概率统计特征，故借用赌城蒙特卡罗命名。基本思想：用事件发生...

2019-07-24 16:39:37 165

转载 2019.7.22

Adaptive Noise Immune Cluster Ensemble Using Affifinity Propagation使用近邻传播的免疫噪声的适应性聚类集成首先，AP能够获取属性之间的关系，找到一组有代表性的属性，并删除噪声属性。具体来说，AP2CE将AP应用于降低噪声样本的影响，并将数据集划分成几个簇。其次，AP2CE采用Ncut来规范在不同运行中的AP得到...

2019-07-22 22:10:08 81

转载 2019.7.20

可能世界模型：定义空间η里的一组空间对象集合F={f1,...,fn}，这些对象的实例集合S。对象fi包含许多实例，fi的每一个实例x与一个非0概率p(x)关联，这个概率表明实例x在空间η的某个位置出现的可能性。因此，存在两个可能性，一个是实例x出现；另一个是实例x不出现，称这两种可能性为两种可能世界，分别为W1和W2。我们不知道哪一个世界是真实的，但可以从数据集中知道每个世界是...

2019-07-21 20:08:26 142

转载 2019.7.19

最小外包矩形（MBR）在已知物体的边界时，用其外接矩形的尺寸来刻画它的基本形状是最简单的方法。如果仅计算其在坐标系方向上的外接矩形是最简单的，只需计算物体边界点的最大和最小坐标值，就可得到物体的水平和垂直跨度。但通常需要计算反映物体形状特征的主轴方向上的长度和与之垂直方向上的宽度，这样的外接矩形是物体最小的外接矩形（MER-Minimum Enclosing Rectangle）...

2019-07-19 22:15:02 171

转载 2019.7.18

Kd树的构建# kd-tree每个结点中主要包含的数据结构如下class KdNode(object): def __init__(self, dom_elt, split, left, right): self.dom_elt = dom_elt # k维向量节点(k维空间中的一个样本点) self.split = split # 整数（进行分...

2019-07-18 22:46:29 105

转载 2019.7.17

独立随机变量：如果它们的联合分布函数等于各个变量的分布函数的乘积，则随机变量X，…，Y为相互独立的。联合分布函数：设(X,Y)是二维随机变量，对于任意实数x,y，二元函数：F(x,y) = P{(X<=x) 交 (Y<=y)} => P(X<=x, Y<=y)，称为：二维随机变量(X,Y)的分布函数，或称为随机变量X和Y的联合分布函数。移动平均法（Moving...

2019-07-17 22:04:27 279

转载 2019.7.16

CLARANS CLARANS是分割方法中基于随机搜素的大型应用聚类算法，该算法是一种改进的K-MEDOID方法。与以前的k-Medoid算法相比，Clarans更有效。更有效率。实验结果表明，CLARANS能在数千个对象的数据库上高效运行。它首先随机选择一个点作为当前点，然后随机检查它周围不超过参数Maxneighbor 个的一些邻接点，假如找到一个比它更好的邻...

2019-07-16 21:27:57 109

转载 2019.7.15

1.轮廓系数（Silhouette Coefficient）：是聚类结果好坏的一种评价方式，结合了内聚度和分离度两种因素。可以用来在相同原始数据的基础上用来评价不同算法、或者算法不同运行方式对聚类结果所产生的影响。计算过程：假设我们已经通过一定算法，将待分类数据进行了聚类。常用的比如使用K-means，将待分类数据分为了 k 个簇。对于簇中的每个向量。分别计算...

2019-07-15 22:03:48 151

qq_35273401的博客