yuukilp-CSDN博客

原创【论文笔记】Deep Survival: A Deep Cox Proportional Hazards Network

相关资源原论文地址：here论文中使用的深度生存分析库：DeepSurv，是基于Theano 和 Lasagne库实现的，支持训练网络模型，预测等功能。考虑到DeepSurv库中存在着一些错误以及未实现的功能，博主使用目前主流的深度学习框架Tensorflow实现了深度生存分析库：TFDeepSurv。欢迎有兴趣的同学Star和Fork，指出错误，相互交流！TFDeepSurv简介

2017-11-20 21:02:31 7418 11

原创使用深度学习进行生存分析

相关资源原论文地址：here论文中使用的深度生存分析库：DeepSurv，是基于Theano 和 Lasagne库实现的，支持训练网络模型，预测等功能。考虑到DeepSurv库中存在着一些错误以及未实现的功能，博主使用目前主流的深度学习框架Tensorflow实现了深度生存分析库：TFDeepSurv。欢迎有兴趣的同学Star和Fork，指出错误，相互交流！TFDeepSurv简介...

2017-10-09 16:02:25 6270 8

原创贝叶斯网络框架

前言：文章主要的目的是介绍eBay所使用的一个贝叶斯网络的框架，博主通过阅读相关论文和源代码以及代码测试，慢慢熟悉了该框架的使用方法及主要思想。本文将尽量的阐述清楚贝叶斯网络的解决过程，如果你还不知道贝叶斯网络是解决哪一类问题的，请查看：贝叶斯网络笔记。如果你能通过阅读论文熟悉贝叶斯网络，请尽量阅读论文，因为论文里一般都有详细的解释和公式化的证明过程。而本文的重点并不在

2017-03-02 15:28:13 11775 10

原创【推荐算法】协同过滤算法 - 简记

1. 前言在现今的推荐技术和算法中，基于协同过滤（Collaborative Filtering）的推荐方法是最被大家广泛认可和采用的。推荐算法用于给用户做出合适的内容推荐，其场景用途非常广泛，最常见的包括音乐歌单推荐，购物商品推荐，新闻头条推荐等等。推荐算法大致被分为三种：基于内容的推荐算法协同过滤推荐算法基于知识的推荐算法实际应用中的推荐算法一定是基于多种考虑的，不会只考虑单独...

2018-11-15 17:29:02 376

原创【论文笔记】深度特征合成：实现数据科学自动化

原论文标题及链接：Deep Feature Synthesis: Towards Automating Data Science Endeavors说明：本文只会介绍论文中博主觉得重要的部分，想要了解更多内容的，建议阅读原论文哦！1. INTRODUCTION数据科学包含从数据中观察洞见，总结知识，以及导出预测模型。从原始数据中总结特征很大程度上依赖人，因为这常常是需要直觉的。最近深度学习...

2018-11-14 11:30:48 2283

原创【论文笔记】Hybrid Subspace Learning for High-Dimensional Data

论文链接：Hybrid Subspace Learning for High-Dimensional Data1. Abstract2. Introduction3. Motivation4. Model5. Optimization6. Data experiments

2018-11-02 11:27:15 416

原创【论文笔记】CatBoost: unbiased boosting with categorical features

原论文地址：here，本文主要记录论文中重要的部分。AbstractCatBoost 中最主要的两个算法性的特点在于：实现了有序提升，排列驱动以代替经典算法；一种新颖的算法处理分类变量。这些方法旨在解决prediction shift（普遍存在于梯度提升算法中）。Introduction所有现存的梯度提升算法都存在统计学上的问题。经过多次提升的预测模型 FFF 依赖于训练样本的目标变量的。...

2018-10-30 16:05:41 4689 3

原创【论文笔记】高维基因数据中的特征选择

原论文：Feature Selection for High-Dimensional Genomic Microarray Data介绍基因数据通常具有较高的维度，同时可用样本数少。不到100例维度为7000+的带标签的基因表达数据，如何对其建立分类模型？或者如何减少特征维度？通常，相比对高维数据直接建模，先减少特征维度后建模的方法具有更好的评估表现。论文提出了使用特征筛选的方法，该特征筛...

2018-10-22 22:14:16 4518

原创【生存分析】参数模型 - 加速失效（AFT）模型

加速失效（AFT）模型假设 TTT 为失效时间，xxx 为协变量，加速失效（accelerate failure time）模型的假设是，一个人的生存时间等于人群基准生存时间 * 这个人的加速因子，其数学形式如下：T=t∗eθ⋅x, t=eμ+σ∗WT=t * e^{\theta \cdot x},\ t=e^{\mu + \sigma*W}T=t∗eθ⋅x, t=eμ+σ...

2018-09-28 16:47:46 21822 9

原创【降维方法】- 非负矩阵分解【NMF】

简介非负矩阵分解（Non-negative Matrix Factorization），作为一种非监督式的降维方法，其主要思想正如其名字描述的那样：将一个非负原始矩阵分解为两个非负矩阵的积（Vm ∗ n=Wm ∗ r⋅V′r ∗ nVm ∗ n=Wm ∗ r⋅Vr ∗ n′V...

2018-08-16 18:03:54 2863

原创【降维方法】- 线性判别分析（LDA）

参考：refenrence简介线性判别分析（Linear Discriminant Analysis）作为一种监督式的降维方法，同时也用作分类器，它主要思想是：使得对原空间进行投影运算后，类间的样本点数据分布间隔大，而类内样本点数据分布方差小。原理有了上述思想后，我们尝试着自己一步步把这个思想具体化。最近在看《数据之旅》，王教授提到学习数学需要重要培养的一个能力：抽象能力。数学...

2018-08-14 11:33:14 1259

原创【降维方法】- 实际应用中各降维方法的分析

实际应用场景下，面对多种数据降维方法，我们应该清楚地了解各降维方法的原理，熟知其优劣，将其合理地应用于需处理的问题中。下面，将从实际应用的角度，对各降维算法逐个进行优劣分析。PCA优点：能够从数据集中提取新的特征（原始特征的线性组合），并且这些特征能够最大程度捕捉数据集中方差较大的特征，同时提取的新特征之间彼此不相关。一些预测模型要求预测变量之间无相关性（弱相关性），以便得到稳定的数...

2018-08-13 17:51:09 6366

原创 CodeM2018 初赛A轮第四题：迷宫

题意：一个 n∗mn∗mn*m 的网格迷宫（会有一些墙），现在迷宫内取KKK个点，两点之间的距离为迷宫内的最短距离，求要形成这KKK个点的最小生成树（边权即为最短距离），其权值为多少？（n,m≤2000n,m≤2000n, m \le 2000）思路：这个题思路很容易想出来，就是多源点的BFS，然后其中套一个Kruskal最小生成树算法就行了。比赛中，只过了65%的tes...

2018-06-19 16:36:37 429

原创 HDU - 4283 You Are the One（区间DP）

题意：给定NNN个人，编号分别为1−N1−N1-N，按顺序进栈，随意选择出栈顺序，每个编号为iii的人在第kkk个出栈时，其花费为：v[i]∗(k−1)v[i]∗(k−1)v[i] * (k-1). 求所有可能的出栈顺序中，总花费的最小值？思路：非常好的DP题目，一旦想到状态定义后，后面的东西就简单了。一开始，由于这个跟卡特兰计数非常相关，我自己想的定义dp[i]...

2018-06-13 16:06:46 179

原创 GCJ 2018 Round 2

占坑，明天过来补题解A模拟 + 贪心Bdp，简单背包C建图，经典二分匹配

2018-05-20 01:58:13 635

原创【论文笔记】TensorFlow深度神经网络提前稳定特征重要性

论文地址：Early Stabilizing Feature Importance for TensorFlow Deep Neural Networks 博客里只给出一下论文中介绍的方法这一章节，论文中前面介绍了神经网络中特征重要性评估方法的背景与发展，感兴趣的可以去阅读原论文。3. APPROACH本研究提出了对于深度神经网络混合的特征排序算法，优势在于可以得到快速收敛稳定的特征重

2018-01-19 11:13:37 2744

原创【论文笔记】CUSBoost：基于聚类的提升下采样的非平衡数据分类

原论文地址：CUSBoost: Cluster-based Under-sampling with Boosting for Imbalanced ClassificationAbstract普通的机器学习方法，对于非平衡数据分类，总是倾向于最大化占比多的类别的分类准确率，而把占比少的类别分类错误，但是，现实应用中，我们研究的问题，对于少数的类别却更加感兴趣。最近，处理非平衡数据分类问题的方法有：采

2017-12-20 21:10:43 2995

原创 hihocoder1158 质数相关

题意：两个数aa和 bb (a<ba<b)被称为质数相关，是指 a×p=ba × p = b，这里pp是一个质数。一个集合SS被称为质数相关，是指SS中存在两个质数相关的数，否则称SS为质数无关。如{2,8,17}\{2, 8, 17\}质数无关，但{2,8,16}\{2, 8, 16\}, {3,6}\{3, 6\}质数相关。现在给定一个集合SS，问SS的所有质数无关子集中，最大的子集的大小

2017-11-19 20:41:58 290

原创 Codefest 17 C. Helga Hufflepuff's Cup(树形DP)

题意：在一棵树上进行涂色，总共有 mm 种颜色（编号1−m1 - m），其中编号为 kk 的颜色为特殊颜色，如果树上一个节点染上了特殊颜色，则其邻居节点的颜色编号都应该<k < k，求在这棵树上染色总共有多少种方法，染上特殊颜色的节点的数目不超过 xx 个。 n≤105, m≤109, x≤10n \le 10^5,\ m \le 10^9,\ x \le 10思路：难点：状态

2017-09-25 22:55:50 310

转载随机森林

介绍在集成学习的算法中，分为两种，一种是boosting，它的特点是各个弱分类器之间有依赖关系，另外一种是Bagging，各个弱分类器之间无联系，可以并行拟合。随机森林，属于Bagging流派的算法，每个分类器之间没有依赖关系；首先从样本集中有放回地随机采集固定个数的样本，这样，会导致已经被采集到的数据可能会被再次采集到，当然，也会存在某些样本不被采集到。OOB：袋外数据（out of bag）

2017-08-11 16:44:16 535

原创 CodeChef JUNE17 - Chef and Prime Queries

题意给定包含 NN 个数的序列 aa，求序列[L,R][L, R] 内的数，以范围在[x,y][x, y] 内的质数为底的指数之和！包含Q个询问。 N≤105N \le 10^5, x,y≤106x, y \le 10^6思路序列 aa 所有数的质数表示为 pk11...pknnp_1^{k_1}...p_n^{k_n}，每个质数都对答案都会产生一个贡献数组，那么问题就转化为一个

2017-07-03 15:38:55 318

原创 Deep Learning - 第七章：深度学习的正则化

前言机器学习中的核心问题：模型的设计不仅在训练数据上表现好，并且能在新输入上泛化好；正则化策略：以增大训练误差为代价，来减少测试误差（如果在训练误差上很小，可能出现过拟合的情况）；最好的拟合模型（最小化泛化误差的意义上）是一个适当正则化的大型模型；偷懒中。。。

2017-04-21 14:17:10 4958

转载海森矩阵及其应用

参考链接：here，原文讲得到很详细。海森矩阵介绍及其在牛顿法中的应用

2017-04-20 09:59:48 13961

原创 Deep Learning - 第五章：机器学习基础

因为看过数据挖据导论过来的，所以本章阅读略过了一些章节！随机梯度下降通常大多数深度学习算法涉及到某种形式的优化。优化是指改变xx以最大化或最小化某个函数f(x)f(x)的任务。当我们对目标函数进行最小化时，我们也称之为代价函数，损失函数或误差函数。而f′(x)f^{'}(x) 给出了原函数f(x)f(x)的变化规律，可以根f′(x)f^{'}(x)来判断我们需要如何对xx 进行变化

2017-04-19 22:52:10 479

原创 Deep Learning - 第六章：前馈神经网络

overall实际应用的深度学习核心：参数化函数近似技术深度前馈网络引言也叫前馈神经网络或者多层感知器（MLP），是典型的深度学习模型！前馈网络的目标：近似某个函数 f∗f^*。前向（feedforward）：是因为信息流过xx 的函数，流经用于定义ff 的中间计算过程，最终到达输出 yy；前馈神经网络被称作网络是因为它们由许多不同函数复合在一起表示，该模型与一个有

2017-04-19 22:10:04 2556

原创 Codechef April Challenge 2017

Similar Dishes & Dish Of Life & Bear and Row 01 这三个题比较简单吧，一眼题。。。Bear and Clique Distances 题意：给定 NN 个节点的图，其中编号1−K1-K的城市之间组成完全图，即k∗(k−1)2\frac{k*(k-1)}{2}条边，已知它们长度均为xx，另外有pp 条边，连接起整个图为连通图，图中不存在自环和重边

2017-04-17 22:51:56 951 1

原创 Deep Learning - 第二章：线性代数

线性组合与生成子空间

2017-03-30 21:27:27 517

原创 Deep Learning - 第一章：前言

作为入门深度学习的好书：Deep Learning，这里记录一下自己阅读学习过程中一些重要的地方！表示学习一般机器学习的任务是提取特征集，利用特征集来进行训练分类。但是对于许多任务来说，很难知道应该提取哪些特征。解决这个问题的一个途径是使用机器学习来发现表示本身，这种方法称为表示学习算法，它能够帮助发现一个很好的特征集。深度学习引入当设计特征或学习特征的算法时，我们的目标通常是分离出

2017-03-30 16:45:15 313

原创【降维方法】- 主成分分析（PCA）

推荐一篇绝对好的文章：理解PCA的数学原理首先PCA设计严格的数学推导证明！尤其设计矩阵的知识比较多，这里会简要地记录自己学习过程中觉得很重要的东西，具体的细节可以看我上面推荐的一篇文章。简介 PCA（Principle Component Analysis）主成分分析，主要应用于数据降维。当数据集的维度过高之后，运用各种算法处理起来的时间复杂度可能会很高，所以需要对数据进行降维处理

2017-03-27 16:57:10 1286

原创 K-Means聚类算法

记录一下KMeans算法里一些主要的东西简介 K-Means是一种用来进行聚类分析的算法，用以得到每个数据所属的cluster。在给定的数据没有标签的情况下，由这种聚类分析算法得到每条数据的cluster，属于非监督式学习算法。其主要步骤分为： 1. assign 给每个点分配其所属中心点Cx（根据距离就近分配） 2. optimization 对于同一cl

2017-03-17 21:17:06 427

原创回归

本文主要记录一下相关的概念…..Regression 之前研究过的一些通过监督学习解决的分类问题，都具有一个共同的特征，就是其输出的类别都是离散型变量。当我们需要去预测的对象类型是连续类型的时候，该怎么去解决它呢？回归分析作为其解决的方法之一，它也属于监督学习算法，但是是一种特定类型的监督学习，不同于分类。最简单的例子就是线性回归（Linear Regress

2017-03-14 21:45:38 353

原创 More supervise learning Alg

之前提到过三种简单基础的监督学习算法，但是选择还有更多种：KNN（思路易于理解，熟悉其结合KD-tree来其优化算法的时间性能）ADAboostRandom Forests尝试使用scikit-learn来得到各类算法的准确度，与运行时间？

2017-03-10 16:20:59 429

原创 SVM支持向量机

SVM 支持向量机，用于向量空间的分类，属于数据挖掘中的分类算法。其过程就是接受训练数据（即有明确类标号的数据），构造其特征向量，对应在多维空间上的点，使用SVM算法找出一个最大边缘超平面，使得它的左右两侧分为两种不同的类别。这样就能够得到一个分类器。线性可分：如二维空间中，可以找出一条直线，使得直线的上下两侧为两种不同的类别。线性不可分：无法找到上述的直线，但是可以通过把这

2017-01-05 11:39:11 544

原创贝叶斯网络（笔记）

贝叶斯定理几个概念： 1. 条件概率：P(A|B)=P(A⋂B)P(B)P(A|B) = \frac{P(A\bigcap B)}{P(B)}，指在事件B发生的条件下A发生的概率。 2. 联合概率：即A B同时发生的概率，即P(A,B)=P(A⋂B)=P(A|B)∗P(B)=P(B|A)∗P(A)P(A,B) = P(A\bigcap B) =P(A|B) * P(B) = P(B

2017-01-05 11:18:36 2279

原创 KNN & NaiveBayes 分类算法

KNN介绍： KNN算法属于分类算法里比较简单而且思路明了的一种算法，所以这里就简单介绍一下它的主要思想及实现步骤： KNN算法全名为k-Nearest Neighbor，就是K最近邻的意思。KNN也是一种分类算法。但是与之前说的决策树分类算法相比，这个算法算是最简单的一个了。算法的主要过程为： 1、给定一个训练集数据，每个训练集数据都是已经分好类的。 2、设定一个初始的测

2016-12-12 17:11:02 762

原创决策树分类算法：ID3 & C4.5 & CART

分类的概念分类的基本任务就是根据给定的一系列属性集，最后去判别它属于的类型！比如我们现在需要去给动物分类，类别可选项为哺乳类，爬行类，鸟类，鱼类，或者两栖类。给你一些属性集如这个动物的体温，是否胎生，是否为水生动物，是否为飞行动物，是否有腿，是否冬眠。现在分类的基本任务就是，已知一个动物的属性集，判断或预测这个动物属于哪一种类别？决策树分类法简述从根节点开始，每个分支都会包含一个属性测试条件，用于分

2016-10-26 14:26:19 1157

原创 BSG挑战赛

A/C 模拟题，较简单B-AVL树的种类平衡二叉树(AVL树），是指左右子树高度差至多为1的二叉树，并且该树的左右两个子树也均为AVL树。现在问题来了，给定AVL树的节点个数n，求有多少种形态的AVL树恰好有n个节点。 DP 定义 f[i][j]f[i][j] 为含有 ii 个节点高度为 jj 的平衡树的数量，转移方程就很好写了： if(k > 0) add(f[

2016-05-22 18:33:29 465

原创 CDOJ 1346(斜率DP)

题意&思路：题意：把大的区间分段，每一段的有一个花费，求总的最小花费。这种分段的花费的题，貌似成了斜率dp的一眼题了，上次CF的E题比赛的时候，实力套路一波斜率dp的推导过程，感觉还不错，还学习了下二维的斜率优化。首先，你假设就按二维来做，然后看是否满足能够去斜率优化，写出二维的转移就是： Dp[i][j]Dp[i][j] : 区间 [1,i][1,i] 分为 j

2016-05-15 23:34:09 417

原创 CDOJ 1351(树形DP)

题意&思路：题意：带权边树上，在起点0出发，初始值为VV，求最多能访问的节点数目？如果数据小一点，我们可以考虑 dp[u][i]dp[u][i]，表示u节点及其子树花费i最多能够访问的节点数，这个是很好做的，树上背包嘛。但是题目多询问，于是考虑 dp[u][i][o]dp[u][i][o] ，表示当前节点u及其子树，访问了 ii 个节点，并且是否停留在u点的最小花费。

2016-05-15 23:27:23 330

原创 CDOJ 1136(数位DP)

题意&思路：题意：求区间[1,n] 内满足i < j, 并且f(i) > f(j) 的数对数目？学习了一波数位dp的一般写法，很爽。。。。首先把原数字转化为二进制数，然后考虑dp[pos][diff][f1][f2][f3] 表示对于状态下的答案： Pos：当前处于第pos位 Diff：f(i) - f(j)的值 F1: i与n的大小关系，1表示小于

2016-05-15 23:22:02 426

【中文高清版全】数据挖掘导论

数据结构（树状数组）

空空如也