Modozil-CSDN博客

转载从协方差矩阵角度看PCA

本文转载于http://pinkyjie.com/2011/02/24/covariance-pca/自从上次谈了协方差矩阵之后，感觉写这种科普性文章还不错，那我就再谈一把协方差矩阵吧。上次那篇文章在理论层次介绍了下协方差矩阵，没准很多人觉得这东西用处不大，其实协方差矩阵在好多学科里都有很重要的作用，比如多维的正态分布，再比如今天我们今天的主角——主成分分析(Principal Compone

2017-08-22 15:59:57 982

转载谱聚类原理总结-by刘建平大神

本文转载于http://www.cnblogs.com/pinard/p/6221564.html　　　　谱聚类（spectral clustering）是广泛使用的聚类算法，比起传统的K-Means算法，谱聚类对数据分布的适应性更强，聚类效果也很优秀，同时聚类的计算量也小很多，更加难能可贵的是实现起来也不复杂。在处理实际的聚类问题时，个人认为谱聚类是应该首先考虑的几种算法之一。下面我们就

2017-08-21 21:40:28 3127

转载谱聚类原理

本文转载于http://blog.csdn.net/betarun/article/details/51154003这方法是昨天听同学提起的，大致翻看了几篇博客跟论文，这里写下自己的理解从样本相似性到图根据我们一般的理解，聚类是将相似的样本归为一类，或者说使得同类样本相似度尽量高，异类样本相似性尽量低。无论如何，我们需要一个方式度量样本间的相似性。常用的方式就是引入各种度量，如欧氏距离

2017-08-21 21:15:59 1051

转载 PCA原理

PCA方法是数据降维的重要手段之一，方法比较简单，就是将样本数据求一个维度的协方差矩阵，然后求解这个协方差矩阵的特征值和对应的特征向量，将这些特征向量按照对应的特征值从大到小排列，组成新的矩阵，被称为特征向量矩阵，也可以称为投影矩阵，然后用改投影矩阵将样本数据转换。取前K维数据即可，实现对数据的降维。假设样本数据有r维（组成一个r维向量），共有n个样本。组成r*n矩阵A，矩阵每一

2017-08-20 18:08:51 1033

转载 from A import B 和 import A.B 的区别

在python的运行框里分别输入import datetime.datetime 和from datetime import datetime，本以为结果应该是一样，结果前者却报错。>>> importdatetime.datetimeTraceback (most recent call last): File "", line 1, inImportError: No module

2017-08-15 17:18:06 5797 1

转载矩阵求导

本文转载于http://xuehy.github.io/2014/04/18/2014-04-18-matrixcalc/Table of Contents1. 布局(Layout)2. 基本的求导规则（定义）3. 维度分析4. 标量对矩阵求导（微分形式）—矩阵求导，想必许多领域能见到。统计学，经济学，优化，机器学习等等，在对目标问题建立数学模型之后，问

2017-08-13 21:04:05 1298

转载利用pandas进行数据预处理

目录： 1.安装pandas 2.pandas的引入 3.数据清洗 ①处理缺失数据 ②检测和过滤异常值 ③移除重复数据 4.数据集成

2017-08-13 13:36:03 1111

转载 Python 数据处理—12 个Pandas 技巧（上下）

http://datartisan.com/article/detail/81.html导语Python正迅速成为数据科学家偏爱的语言，这合情合理。它拥有作为一种编程语言广阔的生态环境以及众多优秀的科学计算库。如果你刚开始学习python，可以先了解一下Python的学习路线。在众多的科学计算库中，我认为Pandas对数据科学运算最有用。Pandas，加上Scikit-learn几乎能构成了数

2017-08-13 13:30:03 3900

转载机器学习绘图（numpy和matplotlib库）

yuanwen: http://blog.csdn.net/crossky_jing/article/details/49466127scikit-learn 练习题题目：Try classifying classes 1 and 2 from the iris dataset with SVMs, with the 2 first features. Leave out 10% of each

2017-08-12 13:46:59 840

转载 Pandas数据基础（索引、排序、连接、去重、分箱、异常处理）

原文地址：http://kekefund.com/2016/02/23/pandas-anlysis-basic/使用pandas，首先导入包：from pandas import Series, DataFrameimport pandas as pd123123一、创建Series，DataFrame1，创建Seriesa，通过列表创建obj = Series([4, 7, -5, 3])

2017-08-11 19:31:38 10753 1

本文转载于：苏冉旭的博客 http://blog.csdn.net/suranxu007/GBDT(Gradient Boosting Decision Tree) 又叫 MART（Multiple Additive Regression Tree)，是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力（generalizati

2017-08-08 17:55:28 460

转载 GBDT的小结（来自论文greedy function approximation: a gradient boosting machine）

Gradient Boosting Decision Tree，即梯度提升树，简称GBDT，也叫GBRT（Gradient Boosting Regression Tree），也称为Multiple Additive Regression Tree（MART），阿里貌似叫treelink。首先学习GBDT要有决策树的先验知识。Gradient Boosting Decision Tree，和随机

2017-08-08 17:40:49 17992 2

转载梯度下降的原理（泰勒证明）及与牛顿法的对比

转载来源于梯度下降法与牛顿法的解释与对比 - happy_lion - 博客园1 梯度下降法我们使用梯度下降法是为了求目标函数最小值f（X）对应的X，那么我们怎么求最小值点x呢？注意我们的X不一定是一维的，可以是多维的，是一个向量。我们先把f（x）进行泰勒展开：这里的α是学习速率，是个标量，代表X变化的幅度；d表示的是单位步长，是一个矢量，有方向，单位长度为1，代表X变化的方向。什么意思呢？

2017-08-07 21:58:00 6232 1

转载随机森林与GBDT

2017-08-07 16:05:54 332

原创 Pandas中iloc和loc以及ix的区别

import pandas as pdimport numpy as npa = np.arange(12).reshape(3,4)print adf = pd.DataFrame(a)print df

2017-08-03 21:05:59 11861 2

原创 LSTM预测时间序列

http://machinelearningmastery.com/time-series-prediction-lstm-recurrent-neural-networks-python-keras/http://www.cnblogs.com/arkenstone/p/5794063.htmlhttps://stackoverflow.com/questions/25967922/

2017-08-02 21:13:01 2231

原创机器学习和深度学习提问题的好地方

https://stats.stackexchange.com/https://stackoverflow.com/questions/32514704/keras-lstm-time-series

2017-08-02 21:09:25 313

原创浏览网页时谷歌一直提示“Adobe Flash Player 插件已被屏蔽”

解决方法：1. 打开 chrome://settings/content，把 Adobe Flash Player 插件设置更改为”允许网站运行Flash”。 2. 部分站点在允许允许flash后，还会提醒说 Adobe Flash Player 插件被屏蔽，则在Chrome地址栏输入chrome://flags/#run-all-flash-in-allow-mode后，启用该选项。

2017-08-02 15:19:07 17814 2

转载 python库matplotlib中线条的颜色及样式

转载请注明出处：http://www.cnblogs.com/darkknightzh/p/6117528.html参考网址：http://stackoverflow.com/questions/22408237/named-colors-in-matplotlibhttp://stackoverflow.com/questions/8409095/matplotlib-set-marker

2017-08-02 13:59:49 9505

转载高偏差/低偏差，学习曲线，模型选择

Andrew Ng cs229 Machine Learning 笔记原文：https://share.coursera.org/wiki/index.php/ML:Advice_for_Applying_Machine_Learning面对一个机器学习问题，我们提取好特征，挑选好训练集，选择一种机器学习算法，然后学习预测得到了第一步结果。然而我们不幸地发现，在测试集上的准确率低得离谱，误差高得吓人

2017-07-03 22:18:29 2924

转载向量的表示、投影、变换、协方差矩阵及PCA

引言当面对的数据被抽象为一组向量，那么有必要研究一些向量的数学性质。而这些数学性质将成为PCA的理论基础。理论描述向量运算即：内积。首先，定义两个维数相同的向量的内积为：(a1,a2,⋯,an)T⋅(b1,b2,⋯,bn)T=a1b1+a2b2+⋯+anbn内积运算将两个向量映射为一个实数。其计算方式非常容易理解，但是其意义并不明显。所以，我们分析内积的几何意义。假设A和B是两个n维向量，我们知道n

2017-06-21 16:05:29 5437 1

转载 numpy布尔型索引

先创建一个names一维数组，再用numpy.random中的randn函数生成一个7*4数组：>>names=np.array([“Bob”,”Joe”,”Will”,”Bob”,”Will”,”Joe”,”Joe”])>>data=np.random.randn(7,4)1.对names和字符串“Bob”的比较运算将会产生一个布尔型数组：>>> names==”Bob”array([ T

2017-05-09 16:07:36 683

转载 python中 and和or用法

在Python 中，and 和 or 执行布尔逻辑演算，如你所期待的一样。但是它们并不返回布尔值，而是返回它们实际进行比较的值之一。（类似C++里面的&&和||的短路求值）（在布尔环境中，0、”、[]、()、{}、None为假；其它任何东西都为真。但是可以在类中定义特定的方法使得类实例的演算值为假。）and实例：[python] view plain copy print?>>> ‘a’

2017-05-05 16:05:42 75915 1

原创 numpy 笔记

1.广播法则不同维度的数组相加减，如下一维减去二维的数组>>> barray([[0], [1], [2], [3], [4], [5]])>>> aarray([1, 2, 3, 4, 4, 5])>>> a-barray([[ 1, 2, 3, 4, 4, 5],

2017-05-05 15:38:34 551

转载拉格朗日乘数法（等式约束和不等式约束）及KKT条件

拉格朗日乘子法(Lagrange Multiplier)和KKT(Karush-Kuhn-Tucker)条件是求解约束优化问题的重要方法，在有等式约束时使用拉格朗日乘子法，在有不等约束时使用KKT条件。前提是：只有当目标函数为凸函数时，使用这两种方法才保证求得的是最优解。对于无约束最优化问题，有很多经典的求解方法，参见无约束最优化方法。拉格朗日乘子法先来看拉格朗日乘子法是什么，再讲为什么。minf(

2017-04-23 14:23:58 19553 4

转载 python-format函数格式化字符串

自python2.6开始，新增了一种格式化字符串的函数str.format()，可谓威力十足。那么，他跟之前的%型格式化字符串相比，有什么优越的存在呢？让我们来揭开它羞答答的面纱。语法它通过{}和:来代替%。“映射”示例通过位置In [1]: '{0},{1}'.format('kzc',18) Out[1]: 'kzc,18' In [2]: '{},{}'.format('kzc'

2017-04-09 17:12:49 325

转载 C/C++生成高斯分布随机数

产生正态分布或高斯分布的三种方法: 1. 运用中心极限定理(大数定理) 1 #include 2 #include 3 4 #define NSUM 25 5 6 double gaussrand() 7 { 8 double x = 0; 9 int i;10 for(i = 0; i < NSUM; i++)11 {12

2017-04-08 15:32:04 10750

转载阿里编程题

题目：小明向他的女朋友仙仙求婚，在求婚戒指上刻了一个大大的爱心。仙仙看到爱心想考验一下小明，出了一道题。方程(x2+y2−1)2−x2y2=0，这个点在这个爱心里面的概率是多少，精确到0.1（小数点后保留一位小数，比如0.1, 0.2等）#include <iostream>#include <math.h>using namespace std;/*生成标准正态分布随机数*/double ga

2017-04-08 15:30:05 655

原创分类与回归树（统计学习方法版）

CART是决策树的一种，主要由特征选择，树的生成和剪枝三部分组成。它主要用来处理分类和回归问题，下面对分别对其进行介绍。1、回归树：使用平方误差最小准则训练集为：D={(x1,y1), (x2,y2), …, (xn,yn)}。输出Y为连续变量，将输入划分为M个区域，分别为R1,R2,…,RM,每个区域的输出值分别为：c1,c2,…,cm则回归树模型可表示为：<font color="#dd0000

2017-03-26 19:35:16 4186

转载循环神经网络重要的论文博客汇总

Recurrent Neural Network 学习之路来源于http://blog.csdn.net/yangyangyang20092010/article/details/50374289Followed by distinctive figures in corresponding articles.1. Read paper: “A critical review of Recurr

2017-03-24 16:34:27 6489

原创 YOLO文章汇总

YOLO和YOLO v2的文章汇总1. 图解YOLO https://zhuanlan.zhihu.com/p/24916786?utm_source=qq&utm_medium=social2.YOLO升级版：YOLOv2和YOLO9000解析 https://zhuanlan.zhihu.com/p/250521903.YOLOv2 https://zhuanlan.zhihu

2017-03-24 13:40:46 960

转载 python的静态方法以及@staticmethod或@classmethod的区别

一般来说，要使用某个类的方法，需要先实例化一个对象再调用方法。而使用@staticmethod或@classmethod，就可以不需要实例化，直接类名.方法名()来调用。这有利于组织代码，把某些应该属于某个类的函数给放到那个类里去，同时有利于命名空间的整洁。既然@staticmethod和@classmethod都可以直接类名.方法名()来调用，那他们有什么区别呢从它们的使用上来看,@sta

2017-03-17 20:51:28 946

转载 softmax函数及对数似然函数的偏导数（推导过程）

在人工神经网络（ANN）中，Softmax通常被用作输出层的激活函数。这不仅是因为它的效果好，而且因为它使得ANN的输出值更易于理解。同时，softmax配合log似然代价函数，其训练效果也要比采用二次代价函数的方式好。1. softmax函数及其求导 softmax的函数公式如下：其中，表示第L层（通常是最后一层）第j个神经元的输入，表示第L层第j个神经元的输出

2017-03-13 20:25:12 9760

转载 CNN-目标检测，定位，分割

1. 基本概念 1）CNN：Convolutional Neural Networks 2）FC：Fully Connected 3）IoU：Intersection over Union （IoU的值定义：Region Proposal与Ground Truth的窗口的交集比并集的比值，如果IoU低于0.5，那么相当于目标还是没有检测到） 4）ICCV：Inter

2017-03-01 20:22:29 2137

转载基于R-CNN的物体检测（笔记标注版）

基于R-CNN的物体检测转载来源：http://blog.csdn.net/u011534057/article/details/51218250参考地址：http://blog.csdn.net/hjimce/article/details/50187029一、相关理论本篇博文主要讲解2014年CVPR上的经典paper：《Rich feature hierarchies for Accu

2017-03-01 17:05:51 602

转载基于R-CNN的物体检测

基于R-CNN的物体检测原文地址：http://blog.csdn.net/hjimce/article/details/50187029作者：hjimce一、相关理论本篇博文主要讲解2014年CVPR上的经典paper：《Rich feature hierarchies for Accurate Object Detection and Segmentation》，这篇文章的算法思想又被称之

2017-03-01 15:35:47 314

转载 LSTM的Encoder-Decoder模式

深度学习笔记(一)：logistic分类深度学习笔记(二)：简单神经网络，后向传播算法及实现深度学习笔记(三)：激活函数和损失函数深度学习笔记：优化方法总结(BGD,SGD,Momentum,AdaGrad,RMSProp,Adam) 深度学习笔记(四)：循环神经网络的概念，结构和代码注释深度学习笔记(五)：LSTM 深度学习笔记(六)：Encoder-Decoder模型和Att

2017-03-01 15:20:55 41651 8

转载 Batch Normalization 梯度归一化

Batch Normalization 学习笔记原文地址：http://blog.csdn.net/hjimce/article/details/50866313作者：hjimce一、背景意义本篇博文主要讲解2015年深度学习领域，非常值得学习的一篇文献：《Batch Normalization: Accelerating Deep Network Training by Reducing

2017-02-28 20:02:49 4283

转载 Batch Normalization 梯度归一化

Batch Normalization 学习笔记原文地址：http://blog.csdn.net/hjimce/article/details/50866313作者：hjimce一、背景意义本篇博文主要讲解2015年深度学习领域，非常值得学习的一篇文献：《Batch Normalization: Accelerating Deep Network Training by Reducing

2017-02-28 19:59:34 1615

转载 python中format()方法

在Python3中，%操作符通过一个更强的格式化方法format()进行了增强。1》字段名字可以为整数，表示参数的位置，如下：>>> print(‘My name is:{0},and my age is:{1}’.format(‘song’,18))My name is:song,and my age is:182》字段名字也可以是参数的名字，如下：>>> print(‘My name is:{n

2017-02-28 15:55:29 726

空空如也

空空如也