鹏大大大-CSDN博客

转载 python神奇函数之eval（）学习

python中有很多内置的很有用的工具函数，熟练地使用这些小工具绝对可以帮助你在工作中达到事半功倍的效果，今天由于需要用到了eval（）函数，这个函数其实之前就用过了但是由于最近一直忙于看论文和方向上的一些其他的事，这个东西也就慢慢忘掉了，今天要用，索性直接再学一下，这里就作为是学习的记录了。eval（）官方文档里面给出来的功能解释是：将字符串string对象转化为有效的表达式参与求值运算返回...

2018-10-17 11:50:43 778

转载 tf.reduce_mean()

2018-10-17 10:13:27 323

转载 tf.clip_by_value的用法

tf.clip_by_value(A, min, max)：输入一个张量A，把A中的每一个元素的值都压缩在min和max之间。小于min的让它等于min，大于max的元素的值等于max。例如：import tensorflow as tf;import numpy as np; A = np.array([[1,1,2,4], [3,4,8,5]]) with tf.Sessio...

2018-10-17 10:11:17 618

转载 tensorflow:name&variable scope

https://blog.csdn.net/u012436149/article/details/53081454?utm_source=blogxgwz5

2018-10-16 15:34:33 153

转载 AdaBoost原理详解

https://www.cnblogs.com/ScorpioLu/p/8295990.html

2018-09-24 16:54:48 220

转载 sklearn中的predict与predict_proba的区别

https://blog.csdn.net/anqijiayou/article/details/80295237https://blog.csdn.net/u011630575/article/details/79429757

2018-09-23 21:41:43 3146

转载关于python roc_curve的计算

https://blog.csdn.net/ybdesire/article/details/51999995

2018-09-23 20:47:50 3222

转载关于使用Sklearn进行数据预处理 —— 缺失值（Missing Value）处理

关于使用Sklearn进行数据预处理 —— 缺失值（Missing Value）处理关于缺失值（missing value）的处理在sklearn的preprocessing包中包含了对数据集中缺失值的处理，主要是应用Imputer类进行处理。首先需要说明的是，numpy的数组中可以使用np.nan/np.NaN（Not A Number）来代替缺失值，对于数组中是否存在nan可以使用...

2018-09-23 16:11:24 3811

转载机器学习sklearn19.0——决策树算法

https://blog.csdn.net/loveliuzz/article/details/78739438

2018-09-22 20:48:01 163

转载 numpy中的meshgrid函数

https://blog.csdn.net/sinat_29957455/article/details/78825945

2018-09-22 20:41:53 121

转载 scikit-learn中PCA的使用方法

https://blog.csdn.net/u012162613/article/details/42192293

2018-09-22 20:23:40 362

原创机器学习白化whitening

https://blog.csdn.net/hjimce/article/details/50864602

2018-09-22 20:14:40 447

转载特征选择 (feature_selection)

特征选择 (feature_selection)目录特征选择 (feature_selection) Filter 1. 移除低方差的特征 (Removing features with low variance) 2. 单变量特征选择 (Univariate feature selection) Wrapper 3. 递归特征消除 (Recursive Fe...

2018-09-22 17:21:32 710

转载 pd.Categorical 的用法

最近在数据处理过程中遇到 pd.Categorical() 因此特地查了一下先给出官网的链接 http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Categorical.html我们直接通过例子来学习那么在实际应用中我们常常是结合他的 codes 属性来一起使用的，即 pd.Categori...

2018-09-22 14:34:05 2970

转载决策树的一些杂七杂八

ID3算法是决策树的一个经典的构造算法，在一段时期内曾是同类研究工作的比较对象，但通过近些年国内外学者的研究，ID3算法也暴露出一些问题，具体如下：(1)信息增益的计算依赖于特征数目较多的特征，而属性取值最多的属性并不一定最优。(2)ID3是非递增算法。(3)ID3是单变量决策树(在分枝节点上只考虑单个属性)，许多复杂概念的表达困难，属性相互关系强调不够，容易导致决策树中子树的重复或有些属性...

2018-09-21 22:53:27 334

转载 K近邻分类算法与kdTree实现的伪代码（构造kdTree 和 kdTree上搜索最近邻）

今天阅读了李航博士的《统计学习方法》第三章:k近邻分类方法，其中讲到kdTree的搜索时，没有特别弄清楚，遂在网上找到这样一篇文章，有详细的伪代码，理解轻松。链接为：http://underthehood.blog.51cto.com/2531780/687160全文如下： By RaySaint 2011/10/12动机先前写了一篇文章《SIFT算法研究》讲了讲SI...

2018-09-21 13:35:22 2302

转载 Kd-Tree算法原理和开源实现代码

Kd-Tree算法原理和开源实现代码本文介绍一种用于高维空间中的快速最近邻和近似最近邻查找技术——Kd-Tree（Kd树）。Kd-Tree，即K-dimensional tree，是一种高维索引树形数据结构，常用于在大规模的高维数据空间进行最近邻查找(Nearest Neighbor)和近似最近邻查找(Approximate Nearest Neighbor)，例如图像检索和识别中的高维...

2018-09-21 12:50:22 764

转载机器学习评价指标大汇总

在使用机器学习算法的过程中，针对不同场景需要不同的评价指标，在这里对常用的指标进行一个简单的汇总。一、分类1. 精确率与召回率精确率与召回率多用于二分类问题。精确率（Precision）指的是模型判为正的所有样本中有多少是真正的正样本；召回率（Recall）指的是所有正样本有多少被模型判为正样本，即召回。设模型输出的正样本集合为AA，真正的正样本集合为BB，则有：Precision...

2018-09-20 19:43:35 3441

转载标签二值化LabelBinarizer

对于标称型数据来说，preprocessing.LabelBinarizer是一个很好用的工具。比如可以把yes和no转化为0和1，或是把incident和normal转化为0和1。当然，对于两类以上的标签也是适用的。这里举一个简单的例子，说明将标签二值化以及其逆过程。# -*- coding: UTF-8 -*-from sklearn import preprocessingfrom...

2018-09-17 22:16:28 698

转载随机森林（原理/样例实现/参数调优）

2018-09-17 22:08:54 9186

转载 sklearn.preprocessing.Imputer()

填补缺失值：sklearn.preprocessing.Imputer(missing_values=’NaN’, strategy=’mean’, axis=0, verbose=0, copy=True)主要参数说明：missing_values：缺失值，可以为整数或NaN(缺失值numpy.nan用字符串‘NaN’表示)，默认为NaNstrategy：替换策略，字符串，默认用均值...

2018-09-17 21:41:14 872

转载随机森林算法

随机森林算法学习最近在做kaggle的时候，发现随机森林这个算法在分类问题上效果十分的好，大多数情况下效果远要比svm，log回归，knn等算法效果好。因此想琢磨琢磨这个算法的原理。要学随机森林，首先先简单介绍一下集成学习方法和决策树算法。下文仅对该两种方法做简单介绍（具体学习推荐看统计学习方法的第5章和第8章）。Bagging和Boosting的概念与区别该部分主要学习自：htt...

2018-09-17 21:04:42 361

转载用scikit-learn学习主成分分析(PCA)

https://www.cnblogs.com/pinard/p/6243025.html

2018-09-17 20:38:32 208

转载 numpy的ravel() 和 flatten()函数

numpy的ravel() 和 flatten()函数简介首先声明两者所要实现的功能是一致的（将多维数组降位一维）。这点从两个单词的意也可以看出来，ravel(散开，解开)，flatten（变平）。两者的区别在于返回拷贝（copy）还是返回视图（view），numpy.flatten()返回一份拷贝，对拷贝所做的修改不会影响（reflects）原始矩阵，而numpy.ravel()返回的是...

2018-09-17 20:22:30 1117

原创 Python匿名函数和高阶函数

python 使用 lambda 来创建匿名函数。lambda这个名称来自于LISP，而LISP则是从lambda calculus(一种符号逻辑形式)取这个名称的。在Python中，lambda作为一个关键字，作为引入表达式的语法。想比较def函数，lambda是单一的表达式，而不是语句块!所谓匿名，意即不再使用 def 语句这样标准的形式定义一个函数。lambda 只是一个...

2018-09-17 17:52:12 121

转载 plt.pcolormesh绘制分类图

# -*- coding: utf-8 -*-'''多元分类：逻辑回归分类器并绘制pcolormesh伪彩图sklearn.linear_model.LogisticRegression( solver='liblinear', C=正则强度)'''# pcolormesh(x, y, c=d, cmap='jet') cmap:渐变色映射plt...

2018-09-17 12:50:12 7985

转载 pd.Categorical 的用法

最近在数据处理过程中遇到 pd.Categorical() 因此特地查了一下先给出官网的链接 http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Categorical.html我们直接通过例子来学习In [16]: st = ['a','a','b','c','c']In [17]: ss = pd.Cate...

2018-09-17 10:39:32 794

转载决策树C4.5算法详解

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/zjsghww/article/details/51638126首先，C4.5是决策树算法的一种。决策树算法作为一种分类算法，目标就是将具有p维特征的n个样本分到c个类别中去。相当于做一个投影，c=f(n)，将样本经过一种变换赋予一种类别标签。决策树为了达到这一目的，可以把分类的过程表示成一棵树，...

2018-09-17 09:30:37 19196 8

转载 scikit-learn--Feature selection(特征选择)

去掉方差较小的特征方差阈值（VarianceThreshold）是特征选择的一个简单方法，去掉那些方差没有达到阈值的特征。默认情况下，删除零方差的特征，例如那些只有一个值的样本。假设我们有一个有布尔特征的数据集，然后我们想去掉那些超过80%的样本都是0（或者1）的特征。布尔特征是伯努利随机变量，方差为 p(1-p)。from sklearn.feature_selection impo...

2018-09-16 10:26:21 2566

转载梯度下降算法以及其Python实现

一、梯度下降算法理论知识我们给出一组房子面积，卧室数目以及对应房价数据，如何从数据中找到房价y与面积x1和卧室数目x2的关系？为了实现监督学习，我们选择采用自变量x1、x2的线性函数来评估因变量y值，得到：这里，sita1、sita2代表自变量x1、x2的权重（weights），sita0代表偏移量。为了方便，我们将评估值写作h(x)，令x0=1，则h(x)可以写作...

2018-09-15 14:10:07 2426

转载用 Pipeline 将训练集参数重复应用到测试集

当我们对训练集应用各种预处理操作时（特征标准化、主成分分析等等），我们都需要对测试集重复利用这些参数。pipeline 实现了对全部步骤的流式化封装和管理，可以很方便地使参数集在新数据集上被重复使用。pipeline 可以用于下面几处：模块化 Feature Transform，只需写很少的代码就能将新的 Feature 更新到训练集中。自动化 Grid Search...

2018-09-14 17:24:18 630

转载 python-数组-求逆，转置等操作

>> from numpy import *>>> from numpy.linalg import *>>> a = array([[1.0, 2.0], [3.0, 4.0]])>>> print a[[ 1. 2.] [ 3. 4.]]>>> a.transpose()array([[

2018-09-14 09:58:32 2851

转载梯度下降法(Gradient descent)

1.梯度下降法有什么用梯度下降法用来求函数的极小值，且是一种迭代算法，由于计算效率高，在机器学习中常常使用。梯度下降法经常求凸函数(convex function)的极小值，因为凸函数只有一个极小值，使用梯度下降法求得的极小值就是最小值。与其对应的有梯度上升法(Gradient ascent)，用来求函数的极大值，两种方法原理一样，只是计算的过程中正负号不同而已。2.什么是梯度先看...

2018-09-13 22:39:37 1047

转载 [Machine Learning] 梯度下降法的三种形式BGD、SGD以及MBGD

阅读目录1. 批量梯度下降法BGD 2. 随机梯度下降法SGD 3. 小批量梯度下降法MBGD 4. 总结　　在应用机器学习算法时，我们通常采用梯度下降法来对采用的算法进行训练。其实，常用的梯度下降法还具体包含有三种不同的形式，它们也各自有着不同的优缺点。　　下面我们以线性回归算法来对三种梯度下降法进行比较。　　一般线性回归函数的假设函数为：h θ =∑ n j=0 θ j...

2018-09-13 21:56:03 141

转载机器学习中正则化项L1和L2的直观理解

正则化（Regularization）机器学习中几乎都可以看到损失函数后面会添加一个额外项，常用的额外项一般有两种，一般英文称作ℓ1ℓ1-norm和ℓ2ℓ2-norm，中文称作L1正则化和L2正则化，或者L1范数和L2范数。L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些参数做一些限制。对于线性回归模型，使用L1正则化的模型建叫做Lasso回归，使用L2...

2018-09-13 19:44:04 260

转载 Sklearn数据预处理：scale, StandardScaler, MinMaxScaler, Normalizer

一、标准化去除均值和方差缩放：通过(X-X_mean)/std计算每个属性(每列)，进而使所有数据聚集在0附近，方差为1.(1)、sklearn.preprocessing.scale() 直接将给定数据进行标准化from sklearn import preprocessingimport numpy as npX = np.array([[ 1., -1., 2.],[ ...

2018-09-13 15:07:43 2771

转载 train_test_split()函数

sklearn.model_selection.train_test_split随机划分训练集和测试集官网文档：http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html#sklearn.model_selection.train_test_split一般形式：...

2018-09-13 14:49:59 88140

转载 32个Python爬虫项目让你一次吃到撑

今天为大家整理了32个Python爬虫项目。整理的原因是，爬虫入门简单快速，也非常适合新入门的小伙伴培养信心。所有链接指向GitHub，祝大家玩的愉快~O(∩_∩)OWechatSogou [1]- 微信公众号爬虫。基于搜狗微信搜索的微信公众号爬虫接口，可以扩展成基于搜狗搜索的爬虫，返回结果是列表，每一项均是公众号具体信息字典。DouBanSpider [2]- 豆瓣读书爬虫。可以爬下豆...

2018-09-06 16:59:38 233

转载 python/pandas-groupby,聚合，分组级运算

2018-09-05 19:17:38 1432

转载向量，标量对向量求导数

1.已知对谁求导数，就以谁（分母）作为主序，得出结果。比如这里x是列向量，求Ax关于x求导数，那么对x的每个分量分别求偏导数(写成一行)，然后整理排成一列（同x一样是列向量）。同理有关于x的转置x.T求导数，x.T是行向量，那么Ax分别对x.T向量中的分量求偏导（写成一列），然后整体排成一行（同x.T是行向量）。2.若A是1×n行向量，x是n×1的列向量，有 3.若A是n×...

2018-09-02 16:20:08 15993 2

空空如也

空空如也