埃尘万象-CSDN博客

原创机器学习/深度学习笔试面试——Kmeans和KNN篇

Kmeans 与 kNN 虽然都是以 K 打头，但却是两类算法——kNN 为监督学习中的分类算法，而 Kmeans 则是非监督学习中的聚类算法；二者相同之处：均利用近邻信息来标注类别。Kmeans 是聚类算法中最为简单、高效的。核心思想：由用户指定 k 个初始质心（initial centroids)，以作为聚类的类别（cluster），重复迭代直至算法收敛。...

2018-11-17 11:25:17 1234

原创机器学习/深度学习笔试面试——Logistics 回归篇

2018-10-29 23:03:26 556

原创信息、信息熵、条件熵、信息增益、信息增益率、GINI指数、交叉熵、相对熵

在信息论与概率统计学中，熵（entropy）是一个很重要的概念。在机器学习与特征工程中，熵的概念也常常是随处可见。自己在学习的过程中也会常常搞混，于是决定将所有与熵有关的概念整理总结，方便查看和学习。1. 信息它是熵和信息增益的基础概念。引用香农的话，信息是用来消除随机不确定性的东西。如果一个带分类的事物集合可以划分为多个类别，则其中某个类（xi）的信息定义： ...

2018-08-09 19:11:07 6157

原创 Python基础——numpy.random的使用

Numpy中的random模块用于生成随机数，常用函数的用法总结如下：1. 产生随机数numpy.random.rand（d1,d2,d3...dn）：生成一个[0,1)之间的随机浮点数或N维浮点数组。>>>import numpy as np>>>np.random.rand(10) #生成shape = 10 的一维随机数组Out[1...

2018-08-06 16:48:12 5591

在⼀个深度学习问题中，通常我们会预先定义⼀个损失函数。有了损失函数，就可以使⽤优化算法试图使其最小化。在优化中，这样的损失函数通常被称作优化问题的⽬标函数（objectivefunction）。依据惯例，优化算法通常只考虑最小化⽬标函数。因为任何最⼤化问题都可以很容易地转化为最小化问题：只需把⽬标函数前⾯的正号或负号取相反。在深度学习问题中，由于优化算法的⽬标函数通常是⼀个基于训练数据集的损失...

2018-08-04 19:00:54 1465

原创 Python中eval（）和input（）的用法浅析

1. eval定义eval(expression, globals=None, locals=None)expression：该参数是一个字符串，python会使用globals字典和locals字典作为全局和局部的命名空间，将expression当做一个python表达式进行解析和计算。globals：该参数管控的是一个全局的命名空间，也就是我们在计算表达式的时候可以使用全局的命名空...

2018-07-30 15:18:14 37585

原创 Python基础——字典中由value查key的几点说明

众所周知，字典dict最大的好处就是查找或插入的速度极快，并且不想列表list一样，随着key的增加越来越复杂。但是dict需要占用较大的内存空间，换句话说，字典dict是以空间换速度。详细请见如下示例：#------------------------------------------------------------------------------------student

2018-01-24 08:39:47 122744 6

原创 Python基础——np.where

参考文献：http://blog.csdn.net/lanchunhui/article/details/49489205参考文献：https://docs.scipy.org/doc/numpy/reference/generated/numpy.where.htmlPython按条件查找数列中满足要求的值和索引，如：#------------------------

2018-01-02 16:39:35 7833 1

原创 Python基础——append、count、extend、index、insert、pop、remove、reverse、sort、clear、copy

在Python中对于列表（list）的操作有很多的方法，它们是与对象密切相关的一些函数，对象的形式可以是：列表，数字，字符串，或其他类型。现对一些常用方法进行总结：方法的调用格式：对象.方法（参数）1. append功能：在列表的末尾添加新的对象。调用格式：list.sppend（obj）示例：#--------------------------------------

2017-12-29 09:37:08 6839

转载 Python基础——map() 函数和 reduce() 函数

map（）函数map()是 Python 内置的高阶函数，它接收一个函数 f 和一个 list，并通过把函数 f 依次作用在 list 的每个元素上，得到一个新的 list 并返回。例如，对于list [1, 2, 3, 4, 5, 6, 7, 8, 9]如果希望把list的每个元素都作平方，就可以用map()函数；因此，我们只需要传入函数f(x)=x*x，就可以利用map()函数完成

2017-12-28 21:01:37 292

原创 Python基础——list、tuple、dict、set

list（列表）Python内置的一种数据类型；list是一种有序的集合，可进行增、删、改、查等全部操作。索引号从0开始。#=================================================A = [1,2,'3','Bob','z']#增A.append('abc')print(A)#删del A[1]print(A)#改A[3]

2017-12-27 21:53:52 310

原创 tensor的维度（轴）—axis的解释

张量，或tensor，可以看作是向量、矩阵的自然推广，我们用张量来表示广泛的数据类型。张量的阶数有时候也称为维度，或者轴，轴这个词翻译自英文axis。譬如一个矩阵[[1,2],[3,4]]，是一个2阶张量，有两个维度或轴。沿着第0个轴你看到的是[1,2]，[3,4]两个向量，相当于数学中一个2x2的矩阵，按行取出，每一行作为一个向量；沿着第1个轴你看到的是[1,3]，[2,4]

2017-12-26 22:38:19 5049

原创 windows系统下安装theano和keras

学习深度学习也有一段时间了，从在最开始的python安装，到后来的Anaconda3，再到tensorflow，这一路的安装过程就费了很大的劲；虽然网络的相关安装指导也一大堆，但是一到自己动手安装时总会出现这样或那样的错误，导致最后的安装失败。最近，想尝试一下theano框架的深度学习，于是就又安装了theano和keras。以下是记录安装的过程：(本人的环境：Windows7 64位)

2017-12-26 16:26:21 1458 1

原创基于神经网络的二分类问题

下面是利用模拟的数据集训练神经网络，解决二分类问题：#===========================================================================#==============神经网络解决二分类问题========================================#===========================

2017-12-25 20:37:55 4424

转载手把手教你训练深度神经网络

转载地址:https://www.jiqizhixin.com/articles/2017-02-16-4Github地址:http://rishy.github.io//ml/2017/01/05/how-to-train-your-dnn/深度学习中，为了有效地训练深度神经网络，有一些值得我们强烈推荐的做法。在本文中，我将介绍一些最常用的方法，从高质量训练数据的重要性，到超参数

2017-12-25 10:55:47 1919

原创 Anaconda和tensorflow离线安装

工欲善其事，必先利其器。相信很多人在初次接触Python时，在开始编程前，都需要先安装相应的工具。对于Python而言也不例外，Python官方下载安装：https://www.python.org/downloads/但是，Python使用过程中存在的一个最大的问题，就是需要不断安装编程过程中可能涉及到函数包，这是一个很烦心的过程。因此，可能大家可能就在想，是否存在一款既支持Python

2017-12-18 10:02:46 26939 7

原创 MATLAB中生成随机数方法总结

好久没用MATLAB了，今天在利用MATLAB进行数据处理时，突然发现自己忘记了该如何产生自己需要的随机数形式，于是又查了一通资料。现对其进行一个简单的总结，供自己和大家以后参考：1. randi : 产生均匀分布的伪随机整数%产生一个1至10之间的随机矩阵，大小为2x5；s1 = randi(10,2,5);%产生一个-5至5之间的随机矩阵，大小为1x10；s2 = ra

2017-12-05 20:56:17 190238 2

原创 Python序列化——pickle模块

序列化——pickle模块在程序运行的过程中，所有的变量都是在内存中，变量可以随时修改，但若修改的变量没有存储到磁盘上，一旦程序结束，变量所占用的内存就被操作系统全部回收；因此，下次重新运行程序时，修改的变量又会被还原成初始化状态。所谓的序列化，就是把变量从内存中变成可存储或传输的过程；序列化之后，序列化后的内容会被写入磁盘，或者通过网络传输到别的机器上。反过来，把变量内容从序列化的对象重

2017-11-28 22:41:12 678

原创 Python读写文件模式和文件对象方法

一. 读写文件模式利用open() 读写文件时，将会返回一个 file 对象，其基本语法格式如: open （ filename， mode）其中，filename变量是一个包含了你要访问的文件名称的字符串值。而mode决定了你打开文件的模式：只读，写入，追加等。所有可取值见如下的完全列表。注：这个参数是非强制的，默认文件访问模式为只读模式(r)例如，我们现在将一个字符串写入

2017-11-28 11:03:33 2753

原创利用tensorflow训练自己的图片数据（5）——测试训练网络

一.说明上一篇博客中，我们已经将建立好的网络模型训练好了，并将训练的网络参数保存在相应的文件中；下面我们就开始测试网络，验证网络的训练效果；本次测试为随机的单图片测试，即随机的从训练集或测试集中读取一张图片，送入到神经网络中进行识别，打印识别率及识别的图像。二. 编程实现#=========================================================

2017-11-24 16:57:04 13210 80

原创利用tensorflow训练自己的图片数据（4）——神经网络训练

一 . 说明在上一篇博客——利用tensorflow训练自己的图片数据（3）中，我们建立好了本次训练的模型，接下来就是开始网络训练，并保存训练后的网络参数，以便测试时使用。二 . 编程实现#======================================================================#导入文件import osimport nu

2017-11-24 16:32:04 15566 94

原创利用tensorflow训练自己的图片数据（3）——建立网络模型

一. 说明在上一博客——利用tensorflow训练自己的图片数据（2）中，我们已经获得了神经网络的训练输入数据：image_batch，label_batch。接下就是建立神经网络模型，笔者的网络模型结构如下：输入数据：（batch_size，IMG_W，IMG_H，col_channel）= （20, 64, 64, 3）卷积层1：（conv_kernel，num_ch

2017-11-23 10:23:43 14980 9

原创利用tensorflow训练自己的图片数据（2）——输入图片处理

一. 说明在上一博客，利用tensorflow训练自己的图片数据（1）中，我们已经得到了后续训练需要的图片的指定shape大小；接下来我们需要做的就是对指定大小的生成图片进行sample与label分类制作，获得神经网络输入的get_files文件，同时为了方便网络的训练，输入数据进行batch处理。二. 编程实现import osimport mathimport numpy a

2017-11-23 09:14:08 33279 20

原创利用tensorflow训练自己的图片数据（1）——预处理

一. 准备原始数据首先，我们需要准备训练的原始数据，本次训练为图像分类识别，因而一开始，笔者从网上随机的下载了Dog的四种类别：husky，jiwawa，poodle，qiutian。每种类别30种，一共120张图片。在训练之前，需要做的就是进行图像的预处理，即将这些大小不一的原始图片转换成我们训练需要的shape。下载的原始图片分别放到同一文件的不同文件夹下，如：二. 编程实现

2017-11-22 23:15:45 41877 101

转载 TensorFlow计算模型--计算图

计算图的概念TensorFlow两个重要概念:Tensor和Flow,Tensor就是张量（可以理解为多维数组）,Flow就是计算相互转化的过程。TensorFlow的计算方式类似Spark的有向无环图(DAG),在创建Session之后才开始计算（类似Action算子）。简单示例import tensorflow as tf a = tf.constant([1.0,2.0],

2017-11-13 09:56:48 1418

原创利用Python中的random模块生成随机数

今天在用Python编写一个小程序时，要用到随机数，于是就在网上查了一下关于Python生成各种随机数的方法，现将其总结如下：此处，利用Python中的random模块生成随机数。因此首先必须导入该模块：import random一. 随机产生一个元素import random#生成一个0到1的随机浮点数: 0 <= n < 1.0print(random.random())&...

2017-11-10 10:07:13 5355

原创利用tf.truncated_normal与tf.random_normal进行张量初始化的详解

tf.truncated_normal(shape, mean=0.0, stddev=1.0, dtype=tf.float32, seed=None, name=None从截断的正态分布中输出随机值。生成的值服从具有指定平均值和标准偏差的正态分布，如果生成的值大于平均值2个标准偏差的值则丢弃重新选择。在正态分布的曲线中，横轴区间（μ-σ，μ+σ）内的面积为68.2

2017-11-08 15:56:07 1494

原创卷积神经网络CNN的详细解读，及经典分类网络LeNet5的介绍

一. CNN神经网络介绍CNN是一种特殊的深度前馈神经网络，为了避免层级之间的全连接造成的参数冗余，而导致网络模型的训练依赖相当参数个数的数据量；他的设计是局部连接，符合生物神经元的稀疏响应特性（层级之间是稀疏连接的），这样大大的降低了网络模型的参数规模，相对而言，对训练数据的依赖性降低了。CNN的基础模块为卷积流，其包括四个部分：卷积，池化，非线性，批量归一化。

2017-11-07 14:50:19 4998 1

原创利用Tensorflow构建自己的图片数据集TFrecords

相信很多初学者和我一样，虽然用了那么久的tensorflow，也尝试了很多的实例，但那些实例基本都是直接利用官方文档现成的MNIST和cifar_10数据库，而一旦需要自己构建数据集时，完全不知道该如何制作并输入自己改的数据。今天给大家分享我的Tensorflow制作数据集的学习历程。 TensorFlow提供了标准的TFRecord 格式，而关于 tensorflow 读取数据，官网也提供了3

2017-11-06 22:08:03 6111 14

江湖人称星爷

原创机器学习/深度学习笔试面试——降维算法篇