我愛大泡泡-CSDN博客

原创常用的算法最好的讲解地址

主要是为了汇总讲的比较好的一些论文或博客。1、SVD分解和PCA降维等问题http://blog.csdn.net/zhongkejingwang/article/details/42264479（这个写的不错）http://www.cnblogs.com/LeftNotEasy/archive/2011/01/08/lda-and-pca-machine-learning.htm

2017-03-19 23:05:06 1920

原创关于课题的一点思考（基于多生理信号的情绪识别）

有两个非常开阔事业的文章：https://www.analyticsvidhya.com/blog/2016/04/complete-tutorial-tree-based-modeling-scratch-in-python/https://www.analyticsvidhya.com/blog/2013/10/trick-enhance-power-regression-model-

2017-03-19 12:42:11 6867 18

转载计算机算法学习大纲

作者：牛妹链接：https://www.nowcoder.com/discuss/67500?type=0&order=0&pos=2&page=1来源：牛客网复杂度估算和排序算法（上）1）认识时间复杂度和空间复杂度2）认识对数器3）冒泡排序4）选择排序5）插入排序6）如何分析递归过程的时间复杂度7）归并排序8）小和问题第二章复杂度估算和排序算法（下...

2018-04-01 22:44:12 2905

原创面试笔试整理7：SQL问题整理

SQL的问题就是四大类：增、删、改、查。要使用到的命令通常有：SELECT、UPDATE、DELETE、INSERT INTO、ALTER、DROP、IN、BETWEEN、DISTINCT、UNION、HAVING、WHERE、ON、EXISTS等等。下面主要按照上面说的从建立表开始、到四大类、以及常用的结构和命令解释几个部分。这里语句都是基于SQL Server的。一、建立数据表 1、

2017-09-19 15:21:36 1673

原创面试笔试整理6：常见面试编程题

1、二叉树公共父节点 leecode236 递归解法：class Solution {public: TreeNode* lowestCommonAncestor(TreeNode* root, TreeNode* p, TreeNode* q) { if(root==NULL || root==p||root==q) return root; Tree

2017-09-18 00:36:01 2534

原创面试笔试整理5：项目问题准备

自己曾经做过一些比赛，但是结果不是很好，不过还是准备写到简历里了，毕竟也算是自己做过的项目。做了一些数据挖掘的比赛，面试会问到的常见问题其实也没有多少，无非是从数据预处理、特征和模型几个内容。以jd前一段时间的JData数据挖掘比赛为例。（1）应该对所有的数据进行大致的统计，了解数据的大致构成、数据缺失情况、不同表格中特征的大致分布情况哪些是离散特征哪些是连续特征，从而初步预估出那些信息和真实场

2017-09-07 21:37:26 2016

原创面试笔试整理4：机器学习面试问题准备（进阶）

这部分主要是针对上面问题的一些更细节的补充，包括公式的推倒思路、模型的基本构成、细节问题的分析等等。一、问题杂烩1、PCA的第二主成分第二个主成分时域第一成分方向正教的差异性次大方向。 2、什么时候用组合的学习模型只有当各个模型之间没有相关性的时候组合起来是最好用的。但是一般来说，弱相关的模型组合比较好用。 3、多重共线性多重共线性是指当两个特征的相关性很大的时候，会对

2017-09-07 16:35:20 5979

原创面试笔试整理3：深度学习机器学习面试问题准备（必会）

第一部分：深度学习1、CNN1、CNN问题 2、如何减少参数权值共享、VGG的感受野、GoogLeNet的inception 3、激活函数选择 4、filter的尺寸选择 5、pooling的作用 6、常用的几个模型2、RNN1、RNN、LSTM、GRU 推导forget gate，input gate，cell state， hidden information

2017-09-07 01:13:54 72254 5

原创面试笔试整理2：c++常问问题

对c++常问问题的整理：一、基础问题1、new<>delete和malloc<>free区别：这两个表达式都用于申请动态内存和释放动态内存。但是new可以用于非内部数据类型的对象，而malloc是无法做到的，因为new和delete是作用于构造函数和析构函数的，是c++的运算符；但是malloc是库函数。注意delete是调用一次析构函数，而delete[]会对每一个成员都调用析构函数，所以

2017-09-02 22:34:36 1465

原创面试笔试整理：1、笔试常见输入输出（待补充）

一、常用的输入输出整理笔试时候常用的输入输出，可以使用#include 来一次性输入所有的C++头文件包括：\#include \#include \#include \#include \#include \#include \#include \#include \#include \#include \#include \#include \#

2017-09-02 13:48:35 3988 1

原创 tensorflow学习笔记（七）：TensorFLow实战之style_transfer（风格转换）

从这部分开始利用TensorFlow进行实际应用，将会慢慢的把最新的东西一边学习一边整理一边实现，计划是初期的代码都利用tensorflow的基本API完成，后期建立大的网络结构的时候引入Keras等高等级API。　　这一节主要是利用tensorflow实现style transfer，这个学习CNN的时候都会看到，原论文在这里程序的github地址在 —-这里—-，和原来一样几乎都是用note

2017-06-18 20:04:49 4179 2

原创 tensorflow学习笔记（六）：TF.contrib.learn大杂烩

这一节介绍一个常用的高级API：tf.contrib_learn。这个API使配置、训练和计算变得更简单。现在依然是依照官方教程进行一些学习和补充。而且程序依然会放在github里。而且从这里开始一直是按照最新的tensorflow版本（目前是r1.2）来进行。一、API简略浏览　　在写程序之前依然先看一下API中的类、函数和方法。　　这里有？？？的是因为实在基础太差有的没有接触

2017-06-14 21:16:01 12336

原创 tensorflow学习笔记（五）：TensorFlow变量共享和数据读取

1、变量共享　　前面已经说过如何进行变量的生成和初始化内容，也用到了命名空间的概念，这里说一下什么是变量共享。当我们有一个非常庞大的模型的时候免不了需要进行大量的变量共享，而且有时候还希望能够在一个地方初始化所有的变量，这就需要tf.variable_scope() 和 tf.get_variable()。　　当只有两层的卷积的时候，前面的程序都是定义了两个卷积变量W1和W2(忽略b)，而

2017-06-13 16:28:44 14529 2

原创 tensorflow学习笔记（四）：TensorBoard

一、TensorBoard　　我们上一节介绍过简单的TensorFlow手写字符识别程序了，但是在实际中调参和观察flow的状态是很有必要的，于是TensorFlow便有了TensorBoard帮助我们进行可视化学习，这里同样按照官方教程的流程进行介绍。1、Visualizing Learning 可视化学习　　TensorBoard是官方推出的一个可视化工具，方便在训练复杂度较高

2017-06-10 11:24:41 1124

原创 tensorflow学习笔记（三）：手写字符识别实例

前面的章节已经对tensorflow有所了解，这一节就利用前面介绍的基本知识和API构建一个手写字符识别的实例，这也和官方教程中的内容所对应。这也是对前面知识的一个利用。关于手写字符识别是一个最基本的机器学习任务，很多地方都用这个开始，这里也一样。这一节主要都是用代码组成，然后所有的内容都尽可能在程序中添加注释中注明，还提供github地址里面基于ipython notebook写的，因为这样

2017-06-08 10:06:36 2402

原创 tensorflow学习笔记（二）：机器学习必备API

前一节介绍了一些最基本的概念和使用方法。因为我个人的最终目的还是在深度学习上，所以一些深度学习和机器学习模块是必须要了解的，这其中包括了tf.train 、tf.contrib.learn、还有如训练神经网络必备的tf.nn等API。这里准备把常用的API和使用方法按照使用频次进行一个排列，可以当做一个以后使用参考。这一节介绍的内容可以有选择的看。而且最全的信息都在TensorFlow的API里

2017-06-07 10:23:13 7960

原创 tensorflow学习笔记（一）:基本知识之tensor，operation和Session

1、tensor之———变量（variable）、常量（constant）、占位符（Placeholder）2、Session的简介3、Session中run的使用以及fetch和feed4、交互式的Session

2017-06-05 22:49:32 8081

原创一个蛋疼的PIL图片读取问题

系统为ubuntu14.04，python3.6（用的conda的虚拟环境）。用scipy.misc的imread读取图片的时候，正常是读出一个array的矩阵来表示图片，但是却读出了一个array(, dtype=object)的东西，因为大部分python的关于矩阵的的图片读取都是基于PIL的，所以问题应该是处在了PIL无法正确读取jpg图像上，于是首先卸载了PIL（这里注意如果是p

2017-06-04 11:03:49 6121

原创面试用算法复杂度总结

面试时被问到了很多算法复杂度的东西，现在做个总结。主要从树结构和排序的角度分析这些常用算法的时间和空间复杂度。一、复杂度简介1、空间复杂度空间复杂度有很多影响因素，如指令空间、数据空间（动态数组、动态类实例、常量和简单变量的存储空间）、环境栈空间（常在递归时使用）。一般说的空间复杂度是指所需要的可变空间，也就是动态数据或栈所用所需的空间。2、时间复杂度主要关注运行时间，常用

2017-05-16 17:15:51 3086 1

原创深度学习清单

1、UFLDL完成基本的深度学习理论学习，这个UFLDL还是比较适合的既没有太过时，而且很多细节在做练习的时候能够掌握的很好，这个我自己写了的代码：见https://github.com/woaidapaopao/----UFLDL----2、李宏毅的深度学习课程链接在此：链接，这个因为是中文的，还是比较好懂的，而且一直在更新，很不错。就是台湾口音加英文听着有点别扭。其中，Mach

2017-05-08 11:29:18 1070

转载 sk-learn线性回归库

转自：http://www.cnblogs.com/pinard/p/6026343.html　　scikit-learn对于线性回归提供了比较多的类库，这些类库都可以用来做线性回归分析，本文就对这些类库的使用做一个总结，重点讲述这些线性回归算法库的不同和各自的使用场景。　　　　线性回归的目的是要得到输出向量YY和输入特征XX之间的线性关系，求出线性回归系数θθ,也就是 Y=XθY=Xθ。

2017-03-27 18:14:06 1318

原创 XGBoost安装（非常简单）

网上看到很多非常麻烦的安装方案，因为主要是电脑内没有c++的编译器，但是因为WIN10已经有了编译器，就不需要在安装GCC了，具体流程如下：1、在github下载所需的安装包下载到本地解压（或是用git）2、从这里下载libxgboost.dll。下载好后放在解压好得到xgboost/python-package/xgboost/路径下（否则不能安装）3、cmd直到到安装包路径下的py

2017-03-22 10:01:42 2025

转载小数据分析师学 Python 之 Seaborn（二）：定量数据的线性模型（谁知道原文出处告诉我一下谢谢）

今天我开始切入了 Linear models with quantitative data 这一Tutorial, 让seaborn拼图增加了一块大大的领土.初识lmplot在之前讲解distribution分布一节中, 主要围绕的是单(双)样本间各自样本的形态, 或者是两个样本间的形态差异. 还未涉及到分析多个样本间的依赖关系. 后者需要借助于更复杂的工具来实现, 比如用线性函数来表达这

2017-03-21 16:14:31 6274 2

转载用Python进行数据可视化的10种方法

引言艺术之美根植于其所传达的信息。有时候，现实并非我们所看到或感知到的。达芬奇（Da Vinci）和毕加索（Picasso）等艺术家都通过其具有特定主题的非凡艺术品，试图让人们更加接近现实。数据科学家并不逊色于艺术家。他们用数据可视化的方式绘画，试图展现数据内隐藏的模式或表达对数据的见解。更有趣的是，一旦接触到任何可视化的内容、数据时，人类会有更强烈的知觉、认知和交流。在数据科学中，有

2017-03-21 00:17:24 22731 3

原创决策树的一些东西，乱写的当个总结。

有两个非常开阔视野的文章：https://www.analyticsvidhya.com/blog/2016/04/complete-tutorial-tree-based-modeling-scratch-in-python/https://www.analyticsvidhya.com/blog/2013/10/trick-enhance-power-regression-model-

2017-03-19 12:48:59 553

转载干货：结合Scikit-learn介绍几种常用的特征选择方法（文章实在找不到最原始出处了，个人感觉是kaggle上的大神写的）

作者： Edwin Jarvis特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能，更能帮助我们理解数据的特点、底层结构，这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能：减少特征数量、降维，使模型泛化能力更强，减少过拟合增强对特征和特征值之间的理解拿到数据集，一个特征选择方法，往往很难同时完成这两个目的。通常情况下，我

2017-03-16 22:46:32 5526 3

原创动态规划Dynamic Programming的总结

最近找工作需要些计算机算法，所以把最常见的动态规划方法整理一下，从浅到深的进行一下分析。一、动态规划的原理1、动态规划的基本思路许多问题在实现的过程中都是把原问题分解为子问题进行处理，再把子问题相互结合形成原问题的解，首先最常用的分治算法就是把原问题分解为不相交的子问题，与之相反动态规划是用于把原问题分解为具有重叠子问题的一种方法。所谓的重叠子问题是指如果原问题的子问题分别为s11和s

2017-02-26 23:37:39 491

原创 2017.11.20 MySQL和Python的连接，并利用Pandas

MySQL和Python连接有很多方式：oursql、PyMySQL、 myconnpy、MySQL Connector等等这些只要百度一下都能找到对应的官网和使用方法，我是是用的MySQLdb的方式进行连接的。整个使用过程包括：数据库连接、数据库查询、数据库。。。（一）数据库连接MySQLdb提供了connect方法进行数据库连接，可以接收多个参数，这里只介绍比较常用的conn=

2016-11-20 15:43:53 4540

原创朴素贝叶斯的Python实现（二）

本文承接上文关于朴素贝叶斯模型的介绍，讲一下在python中的实现。这里要注意一点，我在看《机器学习实战》中发现，书中论述的模型有一些错误，混淆了多项式模型和伯努利模型，这里对其进行一些更正。一、对基本概念的进一步解释（1）为什么要使用拉普拉斯校准？要知道拉普拉斯平滑针对的是特征属性离散分布的情况下求先验条件概率。朴素贝叶斯分类是计算多个特征值的概率得到整个类别的概率，若某个特征值为0，则

2016-11-19 11:28:58 1574

原创最小二乘、最大似然和最大后验的简单总结

在真正了解一个机器学习算法的时候，发现有许多概念还是很模糊这里整理了最小二乘法（Least Square）、最大似然估计（ Maximum Likelihood Estimation）和最大后验估计的关系。一、最小二乘法最小二乘法的本质就是找到一个估计值，使实际值与估计值的距离最小。而为了度量最小距离，只要使实际值与估计值之差的平方最小就好，下面就是最小二乘的表达式损失函数cost fun

2016-11-15 21:53:41 7043

原创生成学习算法（Generative Learning）：GDA（高斯判别）和Navie Bayes（朴素贝叶斯）（一）

是·

2016-10-31 19:14:43 1705

原创 2016.10.30学习python

1、重载（overload）和覆盖（override）在C++，Java，C#等静态类型语言类型语言中，这两个概念同时存在。前者是为了让同一个函数名（方法名）匹配不同的参数（个数不同，类型不同）;后者是为了实现多态，在相同名称的函数（方法）和参数，在不同的类中（父类，子类），有不同的实现。对于java多态的理解见文章2、

2016-10-30 18:31:46 628

原创 Python 面向对象中的init、new以及super()

1、__init__()和__new__()的关系借用代码解释一下，注意这些都是在python2.7下面构造的，在py3.x可能会有所不同，比如在super()上，Python 2 里super() 是一定要有参数的。# -*- coding: utf-8 -*-class Person(object): """Silly Person""" def __new__(cl

2016-10-28 18:33:13 5385

原创 DEAP数据库的简介

实验室就自己一个方向：做基于生理信号的情感识别，一直知道有DEAP这个数据库，但是一直没有用，自己建的数据库效果不好，所以准备用DEAP试一试。下面总结一下DEAP库的使用方法。1、DEAP数据库首先看一下DEAP的建库流程，首先就是找人在一堆MV中选了40个MV。然后又找了32个测试者（一半男一半女），然后给他们看MV。流程是：2分钟平静---->2秒的显示当前MV序号--

2016-10-17 20:34:45 22159 98

原创 2016.10.16学习进程关于MYSQL的使用

1、由于在本机启动，所以启动命令为 mysql -u root -p 注意这个root是我Mysql的用户名。2、如何把txt数据导入Mysql中，首先建立一个DATEBASE，命名为weibo。CREATE DATABASE weibo；使用这个databaseUSE weibo;然后在这个database上建一个名为weibo_train的表。CREATE TABLE

2016-10-17 14:32:26 528

原创从天池学习Mapreduce和sql2016.10.15

从今天开始系统的记录每天的学习工作。1、Mapreduce计算框架概述整个的MapReduce过程可以看成是：输入-->map阶段-->中间处理（排序聚合等）-->reduce-->输出其中输入是以键值对的形式输入的（key，value），这也就是MapReduce一般可以和SQl结合。2、在ODPS中遇到了一个MAPJOIN的连接方式，这种方式是在一张大表和一张或几张小表结合时使

2016-10-16 13:31:32 1064

原创 SVM原理介绍与Python实现（四）：利用规则化（regularization）处理不可分情况

四、规则化和不可分处理我们一直假设数据是可分的，不论是引入核函数前的线性可分SVM，还是利用核函数处理非线性数据，都是在可分的情况下。如果不是因为数据本身的非线性结构而是由噪声数据引起的偏离要怎么处理呢？怎么才能在不可分的情况下找到分割超平面呢？首先我们先看一下为什么离群点会对超平面造成很大的影响（个人感觉算是SVM的一个缺点）。假设下面这样一幅图（来自这里）。被圈起来的蓝色的点就

2016-09-28 22:46:37 2278

原创 SVM原理介绍与Python实现（三）：核函数的引出

三、核函数引出1、为什么要用核函数？我们上面其实通过解w和b已经得到了一个线性可分的分类器了，而且已经提到之所以用对偶形式求解就是因为对偶形式可以引入核函数解决线性不可分的情况。核函数解决线性不可分问题的原理就是将数据映射到高维的空间去，解决原始空间的线性不可分问题。举个例子：比如我们有一个一维的数据分布是如下图的样子，你想把它用一个直线来分开，你发现是不可能的，因为他

2016-09-28 11:51:07 5639 1

原创 SVM原理介绍与Python实现（二）：SVM的推导过程

二、SVM的求解过程1、对问题的简单求解其实上一章中的结果，已经是一个可求解的问题了，因为现在的目标函数是二次的，约束条件是线性的，所以它是一个凸二次规划问题，只要通过现成的QP包就能解决这个二次规划问题。 2、求解方式转换由于这个结构具有特殊性，所以可以通过拉格朗日的对偶性（ Lagrange Duality），将原问题转到对偶问题进行优化（两者等价）。这样是有两个优点：一是对偶问题更容易求

2016-09-28 00:30:54 3985 2

原创 SVM全系列：从原理到python实现（一）：SVM原理

前言本文开始主要介绍一下SVM的分类原理以及SVM的数学导出和SVM在Python上的实现。借鉴了许多文章，会在后面一一指出，如果有什么不对的希望能指正。一、 SVM简介首先看到SVM是在斯坦福的机器学习课程上，SVM是作为分类器在logisticregression的基础上引出的。其学习方法是把数据映射到一个高维空间上，使数据变稀疏，比较容易找到一个分割面来将数

2016-09-25 22:51:45 18127 4

多分类数据集

空空如也