修行的猫_zq-CSDN博客

原创【机器学习实战-python3】大数据与MapReduce

本篇的数据和代码参见：https://github.com/stonycat/ML-in-Action 一、MapReduce:分布式计算的框架 MapReduce 优点:可在短时间内完成大量工作。缺点:算法必须经过重写,需要对系统工程有一定的理解。适用数据类型:数值型和标称型数据。Google公司的Jeffrey Dean和Sanjay Ghemawat在2004年的一篇论

2017-05-15 17:39:32 3493 1

原创【机器学习实战-python3】利用PCA简化数据

本章是涉及降维主题的两章中的第一章。在降维中,我们对数据进行了预处理。之后,采用其他机器学习技术对其进行处理。本篇的数据和代码参见：https://github.com/stonycat/ML-in-Action 一、降维技术概述在已标注与未标注的数据上都有降维技术。这里我们将主要关注未标注数据上的降维技术,该技术同时也可以应用于已标注的数据。大量的数据往往拥有超出显示能力的更多特征。数据显

2017-05-14 21:58:55 3326 1

原创【机器学习实战-python3】利用SVD简化数据

本篇的数据和代码参见：https://github.com/stonycat/ML-in-Action 一、开篇：简述SVD应用利用SVD实现,我们能够用小得多的数据集来表示原始数据集。这样做,实际上是去除了噪声和冗余信息。简而言之，SVD是一种从大量数据中提取主要关键数据的方法。下面介绍几种应用场景： 1、隐性语义索引最早的SVD应用之一就是信息检索。我们称利用SVD的方法为隐性语义索

2017-05-14 09:56:08 5122 5

原创【机器学习实战-python3】使用FP-growth算法来高效发现频繁项集

本篇的数据和代码参见：https://github.com/stonycat/ML-in-Action本章会在上一章讨论话题的基础上进行扩展，将给出一个非常好的频繁项集发现算法。该算法称作FP-growth，它比上一章讨论的Apriori算法要快。它基于Apriori构建，但在完成相同任务时采用了一些不同的技术。这里的任务是将数据集存储在一个特定的称作FP树的结构之后发现频繁项集或者频繁项对，即常在

2017-05-05 10:30:44 9486 1

原创【机器学习实战-python3】使用Apriori算法进行关联分析

本篇的数据和代码参见：https://github.com/stonycat/ML-in-Action一、背景从大规模数据集中寻找物品间的隐含关系被称作关联分析(association analysis)或者关联规则学习(association rule learning)。关联分析是一种在大规模数据集中寻找有趣关系的任务。这些关系可以有两种形式:频繁项集或者关联规则。频繁项集(freq

2017-05-03 15:46:55 34184 20

原创【机器学习实战-python3】K-均值聚类算法

本篇的数据和代码参见：https://github.com/stonycat/ML-in-Action 一、K-均值聚类算法聚类是一种无监督的学习，它将相似的对象归到同一簇中，类似全自动分类。簇内的对象越相似，聚类的效果越好。K-均值聚类是每个类别簇都是采用簇中所含值的均值计算而成。聚类与分类的区别在于分类前目标已知，而聚类为无监督分类。 K-均值算法的伪代码如下：创建k个点作为起始质心（通常

2017-04-21 17:35:38 8494 2

原创【机器学习实战-python3】树回归

本篇的数据和代码参见：https://github.com/stonycat/ML-in-Action 本篇博客部分参考Forec blog 一、数据建模问题前面介绍了贪心算法的决策树，构建算法是ID3，每次选取当前最佳特征来分割数据，并且按照这个特征的所有可能取值来划分，一旦切分完成，这个特征在之后的执行过程中不会再有任何用处。这种方法切分过于迅速，并且需要将连续型数据离散化后才能处理，这

2017-04-07 19:20:43 10384 10

原创【论文笔记】CHI '16 Embracing Error to Enable Rapid CrowdSourcing

最近读到一篇显著提升标记数据速度的文章，原文Embracing Error to Enable Rapid Crowdsourcing 本篇博客记录个人对论文的总结和翻译理解，如有不足之处欢迎指正。Embracing Error to Enable Rapid Crowdsourcing ——————————————————————————————————————————————— 一作是来自

2017-04-07 11:41:12 1043

原创【机器学习实战-python3】缩减系数来“理解”数据

遇到数据特征比样本点还多的情况，不再能使用线性回归的方法，因为计算逆矩阵的时候会出错。引入岭回归来解决特征数大于样本点个数的情况一、岭回归岭回归就是在矩阵XTXX^{T}X中加入λI\lambda I来使矩阵非奇异，今儿能够计算其逆矩阵。矩阵I是一个m维的单位矩阵，对角线元素全为1，λ\lambda是用户定义的一个数值，因此回归系数计算公式为：w=（XTX+λI）−1XTyw=（X^{T

2017-03-27 20:13:41 1974

原创【论文笔记】CSCW2017 A Glimpse Far into the Future:Understanding Long-term Crowd Worker Quality

原文出处 CSCW2017 What Works in Crowd Work 部分 http://dl.acm.org/citation.cfm?id=2998248&CFID=741971565&CFTOKEN=98940772 本篇记录个人论文阅读笔记，翻译和个人理解结合，有不足之处欢迎指正。一、Abstract摘要微型任务众包在大数据集的创建中变得至关重要。参与众包的工作人员需

2017-03-22 17:45:47 783

原创【Linux Shell编程】Part1（基础） Linux命令行

这里记录个人学习linux shell编程的相关学习笔记，操作系统为ubuntu16.04LTS，参考书籍linux命令行与shell脚本大全的一、基本bash shell命令 1、man 命令 man 命令用来访问linux系统上的手册页面，在想要查找的工具名称前面加man，就可以找到那个工具相对应的所有手册条目。如查看ls下对应的手册条目：man ls 例如：man sudo

2017-03-19 20:58:03 768

原创【机器学习实战-python3】线性回归

本篇将介绍机器学习中的回归算法（主要是线性回归）。分类输出的结果是标称型的数值（类别值），而回归预测是结果是一组连续值。简而言之，回归与分类的不同在于其目标变量是连续数值型。本篇的数据和代码参见：https://github.com/stonycat/ML-in-Action 一、线性回归拟合直线回归的目的是预测数值型的目标值，最简单的办法就是根据输入的数据返回一个计算目标值的公式，所求的公

2017-03-18 14:50:23 3429

原创【机器学习实战-python3】Adaboost元算法提高分类性能

工具：PythonCharm 书中的代码是python2的，而我用的python3，结合实践过程，这里会标注实践时遇到的问题和针对python3的修改。实践代码和训练测试数据可以参考这里 https://github.com/stonycat/ML-in-Action （原书作者也提供了源码，但是存在一些问题，且在python3中有部分修改）————————卖萌=￣ω￣=分割线————

2017-03-16 21:46:09 3137 3

原创【深度学习】Tensorflow学习记录（一） softmax regression mnist训练

之前学了2个月的caffe，最近打算开始学一些TensorFlow，这里记录相关的学习、实践测试笔记。入门笔记TensorFlow是由Google开发第二代（基于DistBelief）分布式的机器学习算法实现框架和部署系统，前端支持Python，C++，Go，Java等多种语言，后端使用C++，CUDA等写成，可在众多异构系统上方便地移植，CPU，GPU集群，iOS，Android等。 Githu

2017-03-11 22:03:24 1439

原创【机器学习实战-python3】支持向量机（Support Vecrtor Machines SVM）

有人认为SVM是最好的现成的分类器，“现成”指的是分类器不加修改即可直接使用，意味着直接应用SVM可以取得较低的错误率，对训练集之外的数据点做出很好的分类决策。 SVM有许多实现，这里介绍其中一种最流行的实现，即序列最小优化（SMO）算法，然后添加kernel函数将SVM拓展到更多数据集。 SVM是基于最大间隔分隔数据，若所给数据是二维的，则分隔线为一条直线，若数据为三维的，则分割线为一个平面，

2017-03-02 16:41:50 2696

原创【论文笔记】MOT16 A Benchmark for Multi-Object Tracking数据集介绍

MOT16: A Benchmark for Multi-Object Tracking MOT16是2016年提出的多目标跟踪MOT Challenge系列的一个衡量多目标检测跟踪方法标准的数据集。官方网站：https://motchallenge.net/ 论文可见：https://arxiv.org/abs/1603.00831 MOT16主要标注目标为移动的行人与车辆，是基于MO

2017-02-27 09:37:02 13881 10

原创【机器学习实战-python3】Logistic回归

注释：本篇代码注释部分改为英文，后期我有用英文写blog的想法，慢慢练习。假设现在有一些数据点，我们用一条直线对这些点进行拟合（该直线成为最佳拟合直线），这个拟合的过程就成为回归。回归一词来源于最佳拟合，表示找到最佳拟合的参数集，训练分类器就是为了找到最佳拟合参数，使用最优化方法，训练的一个二值型分类器。 Logistic回归过程：输入数据，转化为结构化的数据，采用任意方法分析数据，训练

2017-02-26 17:06:10 2445 5

原创【机器学习实战-python3】基于概率论的分类方法：朴素贝叶斯

通过概率大小来判断分类结果归属，涉及到概率论的条件概率。 p（ci | x,y）=p(x,y | ci)·p(ci)/p(x,y) 比较p（ci | x,y）的大小（i=1,2……）1、从文本中构建词向量#coding=utf-8from numpy import *#文本转化为词向量def loadDataSet(): postingList=[['my', 'dog', 'ha

2017-02-26 13:49:15 1334

原创【机器学习实战-python3】决策树ID3

工具：PythonCharm 书中的代码是python2的，而我用的python3，结合实践过程，这里会标注实践时遇到的问题和针对python3的修改。实践代码和训练测试数据可以参考这里 https://github.com/stonycat/ML-in-Action （原书作者也提供了源码，但是存在一些问题，且在python3中有部分修改）【决策树算法 ID3】首先附上修改后的源

2017-02-18 20:57:04 2219

原创【机器学习实战-python3】k-近邻算法

虽然现在深度学习大火，但是个人想利用最近的时间系统地学一下机器学习的基础方法，结合Machine Learning in action 一书，在此记录学习实践过程。工具：PythonCharm 书中的代码是python2的，而我用的python3，结合实践过程，这里会标注实践时遇到的问题和针对python3的修改。实践代码和训练测试数据可以参考这里 https://github.com

2017-02-13 19:37:32 5079 2

原创【调研笔记】寒假记录无人机巡检图像处理方法调研总结

寒假任务之一：调研巡检相关的图像处理技术，如根据无人机采集的图像进行自动检测分析是否存在问题。例子：高铁桥梁检测、楼房墙皮破损等。 ———————————————分割线—————————————————— 就最近阅读的论文，围绕“巡检图像处理无人机”三个关键词进行查询，在国内论文搜索上所见相关论文都看了下。国外关键词用了patrol inspection 但是目前没有搜索到相关的技术应用论

2017-02-01 19:09:26 3390

原创【VScode】VScode 浏览器预览HTML （windows+ubuntu+OS X平台）

最近开始学习javascript，工具选择了vscode，这里记录学习中遇到的问题和解决方案，备日后查看。一、windows下使用vscode 配置浏览器预览html文件：第一步：打开tasks.json文件 ctrl+shift+p 输入 tasks 下拉菜单显示出：Configure Tasks Runner 选中并回车然后在出现的下拉菜单中选择 Others

2017-02-01 17:18:17 10012

原创【深度学习】 Ubuntu16.04 caffe Opencv2.4.13 GPU环境配置

接触ubuntu系统有半个多月了，反反复复配置了很多次caffe，在此记录下配置经验。个人电脑情况： Ubuntu16.04LTS 64bit 含有NVIDIA 显卡配置步骤：第一步：基本步骤 #更新安装必要的软件包，去除不必要的包。 sudo apt-get update sudo apt-get upgrade sudo apt-get install build-esse

2016-12-05 16:23:43 10125 1

原创【深度学习】用CPU运行faster-RCNN 的官方demo（基于ubuntu16.04系统）

此篇文章用来记录faster-rcnn在CPU下运行成功的详细步骤，一般来说官方给的教程都是ubuntu+caffe+CUDA+cuDNN，基于GPU速度快于CPU，如果你不是显卡有问题或者配置出问题，建议采用GPU的方法运行faster-rcnn。配置方法很多牛人已经给出，可参考这些： https://github.com/rbgirshick/py-faster-rcnn 官方教程 http

2016-11-30 16:52:59 4959 1

原创【深度学习】学习收藏的资料汇总（不定期更新中…）

Deep Learning（深度学习）{基础学习阶段}深度学习简介：11min 链接：https://www.youtube.com/watch?v=l42lr8AlrHk 这个视频对深度学习进行了数学解释。它将带你了解机器是如何找到不同变量的分组并做出具体决策的。如果你是一个数学爱好者，你将会学到如何调整模型参数。视频简单地解释了神经网络对不同输入内容的反应。1、Youtobe上深度学习简化理

2016-11-05 20:24:53 1782

原创【OpenCV配置之二】VS2013：LNK2038 RuntimeLibrary不匹配问题（Release Debug混合错误）

最近为了运行从github上下载的背景算法提取代码，我为我的Visual Studio配置了OpenCV和Boost1.61的环境。 OpenCV大家都很熟悉，Boost库是由Boost社区开发支持的可面向C++的标准程序库，其中也包括graph这种具有工业强度的库供广大程序员使用。我在参考了网上配置的OpenCV教程，采用2.4.10版本，配置之后出现了 LNK2038的错误：mismat

2016-10-11 14:27:08 3853

原创【VS2015使用】VS2015新版小问题：无法打开包括文件stdio.h等

最近刚刚更新了visual studio到2015版本，和之前使用的2013版本差别不大，因为VS2013在使用Boost库总是报错所以才更新的2015。然而在最开始使用的时候遇到了以下问题：无法识别scanf，无法打开stdio.h这些基础的文件，我觉得这可能是因为我安装VS2015时未卸载旧版本VS2013的缘故，很多基本的库目录是放在系统磁盘C下的，还与之前的VS2013链接，没有和新

2016-09-07 10:06:33 32015 10

原创【OpenCV配置之一】更新OpenCV SDK版本问题

今天配置OpenCV环境在配置VS2013的工程包含（include）目录的配置时候发现以前大二做比赛配置过旧版本的OpenCV，后来就一直没怎么用过OpenCV直至现在….. 但是我已经下载了最新的OpenCV SDK，希望把之前的VS VC++目录的包含目录删掉，配置时发现：打开包含目录点击编辑：然后发现无法在视图中更改/删除以前的包含目录。从网上搜集一些资源，发现一个很好地解决方案：

2016-08-04 11:08:40 1322

修行的猫ZQ