自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

sp_programmer的专栏

本博客主要是分享博主对于python、java、机器学习、数据挖掘、自然语言处理和生物信息学数据处理等方面的知识,希望和大家共同学习进步

  • 博客(76)
  • 资源 (1)
  • 收藏
  • 关注

原创 重磅福利!!机器学习和深度学习学习资料合集

重磅福利 机器学习和深度学习学习资料

2014-12-23 00:24:27 10782 7

原创 重新回归CSDN,重新与老朋友们见面

来到某世界五百强公司已经有3个月了,说实话忙,而且忙的不是非常踏实,每天被项目搞得头昏脑胀根本没时间去思考和总结,但是我告诉自己,不能丢的一定不能丢,在此为证,每周输出一篇博客(除非周六周天都加班),总结自己平日所得,并把机器学习的知识点重新梳理并结合现在的项目,用python把各个算法重新写一遍!!你们的DMer回来了!!

2016-07-24 12:37:08 790 2

转载 Deep Learning(深度学习)

Deep Learning(深度学习)ufldl的2个教程(这个没得说,入门绝对的好教程,Ng的,逻辑清晰有练习):一ufldl的2个教程(这个没得说,入门绝对的好教程,Ng的,逻辑清晰有练习):二Bengio团队的deep learning教程,用的theano库,主要是rbm系列,搞python的可以参考,很不错。deeplearning.net主页,里面包含的

2015-11-04 16:45:59 1446

原创 随机森林Random Forest

引言在机器学习中,随机森林由许多的决策树组成,因为这些决策树的形成采用了随机的方法,因此也叫做随机决策树。随机森林中的树之间是没有关联的。当测试数据进入随机森林时,其实就是让每一颗决策树进行分类,最后取所有决策树中分类结果最多的那类为最终的结果。因此随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。随机森林可以既可以处理属性为离散值的量,如ID3算法

2015-09-12 15:51:36 2643

转载 A Few Useful Things to Know About Machine Learning

【原题】A Few Useful Things to Know About Machine Learning【译题】机器学习的那些事【作者】Pedro Domingos【译者】刘知远【说明】译文载于《中国计算机学会通讯》 第 8 卷 第 11 期 2012 年 11 月 ,本文译自Communications of the ACM 2012年第10期的“A Few Useful T

2015-09-09 21:20:49 1605

转载 不均匀正负样本分布下的机器学习

不均匀正负样本分布下的机器学习@机器学习那些事儿 发起的讨论, 2014-11-15@好东西传送门 整理于 2014-12-0939 条精选讨论(选自165条原始评论和转发)机器学习那些事儿   2014-11-15 17:48工业界机器学习典型问题: 正负样本分布极不均匀(通常@老师木 @李沐M @星空下的巫师 @徐盈辉_仁基北冥乘海生 转发于 2014-

2015-08-28 09:10:04 6857

原创 数据库设计三大范式

为了建立冗余较小、结构合理的数据库,设计数据库时必须遵循一定的规则。在关系型数据库中这种规则就称为范式。范式是符合某一种设计要求的总结。要想设计一个结构合理的关系型数据库,必须满足一定的范式。

2015-07-14 15:14:56 828

转载 数据库的最简单实现

所有应用软件之中,数据库可能是最复杂的。 MySQL的手册有3000多页,PostgreSQL的手册有2000多页,Oracle的手册更是比它们相加还要厚。 但是,自己写一个最简单的数据库,做起来并不难。Reddit上面有一个帖子,只用了几百个字,就把原理讲清楚了。下面是我根据这个帖子整理的内容。

2015-07-13 10:29:43 441

原创 字符编码笔记:ASCII,Unicode和UTF-8

字符编码笔记:ASCII,Unicode和UTF-8

2015-07-13 10:02:54 612

转载 NoSQL数据库探讨 -- 非关系型数据库

随着互联网web2.0网站的兴起,非关系型的数据库现在成了一个极其热门的新领域, 非关系数据库产品的发展非常迅速。而传统的关系数据库在应付web2.0网站,特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不 从心,暴露了很多难以克服的问题,例如:1、High performance - 对数据库高并发读写的需求 web2.0网站要根据用户个性化信息来实时生成动态页面和提供动态信

2015-06-29 11:01:20 470

转载 Linux 之 我最常用的20条命令

玩过Linux 的人都会知道,Linux中的命令的确是非常多,但是玩过Linux的人也从来不会因为Linux的命令如此之多而烦恼,因为我们只需要掌握我们最常用的 命令就可以了。当然你也可以在使用时去找一下man,他会帮你解决不少的问题。然而每个人玩Linux的目的都不同,所以他们常用的命令也就差异非常大, 而我主要是用Linux进行C/C++和shell程序编写的,所以常用到的命令可以就会跟一个管理

2015-06-29 10:43:25 1831

转载 经典SQL语句大全

经典SQL语句大全 一、基础 1、说明:创建数据库 CREATE DATABASE database-name 2、说明:删除数据库 drop database dbname 3、说明:备份sql server — 创建 备份数据的 device USE master EXEC sp_addumpdevice ‘disk’, ‘testBack’, ‘c:\mssql7backu

2015-06-29 10:06:37 662

转载 TF-IDF及其算法

TF-IDF及其算法概念     TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式

2015-05-21 11:07:09 437

原创 机器学习之Boosting小记

机器学习之Boosting小记

2015-04-16 10:30:30 1531

原创 Centos安装ntfs-3g(解决Centos不支持Ntfs文件格式的问题)

Centos安装ntfs-3g

2015-04-03 09:48:52 2507

转载 Eclipse配置PyDev插件

http://www.cnblogs.com/halfacre/archive/2012/07/22/2603848.html

2015-03-23 19:42:05 520

原创 SVM多类划分问题

一般情况下SVM有两种多类划分的方法,一种是one vs rest另外一种是pairwise。

2015-03-22 15:09:51 1150

原创 encodeURI来解决URL传递时的中文问题

在AJAX浏览器来进行发送数据时,一般它所默认的都是UTF-8的编码.使用JQUERY中所提供的方法来做操作 encodeURI function verify() {    //解决中文乱麻问题的方法1,页面端发出的数据作一次encodeURI,    服务器段使用进行转移成UTF-8;    //解决中文乱麻问题的方法2,页面端发出的数据作两次encodeURI,

2015-03-21 16:07:27 1314

原创 python下Matplotlib for Python 2.7及其依赖(含安装包及说明)64、32位都有

资源推荐 http://download.csdn.net/detail/discoverer100/7843121

2015-03-20 15:50:31 1694

原创 windows下Python扩展问题error: Unable to find vcvarsall.bat

因为对于Windows下Python扩展不熟,今天遇到一个安装问题,特此做个tag,解决方案在stackoverflow上,网址如下:http://stackoverflow.com/questions/2817869/error-unable-to-find-vcvarsall-bat

2015-03-20 11:23:55 816

原创 Spark:一个高效的分布式计算系统

Spark:一个高效的分布式计算系统概述什么是SparkSpark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS

2015-03-17 22:49:50 639

原创 Java&&深入理解ClassLoader

今天开始复习JAVA的相关知识,又碰到了ClassLoader问题,所以拿来好好回顾一番。 基本功能    ClassLoader的主要作用是对类的请求提供服务,当JVM需要某类时,它根据名称向ClassLoader要求这个类,然后由ClassLoader返回这个类的class对象。几个相关概念    ClassLoader负责载入系统所有Resources(Class

2015-03-04 14:29:03 584

转载 EJB到底是什么,真的那么神秘吗??

1. 我们不禁要问,什么是"服务集群"?什么是"企业级开发"? 既然说了EJB 是为了"服务集群"和"企业级开发",那么,总得说说什么是所谓的"服务集群"和"企业级开发"吧!这个问题其实挺关键的,因为J2EE 中并没有说明白,也没有具体的指标或者事例告诉广大程序员什么时候用EJB 什么时候不用。于是大家都产生一些联想,认为EJB"分布式运算"指得是"负载均衡"提高系统的运行效率

2015-01-20 10:05:27 529

转载 如何在Eclipse下查看JDK源代码以及java源代码阅读方法

不会看JDK源代码,相当于没学过Java。网上不容易找到一篇帮助我解决了如何在Eclipse下查看JDK源代码 的文章。       核心提示:在Eclipse中查看JDK类库的源代码!!! 设置: 1.点 window- Preferences - Java - Installed JRES 2.此时Installed JRES右边是列表窗格,列出了系统中的 JRE 环境

2015-01-19 21:31:53 17204 1

原创 机器学习之&&Andrew Ng课程复习--- 聚类——Clustering

Ng公开之无监督性学习---K-Means

2014-12-22 20:16:12 4579 1

原创 (转载)年终总结 & 算法数据的思考 & 结尾彩蛋

来自豆瓣 真心不错的好文章

2014-12-18 17:48:23 1881

原创 定期更新(推荐机器学习博客)

机器学习著名博客整理定期更新

2014-12-16 21:30:23 2967

原创 机器学习之&&SVM支持向量机入门:Maximum Margin Classifier

—— 支持向量机简介。

2014-12-13 13:31:29 9150 4

原创 机器学习之&&Dual(带约束条件的最优化问题)

关于dual的相关知识,这套理论不仅适用于SVM的优化问题,而是对于所有带约束的优化问题都适用,是优化理论中的一个重要部分。(也许你觉得一个IT人优化问题不重要,其实你仔细想想,现实中的很多问题,都是在有条件约束的情况下的求最优的问题)

2014-12-12 17:39:37 16968 3

原创 Java&&深入理解异常处理

深入浅出JAVA异常

2014-12-11 10:43:24 9489

原创 数据结构&&AVL树原理、插入操作详解及实现

AVL树原理、插入数据原理、实现。

2014-12-08 23:59:07 5497

原创 机器学习之&&Andrew Ng课程复习--- 机器学习系统设计

Prioritizing what to Work on         接下来我们将谈到机器学习系统的设计,主要涉及你在设计复杂的机器学习系统时会遇到的问题,同时我们会给出一些如何构建一个复杂的机器学习系统的建议。接下来的讨论可能连贯性不够,但是它集中的表述了你在设计机器学习系统时可能会遇到的不同问题,虽然这些内容数学性不强,但是对于我们设计机器学习系统非常有用,从而节省大量时间。

2014-12-08 16:30:47 3283 3

原创 机器学习之&&贝叶斯定理、朴素贝叶斯实现、贝叶斯网络等知识博客整理

贝叶斯、贝叶斯网络等知识,知名博客整理

2014-12-05 20:55:26 2958

原创 解读P问题、NP问题、NPC问题的概念

P NP NPC NP-Hard

2014-12-05 16:57:02 5748

原创 机器学习之&&Andrew Ng课程复习--- 怎样选择机器学习方法、系统

选择最佳拟合model的问题,是machine learning的常见问题,以上内容可以帮助我们更好的选择一个最佳的模型,更好的应用到机器学习的应用中。

2014-12-02 16:57:55 4096

原创 Java&&持有对象(容器小结)

Java容器、持有对象简介

2014-11-24 17:38:30 2449

原创 Python正则表达式指南

python 正则表达式学习

2014-11-23 16:08:58 1680

原创 Java&&内部类详解

java内部类

2014-11-20 18:35:43 1876

原创 Java&&(面试题)初始化顺序总结

java-jvm初始化顺序对于每一个面试和学习者来说都非常重要。

2014-11-19 10:38:03 2730

原创 Java&&RTTI(运行时类型识别)

运行时类型识别(RTTI, Run-Time Type Identification)是Java中非常有用的机制,在Java运行时,RTTI维护类的相关信息。多态(polymorphism)是基于RTTI实现的。RTTI的功能主要是由Class类实现的。

2014-11-17 23:51:09 1234

数字手写数据库

the use of these data is to practice KNN algorithm,so you can follow my blog to practise.

2014-09-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除