ericxk-CSDN博客

原创 20160712梅西法&科利法.md

20160712梅西法&科利法梅西法和科利法是BCS评分里的两种方法。BCS是用来确定哪些队伍被邀请参加哪个系列的比赛的。BCS主要是有两个评分来源：人和计算机。人的输入数据是教练和媒体，计算的输入是6个数学模型。具体BCS的细节这里不细谈了，以后有空专门写一篇博客谈，今天就只谈谈梅西法和科利法。1. 梅西法首先放出作者的网站masseyratings.com，如果要搜索梅西法的资料，建议直接goo

2016-07-31 11:48:14 1698

原创 20160712排名概述.md

最近看了一本书，名叫《谁排第一》，讲的是关于评分排名的一些算法，主要应用领域是在对对象的排名上（体育队伍，网页，政治候选人等等）。网上相关的中文资料较少，搜索一些关键词，诸如梅西法，科利法，基纳法，搜不出与之相关的东西来。google上与之相关的英文资料有许多，特在此记录一下读书心得，给大家分享一下Rating以及Ranking算法的魅力。1. 阿罗的不可能性定理说到排名，就不得不说到投票。目前最流

2016-07-18 12:17:34 373

原创 20160620卷积神经网络.md

预备知识：前向神经网络和BP训练算法。 cnn目前主要应用在图像领域，它的网络结构相对于普通的神经网络来说，有了卷积层以及参数共享机制使得参数数量大大减少。 1. CNN结构先来个图吧！ 1.1 数据输入层DATA上图没画出来，这个是放在最前做的，毕竟是数据输入层嘛！一般数据输入层需要可以进行以下操作：去均值（cnn只做这个，把train data各个维度中心化到0，注意test dat

2016-06-20 00:38:06 828

原创 20160512关于mac安装caffe的记录.md

记得2015年在mac系统上安装过一次caffe，非常顺利，但是最近群里许多同学反映mac安装caffe出现了各种问题，同时我也在帮助别人安装caffe的时候也遇到了一些坑，不再像以前这么顺利了。估计与操作系统，caffe升级有关。今晚我重新装了一遍caffe，记录下了整个安装过程，希望对各位同学有用。 mac os 版本：10.11.4 xcode 版本： 7.21. 安装Homebrew

2016-05-12 22:32:10 7829 13

原创 20160303线性模型.md

tips:注意下文中上下标的关系，当同时上下标出现，下标表示第几个样本，上标表示第几维特征。具体情况，具体分析。1 线性模型线性模型是机器学习模型中最基本的模型。许多强大的非线性模型都是在线性模型之上构建的。给定一个有d个属性的样本x,x=(x^1,x^2,x^3,…,x^d),其中x^i为x在第i个属性上的取值，则线性模型就是通过将各个属性线性组合在一起的达到预测目的的函数。 f(x)=∑i

2016-03-06 11:56:37 706

原创 git常用命令梳理.md

git 四种状态：从已经有的仓库克隆 git clone 检查当前文件状态 git status 这是个多功能命令，根据目标文件的状态不同，此命令的效果也不同：可以用它开始跟踪新文件，或者把已跟踪的文件放到暂存区，还能用于合并时把有冲突的文件标记为已解决状态等 git add 忽略某些文件可以创建一个 .gitignore 看暂存前后的变化 git diff

2016-03-02 00:52:40 546

原创 20151227感知机(perceptron).md

1 感知机1.1 感知机定义感知机是一个二分类的线性分类模型，其生成一个分离超平面将实例的特征向量，输出为+1，-1。导入基于误分类的损失函数，利用梯度下降法对损失函数极小化，从而求得此超平面，该算法有原始形式和对偶形式。定义：假设输入空间是χ⊆ℝn\chi \subseteq \mathbb{R}^n，输出空间是{+1,-1}，输入x∈χx \in \chi 表示实例的特征向量，对应于输入空

2015-12-30 00:11:35 436

原创 20150916谱聚类.md（图片版）

2015-12-28 23:12:15 439

原创 20151007kaggle Titanic心得.md

Titanic是kaggle上一个练手的比赛，kaggle平台提供一部分人的特征，以及是否遇难，目的是预测另一部分人是否遇难。目前抽工作之余，断断续续弄了点，成绩为0.79426。在这个比赛过程中，接触并了解了一些数据挖掘比赛的基本流程，现记录一下。1. 分析数据因为数据量比较小，train有800多条数据，test有400多条数据，因此这里用了execl的数据透视表分析。同时python提

2015-10-07 22:50:34 7332

原创 20150926 kaggle Titanic入门篇excel&python.md

1 excel数据透视表这里主要是讲述了一下插入里面的数据透视表常用功能，数据透视表十分方便，比直接筛选还要简单，看数据很直观，这里大力推荐。2 python&pandas这里主要是讲述了pandas的一些基本用法，直接上代码吧。2.1 pandas dataframe文章所述pandas和R语言一样有dataframe，对于分析处理数据十分方便。import pandas as pdimport

2015-09-26 22:16:29 809

原创 20150915密度聚类.md

1. 密度聚类思想密度聚类思想是，只要一个区域中的点的密度大于某个阈值，就把他加到与之相近的聚类中去。优点：能对任意形状聚类，对噪声不敏感。缺点：计算密度单元的复杂度大，可以提前建立空间索引降低计算量。2. DBSCAN算法DBSCAN(Density-Based Spatial Clustering of Applications with Noise)将簇定义为密度相连的点的最大集合，能

2015-09-23 16:04:56 1310

原创 20150921gdb调试.md

1. 命令行参数set args show args2. 单步执行step 运行一步，会进入函数内部 next 运行一步，不会进入函数内部 finish 一直运行直到函数结束 until 运行到某一步3. 断点3.1 设置断点break test.cc:foo(int) break SampleClass::PrintMe （这个很有意思，可以试试） break 11 break -

2015-09-21 00:18:05 376

原创 20150916谱聚类.md

#1.谱聚类概念##1.1基本概念1. 实对称阵的特征值是实数2. 实对称阵不同特征值对应的特征向量正交3. **谱**：方阵作为线性算子，它的所有特征值的全体统称方阵的谱。4. **谱半径**：方阵的谱半径为最大的特征值，矩阵A的谱半径为$\left( A^T A \right)$的最大特征值5. **谱聚类**：一般来说，是一种基于图论的聚类方法，通过对样本数据的拉普拉斯矩阵的特征向量进行聚类，从而

2015-09-20 15:18:48 582 1

原创 20150913K-means聚类.md

1. 聚类的思想：将一个有N个对象的数据集，构造成k(k<=n)个划分，每个划分代表一个簇。使得每个簇包含一个对象，每个对象有且仅属于一个簇。对于给定的k，算法首先给出一个初始的划分方法，以后通过反复迭代的方法改变划分，使得每一次改进之后的划分方案都较前一次更好。2. K-means聚类2.1K-means聚类的思想K-means算法使用广泛，有时候也作为其他聚类算法的基础。算法首先随机选择

2015-09-15 13:52:17 735

原创 20150824朴素贝叶斯.md

核心就是贝叶斯公式： p(x|y) = p(x,y)/p(y) = p(y|x)p(x)/p(y)

2015-08-24 23:31:26 631

原创 cross validation交叉验证

参考：http://blog.sina.com.cn/s/blog_49c7131d0100s7lc.html http://blog.sina.com.cn/s/blog_688077cf0100zqpj.html 交叉验证常见三种方式：1.Hold-Out Method原始数据分成两组，一组训练集，一组验证集，利用训练集训练分类器，验证集验

2014-09-16 10:06:01 1189

原创 Mahout in Action 读书笔记chapter5 让推荐程序实用化

到了这一章就是真刀实枪的开始了。这是一个约会网站，首先需要下载http://www.occamslab.com/petricek/data/libimseti-complete.zip ：这个里面包含了用户对其他人档案的评分，针对评分那个文件，事先经历了数据的预处理：提出了生成评分个数不到20个的用户，还排除了几乎对每个档案都给出相同分值的用户，因为这有可能是垃圾信息和不严肃的评分。还

2014-08-01 16:18:26 1146

原创 Mahout in Action 读书笔记chapter4 进行推荐

这一章主要介绍：1.深入介绍item-based和user-based。2.介绍这两种算法背后的相似性度量。3.在Mahout中实现其他推荐算法，slope-one，基于SVD和基于聚类的算法。1.理解探索基于用户推荐1.1算法过程for(用户u尚未表达的偏好)每个物品i for(对i有偏好的)每个其他用户v 计算u和v之间的相似度s 按

2014-07-11 22:08:40 1196

原创 Mahout in Action 读书笔记chapter3 推荐数据的表示

这一章主要讲解的是在Mahout里面表示和访问推荐程序的相关数据时所用的关键类。Mahout中用于访问数据的关键抽象：DataModel。当用户和物品的数据没有评分和偏好值时，也就是布尔偏好，这个时候需要做的处理。1.偏好数据表示1.1Preference对象一个Prefernence对象表示一个用户对一个物品的偏好，是（用户ID，物品ID，偏好值）的抽象。最有可能

2014-07-11 00:56:58 742

原创 hadoop的版本演变以及其他

以下资料均收集自网上，链接在最下方。1.先贴个Hadoop官方说明先贴出Apache Hadoop官方版本说明（至今2014-07-07）：1.2.X - current stable version, 1.2 release2.4.X - current stable 2.x version0.23.X - similar to 2.X.X but missing NN

2014-07-09 10:27:56 994

原创 Mac os10.9.4下安装Hadoop2.4.0，Mahout的惨痛血泪史

一定要大概浏览完，有个整体的布局才行！写这篇文章花了2天，犯了很多错误，比如hadoop版本，比如配置信息，下次一定要注意，留个完整记录。1.java安装java，去官网上下载，这个没什么好说的。2.Maven2.1安装Maven先从http://maven.apache.org/download.cgi ，下载Maven 3.2.2 (Binary tar.gz)，然后解压，

2014-07-09 09:41:32 2856

原创 Mahout in Action 读书笔记chapter2 推荐系统

1.推荐定义基于用户（user-based）：要找到你可能喜欢的物品，你可以观察与你志趣相投的人喜欢什么。基于物品（item-based）：通过观察其他人的明显偏好，你可以弄清楚哪些东西和你已然喜欢的物品相似。基于内容（content-based）：立足于物品的属性来推荐，但是很难规整为一个框架。Mahout对于基于内容的推荐较少。前两者是协同过滤的返利，也就是仅仅通过了

2014-07-08 21:39:06 725

ericxk