zhangyuming010-CSDN博客

原创【题解】Bitwise AND of Numbers Range

这道题是leetcode上新出的题目，有兴趣做了一下，轻松通过，具体代码如下所示class Solution {public: int rangeBitwiseAnd(int m, int n) { stack m_stack, n_stack; int one_num = 0; int answer = 0; if (m == n) {

2015-04-17 09:31:06 582

原创【题解】Binary Tree Right Side View

这道leetcode最新出的题，貌似也不是很难，用广度优先搜索即可，参考代码如下。class Solution {public: vector rightSideView(TreeNode *root) { vector answer; queue queue, temp_queue; TreeNode * front = 0; if (NULL =

2015-04-03 23:47:38 533

原创【题解】leetcode_Word Frequency

2015-03-22 22:45:04 641

自6月底申请项目到现在9月初撰写项目结题报告，眨眼一瞬间两个半月很快成为过去，在这两个半月的时间里，在不断的看文章和调试代码，首先我得感谢和我一起合作的赖百胜同学与我并肩作战，是他给了我一次次战胜bug的勇气，是他让我感觉到整个项目做下来而不觉得孤单。当然还要感谢intel中国研究院的尹老师，是他指导我们一步步由浅入深地学习spark程序设计，给我们指明研究的方向。最后，必须要感谢CSDN能提供此

2014-09-06 19:05:38 4250 3

原创基于ALS算法的简易在线推荐系统

继前期完成广义线性模型的在线流式机器学习的代码后，我们对spark的mllib中的推荐系统这一部分比较感兴趣，因为推荐系统这一部分在现实生活中也非常实用，尤其是基于地理位置的在线推荐系统目前非常火热，很多商业软件如大众点评，淘点点等都希望能根据用户以往的一些行为和当前所处的地理位置给用户做出最佳的推荐，给用户带来意想不到的惊喜。在推荐系统领域，目前市面上中文的参考书并不多，我们主要学习了目前就

2014-08-31 09:56:57 19223 2

原创在线的PCA算法

1、离线PCAPCA是一种最基本的降维算法，在机器学习中被广泛使用。它是一种线性降维，其基本思想是，对大量的数据，找到其主成分，主成分的个数小于原始数据的维度，然后将原始数据投影到主成分张成的空间中，可减小数据的维度。从上面的描述我们可以总结出：1. 原始数据(x1,x2,x3,…,xn)（列向量）是一个n维的数据，它是在n个基(1,0,0,…,0)，(0,

2014-08-24 15:06:17 4703 2

原创协同过滤算法简析

推荐系统必须有快速反应能力，众所周知，现在网络上充满着各种各样的信息，而且数量相当庞大，并且还在以相当惊人的速度增长，如何在海量的信息中快速的找到我们所需要的信息并快速的反馈给用户，是互联网推荐系统需要考虑的一个十分重要的问题。推荐系统中最核心和关键的部分就是使用的推荐算法，其在很大程度上决定了推荐系统性能的优劣。推荐算法大致可以分为以下几类：1、基于内容的推荐算法（content-based

2014-08-17 10:20:07 3646

原创广义线性模型的流式学习

广义线性模型的流式学习1. 广义线性模型的组成在这篇博客中，我们将介绍机器学习中最常用的一大类模型：广义线性模型。广义线性模型包含线性模型、逻辑斯特回归、岭回归、Lasso等。这几种模型在spark中均有实现，然而，还未有基于spark streaming的流式算法。2. 本文符号假设我们有$n$个数据，分别为，每个数据的维度为k，在广义线性模型中，我们将这n个数据集中到一个矩

2014-08-08 16:58:13 1169

原创 “Spark上流式机器学习算法实现”中期检查报告

从7月初到现在已经快一个月左右了，我们的项目总体进展比较顺利，本次中期检查报告主要分为两部分：前期工作总结和后期展望。一、前期工作总结项目前期我们的工作主要是围绕“基于spark的流式广义线性模型算法实现”这个目标去做的。万事开头难，要实现算法，必须首先得搭建开发环境。1、搭建基于linux和windows的spark和scala的开发环境由于在windows上有支持Scala语言

2014-08-04 09:04:54 2728

原创对spark和scala的进一步学习

在完成尹老师最初给我们布置的基于spark streaming的logistic学习后，我们与尹老师进行了一定的交流。尹老师主要对前期工作的提出了一些意见，如scala程序不规范、对广义线性模型理解不够透彻等问题。我们自己在编程的过程中也发现由于对scala和spark的知识理解的过少，写程序的时候捉襟见肘。因此，尹老师通过邮件给我们发了很多学习材料，希望我们借这个机会深入的学习scala编程语言

2014-08-02 09:05:55 1377

原创基于spark_streaming的logistic流式机器学习

在前期搭建好spark、scala平台和学习基于python的logistic流式机器学习例程后，这一周正式基于spark做一个基于logistic的流式机器学习的实现。一、spark streaming例程首先尝试spark streaming指导手册中自带的例程（链接http://spark.apache.org/docs/latest/streaming-programming-

2014-07-22 09:19:13 3512 3

原创基于python的在线学习logistic回归

在和导师第一次交流后，导师建议我们先从机器学习中最简单的logistic回归开始入手，并学习流式的机器学习算法再将其应用于spark平台上，本文先分析logistic回归的理论依据，再借鉴《机器学习实战》一书中基于python的logistic回归进行介绍，为将算法移植到spark平台上做好准备。一、梯度下降法logistic回归的理论分析Logistic回归用来解

2014-07-15 10:38:10 1970

原创基于spark运行scala程序（sbt和命令行方法）

在前面搭建好scala和spark的开发环境之后，迫不及待地想基于spark运行一下scala程序，于是找到了spark官方网站的链接（http://spark.apache.org/docs/latest/quick-start.html），介绍如何运行scala程序。现将具体的操作步骤详细介绍如下。链接中给出了一个SimpleApp.scala的例程，我们发现sublime这个编辑器对sc

2014-07-11 20:45:42 16739

原创基于linux的spark与scala开发环境搭建

软件配置：操作系统：centos 6.4（如下图）内核版本：2.6.32（如下图）

2014-07-08 20:17:47 6869 1

zhangyuming010的专栏