candice廷-CSDN博客

原创 mapreduce中的sequenceFile类,MapFile解析

在map进行操作之后数据应该存在对应的文件中，一般这里涉及到MapFile和SequenceFile,后者主要是记录key/value的列表信息同时是二进制处理之后的数据，直接看是没有办法的利用命令 hadoop fs -text 文件的位置sequence中有三种不同类型的结构1 未压缩的key/value对2 记录压缩的key/value对，（这里一般是只对valu

2015-09-21 18:35:06 2192

原创广告特征离散化

有一段时间没有写博客了最近都在做一些和广告算法相关的工作，用的模型也是比较大众的lr，主要呃工作还是在特征提取的过程，下面纪录一些心得体会：在预估ctr的过程中，理论上是应该有这么几类特征信息：用户的信息（用户输入的query,包括用户的年龄，消费水平，历史操作行为）广告的特征（商品item的属性，item的流行度，广告商的评级等等）历史的反馈特征（利用历史记录中，已经

2015-06-11 23:55:47 2522

原创 SVD理解和其在PCA,LSI的应用

首先确实是觉得这篇文章写得很好，后面的附录也是非常值得一看整体框架转自http://www.cnblogs.com/LeftNotEasy/archive/2011/01/19/svd-and-applications.html中间穿插一些自己的理解的部分前言： PCA的实现一般有两种，一种是用特征值分解去实现的，一种是用奇异值分解去实现的。在上篇

2015-04-10 13:17:43 2740

原创深入理解EM推导过程

首先都有参考两篇文章：http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.htmlhttp://blog.csdn.net/zouxy09/article/details/8537620觉得他们写的非常好，可以参考，下面的内容也是自己看完了之后的一个整理的过程：1 最大似然概率例子是说测量校园

2015-03-26 19:36:17 4480

原创理解迭代法和优化基础

后面介绍的时候结合另一个博客的内容：http://blog.csdn.net/zouxy09/article/details/8537872 个人理解因为其实无论什么机器学习算法，最终都要求助于计算机解决，它又表现为在特定函数空间按某优化目标去搜索一个解出来。衡量指标就有误差最小还是性能指标最大吧？那你怎么求它的最小还是最大呢？求导，有拉格朗日？是没错，但他们能使用的本

2015-03-25 18:37:18 11095 1

原创机器学习Python实现AdaBoost

adaboost是boosting方法多个版本中最流行的一个版本，它是通过构建多个弱分类器，通过各个分类器的结果加权之后得到分类结果的。这里构建多个分类器的过程也是有讲究的，通过关注之前构建的分类器错分的那些数据而获得新的分类器。这样的多个分类器在训练时很容易得到收敛。本文主要介绍了通过单层决策树构建弱分类器，同理，也可以用其他的分类算法构建弱分类器。boost 算法系列的起源来自

2015-03-18 15:12:57 12860

原创数据库 B树 B+树

在数据库的索引中，一般是利用B树或者B+树进行检索和查询介绍一下在两种数据结构中数据的查询方式：1)B树　　B树中每个节点包含了键值和键值对于的数据对象存放地址指针，所以成功搜索一个对象可以不用到达树的叶节点。　　成功搜索包括节点内搜索和沿某一路径的搜索，成功搜索时间取决于关键码所在的层次以及节点内关键码的数量。　　在B树中查找给定关键字的方法是：首先把

2015-03-10 16:39:25 1573

原创 SVM支持向量机-拉格朗日，对偶算法的初解

许多地方得SVM讲得都很晦涩，不容易理解，最近看到一篇不错的博文写得很好，同时加上自己的理解，重新梳理一下知识要点http://blog.csdn.net/zouxy09/article/details/17291543一、引入SVM是个分类器。我们知道，分类的目的是学会一个分类函数或分类模型（或者叫做分类器），该模型能把数据库中的数据项映射到给定类别中的某一个，从而可

2015-03-09 18:32:44 14502 3

原创机器学习 Python实现逻辑回归

# -*- coding: cp936 -*-from numpy import *def loadDataSet(): dataMat = []; labelMat = [] fr = open('testSet.txt') for line in fr.readlines(): lineArr = line.strip().split()

2015-03-06 15:29:37 1910 1

原创机器学习—逻辑回归理论简介

下面是转载的内容，主要是介绍逻辑回归的理论知识，先总结一下自己看完的心得简单来说线性回归就是直接将特征值和其对应的概率进行相乘得到一个结果，逻辑回归则是这样的结果上加上一个逻辑函数这里选用的就是Sigmoid函数，在坐标尺度很大的情况下类似于阶跃函数在确认特征对应的权重值也就是回归系数的时候最常用的方法是最大似然法，EM参数估计，这个是在一阶导数能够有解的前提下如果一阶导数无法

2015-03-06 14:51:19 1866 1

原创机器学习 python实例完成—决策树

决策树学习是应用最广泛的归纳推理算法之一，是一种逼近离散值目标函数的方法，在这种方法中学习到的函数被表示为一棵决策树。决策树可以使用不熟悉的数据集合，并从中提取出一系列规则，机器学习算法最终将使用这些从数据集中创造的规则。决策树的优点为：计算复杂度不高，输出结果易于理解，对中间值的缺失不敏感，可以处理不相关特征数据。缺点为：可能产生过度匹配的问题。决策树适于处理离散型和连续型的数据。在决策树中

2015-03-05 16:02:42 4948 1

原创机器学习算法与Python实践—k近邻（KNN）

机器学习算法与Python实践之（一）k近邻（KNN）参考http://blog.csdn.net/zouxy09/article/details/16955347一、kNN算法分析 K最近邻（k-Nearest Neighbor，KNN）分类算法可以说是最简单的机器学习算法了。它采用测量不同特征值之间的距离方法进行分类。它的思想很简单：

2015-03-05 14:56:41 971 1

原创深入剖析智能指针 shared_ptr

在effective C++经常会提到智能指针，这里对shared_ptr进行一个总结：1 简要介绍用法智能指针主要是用于资源管理，当申请一个资源的时候为了保证在离开控制流的时候对应资源应该得到相应的释放，这个时候如果资源对应一个类，在构造类的时候进行资源的分配（也就是书中经常提到的Resource Acquisition Is Initialization RAII），在对象离开作用域

2015-01-13 15:21:43 1635 1

转载深度解析京东个性化推荐系统演进史

在电商领域，推荐的价值在于挖掘用户潜在购买需求，缩短用户到商品的距离，提升用户的购物体验。京东推荐的演进史是绚丽多彩的。京东的推荐起步于2012年，当时的推荐产品甚至是基于规则匹配做的。整个推荐产品线组合就像一个个松散的原始部落一样，部落与部落之前没有任何工程、算法的交集。2013年，国内大数据时代到来，一方面如果做的事情与大数据不沾边，都显得自己水平不够，另外一方面京东业务在这一年开始飞

2017-12-07 11:45:05 930

转载 ELK介绍安装

大纲：一、简介二、Logstash三、Redis四、Elasticsearch五、Kinaba一、简介1、核心组成ELK由Elasticsearch、Logstash和Kibana三部分组件组成；Elasticsearch是个开源分布式搜索引擎，它的特点有：分布式，零配置，自动发现，索引自动分片，索引副

2017-05-11 21:18:02 800

原创 spark上手系列一（常见问题，样例演示）

spark实例在现有的机器上完成的配置省略安装的过程，目前机器上安装的路径是 /opt/spark，记为SPARK_HOME=/opt/spark问题1：找不到对应的host机器 java.net.UnknownHostException: bjzw_102_229: bjzw_102_229 at java.net.InetAddress.getLocalHost(InetAddres

2016-11-30 11:33:02 1801

转载消息队列-Kafka介绍

在现有的工程项目中，经常需要对用户的实时log进行处理，实时log主要是通过kafka进行记录，分两个部分，一部分通过kafka进行切片后存储在hdfs中，另一部分也可以提供实时的kafka数据，方便实时的处理，因此先简单介绍一下kafka的基本的工作原理消息队列：消息队列技术是分布式应用间交换信息的一种技术。消息队列可驻留在内存或磁盘上, 队列存储消息直到它们被应用程序读走。通过消息

2016-11-25 20:09:05 2142

原创 mac配置tensorflow

1 安装Homebrewruby -e “$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)” 最后显示,基本就没问题了==> Next stepsRun `brew help` to get startedFurther documentation: https://git.io/br

2016-09-17 21:57:58 736

转载理解 LSTM 网络

这是看到的一篇翻译的很扎实的文章，对LSTM的基础框架有了清晰的了http://www.jianshu.com/p/9dc9f41f0b29Recurrent Neural Networks人类并不是每时每刻都从一片空白的大脑开始他们的思考。在你阅读这篇文章时候，你都是基于自己已经拥有的对先前所见词的理解来推断当前词的真实含义。我们不会将所有的东西都全部丢弃，然后用空白的大脑进

2016-09-17 17:25:31 584

原创将eclipse变得更加漂亮

一直没有时间搞一下自己的电脑，作为程序员，默认配置真的是不能忍受 1 在eclipse下安装vim的插件，让手指飞起来，vim的插件有三种，分别是Vrapper; eclim;viplugin；具体的安装方式参考http://blog.csdn.net/fatal360/article/details/12321613 我直接选用最简单的，help->install new software中i

2016-09-17 15:21:50 1417

原创 hadoop+maven工程伪分布下实例运行

首先希望能够把本地的一些资源能够上传到hdfs当中，利用伪分布的格式分析工程的运行情况：执行put操作的时候出错 hadoop报错：could only be replicated to 0 nodes, instead of 1 出现错误之后利用jps查看已经启动的节点但是发现datanode没有启动，因此stop-all所有的节点，重新格式化namenode节点，然后重新进行启动就可以了

2015-09-18 16:58:56 684

原创 mac下 eclipse+hadoop2.6.0完全配置，实例验证

最近开始自己搞hadoop实战的一些东西，之前其实已经接触了很久的mapreduce的一些方法，也写了比较多的算法了但是一直没有很理论的研究过，准备在这个月里面完整的记录一下这方面的理论知识简述安装配置过程首先我的电脑是安装的hadoop版本是2.6下载地址网上很多我就不写了eclipse的版本安装配置的过程就不说了，主要是首先安装jdk,然后安装hadoo

2015-09-17 21:13:51 856

原创 Longest Consecutive Sequence 数组连续数字的情况

Longest Consecutive SequenceGiven an unsorted array of integers, find the length of the longest consecutive elements sequence.For example,Given [100, 4, 200, 1, 3, 2],The longest consecu

2015-08-30 21:36:16 586

原创 Contains Duplicate

主要是寻找数组中是否有相等数字的题目在前面已经有一道题目，没有记录是数组中都是两个的数字，选择一个只有一个出现的数字，最简单的方法就是将所有的数字进行异或的过程，最后剩下的情况就是需要求的数据下面的三个题目都是和数组有关的，自己有的最多的方法就是使用set和map进行记录的过程Contains DuplicateGiven an array of integers,

2015-08-29 17:39:51 744

转载 BP神经网络－详解

学习是神经网络一种最重要也最令人注目的特点。在神经网络的发展进程中，学习算法的研究有着十分重要的地位。目前，人们所提出的神经网络模型都是和学习算法相应的。所以，有时人们并不去祈求对模型和算法进行严格的定义或区分。有的模型可以有多种算法．而有的算法可能可用于多种模型。不过，有时人们也称算法为模型。自从40年代Hebb提出的学习规则以来，人们相继提出了各种各样的学习算法。其中以在1986年

2015-08-28 11:33:53 1977

原创 bitMap算法

这也是比较经典的算法之一在存储一些比较大的数据时十分有用，但是在使用的过程中，必须十分注意的就是数据的最大值，因为这个值决定了存储的内存，在比较高效的结构中还有hash在这个过程中，最好首先估计需要的内存的量在所有具有性能优化的数据结构中，我想大家使用最多的就是hash表，是的，在具有定位查找上具有O(1)的常量时间，多么的简洁优美，但是在特定的

2015-08-27 22:09:34 636

Given an array of integers, find two numbers such that they add up to a specific target number.The function twoSum should return indices of the two numbers such that they add up to the target, where in

2015-08-02 16:49:46 710

原创 effective stl(容器部分总结)

还是很喜欢effective部分的书，看了好几遍，这里把stl中和容器相关的一些基本的注意的点进行介绍总结，之后对迭代器等进行总结1 对序列容器中需要逐个删除的时候，不能像关联容器那样事先对迭代器进行＋＋操作，因为删除一个迭代器，会使他自己无效，后面的迭代器也无效，所以应该保存删除erase返回的下一个指针的值。而关联容器中并不会导致后面的迭代器无效的情况2 在stl中如果对容器内对象

2015-08-01 17:21:34 1004

原创 *Lowest Common Ancestor of a Binary Tree解析

Lowest Common Ancestor of a Binary Tree Total Accepted: 6162 Total Submissions: 23311 My Submissions Question Solution Given a binary tree, find the lowest common ancestor (LCA) of two given nodes in

2015-07-26 17:06:46 873

原创推荐系统－实战总结

推荐系统实战这周看了推荐系统实战这本书，其中基本上介绍的比较全面，但是每一部分并没有十分深入，深入的精华全部都在下方的备注当中，备注中有很多的论文，可以进行进一步的学习。首先回顾一下一些框架信息，在专门思考其中几个重要的部分：3种联系用户和item的推荐方式：1 根据用户的历史行为，表达过反馈的item进行item的预测，传统的itemCF2 根据用户的历史

2015-07-05 22:17:19 2982

转载推荐广告系统—CTR在业务层面的意义

转自：http://www.yewen.us/blog/2013/05/why-predict-ctr/http://www.yewen.us/blog/category/machine-learning/介绍了在广告推荐系统中CTR的重要性，以及如何在CTR的基础上做到广告相关性用户体验，和广告收入最大化的方法。很明了，值得一看：背景从搜索广告开始

2015-04-26 23:59:15 4524

原创广告推荐系统—CTR&LR模型评价

“计算广告学”中重要的一个子集——转化率预估（Conversion Modeling）广告行业内常见的商业模式有四种（图1）：1） CPM，按展现付费；2）CPC，按点击付费；3）CPA，按转化付费；4）CPS，按销售分成。容易理解，广告主最欢迎CPA模式，因为这种模式的广告投放效率最高，广告主不必为无效的展现和点击买单。然而，业内做CPA的广告网络（Ad Network）并不多，主要原因是转

2015-04-26 23:23:01 17043

原创广告推荐系统-逻辑回归问题导出

在广告推荐系统中，利用用户和广告之间的信息作为预测的特征预测的过程其实就是一个二分类的问题，主要就是判定一个用户对这个广告点击或者是不点击的概率是多少而这个过程是一个伯努利函数，整个过程是一个伯努利分布而在逻辑回归中主要是在线性回归的基础上利用了一个逻辑函数sigmod，而为什么要用这个函数，逻辑回归与线性回归之间的关系：1 广义线性模型：指数家

2015-04-26 16:41:34 5007

原创广告推荐系统-CTR&LR背景

刚开始接触广告推荐系统，对理论知识还处在一个学习的阶段，看一些资料，这里主要是对看的一些知识点的总结和进一步理解：http://blog.csdn.net/mytestmy/article/details/18987247广告生态系统：这一系列中的博客主要介绍广告系统的生态环境，和广告推荐的流程主要描述广告业的发展，目前主要是将用户的需求进行统一在DSP(deman

2015-04-26 15:45:02 5797

转载最大似然概率和后验概率的区别

极大似然估计和贝叶斯估计分别代表了频率派和贝叶斯派的观点。频率派认为，参数是客观存在的，只是未知而矣。因此，频率派最关心极大似然函数，只要参数求出来了，给定自变量X，Y也就固定了，极大似然估计如下所示:D表示训练数据集，是模型参数相反的，贝叶斯派认为参数也是随机的，和一般随机变量没有本质区别，正是因为参数不能固定，当给定一个输入x后，我们不能用一个确定的y表示输出结

2015-04-22 10:32:56 1531

原创 LeetCode—Merge Two Sorted Lists融合两个有序单链表

首先两个单链表是有序的在融合两个单链表的时候，如果想到的是在一个序列上进行增减，那么会非常麻烦这里一定要单独开一个序列头进行存储，不一定需要开辟内存，主要是一个概念其实方法感觉和归并算法的merge都是一个概念/** * Definition for singly-linked list. * struct ListNode { * int val; * L

2015-04-15 16:02:58 715

原创大数的加法，乘法，全排列实现

打印1到最大的n位数：这里一个很重要的概念就是n位数，不知道n为多大，那么需要用一个字符来表示一个大数这里用string来表示大数，为了打印的时候方便，这里需要模拟一个字符的加法操作另外，之前实现过大数的乘法，异曲同工：http://blog.csdn.net/xietingcandice/article/details/44729323#include#incl

2015-04-15 11:00:06 700

原创 LDA算法总结

主要是参考了文章http://www.cnblogs.com/LeftNotEasy/archive/2011/01/08/lda-and-pca-machine-learning.htmlhttp://www.cnblogs.com/jerrylead/archive/2011/04/21/2024384.htmlhttp://www.cnblogs.com/jerrylea

2015-04-13 15:04:30 5470 1

原创 LeetCode—Reverse Bits ，1 Bit和数字的二进制情况相关

https://leetcode.com/problems/reverse-bits/Reverse bits of a given 32 bits unsigned integer.For example, given input 43261596 (represented in binary as 00000010100101000001111010011100), ret

2015-04-12 23:57:31 851

原创 LeetCode—House Robber 寻找数组不相邻组合最大值DP

https://leetcode.com/problems/house-robber/题目设计了一个抢劫犯的情景，其实就是求数组中不相邻数据进行组合得到的最大值举一个例子假设数据： 8 3 6 15 4 9 7 10那么首先可能选取 8 ， 3每一个数字的选取都是根据他的前两个数字，前三个数字得到的最大值进行选择，等到6的时候考虑前面只能和8组合 8，3,14到数字15，

2015-04-12 22:49:32 2320

HEVC残差系数编解码代码详解

判断一点是否在三角形内

空空如也