自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 资源 (1)
  • 收藏
  • 关注

转载 分析的一般步骤浓缩精华版

一、数据第一步:数据准备:(70%时间)获取数据(爬虫,数据仓库)验证数据数据清理(缺失值、孤立点、垃圾信息、规范化、重复记录、特殊值、合并数据集)使用python进行文件读取csv或者txt便于操作数据文件(I/O和文件串的处理,逗号分隔)抽样(大数据时。关键是随机)存储和归档第二步:数据观察(发现规律和隐藏的关联)单一变量:点图、抖动

2016-05-19 17:31:44 638

转载 数据化运营需要的四个层次

数据的重要性已经被越来越多的公司、个人所熟知与接受,甚至于有过犹不及之势头。大数据的概念满天飞,似乎一夜之间人人都在谈论大数据,见了面不用大数据打招呼,好像就不是在数据圈子里混的了。那么,被外界传得神乎其神的数据,到底可以在哪些方面促进业务的腾飞?或者换种说法,业务对数据有哪些层次的需求?数据在哪些地方能够帮助业务?     结合笔者多年的工作经验以及对数据与业务的理解,业务对数据的需求归

2016-05-19 17:26:39 10029

转载 R语言十二本书

原文:http://www.r-bloggers.com/lang/chinese/1224以前人的烦恼是没有书可读,现在人的烦恼是书太多了。关于R语言的书已经出版很多了,博主大约读过其中的四十多本,但是书在精,而不在多,学在透,而不在速。把有限的时间放到无限的书海中,这不是阅读的真意。本着造福学习者的角度,博主精选出十二本R书。什么是好书的标准?我以为是:有案例,有代码,有习题,有讲解,逻辑

2014-03-21 15:24:48 1194

原创 互联网为什么会产生寡头

BAT三大互联网巨头,基本上垄断了中国的互联网。不仅在中国,美国的互联网也是由几个巨头所控制,出奇地相似。为什么互联这样一个高度开头,高度竞争的环境,会出现寡头?

2014-03-17 23:29:16 3052

原创 几种常见距离算法小结

总结数据挖掘常用到的距离算法,以及应用场景。包括欧拉距离、Pearson距离、杰卡德距离、余弦距离、曼哈顿距离、汉明距离、马氏距离、切比雪夫距离。

2014-03-17 22:52:36 10978

原创 浅谈数字签名

数字签名利用的是非对称加密算法的特点,例如A拥有密钥,B拥有公钥,A要写一张欠条给B:1.  密钥加密只有公钥才能解密A使用密钥对文件进行加密的过程就叫数字签名。B拿到文件后,因为只有A的密钥才能加密,因此不能对文件内容进行修改,这叫防篡改。A把文件发给B以后,B就可以证明该文件确实是A给的,这叫防抵赖。2.  公钥加密只有密钥才能解密B为了证明确实A是本人,于是把一文件用

2014-02-22 23:41:01 831

原创 求n!尾部包含0的个数

<br /> 题目: 对任意输入的正整数N,编写C程序求N!的尾部连续0的个数,并指出计算复杂度。如:18!=6402373705728000,尾部连续0的个数是3。  (不用考虑数值超出计算机整数界限的问题)  <br /> <br />先考虑一种简单的情况, x * y 的尾部有几个0?<br />一个简单的方法就是先求出z=x*y的值, 再去查探z尾部有多少个0. <br />但是如果x * y的值很大, 导致z溢出呢?<br />把x分解为(x1 * x2 *x3 * x4 ... xn), y分解

2010-10-23 13:20:00 1247

原创 求数组中第K个大小的数

<br />百度的一道笔试题目, 如下:<br />         写一段程序,找出数组中第k大小的数,输出数所在的位置。例如{2,4,3,4,7}中,第一大的数是7,位置在4。第二大、第三大的数都是4,位置在1、3随便输出哪一个均可。<br />函数接口为:int find_orderk(const int* narry,const int n,const int k)<br />         一个简单的解法是先用快排把数组进行排序, 然后再找出第K大的数. 时间复杂度为O(nlog(n))<b

2010-10-23 08:42:00 1590

转载 最大子矩阵问题

<br />http://www.cnblogs.com/fll/archive/2008/05/17/1201543.html<br /> <br />最大子矩阵问题:<br />问题描述:(具体见http://acm.pku.edu.cn/JudgeOnline/showproblem?problem_id=1050)<br />   给定一个n*n(0<n<=100)的矩阵,请找到此矩阵的一个子矩阵,并且此子矩阵的各个元素的和最大,输出这个最大的值。<br />Example:<br

2010-10-21 11:21:00 585

转载 从给定的文本中,查找其中最长的重复子字符串的问题

<br />原文地址 http://dev.firnow.com/course/3_program/c++/cppjs/2008324/106118.html<br />对于类似从给定的文本中,查找其中最长的重复子字符串的问题,可以采用“后缀数组”来高效地完成此任务。后缀数组使用文本本身和n个附加指针(与文本数组相应的指针数组)来表示输入文本中的n个字符的每个子字符串。<br />    首先,如果输入字符串存储在c[0..n-1]中,那么就可以使用类似于下面的代码比较每对子字符串:<br />  

2010-10-15 01:32:00 782

an introduction to information reterieval(英文版)

信息检索的经典书籍,不解释了。英文版,2009年4月

2010-11-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除