自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(49)
  • 资源 (12)
  • 收藏
  • 关注

转载 数据特征的选取

图像特征的提取和选择是图像处理过程中很重要的环节,对后续图像分类有着重要的影响,并且对于图像数据具有样本少,维数高的特点,要从图像中提取有用的信息,必须对图像特征进行降维处理,特征提取与特征选择就是最有效的降维方法,其目的是得到一个反映数据本质结构、识别率更高的特征子空间 。一.原始特征提取1.图像的基本特征颜色特征形状特征纹理特征空间关系特征2.基于颜色特征的提取

2017-09-14 14:50:36 15298

转载 如何通过数据驱动业务发展

如何通过数据驱动业务发展人人都是产品经理百家号 09-07 13:33本文根据刘立明在起点学院线下沙龙分享的课程整理而成,加入起点学院在线社员(或复制报名链接:http://t.cn/R53OsvD到浏览器中详细了解),即可观看本课程视频回放及尊享300门视频课程学习特权。题图:刘立明,腾讯大数据高级产品经理本文大纲如下:

2017-09-07 14:52:21 2710

转载 以客户为中心进行数据挖掘

http://www.mahaixiang.cn/sjfx/997.html

2017-09-07 14:49:47 938

转载 特征工程-特征离散化

连续特征的离散化:在什么情况下将连续的特征离散化之后可以获得更好的效果?Q:CTR预估,发现CTR预估一般都是用LR,而且特征都是离散的。为什么一定要用离散特征呢?这样做的好处在哪里?A:在工业界,很少直接将连续值作为逻辑回归模型的特征输入,而是将连续特征离散化为一系列0、1特征交给逻辑回归模型,这样做的优势有以下几点:0、 离散特征的增加和减少都很容易,易于模型的

2017-09-07 14:40:19 667

转载 机器学习 必读的课程内容

https://www.leiphone.com/news/201610/Oqndr7PXFB9BRI9p.html

2017-09-07 14:35:37 381

转载 机器学习-特征提取

第4步:特征工程或许比选择算法更重要的是正确选择表示数据的特征。从上面的列表中选择合适的算法是相对简单直接的,然而特征工程却更像是一门艺术。主要问题在于我们试图分类的数据在特征空间的描述极少。利如,用像素的灰度值来预测图片通常是不佳的选择;相反,我们需要找到能提高信噪比的数据变换。如果没有这些数据转换,我们的任务可能无法解决。利如,在方向梯度直方图(HOG)出现之前,复杂的视觉任务

2017-09-07 14:28:55 2041

转载 机器学习-文本特征选择

一、课题背景概述文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。文本挖掘的对象是海量、异构、分布的文档(web);文档内容是人类所使用的自然语言,缺乏计算机可理解的语义。传统数据挖掘所处理的数据是结

2017-09-07 14:26:41 3092

转载 机器学习-特征选择

文章来自我的微信公众号CodingRush,欢迎扫码关注。很多时候我们需要做特征选择,一方面是因为我们希望模型能够使用好的特征拟合数据,另一方面多余的特征会导致模型复杂度高,降低模型的泛化能力。最常见的例子就是,文本分类,我们不可能把所有的词都作为特征,而是希望选一些“好的”词作为特征进入到模型。下面我们简单的谈一谈常用的几种特征选择方法。1、Fre

2017-09-07 14:25:45 357

转载 特征选择的一些方法

https://wenku.baidu.com/view/12929b5b8762caaedd33d4f2.html

2017-09-07 14:17:16 302

转载 数据分析中的辛普森悖论

在某公司工作时,曾发现过一个诡异的事情。  当时正在做公司整体的战略规划,发现公司客户各年龄段的客单价都是呈上升趋势,可是整体客单价却出现下滑。  今天听了公司内部的一个分享课才知道, 原来这个就是 辛普森悖论。  人懒,懒得自己整理数据和文字,就直接转载网上搜索来的博客   辛普森悖论是一种统计现象,实验群体由具有不同统计特性的子群体组成,观察到的现象是总

2017-09-04 11:14:27 2164

转载 数据仓库建模参考

https://wenku.baidu.com/view/b6bd5ccb4028915f804dc294.html宽表的思考一 宽表的优点1.      宽表浅意上的好处在当前这个项目中,大量使用了宽表,字段超过一百五十个字段的宽表有五张,分别是客户机构级信息表、客户客户经理级信息表、客户经理信息表、集团客户信息表、战略客户信息表。从上面的表名

2017-09-04 10:04:36 2232

转载 数据仓库的架构-参考

数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。其实数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。因此数据仓库的基本架构主要包含的是数据流入流出的过程,可以分为三层——源数据、数据仓库、数据应用:  从图中可以看出数据仓库的

2017-09-01 14:50:11 993

转载 用户画像—设计参考

https://wenku.baidu.com/view/9aaa543a6294dd88d1d26b4e.htmlhttp://www.infoq.com/cn/articles/4-billion-mobile-device-user-portrait-and-tag-architecturehttp://cdc.tencent.com/2011/12/19/%E5%88%9B

2017-09-01 10:57:43 2684

转载 用户画像-方法

为了让团队成员在研发过程中能够抛开个人喜好,将焦点关注在目标用户的动机和行为上,Alan Cooper提出了Persona这一概念。“赢在用户”这本书将其翻译为“人物角色”,在腾讯我们习惯了使用“用户画像”这个术语。表达的意思一样,是真实用户的虚拟代表,是在深刻理解真实数据的基础上得出的一个的虚拟用户。我们通过调研去了解用户,根据他们的目标、行为和观点的差异,将他们区分为不同的类型,然后每种类型中

2017-09-01 10:17:37 1497

转载 用户画像-构建步骤

有一句话是,千万人撩你,不如一人懂你,这句话在互联网圈可以说成是,真正的了解用户,才能得到用户,所以,用户画像的重要性不言而喻。什么是用户画像?用户画像可以简单理解成是海量数据的标签,根据用户的目标、行为和观点的差异,将他们区分为不同的类型,然后每种类型中抽取出典型特征,赋予名字、照片、一些人口统计学要素、场景等描述,形成了一个人物原型 (personas)。企业在

2017-09-01 10:11:30 9777

转载 用户画像-如何设计

推荐星级:★★★★★  ▌阅读时间:12min  ▌推荐理由:用户画像分析是PM的基本能力,也是优秀运营人的必会技能。你还不会?进来学啊!  本期干货铺内容大纲:  Step 1、理论科普篇——快速了解用户画像  什么是用户画像?【干货x2】  为什么要做用户画像分析?【干货x1】  用户画像构建的基本流程【干货x1】  Step

2017-09-01 10:03:49 6075

转载 数据仓库-架构参考

数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。其实数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。因此数据仓库的基本架构主要包含的是数据流入流出的过程,可以分为三层——源数据、数据仓库、数据应用:  从图中可以看出数据仓库的

2017-09-01 09:51:06 760

转载 解耦-大宽表

数据仓库应用中,宽表模型以结构简单,模型容易理解,数据访问效率等优势,被业界广泛采用。所谓宽表就是,基于某个实体分析对象而建立的一个逻辑数据体系,由实体的维度、描述信息、以及基于这个实体一系列度量组成。它是一个逻辑的概念,在物理实现中不可能就针对一个实体对象建立一个大宽表。因为这样,对于,刷新效率,容错能力,扩展能力都是一个很大的挑战,如何设计和组织宽表的体系结构呢?其实,我们回到软件设计

2017-08-31 19:42:12 7319 5

转载 数据仓库-模型

Technorati 标签: 数据仓库,模型设计数据仓库的模型设计A. 数据建模方法论数据仓库模型设计遵循“自顶向下、逐步求精”的设计原则。模型设计分为三个阶段:1,概念模型对业务的范围和使用,从高度上进行抽象概括,也就是划分主题域。一般划分为8个主题域:客户、服务、服务使用、账务、结算、资源、客服、营销为什么要划分主题域?

2017-08-31 19:38:52 1648

转载 阿里的数仓

干货:解码OneData,阿里的数仓之路标签: 数据仓库架构2017-04-26 10:53 249人阅读 评论(0) 收藏 举报 分类:工作(47) 目录(?)[+]摘要: 据IDC报告,预计到2020年全球数据总量将超过40ZB(相当于4万亿GB),这一数据量是2013年的10倍。正在“爆炸式”增长的数据的潜在巨大

2017-08-31 19:26:45 4081

转载 数据分析展现选图

2017-08-21 14:01:18 330

转载 EA-企业架构

在《年度总结和计划:去年4个1,今年5个1》中说过今年我准备在项目组引入一个架构方TOGAF。工业和信息化部副部长杨学山在一次内部座谈时提到:与西方发达国家比,国内的信息化建设在硬件方面已经不相上下,在软件方面有5年的差距,在信息化管理方面有大概10年的差距,在企业架构方面则有20年的差距。而企业架构离不开我们IT技术领域的架构师的支持,为了让更多人了解企业架构,我将会写一系列相关的blog与大家

2017-08-12 06:28:20 12004 1

转载 如何快速全面建立自己的大数据知识体系

摘要:很多人都看过不同类型的书,也接触过很多有关大数据方面的文章,但都是很零散不成系统,对自己也没有起到多大的作用,所以作者第一时间,带大家从整体体系思路上,了解大数据产品设计架构和技术策略。作者经过研发多个大数据产品,将自己形成关于大数据知识体系的干货分享出来,希望给大家能够快速建立起大数据产品的体系思路,让大家系统性学习和了解有关大数据的设计架构。很多人都看过不同类型的

2017-08-08 13:38:48 223

转载 用户画像

用户画像是一个挺新颖的词,最初它是大数据行业言必及之的时髦概念。现在我们运营谈及用户画像,它也是和精准营销、精细化运营直接钩挂的。这篇文章主要讲产品和运营角度的用户画像。希望看完后,解决你一切关于用户画像的疑问。什么是用户画像用户画像一点也不神秘,它是根据用户在互联网留下的种种数据,主动或被动地收集,最后加工成一系列的标签。比如猜用户是男是女,哪里人,工资多少,有没有谈恋爱

2017-08-08 13:36:52 766

转载 数据分析工具—矩表

报表,从来都是商业领域的主角,而随着商业智能(BI),大数据时代的到来,报表更加成为了业务系统的核心组成。因此传统的格式已经无法满足新的需求,最终用户期望在一张报表中看到更多的汇总、分类信息,而往往这些汇总和分类信息是不固定的,比如下面这张报表类似上图中的复杂表头和分类汇总,用传统的报表已经无法完成。矩表(Table+ Matrix)就是专为此类报表需求而产生的强大工具,无论你是文

2017-08-08 11:50:53 2075

转载 浅谈数据仓库建设中的数据建模方法

周三保([email protected]) IBM 软件部信息技术专家.简介: 本文的主要内容不是介绍现有的比较流行的主要行业的一些数据模型,而是将笔者在数据仓库建设项目中的一些经验,在这里分享给大家。希望帮助大家在数据仓库项目建设中总结出一套能够合乎目前业界规范的,满足大部分行业数据仓库建设标准的一种方法。所谓水无定势,兵无常法。不同的行业,有不同行业的特点,因此,从业务角度看

2017-08-08 11:49:21 346

转载 相关性学习—python实现Pearson相关系数

Discussion of Similarity MetricsPearson Correlation CoefficientAnalysisUnlike the Euclidean Distance similarity score (which is scaled from 0 to 1), this metric measures how highly correla

2017-08-02 18:03:26 4383

转载 相关性学习-皮尔逊相关系数2

https://segmentfault.com/q/1010000000094674皮尔逊相关系数理解有两个角度其一, 按照高中数学水平来理解, 它很简单, 可以看做将两组数据首先做Z分数处理之后, 然后两组数据的乘积和除以样本数Z分数一般代表正态分布中, 数据偏离中心点的距离.等于变量减掉平均数再除以标准差.(就是高考的标准分类似

2017-08-02 17:59:01 1449

转载 相关性学习-皮尔逊相关系数

作者:TimXP链接:https://www.zhihu.com/question/19734616/answer/117730676来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。要理解Pearson相关系数,首先要理解协方差(Covariance),协方差是一个反映两个随机变量相关程度的指标,如果一个变量跟随着另一个变量同时变大或者变小

2017-08-02 17:44:48 2841

转载 相关性学习

1、定义相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。相关性不等于因果性,也不是简单的个性化,相关性所涵盖的范围和领域几乎覆盖了我们所见到的方方面面,相关性在不同的学科里面的定义也有很大的差异 2、应用领域网络分析 财务分析 经济分析 统计分析 数学分析

2017-08-02 17:39:37 4195

转载 Cohort analysis

99% 创业常识|简单好用的 Cohort Analysis,认清公司真相2016-05-11 19:52上周五我们发出了新栏目「99% 创业常识」的第一篇:《CAC、LTV、PBP》,反响相当热烈。但是,由于小编鬼使神差地没有设置留言功能,我们并不知道各位看官的阅读感受和建议,这次你们可以任性地评论了。重要的话再说一遍:做这个栏目的想法源于与创业者的日常交流,我们发现

2017-07-21 13:14:02 2547

原创 大数据下的用户画像

2017-07-20 10:43:53 910

原创 hadoop 文件管理

hadoop之HDFS文件操作常有两种方式,命令行方式和JavaAPI方式一、文件基础管理1、命令行hadoop fs -cmd hadoop fs -mkdir  /usr/root hadoop fs -put README.txt  使用Hadoop的命令put将本地文件README.txt送到HDFShadoop fs -lsha

2017-07-14 14:47:37 475

原创 spark-安装

1、下载Spark 从源代码直接编译 github下载预编译版本 http://spark.apache.org/downloads.html 2、路径说明README.md包含用来入门 Spark的简单的使用说明。bin包含可以用来和 Spark进行各种方式的交互的

2017-07-14 14:14:47 162

原创 spark-高手进阶

1、熟练掌握scala2、精通spark平台提供给开发者api3、深入spark内核4、掌握spark核心框架应用5、做商业级别的spark项目

2017-07-14 11:35:00 550

原创 spark-基础框架

spark特点1、计算引擎生态Spark Streaming1、微批量方式的计算和处理,可以用于处理实时的流数据Spark SQL1、Spark SQL可以通过JDBC API将Spark数据集暴露出去Spark MLlib可扩展的Spark机器学习库,由通用的学习算法和工具组成Spark GraphX:图计算和并行图计算的新的(alpha)Spark

2017-07-13 17:03:49 531

原创 数据科学入门—线性代数

# -*- coding: iso-8859-15 -*-from __future__ import division # want 3 / 2 == 1.5import re, math, random # regexes, math functions, random numbersimport matplotlib.pyplot as plt # pyp

2017-07-12 13:49:20 528

原创 数据科学入门—数据可视化

a

2017-07-11 17:03:55 395

转载 数据科学—数据科学在各行各业中的差异

只有信息技术行业的数据科学家才以开发人员为主,但更注重数据分析而不是技术创新的行业(比如教育/科学和医疗保健)则以研究人员为主,而强调通过创新思维解决问题的行业(比如专业服务和通信)则以创意人士为主。满意度高的行业(教育/科学:77%的人拥有高级学位)比满意度低的行业(广告/媒体/娱乐:71%的人拥有高级学位)拥有更多的高学历数据科学家。虽然数据科学家从事于各行各业,但他们中的很多

2017-07-07 16:43:45 331

转载 数据科学—数据科学行业的8个关键角色

数据科学家 The Data Scientist数据科学家很有可能是如今你能得到的最热门的头衔之一,并且年薪平均为11万8709美元,他们是数据科学行业收入最高的人之一。数据科学家需要会利用最新的科技手段处理原始数据,进行必要的分析,并以一种信息化的方式将获得的知识展示给他的同事。数据分析师 The Data Analyst如R、Python和SQL这样

2017-07-07 16:24:06 742

财务报表的数据分析表格(非常全面)

财务报表的数据分析表格(非常全面)

2014-01-13

让Oracle跑得更快2

让Oracle跑得更快基于海量数据的数据库设计与优化].谭怀远.第2版

2013-02-22

Oracle并发问题处理

Oracle并发问题处理Oracle并发问题处理

2011-03-04

熟知Oracle字符集

熟知Oracle字符集,深入理解Oracle字符集问题,

2011-03-04

DB2资料\DB2认证考试(730,731,734).

DB2资料\DB2认证考试(730,731,734).DB2资料\DB2认证考试(730,731,734).

2010-02-23

CCNA学习指南CCNA学习指南

CCNA学习指南CCNA学习指南CCNA学习指南

2010-02-23

db2傻瓜1000问

db2傻瓜1000问db2傻瓜1000问db2傻瓜1000问db2傻瓜1000问db2傻瓜1000问db2傻瓜1000问db2傻瓜1000问db2傻瓜1000问db2傻瓜1000问

2009-12-10

DB2 学习资料,入门、、开发基础、系统管理

入门、开发基础、系统管理;Word版本,很好的资料。是学习DB2的入门。值得大家一看,看好了顶起来,以后还会陆续发出

2009-12-10

不安装oracle客户端 连接server方法

不安装oracle客户端 连接server方法 ;经实践证明十分好用!

2009-04-10

Oracle迁移到DB2技术文档

大型关系型数据库的迁移,提供技术资料,oracle--〉db2,学习的好资料

2009-04-08

学习ocp的两本好书

一本OCP考试指南 一本精通oracle10g数据库管理 两本书都十分好,提高很大

2009-04-07

有关oracle10g体系结构篇

很有助于理解oracle10g体系结构,入门篇。 原创心得,还会不断发出

2009-04-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除