自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

lhy55040817的专栏

元方,你咋看捏?

  • 博客(98)
  • 资源 (4)
  • 收藏
  • 关注

转载 大数据可视化工具点评

如今学习应用数据可视化的渠道有很多,你可以跟踪一些专家博客,但更重要的一点是实践/实操,你必须对目前可用的数据可视化工具有个大致了解。以下是Netmagzine列举的二十大数据可视化工具,无论你是准备制作简单的图表还是复杂的图谱或者信息图,这些工具都能满足你的需要。更加美妙的是,这些工具大多免费。  第一部分:入门级工具1.ExcelExcel的图形

2014-02-17 13:38:17 2268

转载 mongo-update

可以根据条件来更新指定的文档,但要注意查询条件的唯一性:> db.tianyc04.remove()> db.tianyc04.insert({name:'tyc',age:20})> db.tianyc04.insert({name:'tyc',age:30})> db.tianyc04.insert({name:'tyc',age:32})> db.tianyc04.f

2013-12-28 11:54:34 3796

转载 如何快速接手一个项目(内部项目或开源项目)

1. 了解项目读相关的文档和文章,起码要知道这个项目是用来干嘛的,有什么样的功能,运行在什么上面(手机,PC,或多平台),发行许可(GPL,Apache或者??),目标格式(应用程序,库,中间件等)等等。通常这些问题在项目的文档,Wiki,FAQ等地方都 能找到。2. 获取源代码这不用多说,没源码你还研究个啥,这个官方文档会讲,通常都是通过SVN或GIT,当然也有把源码打包下载的(

2013-08-27 16:47:24 1182

转载 数据的游戏:冰与火--转载本站文章请注明作者和出处 酷壳 – CoolShell.cn ,请勿用于任何商业用途

我对数据挖掘和机器学习是新手,从去年7月份在Amazon才开始接触,而且还是因为工作需要被动接触的,以前都没有接触过,做的是需求预测机器学习相关的。后来,到了淘宝后,自己凭兴趣主动地做了几个月的和用户地址相关数据挖掘上的工作,有一些浅薄的心得。下面这篇文章主要是我做为一个新人仅从事数据方面技术不到10个月的一些心得,也许对你有用,也许很傻,不管怎么样,欢迎指教和讨论。另外,注明一下,这篇文

2013-07-31 09:50:17 1922

转载 通用权限管理设计 之 数据权限

阅读目录前言初步分析通用查询机制数据权限规则实际应用结语前言前一篇文章《通用权限管理设计 之 数据库设计方案》介绍了【主体】- 【领域】 - 【权限】( who、what、how问题原型 ) 的设计思想本文将对这种设计思想作进一步的扩展,介绍数据权限的设计方案。权限控制可以理解,分为这几种 :【功能权限】:能做什么的问题,如增加产

2013-06-03 11:27:41 985

转载 通用权限管理设计 之 数据库结构设计

一,前言 权限管理系统的应用者应该有三种不同性质上的使用,A,使用权限B,分配权限C,授权权限 本文只从《使用权限》和《分配权限》这两种应用层面分析,暂时不考虑《授权权限》这种。二,初步分析用户和角色 说到权限管理,首先应该想到,当然要设计一个用户表,一个权限表。这样就决定了一个人有什么样的权限。做着做着就会发现这样设计太过繁琐,如果公司里面所有员工都有这样

2013-06-03 11:25:55 727

转载 星型模型与雪花模型

(星形模式是一种多维的数据关系,它由一个事实表(Fact Table)和一组维表(Dimension Table)组成。每个维表都有一个维作为主键,所有这些维的主键组合成事实表的主键。事实表的非主键属性称为事实(Fact),它们一般都是数值或其他可以进行计算的数据;而维大都是文字、时间等类型的数据,按这种方式组织好数据我们就可以按照不同的维(事实表主键的部分或全部)来对这些事实数据进行求和(sum

2013-05-23 17:11:41 968

转载 报表软件等同于BI软件吗?

【IT168信息化】本文主要是一些观点上的碰撞,为了更好的让读者理解,部分地方设置了两个不同的角色进行对话。可能有些乱,不过这不是学术论文,表达一下我们在工作中遇到的一些问题,阐述一下自己的观点,大家多提宝贵意见,也可充分讨论。  一、报表≠BI  很多的人认为,报表就是BI。实际上,报表只是BI的一部分,虽然BI应用的结果通常需要通过报表来展示,但是,BI绝对不仅仅是报表。  其

2013-05-23 16:51:40 1001 1

原创 如何抽取文件夹下的多个数据库文件【eg.SQLite】

由于工作需要,涉及到抽取多个sqlite文件。。考虑到不能写多个sqlite数据库的链接【不确定个数】因此和同事研究解决。1.   新建一个transA:内容如下Get File Names---》Select Values---》Copy rows to result2.  新建一个 transB:内容如下主要是处理sqlite数据库的。。形式不固定。。但是配置sqlite数据库

2013-05-23 13:44:45 1393

转载 Pentaho 之Schame workbench入门实例

Introduction to Mondrian OLAP schemaby Yogaraj Khanal on December 4th, 2011IntroductionThis article demonstrates how you can design Mondrian OLAP Schema using Schema Workbench. I am using My

2013-05-21 14:14:38 3622

转载 数据挖掘 - 分类算法比较

随着计算能力、存储、网络的高速发展,人类积累的数据量正以指数速度增长。对于这些数据,人们迫切希望从中提取出隐藏其中的有用信息,更需要发现更深层次的规律,对决策,商务应用提供更有效的支持。为了满足这种需求,数据挖掘技术的得到了长足的发展,而分类在数据挖掘中是一项非常重要的任务,目前在商业上应用最多。本文主要侧重数据挖掘中分类算法的效果的对比,通过简单的实验(采用开源的数据挖掘工具 -Weka)来验证

2013-05-10 12:11:27 23217 1

转载 用 WEKA 进行数据挖掘,第 3 部分: 最近邻和服务器端库

数据挖掘可被用来将看似无意义的数据转变成有用信息,从中得出的规则、趋势和推断可被用来提高您的业务和收入。本文将讨论最后一种常见的数据挖掘技术,“最近邻”,还会向您展示如何在您的服务器端代码内利用 WEKA Java™ 库以便将数据挖掘技术集成到您的 Web 应用程序内。简介在这个 “用 WEKA 进行数据挖掘” 系列之前的两篇文章中,我介绍了数据挖掘的概念。如果您还未曾阅读过

2013-05-10 12:10:37 1281

转载 用 WEKA 进行数据挖掘,第 2 部分: 分类和群集

数据挖掘是很多技术的共同术语,用以表达从数据中一点点地收集信息并将其转变成有实际意义的趋势和规则来提高您对数据的理解。在本系列 “用 WEKA 进行数据挖掘” 的第 2 部分我们将讨论两种最常见的数据挖掘方法 — 分类和群集 — 利用它们可以对您的数据进行更强大的分析。简介在 用 WEKA 进行数据挖掘,第 1 部分:简介和回归,我介绍了数据挖掘的概念以及免费的开源软件 W

2013-05-10 12:09:57 1258

转载 用 WEKA 进行数据挖掘,第 1 部分: 简介和回归

数据挖掘是技术界的谈论话题,因为各公司都在生成有关其用户的数百万的数据点并在想方设法将该信息转变为收入的增加。数据挖掘是很多技术的共同术语,用以表达从数据中一点点地收集信息并将其转变成有实际意义的东西。本文将向您介绍开源的数据挖掘软件以及用来解析数据的最为常见的一些技术什么是 数据挖掘?您会不时地问自己这个问题,因为这个主题越来越得到技术界的关注。您可能听说过像 Google 和 Ya

2013-05-10 12:08:54 1321

转载 一种科学的思维方式

微软前总裁高群耀说过一句话让我印象深刻,大意是我们努力了那么多年,取得了不小的成就,我相信我们一定做对了一些事情。我觉得能够做对事情的一个 重要前提是,我们想对了一些事情,而要想对事情就需要掌握一些正确的思考方法。  巴菲特和芒格一定不是靠掷筛子下注的,他们比一些人更接近真相的最重要原因是因为他们掌握了更正确的思维方式。 我个人将思考问题分成7个步骤。

2013-05-07 16:52:01 1546

转载 商业智能BI的三个层次-----数据报表、数据分析、数据挖掘

经过几年的积累,大部分中大型的企事业单位已经建立了比较完善的CRM、ERP、OA等基础信息化系统。这些系统的统一特点都是:通过业务人员或者用户的操作,最终对数据库进行增加、修改、删除等操作。上述系统可统一称为OLTP(Online Transaction Process,在线事务处理),指的就是系统运行了一段时间以后,必然帮助企事业单位收集大量的历史数据。但是,在数据库中分散、独立存在的大量数据对

2013-05-07 16:47:05 1260

转载 Apriori算法参数含义

使用了weka安装目录data文件夹下的contact-lenses.arff数据实验结果及分析1. 以其中一组实验为例做详细分析具体参数设置如下图:  结合实验结果阐释下列12个参数的含义1.        car 如果设为真,则会挖掘类关联规则而不是全局关联规则。2.        classindex 类属性索引。如

2013-05-07 16:22:16 7378

转载 一个“玩”数据前辈的职业规划,值得学习和借鉴

我小时候的理想是将来做一名数学家,可惜长大了发现自己天赋不够,理想渐行渐远,于是开始考虑现实,开始做一些人生规划,我一直在思考将来从事何种职业,专注什么样的领域,重新定义着自己的职业理想。我现在的职业理想,比较简单,就是做一名数据分析师。为什么要做数据分析师?在 通信、互联网、金融等这些行业每天产生巨大的数据量(长期更是积累了大量丰富的数据,比如客户交易数据等等),据说到2

2013-04-16 16:44:58 1409

转载 数据科学家面试常见的77个问题

【编者按】随着大数据概念的火热,数据科学家这一职位应时而出,那么成为数据科学家要满足什么条件?或许我们可以从国外的数据科学家面试问题中得到一些参考,下面是中国统计网为大家翻译的数据科学家面试常见的77个问题。下面是77个关于数据分析或者数据科学家招聘的时候会常会的几个问题,供各位同行参考。 1、你处理过的最大的数据量?你是如何处理他们的?处理的结果。 2、告诉我二个分析或者计算机科

2013-04-11 11:29:09 804

原创 Pentaho BI 服务器 每天重启一次的问题解决

工作数据库是mysql Mysql服务器默认的“wait_timeout”是8小时,也就是说一个connection空闲超过8个小时,Mysql将自动断开该connection。There is a solution introduced in the Pentaho forum for this, you can find the thread with the following

2013-04-09 12:14:15 919

转载 sh脚本异常:/bin/sh^M:bad interpreter: No such file or directory

在Linux中执行.sh脚本,异常/bin/sh^M: bad interpreter: No such file or directory。    分析:这是不同系统编码格式引起的:在windows系统中编辑的.sh文件可能有不可见字符,所以在Linux系统下执行会报以上异常信息。     解决:1)在windows下转换:     利用一些编辑器如UltraEdit或EditPlu

2013-04-07 18:06:30 560

原创 linux安装jdk1.7

JDK安装配置1、 下载jdk,本例使用jdk-7u17-linux-x64.rpm2、 查看并修改使jdk-7u17-linux-x64.rpm具有执行权限(我用root安装,默认有执行权限)chmod +x jdk-7u17-linux-x64.rpm3、 卸载旧的版本   1、若之前没有装过,卸载系统自带的jdk版本:       查看自带的jdk

2013-04-07 09:27:34 1790

转载 Customising the Pentaho User Console (PUC)

For the past couple of weeks I have been playing around with customising the Pentaho User Console (PUC) Version 3.5.x and to follow it up I thought I would put together a multi-part post on the topic.

2013-03-28 16:27:10 3915

转载 Emailing Reports from the Pentaho User Console.

With the recent release of Pentaho’s BI Server 3.5.2 and Tom Barber’s (aka magicaltrout) post I thought I would put together a quick tutorial on how to use a new feature of 3.5.2 which allows end

2013-03-28 16:21:20 1324

转载 pentaho开源商业智能平台的搭建

pentaho开源商业智能平台的搭建摘要:pentaho是世界上最流行的开源商务只能软件。它是一个基于java平台的商业智能(Business Intelligence,BI)套件,之所以说是套件是因为它包括一个web server平台和几个工具软件:报表,分析,图表,数据集成,数据挖掘等,可以说包括了商务智能的方方面面。pentaho是世界上最流行的开源商务只能软件。它是一个基于ja

2013-03-26 11:54:01 1236 2

原创 MD5加密认证问题

前几天出现MD5认证问题,同一个字符串,同一个md5加密程序,在本机和服务器上生成的md5不一致。纠结了一阵,后来老大说是机器字符集的问题。。建议统一将字符串转码成utf8格式的。设置好测试通过。原因:java的输入输出都是byte流的,而我们所取到的字符都是java平台自己将byte数据通过平台默认的编码形式将byte转换为String的。知道了原理,那么解决问题也就

2013-03-19 10:27:59 962

转载 IE iframe cookie问题(p3p)

前段时间碰到一个问题,就是在IE下,使用iFrame嵌入页面时,该页面的会话级别的cookie无法写入,导致服务端始终无法获取JSESSIONID,每次都是产生一个新的,使得Session无法使用。当时发生问题的时候是自进行CAS登陆框嵌入,现象就是CAS的lt不更新,一开始以为是iFrame缓存的原因,经过细心的排查发现并不是,然后将想到跨域问题,经过排查发现也不是,甚至怀疑到sprin

2013-03-19 10:12:20 2328

转载 EXCEL制作dashboard仪表盘

一、什么是仪表盘    仪表盘(guage,speedometer,dial chart,dashboard),是模仿汽车速度表的一种图表,常用来反映预算完成率、收入增长率等比率性指标。它简单、直观,人人会看,是商业面板(Dashboard)最主要特征的图表类型。一看到仪表盘,就会使人体验到决策分析的感觉。    在《Excel图表之道》一书中曾介绍了一种模仿制作仪表盘的方法,其思

2013-03-13 15:25:13 18381

转载 【完整的数据分析流程】

此图整理自微博分享,作者不详。一个完整的数据分析流程,应该包括以下几个方面,建议收藏此图仔细阅读。完整的数据分析流程:1、业务建模。2、经验分析。3、数据准备。4、数据处理。5、数据分析与展现。6、专业报告。7、持续验证与跟踪。

2013-03-13 11:32:23 1809

原创 pentaho schema workbench publish error

发布密码和相关信息准确无误的填入后,点击OK报错如下:Nested exception: org.gjt.xpp.impl.tokenizer.TokenizerException: white space expected before attribute name and not 't' at line 1 and column 134 seen ...<file descriptio

2013-03-11 10:05:05 1393

转载 OLAP之全过程介绍(ETL过程)

经过多年来企业信息化建设,大部分都拥有了自己的财务,OA,CRM 等软件。这些系统都有自己的独立数据库,记录着企业运行情况某个方面的数据。但是单独看这些系统的报表,并不一定能对企业运行情况有全面客观的了解。就像只凭身高不能判断一个人是否健康,所以体检的时候我们需要化验许多指标,做各种检测,就是为了对身体情况有更全面的了解,作出更准确的判断。    同样对一个企业,不能仅根据

2013-03-08 17:35:08 3212

转载 关于 PentahoWeka

关于 Pentaho Weka 的基本使用一、   关于 PentahoWeka 的使用过程中的基本术语介绍   1、  实例(Instance):表格里的一个横行称作一个实例,相当于统计学中的一个样本,或者数据库中的一条记录。2、 属性(Attrbute):竖行的属性(Attrbute),相当于统计学中的一个变量,或者数据库中的一个字段。3、  关系(Relation):

2013-01-05 10:10:45 822 2

转载 数据集-用于数据挖掘、信息检索、知识发现等

1、气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b2、几个实用的测试数据集下载的网站 http://www.cs.toronto.edu/~roweis/data.htmlhttp://www.cs.toronto.edu/~roweis/data.htmlhttp://kdd.ics.uci.edu/summary.task.t

2012-12-18 10:44:19 1288

原创 mondrian --schema国际化

在用OLAP引擎Mondrian开发的过程中,会出现一个国际化(Internationalization)的问题。每个schema 对象(schema、cube、dimension、level、measure)都有一个caption 属性,表现层如Jpivot 显示的是caption 而不是真正的name。  因此我们可以自caption上做国际化处理,格式为:caption="%{}"

2012-12-17 17:20:51 1771 2

原创 mondrian编辑器里MDX语句不支持中文问题

现象:【使用Mondrian的toolbar 中的MDX编辑器时,如果MDX语句中有中文时,点击应用后会把MDX语句中的所有中文变成乱码。】处理方法如下:【    CharsetFilter    com.tonbeller.wcf.charset.CharsetFilter          encoding      UTF-8      chara

2012-12-17 17:03:17 2828

转载 Mondrian Schema解析

SchemaSchema 定义了一个多维数据库。包含了一个逻辑模型,而这个逻辑模型的目的是为了书写MDX 语言的查询语句。这个逻辑模型实际上提供了这几个概念: Cubes (立方体)、维度( Dimensions )、层次( Hierarchies)、级别( Levels )、和成员( Members )。而一个 schema 文件就是编辑这个 schema 的一个 xml

2012-11-28 12:17:45 874

转载 mondrian 如何使用xml存储olap服务器的元数据

Mondrian是一个开放源代码的Rolap服务器,使用java开发的。它实现了xmla和jolap规范,而且自定义了一种使用mdx语言的客户端接口。Mondrian是olap服务器,而不是数据仓库服务器,因此Mondrian的元数据主要包括olap建模的元数据,不包括从外部数据源到数据库转换的元数据。也就是说Mondria的元数据仅仅包括了多维逻辑模型,从关系型数据库到多维逻辑模型的映射,存取权

2012-11-28 12:13:55 1159

转载 穷人的通用OLAP方案I+II+III-----选择自 calvinxiu 的 Blog

缘起从前到现在,用户需要从IT系统中获取信息的变化无常与程序员从传统数据库中制作报表的代价是一个永恒的矛盾。这边厢程序员为了应付客户忽然而至的报表需求痛苦不已, 客户只想要他想知道的东西,不会管查询语句有多么复杂,优化从海量数据中提取报表的速度有多么困难。 那边厢客户为了等程序员做一个报表,快则半天,慢则一周,事情都过去了。明明只想知道一样很简单的东西, 程序员却要抱怨查询是多么复杂,

2012-11-28 11:58:55 992

转载 Mondrian——有影响的“艺术家” ----选择自 kswaking 的 Blog

提要:本文主要是对一个java开源项目——mondrian,OLAP引擎——的技术使用和相关概念做了简单的介绍和描述。 关键字:mondrian  OLAP  MDX一、引言Mondrian, 蒙得里安·皮特1872-1944荷兰画家,作品以交错的三原色为基色的垂直线条和平面为特点,他的著作包括 新造型主义(1920年),对抽象艺术的发展曾经产生很深影响。——金山词霸如是说。不过,

2012-11-28 11:57:11 689

转载 用Kettle的一套流程完成对整个数据库迁移

需求:1.你是否遇到了需要将mysql数据库中的所有表与数据迁移到Oracle。2.你是否还在使用kettle重复的画着:表输入-表输出、创建表,而烦恼。下面为你实现了一套通用的数据库迁移流程。技术引导:实现之初,在kettle提供的例子中找到了一个类似的(samples\jobs\process all tables)。通过相关改造,终于达到目标。实现过程

2012-11-26 17:23:10 8959 3

Kettle 3.0 用户手册【内含组件说明文档】

Kettle 是”Kettle E.T.T.L. Envirnonment”只取首字母的缩写,这意味着它被设计用来帮助你实现你的ETTL 需要:抽取、转换、装入和加载数据;Spoon 是一个图形用户界面,它允许你运行转换或者任务。

2012-09-24

修改代码的艺术---开发人员指导力作

修改代码的艺术。费瑟 着,刘未鹏 译,人民邮电出版社,2007.pdf

2011-08-24

java CodeBook

java CodeBook参考工具。 java CodeBook参考工具。 java CodeBook参考工具。

2008-10-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除