4 tags

尚未进行身份认证

主要研究大数据计算平台以及应用算法。

等级
TA的排名 15w+

Storm IScheduler的初次尝试

1. 介绍 本章主要介绍 IScheduler 接口的作用以及相关功能。Storm 默认的调度机制非常成熟,它能把 Topology 里面的每一个 Component 平均分配到 Worker 以及 Node 上,但是并不能充分地利用节点资源,导致 Node 上有过多的空闲资源。而 IScheduler 接口能自定义调度方式,用户可以根据业务以及资源的情况来分配具体的 Component 所在的位置

2016-07-26 16:19:18

Java Collection

在 Java2中,有一套设计优良的接口和类组成了Java集合框架Collection,使程序员操作成批的数据或对象元素极为方便。这些接口和类有很多对抽象数据类型操作的API,而这是我们常用的且在数据结构中熟知的。例如Map,Set,List等。并且Java用面向对象的设计对这些数据结构和算法进行了封装,这就极大的减化了程序员编程时的负担。程序员也可以以这个集合框架为基础,定义更高级别的数据抽象,比如

2016-07-26 16:08:30

关于利用rz指令经过跳板机上传文件出错问题

经过跳板机之后直接rz、sz一个稍大的文件会在上传一部分后退出并显示一堆乱码,这是因为这中间有控制字符的原因。 解决办法: 加参数-e忽略控制字符:rz -e和sz -e

2016-03-29 13:29:38

利用VisualVM监视Storm Worker性能

一、Jstatd的相关配置1. 创建jstatd权限配置文件jstatd.all.polocygrant codebase "file:${java.home}/../lib/tools.jar" { permission java.security.AllPermission; }; 2、启动jstatd jstatd -J-Djava.rmi.server.hostnam

2016-03-28 15:48:18

解决Maven无法下载相关依赖(update卡在25%现象)

问题记录在Eclipse下用Maven创建项目并构建相关的Maven依赖是意见非常方便的事情,配置好pom.xml文件中的dependency,updateproject的时候如果出现无法下载相关依赖。那么可以在pom.xml文件里面配置相关中央仓库。<repositories><repository><id>central</id>

2016-03-14 23:10:44

Storm如何保证消息不丢失 (Guaranteeing-message-processing)

转自: http://xumingming.sinaapp.com/127/twitter-storm如何保证消息不丢失/本文翻译自: https://github.com/nathanmarz/storm/wiki/Guaranteeing-message-processingstorm保证从spout发出的每个tuple都会被完全处理。这篇文章介绍storm是怎么做到这个保证的,以及我们使用者怎

2016-03-11 11:21:51

Centos环境下Mysql5.6的安装

安装Centos有很多种,在这里我介绍的是使用yum的方法安装,这种方法的好处是安装完成后可以减少很多配置上的问题,例如环境变量、开机启动服务等。1、清除旧版Mysql 由于Centos中原本存在旧版本的Mysql,所以第一步先清除旧版本的Mysql。 rpm -qa | grep mysql输入指令后会显示以下信息。mysql-devel-5.1.73-5.el6_6.x86_64mysq

2016-03-01 18:31:09

决策树

一、决策树的构造 决策树 优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据 缺点:可能会产生过度匹配问题 使用数据类型:数值型和标称型在构造决策树时,我们需要解决的第一个问题是,当前数据集上哪个特征在划分数据分类时起决定性作用。为了找到决定性的特征,划分出最好的结果,我们必须评估每个特征。完成测试之后,原始数据集被划分为几个数据子集。这些数据子集会

2016-02-28 19:42:40

Mysql的安装与主从备份

一、安装Mysql1.默认版本为5.1sudo yum install mysql-server2.创建相应文件并赋予权限mkdir /datacd datachmod 777 datatouch log_binchmod 777 log_bin //让数据库能写入,777是全权限3.主数据库配置vim /etc/my.cnfmy.cnf [mysql] server-id = 1

2016-02-28 19:39:03

Centos环境下MongoDB安装流程

下载与安装MongoDB1、新建配置文件: /etc/yum.repos.d/mongodb-org-3.0.repo。 2、增添mongodb-org-3.0.repo文件内容[mongodb-org-3.0]name=MongoDB Repositorybaseurl=https://repo.mongodb.org/yum/redhat/$releasever/mongodb-org/3

2016-02-28 19:33:33

Eclipse配置外部Maven

1、Maven官网下载 Maven 2、配置Maven的环境变量 3、新建本地仓库Repository(例如:d:\maven\repository) 4、修改settings.xml配置 maven>conf>settings.xml增加<localRepository>d:/maven/repository</localRepository>5、修改Eclipse配置 1、win

2016-02-22 21:07:58

向量空间中各类距离的意义

标签:数学基础闵可夫斯基距离欧氏距离EuclideanDistance曼哈顿距离ManhattanDistance切比雪夫距离ChebyshevDistance夹角余弦Cosine汉明距离HammingDistance杰卡德相似系数JaccardSimilarityCoefficient1.闵可夫斯基距离严格意义上讲,闵可夫斯基距离不是一种距离,而是一组距离的定义。两

2015-12-08 09:34:28

k-近邻算法

k-近邻算法标签: 机器学习实践1. k-近邻算法概述KNN的特点: 优点 缺点 适用范围 精度高、对异常值不敏感、无数据输入假定 计算复杂度高、空间复杂度高 数值型和标称型(离散型数据,变量结果只在有限目标集合中取值)工作原理: 存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后

2015-11-11 09:20:57

大数据环境下的云计算与物联网

大数据环境下的云计算与物联网1.1 云计算与物联网1.1.1 云计算云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其他设备。1. 从部署模型的角度分类 (1)公有云 Public Cloud (2)私有云 Private Cloud (3)社区云 Community Cloud (4)混合云 Hybrid Cloud2. 从使用模式的角度分类,云

2015-11-04 20:15:48

流式计算的理论与技术

流式计算的理论与技术流式数据是大数据环境下的一种数据形态,其理论诞生于20世纪末,并在云计算和物联网发展下逐步成为当前的研究热点。流式数据与传统的数据是相对的。与静态、批处理和持久化的数据库相比,流式计算以连续、无边界和瞬时性为特征,适合高速并发和大规模数据实时处理的场景。当前大数据环境下的许多应用呈现多源并发、数据汇聚、在线处理的特征,所以实时数据处理的相关研究迅速发展,并在许多关键领域,如传感网

2015-11-04 20:15:05
勋章 我的勋章
    暂无奖章