10 zhengcongyi

尚未进行身份认证

我要认证

做JAVA大数据开发,对大数据技术的熟练的运用

等级
TA的排名 6k+

MongoDB 索引

一、简介 在大数据量的MongoDB时索引可以提高查询效率,如果没有创建索引,查询MongoDB数据效率非常低,在查询数据时会对集合进行全表扫描并选取那些符合查询条件的记录。二、创建索引 db.collection.createIndex( <key and index type specification>, <options> )...

2019-04-14 13:42:12

Storm(六):数据流的分流与合流

Storm 对数据处理时,不同的数据交给不同的bolt来处理,然后处理好的数据传给同个bolt来存储到数据库,这时就需要分流与合流,我们通过一个例子了解分流与合流。

2017-06-11 11:19:18

Storm(五)拓扑并行度

Apache Storm分布式集群主要节点由控制节点(Nimbus节点)和工作节点(Supervisor节点),一个工作节点运行一个或者多个Worker 进程,Worker 是Topology的子集,Topology对应一个或者多个Worker 。 Topology主要是由Worker 、Executor、Task组成的,Topology对应一个或者多个worker(是一个独立的JVM 进程) ,worker 下又有多个Executor线程,Executor下对应一个或者多个Task,默认情况下一个Ex

2017-06-11 11:02:32

Storm(四):容错机制

Apache Storm分布式集群主要节点由控制节点(Nimbus节点)和工作节点(Supervisor节点),在集群下,怎么保证拓扑的可靠性,storm提供哪些容错机制?

2017-06-11 10:25:18

Storm(三):Storm入门Demo

我们前面的文章对Apache Storm 是一个开源的分布式、实时、可扩展、容错的计算系统的基本知识进行熟悉之后,我们通过Storm简单的例子把应用跟基础知识结合起来。 Storm的Topology是一个分布式实时计算应用,它通过Stream groupings把spouts和Bolts串联起来组成了流数据处理结构,Topologys在集群中一直运行,直到kill(storm kill topology-name [-w wait-time-secs]) 拓扑时扑才会结束运行。

2017-06-11 10:04:34

Storm(二):集群部署配置

Apache Storm分布式集群主要节点由控制节点(Nimbus节点)和工作节点(Supervisor节点),控制节点可以一个,工作节点多个组成的,而Zookeeper主要负责Nimbus节点和Supervisor节点之间的协调工作。介绍安装部署storm集群,并且Storm ui是storm集群的监控页面,可以查看Nimbus、Supervisor分布情况以及状态等信息,方便我们管理Storm集群以及拓扑。

2017-06-10 23:39:14

Storm(一) :基础知识

Apache Storm 是一个开源的分布式、实时、可扩展、容错的计算系统。Apache Storm Storm可以很容易做到可靠地处理无限的数据流,像Hadoop批量处理大数据一样。Storm处理速度很快,每个节点每秒钟可以处理超过百万的数据组。 Apache Storm应用的场景例如:实时分析、在线机器学习、连续计算、分布式RPC、ETL 等。

2017-06-10 23:13:32

Kafka(二): Kafka 集群部署与使用

Kafka是一种分布式的发布(producer)/订阅(consumer)的消息系统,并支持实时和离线的数据处理、可扩展、持久的。上一次已经对kafka做了介绍,今天我们介绍如何部署、创建主题并发布消息和订阅消息。

2017-05-21 10:12:28

Kafka(一): Kafka 入门

Kafka是一种分布式的发布(producer)/订阅(consumer)的消息系统,并支持实时和离线的数据处理、可扩展、持久的。Kafka Server 是分布式部署(Broker),Kafka 的消息(Topic)存储在Kafka Server上并以Topic进行分类的,而且可以设置消息(Topic)分区(partition),不会造成消息都存储在同一个磁盘从而导致磁盘空间慢的问题,同个partition里的数据是有顺序的(FIFO先进先出)。

2017-05-14 08:47:49

Titan (一):gremlin.sh 出现错误:java.lang.VerifyError

运行gremlin console 连接hbase+elastricseach 测试操作titan,titan运行的环境是jdk1.8,Linux环境有安装了jdk1.8.0_11环境,符合titan所需的jdk1.8环境,运行./bin/gremlin.sh 报错了,运行不起来。

2017-02-07 21:53:06

Hadoop 2.5.2+hbase1.0.0+zookeeper 3.4.6 集群安装配置

HDFS采用master/slave架构,一个HDFS集群是由一个Namenode和一定数目的Datanodes组成。Namenode是一个中心服务器,负责管理文件系统的名字空间(namespace)以及客户端对文件的访问。集群中的Datanode一般是一个节点一个,负责管理它所在节点上的存储。HDFS暴露了文件系统的名字空间,用户能够以文件的形式在上面存储数据。从内部看,一个文件其实被

2016-11-05 12:45:12

Linux 虚拟机:Network error: Connection refused 排查

我在自己电脑安装了Linux 虚拟机,然后设置了Linux 虚拟机IP,windows上能正常ping 通Linux 虚拟机上IP,采用了FileZilla连接Linux 虚拟机,出现错误: Network error: Connection refused 无法连接到服务器。

2016-10-29 19:10:28

Spring Data MongoDB七:进阶Aggregation操作(下)

上一篇已经Aggregation做了很详细的介绍,这边就不在介绍,SpringDataMongoDB项目提供与MongoDB文档数据库的集成,SpringDataMongoDB提供org.springframework.data.mongodb.core.MongoTemplate是对Connection进行封装,提供了连接管理,SpringDataMongoDB像hibernate等一样提供了模板,mongoTemplate提供调用Aggregation方法。

2016-10-15 10:31:38

Spring Data MongoDB 六:进阶Aggregation操作(上)

1、db.collection.aggregate()可以多个管道,能方便的进行数据的处理。2、db.collection.aggregate()使用了MongoDB内置的原生操作,聚合效率非常高,支持类似于SQLGroupBy操作的功能,而不再需要用户编写自定义的JavaScript例程。3、每个阶段管道限制为100MB的内存。如果一个节点管道超过这个极限,MongoDB将产生一个错误。为了能够在处理大型数据集,可以设置allowDiskUse为true来在聚合管道节点把

2016-10-15 09:36:04

Srping Data Redis 四:Srping Data Redis 入门

Spring Data Redis 提供Jedis,Jredis,rjc等客户端的封装,可以根据需求更换换客服端,使业务代码比较稳定性。 以及提供对连接池管理 (timeout、maxActive、maxIdle等参数),org.springframework.data.redis.connection包中的RedisConnection和RedisConnectionFactory类来获取Redis连接,Spring Data Redis 提供RedisTemplate是对RedisConnection

2016-10-07 16:36:41

Redis 三:redis.conf 配置详细解析

# redis 配置文件示例 # 当你需要为某个配置项指定内存大小的时候,必须要带上单位,# 通常的格式就是 1k 5gb 4m等酱紫:## 1k  => 1000 bytes# 1kb => 1024 bytes# 1m  => 1000000 bytes# 1mb => 1024*1024 bytes# 1g  => 1000000000 bytes

2016-10-07 09:57:16

Spring Data Redis 二:RedisTemplate实现事物问题剖析和解决

Redis为单进程单线程模式,采用队列模式将并发访问变成串行访问,Redis对事物支持不会很复杂,当一个客服端连接Redis服务时,发出了MULTI命令时,这个连接会进入事物,在执行MULTI命令之后,执行所有的命令都不会执行,会先放到一个队列中,会提示正在Query,当最后执行EXEC命令之后,Redis会按照之前的进入队列的顺序,执行命令。 Spring Data Redis 是对JRedis的客服端进行很好的封装, Spring Data Redis的RedisTemplate提供了MUL

2016-10-04 22:33:30

Redis 一:Linux下 安装Redis并配置服务

1、 Redis为单进程单线程模式,采用队列模式将并发访问变成串行访问。 2、 Redis不仅仅支持简单的k/v类型的数据,同时还提供list,set,zset,hash等数据结构的存储。 3、 Redis支持数据的备份,即master-slave模式的数据备份。 4、Redis支持数据的持久化,可以将内存中的数据保持在磁盘中,重启的时候可以再次加载进行使用。

2016-10-03 23:57:59

学习MongoDB 十二: MongoDB聚合(Aggregation Pipeline基础篇-下)(四)

上一篇我们对 db.collection.aggregate(pipeline, options)介绍,我们接下来介绍pipeline 参数和options参数的基础认识

2016-06-09 11:33:44

学习MongoDB 十一: MongoDB聚合(Aggregation Pipeline基础篇上)(三)

db.collection.aggregate()是基于数据处理的聚合管道,每个文档通过一个由多个阶段(stage)组成的管道,可以对每个节点的管道进行分组、过滤等功能,然后经过一系列的处理,输出相应的结果。

2016-06-09 10:47:10

查看更多

CSDN身份
  • 博客专家
勋章 我的勋章
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!