- 博客(18)
- 资源 (3)
- 收藏
- 关注
转载 谈谈RDD、DataFrame、Dataset的区别和各自的优势
在spark中,RDD、DataFrame、Dataset是最常用的数据类型,本博文给出笔者在使用的过程中体会到的区别和各自的优势共性:1、RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集,为处理超大型数据提供便利2、三者都有惰性机制,在进行创建、转换,如map方法时,不会立即执行,只有在遇到Action如foreach时,三者才会开始遍历运算,极端情况下,...
2019-11-25 18:19:19 319
转载 Centos7部署ELK日志收集系统
Centos7部署ELK日志收集系统一、ELK概述:ELK是一组开源软件的简称,其包括Elasticsearch、Logstash 和 Kibana。ELK最近几年发展迅速,已经成为目前最流行的集中式日志解决方案。Elasticsearch: 能对大容量的数据进行接近实时的存储,搜索和分析操作。 本项目中主要通过Elasticsearch存储所有获取的日志。Logstash: 数据收集引擎...
2019-11-14 11:52:31 489
转载 Hbase表计数
一、hbase-shell的count命令这是最简单直接的操作,但是执行效率非常低,适用于百万级以下的小表RowCount统计!在这里插入图片描述 hbase> count 'ns1:t1' hbase> count 't1' hbase> count 't1', INTERVAL => 100000 hbase> count 't1', CACHE =...
2019-11-05 16:32:28 813
转载 fastjson转换
maven依赖包:<!-- https://mvnrepository.com/artifact/com.alibaba/fastjson --><dependency> <groupId>com.alibaba</groupId> <artifactId>fastjson</artifactId> ...
2019-11-05 11:04:19 177
转载 MQTT原理
一、简述MQTT(Message Queuing Telemetry Transport,消息队列遥测传输协议),是一种基于发布/订阅(publish/subscribe)模式的"轻量级"通讯协议,该协议构建于TCP/IP协议上,由IBM在1999年发布。MQTT最大优点在于,可以以极少的代码和有限的带宽,为连接远程设备提供实时可靠的消息服务。作为一种低开销、低带宽占用的即时通讯协议,使其在物联...
2019-10-31 09:45:15 1181
转载 构建企业级数据仓库方法
数据仓库是面向主题的、集成的、不可更新的、随时间的变化而不断变化的,这些特点决定了数据仓库的系统设计不能采用同开发传统的OLTP数据库一样的设计方法。数据仓库系统的原始需求不明确,且不断变化与增加,开发者最初不能确切了解到用户的明确而详细的需求,用户所能提供的无非是需求的大的方向以及部分需求, 更不能较准确地预见到以后的需求。因此,采用原型法来进行数据仓库的开发是比较合适的,因为原型法的思想是从...
2019-10-29 09:16:12 264
转载 Zookeeper报错Will not attempt to authenticate using SASL解决办法
Zookeeper报错Will not attempt to authenticate using SASL解决办法2013-09-05 15:21:44首先需要说的是,这个问题出现的原因很多,报的错误与实际可能相差比较远。总结如下:一、调用端和服务器端版本不统一造成的!二、这个问题的出现,会伴随一个非常奇怪的现象。在master所在的pc上启动start-all时,内容提示所有的regi...
2019-10-25 11:43:41 726
转载 kafka简介
一、kafka初始1、Kafka使用背景在我们大量使用分布式数据库、分布式计算集群的时候,是否会遇到这样的一些问题:(1) 我们想分析下用户行为(pageviews),以便我们设计出更好的广告位(2)我想对用户的搜索关键词进行统计,分析出当前的流行趋势(3)有些数据,存储数据库浪费,直接存储硬盘效率又低这些场景都有一个共同点:数据是由上游模块产生,上游模块,使用上游模块的数据计算、统...
2019-10-24 16:13:48 271
转载 Cannot obtain block length for LocatedBlock 故障分析和解决
摘要: 作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处这几天想cat一下某天的HDFS文件内容的时候突然报Cannot obtain block length for LocatedBlock异常,get也一样,这样无法访问hdfs文件的问题必须解决,Mark一下问题背景和解决过程一.问题背景问题产生的原因可能是由于前几日Hadoop集...
2019-10-18 17:18:34 177
原创 springboot jdbctemplate 连接 hive + phoenix + mysql
.yml文件 spring: #Spring boot视图配置 mvc: view: prefix: /WEB-INF/ suffix: .jsp #编码格式 http: encoding.force: true encoding.charset: UTF-8 encoding.enabled: true tomc...
2019-10-18 09:24:10 214
原创 ubuntu 16.04下大数据开发环境搭建
jdk安装(略)安装zookeeper环境变量conf目录下:cp zoo_sample.cfg zoo.cfg修改zoo.cfgdataDir=/home/tellhow-iot2/doc/zookeeper-3.4.13/tmp dataLogDir=/home/tellhow-iot2/doc/zookeeper-3.4.13/logs创建tmp和logsbin下./z...
2019-03-28 17:59:16 821
原创 IDEA下快速搭建Springboot项目
随着技术的更新对于开发速度的追求,我们越来越不能忍受的是Spring框架对于集成开发以后大量的配置问题。所以SprigBoot应运而生,SpringBoot框架其实就是在Spring框架的外边包裹上了一层纸,包括减少配置文件,内置Tomcat服务器等等。在这里我们就使用IDEA工具为代表讲解一下SpringBoot在开发过程中会使用到的开发技术。创建项目:直接选择第一个Create New ...
2019-03-28 17:26:55 215
原创 Springboot简介
一、Spring框架概述1.1 什么是SpringSpring是一个开源框架,Spring是于2003 年兴起的一个轻量级的Java 开发框架,由Rod Johnson 在其著作《Expert One-On-One J2EE Development and Design》。Spring是为了解决企业级应用开发的复杂性而创建的,使用Spring可以让简单的JavaBean实现之前只有EJB才能完...
2019-03-28 17:14:17 203
原创 redis常用命令
redis:(key,value)用于缓存 用C语言开发的一个开源的高性能键值对的数据库,有5中类型 1.字符串类型 (String) 2.散列类型 (hash) 3.列表类型 (list) 4.集合类型 (set) 5.有序集合类型 (sorted set)应用场景: 1.缓存(数据查询、短连接、新闻内容、商品内容等) 2.聊天室在线好友列表 3.任务队列(秒杀、...
2018-09-08 19:01:04 137
转载 liunx系统命令
Linux目录结构: root:root用户相关文件 home:普通用户相关文件 bin:常用的一些命令(如vi) sbin:要具有一定权限才能使用 mnt:默认挂载软驱和光驱的目录 etc:配置相关文件 var:存放经常变化的文件 boot:存放引导相关的文件 usr:默认文件夹存放目录(默认安装目录)Linux常用命令大全(非常全!!!)系统信息 arch 显示机...
2018-09-08 18:06:09 195
原创 排序算法汇总
package cn.first.start;public class VarietySort {//拓扑排序,用来确认事物发生的顺序//选择排序、快速排序、希尔排序、堆排序不是稳定的排序算法//冒泡排序、插入排序、归并排序、基数排序是稳定的排序算法public static void main(String[] arg){ int i; int[] a = {10,...
2018-09-08 16:37:05 94
SpringCloud视频+源码.zip
2019-09-04
NodeMCU-API中文完整版.pdf.zip
2019-06-12
Storm实战构建大数据实时计算
2019-03-29
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人