1 Lan_xuaner

尚未进行身份认证

我要认证

砥砺前行

等级
TA的排名 14w+

SparkSQL简介及使用

SparkSQL简介及使用1 简介1.1 什么是 Spark SQLSpark SQL是Spark用来处理结构化数据的一个模块,它提供了两个编程抽象分别叫做DataFrame和DataSet,它们用于作为分布式SQL查询引擎。1.2 Spark SQL 的特点1.内存列存储–可以大大优化内存的使用率,减少内存消耗,避免GC对大量数据性能的开销2.字节码生成技术–可以使用动态的字节码技术优化性能3.Scala代码的优化4.易整合5.统一的数据访问方式6.兼容hive7.提供了统一的数据连

2020-05-26 19:10:13

Spark基本操作WordCountDemo编写 打包 提交 运行

Spark操作之Demo编写及提交任务1 运行spark自带测试程序包计算pi值yarn模式提交任务(CDH采用此方式)bin/spark-submit \--class org.apache.spark.examples.SparkPi \--master yarn \--deploy-mode client \/opt/cloudera/parcels/CDH/lib/spark/examples/jars/spark-examples_2.11-2.2.0-cdh6.0.1.jar \

2020-05-25 16:07:26

Shell编程常见面试题(待续)

Shell编程常见面试题(待续)1、使用Linux命令查询file中空行所在的行号awk '/^$/{print NR}' file.txt2、有文件cj.txt内容如下,使用Linux命令计算第二列的和并输出张三 70李四 80王五 90cat cj.txt | awk -F " " '{sum+=$2}END{print "sum="sum}'[root@sandbox-hd...

2020-05-05 21:59:52

数仓理论简述

数仓理论简述1 表的分类1.1 实体表实体表,一般是指一个现实存在的业务对象,比如用户,商品,商家,销售员等等。1.2 维度表维度表,一般是指对应一些业务状态,编号的解释表。也可以称之为码表。比如地区表,订单状态,支付方式,审批状态,商品分类等等。1.3 事务型事实表事务型事实表,一般指随着业务发生不断产生的数据。特点是一旦发生不会再变化。一般比如,交易流水,操作日志,出库入库记录等...

2020-05-05 13:48:42

Hive(一)简介及基本操作

Hive(一)简介及基本操作一、简介​ Hive是一个构建在hadoop之上的数据仓库,可将结构化的数据文件映射成表,并提供类SQL查询功能,用于查询的SQL语句会被转化为MapReduce作业,然后提交到Hadoop上运行。数据类型基本数据类型:TINYINT SMALINT INT BIGINT BOOLEAN FLOAT DOUBLE STRING TIMESTAMP BINARY...

2020-05-04 15:03:39

大数据中遇到的问题简述(待续)

大数据中遇到的问题简述(待续)1、数据量大怎么分析?分析后怎么做传输?怎么做到实时?数据量大可在hadoop平台分析。分析的结果数据可用sqoop迁移数据工具导出。常用实时处理框架有sparkStreaming、storm、flink等。2、数据来源?python爬虫爬取网页。单机多线程、分布式多线程。定期导入到离线系统。3、如何分析数据?数据量小,一个复杂的sql即可搞定,web服务...

2020-05-02 11:46:20

HBase(二)常用操作之namespace操作

HBase(二)常用操作之namespace1 介绍​ 在HBase中,namespace命名空间指对一组表的逻辑分组,类似RDBMS中的database,方便对表在业务上进行划分。HBase全局管理员可以创建、修改和回收namespace的授权。​ namespace特性是对表资源进行隔离的一种技术,隔离技术决定了HBase能否实现资源统一化管理的关键,提高了整体的安全性。2 命名空间n...

2020-05-02 11:27:32

Hbase(一)简介及基本操作

Hbase(一)简介及基本操作1 简介1.1 什么是Hbase​ HBase的原型是Google的BigTable论文,受到了该论文思想的启发,目前作为Hadoop的子项目来开发维护,用于支持结构化的数据存储。​ HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。​ HBase的目标是存储并处理大型...

2020-04-26 17:30:01

大数据常见英文词汇(三)之常见框架和组件(待续)

大数据常见英文词汇(三)之常见框架和工具(待续)Hadoop(分布式系统基础架构)HDFS(Hadoop分布式文件系统)Mapreduce(分布式计算框架)HBASE(分布式列存数据库)Zookeeper(分布式协作服务)HIVE(数据仓库)Pig(ad-hoc脚本 数据分析工具)Sqoop(数据ETL/同步工具)Flume(日志收集工具)...

2020-04-25 20:08:43

大数据常见英文词汇(二)(待续)

大数据常见英文词汇(二)(续)以下单词是本人在学习大数据过程中遇到的生疏单词词汇。单词均在百度翻译中得到的释义,可能有失偏颇,望读者指正!原文译文ACK确认、命令正确应答Advanced Message Queuing Protocol高级消息队列协议Agility敏捷性AutoCommit自动提交Avro数据序列化系统Azkaban...

2020-04-25 19:37:52

Spark基本概念的高频面试题

Spark基本概念的高频面试题1 spark的两大基本算子是什么,有什么区别?1、transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。transformation操作是延迟计算的,也就是说从一个RDD转换生成另一个RDD的转换操作并不是马上执行,需要等到有action操作的时候才会真正触发运算。2、action行动算子:这类算子会触发sparkco...

2020-04-25 11:27:02

Redis(三)Redis与Spark的集成

Redis与Spark的集成(读写)RDD——read redis from sparkspark-shell --jars spark-redis-0.3.2.jar,jedis-2.7.2.jar,commons-pool2-2.0.jar//stop existing SparkContextsc.stopimport org.apache.spark.SparkConfimpo...

2020-04-23 21:21:44

Redis(二)简介及基本操作

Redis(二)简介及基本操作一、简介Redis 是开源免费的,是一个高性能的key-value数据库。Redis 与其他 key-value 缓存产品有以下三个特点:Redis支持数据的持久化,可以将内存中的数据保存在磁盘中,重启的时候可以再次加载进行使用。Redis不仅仅支持简单的key-value类型的数据,同时还提供list,set,zset,hash等数据结构的存储。Red...

2020-04-23 21:18:35

Redis(一)安装详细步骤(linux中wget下载安装4.0.9版本)

Redis(一)安装Redis 4.09 安装# 新建文件夹,放安装文件mkdir -p ~/redis # 下载并解压安装包wget http://download.redis.io/releases/redis-4.0.9.tar.gz tar xzf redis-4.0.9.tar.gz # Build Redis cd ~/redis/redis-4.0.9 make...

2020-04-21 20:21:50

Tableau简介及Tableau安装

Tableau简介及Tableau安装一、什么是Tableau?​ Tableau是一款数据可视化工具,致力于帮助人们查看并理解自己的数据。​ 不同于传统BI软件,Tableau是一款“轻”BI工具;可以使用Tableau的拖放界面可视化任何数据,探索不同的视图,甚至可以轻松的将多个数据库组合在一起。它不需要任何复杂的脚本。二、有哪些产品?Tableau Desktop:桌面分析软件,连...

2020-04-20 22:09:30

数据库之OLAP和OLTP简介

数据库之OLAP和OLTP简介1 数据处理分类数据库数据处理可以分成两大类:联机事务处理 OLTP(On-Line Transaction Processing)联机分析处理 OLAP(On-Line Analytical Processing)2 数据处理目标​ 业务类系统主要供基层人员使用,进行一线业务操作,通常被称为OLTP。数据分析的目标是探索并挖掘数据价值,作为企业高层进...

2020-04-19 20:43:15

大数据常见英文词汇(待更新)

大数据常见英文词汇(待更新)words(单词)resilient 有弹性的parallelize 并行化procedure 过程process 进程、处理program 程序schedule 日程安排scheduler 调度程序schema 架构segment 段operation 算子convergence 汇聚visualize 可视化plugin ...

2020-04-18 17:25:03

MongoDB安装及添加用户并授权

MongoDB安装及添加用户并授权一、MongoDB安装1、配置yum源vi /etc/yum.repos.d/mongodb.repo[MongoDB]name=MongoDB Repositorybaseurl=http://repo.mongodb.org/yum/redhat/$releasever/mongodb-org/4.0/x86_64/gpgcheck=0enab...

2020-04-17 17:33:20

Linux虚拟机中yum安装python2.7(配合Cassandra使用)

Linux虚拟机中yum安装python2.7(配合Cassandra使用)1 下载 ius-release.rpm包wget https://centos6.iuscommunity.org/ius-release.rpm2 安装ius-release.rpm包rpm -Uvh ius-release.rpm3 安装python27版本yum install python27 pyt...

2020-04-17 11:41:49

Cassandra简介及基本操作

Cassandra简介及基本操作一、简介​ Apache Cassandra是一套开源分布式NoSQL数据库系统。它最初由Facebook开发,用于储存收件箱等简单格式数据,集Google BigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身。Facebook于2008将 Cassandra 开源,后面由于Cassandra良好的可扩放性,被Digg、Twitter等...

2020-04-15 14:07:27

查看更多

勋章 我的勋章
  • 签到达人
    签到达人
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 新人勋章
    新人勋章
    用户发布第一条blink获赞超过3个即可获得
  • 阅读者勋章Lv3
    阅读者勋章Lv3
    授予在CSDN APP累计阅读博文达到30天的你,是你的坚持与努力,使你超越了昨天的自己。
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv3
    勤写标兵Lv3
    授予每个自然周发布7篇到8篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。