5 人体健康与床位研究

尚未进行身份认证

多练内功

等级
TA的排名 2w+

31离线系统辅助工具flume——好程序

1、什么是flumeApache Flume is a distributed, reliable, and available system for efficiently collecting, aggregating and moving large amounts of log data from many different sources to a centralized data ...

2020-02-28 16:53:22

30离线系统辅助工具sqoop——好程序

1、sqoop是什么Apache Sqoop(TM) is a tool designed for efficiently transferring bulk data between Apache Hadoop and structured datastores such as relational databases.(就是一个工具而已,没有集群的概念,是一个单机版的)本质:将sqoo...

2020-02-28 13:54:40

29hbase&hive&hdfs——好程序

如果不是高可用,是不需要这些的mr和hbase的结合TableMapperTableReducerTableMapReduceUtil出错:Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.hbase.client.Scan解决方案:1、将hbase的依赖jar包临时带入到hadoop的依赖中ex...

2020-02-28 10:25:42

28hbase的内部机制&存储机制&寻址机制——好程序

hbase的内部机制--存储机制-region概念-store概念-memstore概念hbase的物理存储方式Hbase是一个集群,master在数据管理里面是没有任何功能的,表在hbase里面存储,每一个regionserver是否要响应机器,hbase的存储机制hbase的内部机制--存储机制-region概念-store概念-memstore概念...

2020-02-28 08:53:44

27Hbase的FilterList操作——好程序

singleColumnValueFilter、FamilyFilter======比较器=========================打印出来过滤器可以设置四种比较器的其中一种=======元数据的查询...

2020-02-27 08:29:44

26Hbase的DDL操作——好程序

创建namespaceDDL操作依赖的是admin对象========================测试案例提取工具类=====================设置demol单元测试完毕修改开始可以测试一下了(表描述器和列描述器)=====================DML...

2020-02-26 10:54:12

25Hbase理论基础——好程序

为什么要hbase随着数据量越来越大,传统的关系型数据库不能满足需求,hive虽然能够满足存储,但是不满足非结构化的存储和高效的查询。hbase是什么hbase是一个开源的、分布式的、可扩展的、多版本的非关系型数据库。not-onlyhbase是bigtable的java开源版本,是建立在hdfs之上的,提供高可靠性、高性能、列存储、可伸缩、实时读写的nosql的数据库系统。阿帕奇...

2020-02-25 19:54:28

24HIve的Struct与优化

struct:create table if not exists str1(name string,addr struct<province:string,city:string,street:string>)row format delimitedfields terminated by '\t'collection items terminated by ',...

2020-02-25 10:49:14

23HIVE的数据类型及优化——好程序

数据类型:分基本数据类型和复杂数据类型复杂:array:col array<基本类型>,下标从0开始,越界不报错,以NULL来代替map:col map<string,string>struct:col struct<property:string[,property:string]>array示例:gaoyuanyuan 87,98,9...

2020-02-25 10:08:24

22HIVE的分区分桶——好程序

为什么要分区?随着系统运行时间增长,表的数据量越来越大,而hive查询通常是全表扫描,这样会导致大量不必要的数据扫描,从而大大降低了查询效率。从而引进了分区技术,使用分区技术,避免hive全表扫描,提升查询效率。分区的技术PARTITIONED BY (column_name data_type)1、hive分区是区分大小写的2、hive的分区本质是在表目录下创建分区目录,但是该分区...

2020-02-24 19:47:03

21HIVE的基本操作——好程序

表的修改操作不建议用 in ,not in ,exists,not exists,而是用joininnot inexistsnot existsjoin查看表show create table 表名修改表:hivealter table t_name rename to (comment:说明)alter table t3 rename to t_userinfo...

2020-02-24 14:26:11

20HIVE的基本操作——好程序

注释///***/<!---->#-- 语法规则:hive的数据库名、表名不区分大小写。mysql是可以设置区分大小写的命名规则:1、名字不能使用数字开头2、不能使用关键字3、尽量不要使用特殊符号hive中有一个默认的数据库default,如果不指定要使用哪个数据库,则使用默认的数据库。可以查看数据库show databases;再切...

2020-02-23 11:36:06

19hive的基本知识——好程序

为什么有hivefacebook最初研发来处理海量的社交数据和机器学习。hive:简化分析:使用sql,开发效率高500行mr:10000hive是什么hive是一个大数据仓库hive是一个基于hadoop的数据仓库hive是一个基于hadoop的数据仓库,可以通过类sql语句来对数据进行读、写、管理(元数据管理)hive的架构(三层)用户连接客户端:cli、jdbc/o...

2020-02-23 08:56:07

18-2mapreduce的案例加强——好程序

流量统计相关需求1、对流量日志中的用户统计总上、下行流量技术点: 自定义javaBean用来在mapreduce中充当value注意: javaBean要实现Writable接口,实现两个方法//序列化,将对象的字段信息写入输出流@Overridepublic void write(DataOutput out) thro...

2020-02-22 19:53:47

18mapreduce的案例加强——好程序

流量统计1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.aliimg.com 24 27 2481 24681 2001363157995052 13826544101 5C-0E-8B-C7-F1-E0:CMCC 12...

2020-02-22 19:47:09

17mapreduce运行全流程——好程序

mapreduce先进行3大思考读数据到底是怎么读的?map阶段:怎么读的数据,现在是text文件,如果xml文件(一个个节点),或者其他文件呢,则处理方式和文本文件不一吧,或者流式的数据呢,压缩的文件呢,转过码的文件呢,文件的格式肯定有很多种,不可能只有文本文件一种,那到底是如何处理的呢?----------------------------------输出结果到底是怎么回事?...

2020-02-21 23:09:28

16本地的模式——好程序

运行程序引入问题

2020-02-21 16:35:00

15hadoopHA——好程序

日记的管理方式发生了改变——单个namenode的模式,日记文件是直接写到namenode里面就可以了。现在要实现的是高可用的模式,高可用就需要两台namenode,而且管理模式是一样的,引入了两台那么日记文件就必须要实现共享与同步,既然要实现共享,一个是namenode之间点对点的连接,但是namenode的是高并发的模式,本身任务就很多,不可能随意的增加功能,则就才有第二个方法:需要...

2020-02-21 15:53:50

14mapreduce的流程说明&实现Mapper类&实现Driver以及测试运行——好程序

mapreduce核心名词job:用户的一个计算请求称为一个作业。task:每一个作业,都需要分拆成多个的task,交由多个主机来完成,拆分出来的执行单元就叫任务。task又分为3种类型:map:负责map阶段的整个的数据处理流程(需要资源)reduce:负责reduce阶段的整个数据处理流程(需要资源)appMaster:负责整个程序的过程调度以及状态协调(需要资源,Resource...

2020-02-21 11:28:40

13mapreduce的分发&启动&job的提交——好程序

mapreduce是什么分布式离线计算框架,是分布式运算程序的编程模型,是用户基于hadoop的数据分析应用的核心框架,mapreduce的核心功能是将用户编写的业务逻辑代码和自带的默认的 组件整合到一个完整的分布式运算程序,并运行在hadoop集群上。hdfs:将大的文件切分成若干个小的文件,然后将他们分别存储到集群中的不同节点上。mapreduce:是将一个复杂的运算切分成若干个子运算,...

2020-02-20 22:53:25

查看更多

勋章 我的勋章
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 新人勋章
    新人勋章
    用户发布第一条blink获赞超过3个即可获得
  • 阅读者勋章Lv2
    阅读者勋章Lv2
    授予在CSDN APP累计阅读博文达到7天的你,是你的坚持与努力,使你超越了昨天的自己。
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv4
    勤写标兵Lv4
    授予每个自然周发布9篇以上(包括9篇)原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。