10 余辉

北京网银在线科技有限公司 - 高级软件架构师

我要认证

余辉,硕士毕业于中科院。从事IT行业10年,专注于大数据领域多年。曾工作于清华大学、京东,现从事大数据讲师一职。本人微信:silentwolfyh

等级
TA的排名 1k+

数据挖掘考试题库

目录一、名词解释二、综合题一、名词解释数据仓库:是一种新的数据处理体系结构,是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,为企业决策支持系统提供所需的集成信息。孤立点:指数据库中包含的一些与数据的一般行为或模型不一致的异常数据。OLAP:OLAP是在OLTP的基础上发展起来的,以数据仓库为基础的数据分析处理,是共享多维信息的快速分析,是被专门设计用于支持复杂的分析操作,侧重对分析人员和高层管理人员的决策支持。粒度:指数据仓库的数据单位中保存数据细化或综合

2020-07-20 10:28:36

tez 安装教程

环境版本CDH5.16.2 hadoop 2.7.0-cdh5.16.2安装前期准备1、This assumes that you have already installed JDK8 or later and Maven 3 or later.2、Tez also requires Protocol Buffers 2.5.0, including the protoc-compiler. This can be downloaded from https://github.com/google

2020-06-02 11:40:30

Hive教程(十一)---整合HBASE

目录6.4.1 HBase与Hive的对比6.4.2 HBase与Hive集成使用6.4.1 HBase与Hive的对比Hive(1) 数据仓库Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系,以方便使用HQL去管理查询。(2) 用于数据分析、清洗Hive适用于离线的数据分析和清洗,延迟较高。(3) 基于HDFS、MapReduceHive存储的数据依旧在DataNode上,编写的HQL语句终将是转换为MapReduce代码执行。HBase(1)

2020-05-15 23:32:45

Hive教程(十)---JDBC的连接

目录10.1 创建maven项目添加依赖10.2 JAVAAPI10.1 创建maven项目添加依赖Jdbc是jdk开发的操作数据库的一套标准API(接口方法)Java提供的一套操作数据库的标准API<dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId>

2020-05-15 23:28:26

Hive教程(八)---压缩和存储

目录8.1 Hadoop源码编译支持Snappy压缩8.2 Hadoop压缩配置8.3 开启Map输出阶段压缩8.4 开启Reduce输出阶段压缩8.5 文件存储格式8.6 存储和压缩结合8.1 Hadoop源码编译支持Snappy压缩8.1.1 资源准备CentOS联网配置CentOS能连接外网。Linux虚拟机ping www.baidu.com 是畅通的注意:采用root角色编译,减少文件夹权限出现问题jar包准备(hadoop源码、JDK8 、maven、proto

2020-05-15 23:18:15

Mysql案例(二)---列转行

列转行SELECT GROUP_CONCAT(shop_name),product_idfrom shopproduct GROUP BY product_id;

2020-05-14 13:04:17

Hive教程(九)---企业级调优

目录前述9.1 Fetch抓取9.2 本地模式9.3 表的优化9.4 数据倾斜9.5 并行执行9.6 严格模式9.7 JVM重用9.8 推测执行9.9 压缩9.10 执行计划(Explain) (搜索)前述查询速度 效率分区 分桶表特殊的文件格式 列式存储的文件类型查询时候指定字段join的时候使用on 避免笛卡尔积hive底层mr , inert into valuesreduce阶段 数据倾斜 添加reduce的个数设置maptask处理数据的大小 ,

2020-05-13 22:27:54

Hive教程(七)---函数

目录7.1系统内置函数7.2 自定义函数7.3 自定义UDF函数7.4 json解析函数:表生成函数7.1系统内置函数查看系统自带的函数hive> show functions;显示自带的函数的用法hive> desc function upper;详细显示自带的函数的用法hive> desc function extended upper;7.2 自定义函数       1)Hive 自带了一些函数,比

2020-05-12 23:10:53

Hive教程(十四)---hive常用命令备份

insert overwrite directory ‘/user/yuhui/table12’ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘,’select

2020-05-12 10:00:28

Hive教程(六)---查询

目录6.1 基本查询(Select…From)6.2 Where语句6.3 分组6.4 Join语句6.5 排序6.6 分桶及抽样查询6.7 其他常用查询函数6.1 基本查询(Select…From)6.1.1 全表和特定列查询全表查询hive (default)> select * from emp;选择特定列查询hive (default)> select empno, ename from emp;注意:(1)SQL 语言大小写不敏感。(2)S

2020-05-11 07:44:42

大数据优化方案---Mysql中47G大表通过SQOOP导入数据仓库

目录一、需求二、思路三、解决方案一、需求1、由于公司的Mysql表中有很多单表存储量有几亿,单表达到40多个G2、二、思路三、解决步骤

2020-05-10 18:34:53

Hive教程(五)---DML(Data Manipulation Language)数据操作

目录5.1 数据导入5.2 数据导出5.3 清除表中数据(Truncate)5.1 数据导入5.1.1 向表中装载数据(Load)1.语法hive> load data [local] inpath '/opt/module/datas/student.txt' overwrite | into table student [partition (partcol1=val1,…)];(1)load data:表示加载数据(2)local:表示从本地加载数据到hive表;否则从HD

2020-05-09 00:41:40

Hive教程(四)---DDL(Data Definition Language)

目录4.1 创建数据库4.2 查询数据库4.3 修改数据库4.4 删除数据库4.5 创建表4.6 分区表4.7 修改表(结构)4.8 删除表4.1 创建数据库1)创建一个数据库,数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db。hive (default)> create database db_hive;2)避免要创建的数据库已经存在错误,增加if not exists判断。(标准写法)hive (default)> creat

2020-05-09 00:30:00

Hive教程(三)---Hive数据类型

目录3.1基本数据类型3.2集合数据类型3.3类型转化表1-1 基本数据类型Hive数据类型Java数据类型长度例子TINYINTbyte1byte有符号整数20SMALINTshort2byte有符号整数20INTint4byte有符号整数20BIGINTlong8byte有符号整数20BOOLEANboolean布尔类型,true或者falseTRUE FALSEFLOATfloat单精度浮点数3.

2020-05-08 23:46:11

Hive教程(二)---hive的安装

目录2.1 Hive安装地址2.2 Hive的集群安装部署2.3 将本地文件导入Hive案例2.4 MySql安装2.5 Hive元数据配置到MySql2.6 HiveJDBC访问2.7 Hive常用交互命令2.8 Hive其他命令操作2.9 Hive常见属性配置2.1 Hive安装地址Hive官网地址文档查看地址下载地址github地址2.2 Hive的集群安装部署2.2.1 HDFS和YARN正常运行2.2.2 mysql环境准备1) [root

2020-05-08 23:30:39

Hive教程(一)---hive入门

目录一、hive入门1.1什么是Hive       Hive:由Facebook开源用于解决海量结构化日志的数据统计(海量的结构化数据的运算分析)。       本质是:将Hive SQL转化成MapReduce程序 或者 spark程序 。Hive是基于Hadoop的一个数据仓库工具(服务性的软件),可以将结构化的数据文件映射为一张表,并提供类似于SQL查询。      &nbs

2020-05-08 22:46:14

Mysql教程(十四)---窗口函数

目录1、MySQL窗口函数简介2、窗口函数如何使用3、序号函数操作1、MySQL窗口函数简介       MySQL从8.0开始支持窗口函数,这个功能在大多商业数据库和部分开源数据库中早已支持,有的也叫分析函数。1)什么叫窗口?       窗口函数也就是OLAP,拼写:online analytica...

2020-05-05 20:52:44

Mysql教程(十三)---CASE WHEN

目录1、简单函数2、搜索函数3、案例分析4、聚合函数 sum 配合 case when1、简单函数CASE [col_name] WHEN [value1] THEN [result1]…ELSE [default] END: 枚举这个字段所有可能的值*-- 简单函数CASE <表达式> WHEN <表达式1> THEN <表达式4> ...

2020-05-05 17:34:10

Mysql教程(十一)---内连接-外连接-全连接

目录1、JOIN 按照功能描述2、内连接3、左外连接4、右外连接1、JOIN 按照功能描述JOIN 按照功能大致分为如下三类:INNER JOIN(内连接,或等值连接):获取两个表中字段匹配关系的记录。LEFT JOIN(左连接):获取左表所有记录,即使右表没有对应匹配的记录。RIGHT JOIN(右连接): 与 LEFT JOIN 相反,用于获取右表所有记录,即使左表没有对应...

2020-05-05 10:26:48

Mysql教程(十)---子查询

目录1、子查询功能和约束2、需求:找出大于平均值得房屋3、需求:在原有列中加入,房屋平均价格列4、需求:朝向和卫生间房屋分组的平均价格大于总平均价格5、需求:相同卧室个数的大于,大于平均价格6、EXIST与NOT EXIST备注:Mysql教程(一)—本教程数据准备1、子查询功能和约束子查询:通过多个嵌套获得结果运行过程:先执行内部查询,在执行外部查询作用域:外嵌套的表名称...

2020-05-04 19:34:13

查看更多

CSDN身份
  • 博客专家
勋章 我的勋章
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 签到达人
    签到达人
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 阅读者勋章Lv1
    阅读者勋章Lv1
    授予在CSDN APP累计阅读博文达到3天的你,是你的坚持与努力,使你超越了昨天的自己。
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv4
    勤写标兵Lv4
    授予每个自然周发布9篇以上(包括9篇)原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 学习力
    学习力
    《原力计划【第二季】》第一期主题勋章 ,第一期活动已经结束啦,小伙伴们可以去参加第二期打卡挑战活动获取更多勋章哦。
  • 博客之星-入围
    博客之星-入围
    授予每年博客之星评选结果第21-200名的用户
  • 原力新人
    原力新人
    在《原力计划【第二季】》打卡挑战活动中,成功参与本活动并发布一篇原创文章的博主,即可获得此勋章。
  • 原力探索 · S
    原力探索 · S
    在《原力计划【第二季】》打卡挑战活动中,发布 12 篇原创文章参与活动的博主,即可获得此勋章。(本次活动结束后统一统计发放)
  • 分享精英
    分享精英
    成功上传11个资源即可获取