自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

转载 Centos7下修改MySQL5.7数据库文件存放路径过程

1.1 安装Mysql######################## 安装Mysql ########################[root@localhost home]# wget -i -c http://dev.mysql.com/get/mysql57-community-release-el7-10.noarch.rpm......[root@localhost home]# yum -y install mysql57-community-release-el7-10.noarc

2022-03-03 17:37:43 1055

转载 Impala 中invalidate metadata和refresh

首先了解一下:Impala如何融入Hadoop生态系统Impala使用了Hadoop生态系统中许多熟悉的组件。Impala可以作为消费者和生产者与其他Hadoop组件交换数据,因此它可以以灵活的方式适合您的ETL和ELT管道。How Impala Works with HiveImpala的一个主要目标是使SQL-on-Hadoop操作足够快速和高效,以吸引新的用户类别,并向新的用例类型开放Hadoop。在实用的情况下,它利用现有的Apache Hive基础设施(许多Hadoop用户已经拥有这些基础设

2021-07-13 11:00:11 915

原创 Java__面向对象上

这里写自定义目录标题类和对象JVM内存结构类的结构之一:属性类的结构二:方法类和对象1.面向对象学习的三条主线:1.Java类及类的成员:属性、方法、构造器;代码块、内部类2.面向对象的大特征:封装性、继承性、多态性、(抽象性)3.其它关键字:this、super、static、final、abstract、interface、package、import等“大处着眼,小处着手”2.面向对象与面向过程(理解)1.面向过程:强调的是功能行为,以函数为最小单位,考虑怎么做。2.面向对

2021-06-17 22:41:46 144

原创 Pandas 测试案例

import pandas as pdimport numpy as np# date_range() 的一些参数说明 :# start : 开始时间# end : 结束时间# periods : 生成时间数量# freq : 频率 按频率生成 设置为s 为秒 ,h ,d ,m , y# normalize : 转换成午夜时间 设置为True 时,默认去除 时分秒# closed : 时期区间的闭合 closed ='left' 左闭合 默认为None 全闭c

2021-06-17 14:39:55 453

原创 python DateTimeIndex

时间戳索引   DateTimeIndex ????DateTimeIndex 和TimeSeries 时间序列dts = pd.DatetimeIndex([‘2019-10-10’,‘2019-10-11’,‘2019-10-12’,‘2019-10-13’])#-----输出-----#DatetimeIndex([‘2019-10-10’, ‘2019-10-11’, ‘2019-10-12’, ‘2019-10-13’], dtype=‘datetime64[ns]’, freq=None

2021-06-17 13:22:02 866

原创 Pandas

1、首先导入pandas库,一般都会用到numpy库,所以我们先导入备用:import numpy as npimport pandas as pd2、导入CSV或者xlsx文件:df = pd.DataFrame(pd.read_csv(‘name.csv’,header=1))df = pd.DataFrame(pd.read_excel(‘name.xlsx’))3、用pandas创建数据表:df = pd.DataFrame({“id”:[1001,1002,1003,1004,100

2021-06-16 17:15:04 82

原创 python Merge

/merage#pandas提供了一个类似于关系数据库的连接(join)操作的方法merage,可以根据一个或多个键将不同DataFrame中的行连接起来,语法如下:merge(left, right, how=‘inner’, on=None, left_on=None, right_on=None,left_index=False, right_index=False, sort=True,suffixes=(’_x’, ‘_y’), copy=True, indicator=False)作为

2021-06-16 17:14:24 1693

原创 python基础

写入到CSVimport pandas as pdclass PanCsv(): def Csv_01(self): df = pd.read_csv('nba.csv') print(df) # 三个字段 name, site, age nme = ["Google", "Runoob", "Taobao", "Wiki"] st = ["www.google.com", "www.runoob.com", "w

2021-06-16 17:10:58 47

原创 Java基础__数组常用的工具类和异常

这里写自定义目录标题package com.atguigu.java;import java.util.Arrays;/** java.util.Arrays:操作数组的工具类,里面定义了很多操作数组的方法***/public class ArraysTest { public static void main(String[] args) { //1.boolean equals(int[] a,int[] b):判断两个数组是否相等。

2021-06-14 22:44:35 72

原创 Java 数组

/*1.数组的理解:数组(Array),是多个相同类型数据一定顺序排列的集合,并使用一个名字命名,并通过编号的方式对这些数据进行统一管理。2.数组相关的概念:数组名元素角标、下标、索引数组的长度:元素的个数3.数组的特点:1数组是序排列的2数组属于引用数据类型的变量。数组的元素,既可以是基本数据类型,也可以是引用数据类型3创建数组对象会在内存中开辟一整块连续的空间4数组的长度一旦确定,就不能修改。数组的分类:① 照维数:一维数组、二

2021-06-14 12:28:02 1279 1

原创 Java 基础循环练习题

/*题目:输入两个正整数m和n,求其最大公约数和最小公倍数。比如:12和20的最大公约数是4,最小公倍数是60。说明:break关键字的使用:一旦在循环中执行到break,就跳出循环*/import java.util.Scanner;class ForTest{ public static void main(String[] args){ Scanner scan = new Scanner(System.in); System

2021-06-13 23:34:31 198

原创 Hive 数据类型

1 基本数据类型对于 Hive 的 String 类型相当于数据库的 varchar 类型,该类型是一个可变的字符串,不过它不能声明其中最多能存储多少个字符,理论上它可以存储 2GB 的字符数。2 集合数据类型Hive 有三种复杂数据类型 ARRAY、MAP 和 STRUCT。ARRAY 和 MAP 与 Java 中的Array 和 Map 类似,而 STRUCT 与 C 语言中的 Struct 类似,它封装了一个命名字段集合,复杂数据类型允许任意层次的嵌套。...

2020-12-09 09:29:01 144

原创 spark on hive和hive on spark的区别

spark on hive : 是spark 通过spark-sql 使用hive 语句操作hive ,底层运行的还是 spark rdd.*(1)就是通过sparksql,加载hive的配置文件,获取到hive的元数据信息* (2)spark sql获取到hive的元数据信息之后就可以拿到hive的所有表的数据* (3)接下来就可以通过spark sql来操作hive表中的数据hive on spark: 是hive 等的执行引擎变成spark , 不再是mapreduce. 相对于上一项,这个要

2020-11-01 20:25:24 311

转载 Hadoop 集群角色和节点数规划建议

Hadoop 集群角色和节点数规划建议2019-04-29 15:0431040转载Hadoop1、 CDH组件角色说明  Hadoop 集群服务器按照节点任务的不同可以分为管理节点和工作节点。管理节点上部署各组件的管理角色,工作节点部署各角色的存储、容器或计算角色。但因为Hadoop 不同组件之间兼容性的问题,所以一般使用Cloudera 套件。 在CDH套件中就有如下角色。2、 CDH 节点数量建议2.1 小规模集群  一般来说,小于20个节点的都属于小规模集群,受限于集群的存储和处理能力

2020-10-26 15:26:42 2790

转载 CDH构建大数据平台-HDFS高可用案例实操                        

一.禁用HDFS的HA模式1>.通过CM的主界面进入HDFS集群的管理界面2>.点击HDFS的操作按钮,启用HDFS的高可用3>.自定义HDFS集群的名称4>.选择NameNode节点5>.添加JournalNode的主机6>.指定journalNode数据的存储目录7>.启用 HDFS的高可用模式8>.高可用启用完成9>.HDFS High Availability 启动成功...

2020-10-26 15:17:12 603

转载 CDH集群服务器主机节点与角色分配相关思考

默认首先安装的是:zookeeper -- 因为hadoop的ha高可用性需要用到zookeeper(zkfailovercontroller 与hdfs 的先后顺序影响不到) yarn的resource manager等资源管理用到 hbase的region reserver入口管理 响应客户端请求需要用到 kafka的topic等元数据保存用到了zookeeper (Zookeeper Server 进程 奇数个 paxos算法核心--为了保证半数以上投票支持 且节约资源 需要是奇数...

2020-10-26 14:44:43 1584 1

转载 CDH集群的角色划分

本文主要介绍由Cloudera Manager管理的CDH集群的角色划分。实际部署你可能还需要考虑工作负载的类型和数量,真实要部署的哪些服务,硬件资源,配置,以及其他因素。当你使用Cloudera Manager的安装向导来安装CDH时,CM会根据主机的可用资源,自动的分配角色到各台主机,边缘节点除外。你可以在向导中使用”自定义角色分配 - Customize Role Assignments”来更改这些默认划分,当然你也可以以后再使用Cloudera Manager来增加或修改角色分配。在介绍角...

2020-10-26 14:35:20 1440 1

转载 Hive,Hive on Spark和SparkSQL区别

Hive on MapreduceHive的原理大家可以参考这篇大数据时代的技术hive:hive介绍,实际的一些操作可以看这篇笔记:新手的Hive指南,至于还有兴趣看Hive优化方法可以看看我总结的这篇Hive性能优化上的一些总结Hive on Mapreduce执行流程执行流程详细解析Step 1:UI(user interface) 调用 executeQuery 接口,发送 HQL 查询语句给 Driver Step 2:Driver 为查询语句创建会话句柄,并将查询语

2020-10-26 10:55:25 184

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除