Memory_ss-CSDN博客

转载 Centos7下修改MySQL5.7数据库文件存放路径过程

1.1 安装Mysql######################## 安装Mysql ########################[root@localhost home]# wget -i -c http://dev.mysql.com/get/mysql57-community-release-el7-10.noarch.rpm......[root@localhost home]# yum -y install mysql57-community-release-el7-10.noarc

2022-03-03 17:37:43 1055

转载 Impala 中invalidate metadata和refresh

首先了解一下：Impala如何融入Hadoop生态系统Impala使用了Hadoop生态系统中许多熟悉的组件。Impala可以作为消费者和生产者与其他Hadoop组件交换数据，因此它可以以灵活的方式适合您的ETL和ELT管道。How Impala Works with HiveImpala的一个主要目标是使SQL-on-Hadoop操作足够快速和高效，以吸引新的用户类别，并向新的用例类型开放Hadoop。在实用的情况下，它利用现有的Apache Hive基础设施(许多Hadoop用户已经拥有这些基础设

2021-07-13 11:00:11 915

原创 Java__面向对象上

这里写自定义目录标题类和对象JVM内存结构类的结构之一：属性类的结构二：方法类和对象1.面向对象学习的三条主线：1.Java类及类的成员：属性、方法、构造器；代码块、内部类2.面向对象的大特征：封装性、继承性、多态性、(抽象性)3.其它关键字：this、super、static、final、abstract、interface、package、import等“大处着眼，小处着手”2.面向对象与面向过程（理解）1.面向过程：强调的是功能行为，以函数为最小单位，考虑怎么做。2.面向对

2021-06-17 22:41:46 144

原创 Pandas 测试案例

import pandas as pdimport numpy as np# date_range() 的一些参数说明 :# start : 开始时间# end : 结束时间# periods : 生成时间数量# freq : 频率按频率生成设置为s 为秒 ,h ,d ,m , y# normalize : 转换成午夜时间设置为True 时，默认去除时分秒# closed : 时期区间的闭合 closed ='left' 左闭合默认为None 全闭c

2021-06-17 14:39:55 453

原创 python DateTimeIndex

时间戳索引　　DateTimeIndex ????DateTimeIndex 和TimeSeries 时间序列dts = pd.DatetimeIndex([‘2019-10-10’,‘2019-10-11’,‘2019-10-12’,‘2019-10-13’])#-----输出-----#DatetimeIndex([‘2019-10-10’, ‘2019-10-11’, ‘2019-10-12’, ‘2019-10-13’], dtype=‘datetime64[ns]’, freq=None

2021-06-17 13:22:02 866

原创 Pandas

1、首先导入pandas库，一般都会用到numpy库，所以我们先导入备用：import numpy as npimport pandas as pd2、导入CSV或者xlsx文件：df = pd.DataFrame(pd.read_csv(‘name.csv’,header=1))df = pd.DataFrame(pd.read_excel(‘name.xlsx’))3、用pandas创建数据表：df = pd.DataFrame({“id”:[1001,1002,1003,1004,100

2021-06-16 17:15:04 82

原创 python Merge

/merage#pandas提供了一个类似于关系数据库的连接(join)操作的方法merage,可以根据一个或多个键将不同DataFrame中的行连接起来，语法如下：merge(left, right, how=‘inner’, on=None, left_on=None, right_on=None,left_index=False, right_index=False, sort=True,suffixes=(’_x’, ‘_y’), copy=True, indicator=False)作为

2021-06-16 17:14:24 1693

原创 python基础

写入到CSVimport pandas as pdclass PanCsv(): def Csv_01(self): df = pd.read_csv('nba.csv') print(df) # 三个字段 name, site, age nme = ["Google", "Runoob", "Taobao", "Wiki"] st = ["www.google.com", "www.runoob.com", "w

2021-06-16 17:10:58 47

原创 Java基础__数组常用的工具类和异常

这里写自定义目录标题package com.atguigu.java;import java.util.Arrays;/** java.util.Arrays:操作数组的工具类，里面定义了很多操作数组的方法***/public class ArraysTest { public static void main(String[] args) { //1.boolean equals(int[] a,int[] b):判断两个数组是否相等。

2021-06-14 22:44:35 72

原创 Java 数组

/*1.数组的理解：数组(Array)，是多个相同类型数据一定顺序排列的集合，并使用一个名字命名，并通过编号的方式对这些数据进行统一管理。2.数组相关的概念：数组名元素角标、下标、索引数组的长度：元素的个数3.数组的特点：1数组是序排列的2数组属于引用数据类型的变量。数组的元素，既可以是基本数据类型，也可以是引用数据类型3创建数组对象会在内存中开辟一整块连续的空间4数组的长度一旦确定，就不能修改。数组的分类：① 照维数：一维数组、二

2021-06-14 12:28:02 1279 1

原创 Java 基础循环练习题

/*题目：输入两个正整数m和n，求其最大公约数和最小公倍数。比如：12和20的最大公约数是4，最小公倍数是60。说明：break关键字的使用：一旦在循环中执行到break，就跳出循环*/import java.util.Scanner;class ForTest{ public static void main(String[] args){ Scanner scan = new Scanner(System.in); System

2021-06-13 23:34:31 198

原创 Hive 数据类型

1 基本数据类型对于 Hive 的 String 类型相当于数据库的 varchar 类型，该类型是一个可变的字符串，不过它不能声明其中最多能存储多少个字符，理论上它可以存储 2GB 的字符数。2 集合数据类型Hive 有三种复杂数据类型 ARRAY、MAP 和 STRUCT。ARRAY 和 MAP 与 Java 中的Array 和 Map 类似，而 STRUCT 与 C 语言中的 Struct 类似，它封装了一个命名字段集合，复杂数据类型允许任意层次的嵌套。...

2020-12-09 09:29:01 144

原创 spark on hive和hive on spark的区别

spark on hive : 是spark 通过spark-sql 使用hive 语句操作hive ,底层运行的还是 spark rdd.*（1）就是通过sparksql，加载hive的配置文件，获取到hive的元数据信息* （2）spark sql获取到hive的元数据信息之后就可以拿到hive的所有表的数据* （3）接下来就可以通过spark sql来操作hive表中的数据hive on spark: 是hive 等的执行引擎变成spark , 不再是mapreduce. 相对于上一项,这个要

2020-11-01 20:25:24 311

转载 Hadoop 集群角色和节点数规划建议

Hadoop 集群角色和节点数规划建议2019-04-29 15:0431040转载Hadoop1、 CDH组件角色说明　　Hadoop 集群服务器按照节点任务的不同可以分为管理节点和工作节点。管理节点上部署各组件的管理角色，工作节点部署各角色的存储、容器或计算角色。但因为Hadoop 不同组件之间兼容性的问题，所以一般使用Cloudera 套件。在CDH套件中就有如下角色。2、 CDH 节点数量建议2.1 小规模集群　　一般来说，小于20个节点的都属于小规模集群，受限于集群的存储和处理能力

2020-10-26 15:26:42 2790

转载 CDH构建大数据平台-HDFS高可用案例实操　　　　　　　　　　　　　　　　　　　　　　　

一.禁用HDFS的HA模式1>.通过CM的主界面进入HDFS集群的管理界面2>.点击HDFS的操作按钮，启用HDFS的高可用3>.自定义HDFS集群的名称4>.选择NameNode节点5>.添加JournalNode的主机6>.指定journalNode数据的存储目录7>.启用 HDFS的高可用模式8>.高可用启用完成9>.HDFS High Availability 启动成功...

2020-10-26 15:17:12 603

转载 CDH集群服务器主机节点与角色分配相关思考

默认首先安装的是：zookeeper -- 因为hadoop的ha高可用性需要用到zookeeper（zkfailovercontroller 与hdfs 的先后顺序影响不到） yarn的resource manager等资源管理用到 hbase的region reserver入口管理响应客户端请求需要用到 kafka的topic等元数据保存用到了zookeeper （Zookeeper Server 进程奇数个 paxos算法核心--为了保证半数以上投票支持且节约资源需要是奇数...

2020-10-26 14:44:43 1584 1

转载 CDH集群的角色划分

本文主要介绍由Cloudera Manager管理的CDH集群的角色划分。实际部署你可能还需要考虑工作负载的类型和数量，真实要部署的哪些服务，硬件资源，配置，以及其他因素。当你使用Cloudera Manager的安装向导来安装CDH时，CM会根据主机的可用资源，自动的分配角色到各台主机，边缘节点除外。你可以在向导中使用”自定义角色分配 - Customize Role Assignments”来更改这些默认划分，当然你也可以以后再使用Cloudera Manager来增加或修改角色分配。在介绍角...

2020-10-26 14:35:20 1440 1

转载 Hive，Hive on Spark和SparkSQL区别

Hive on MapreduceHive的原理大家可以参考这篇大数据时代的技术hive：hive介绍，实际的一些操作可以看这篇笔记：新手的Hive指南，至于还有兴趣看Hive优化方法可以看看我总结的这篇Hive性能优化上的一些总结Hive on Mapreduce执行流程执行流程详细解析Step 1：UI(user interface) 调用 executeQuery 接口，发送 HQL 查询语句给 Driver Step 2：Driver 为查询语句创建会话句柄，并将查询语

2020-10-26 10:55:25 184

weixin_46576686的博客