自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(34)
  • 资源 (1)
  • 收藏
  • 关注

原创 C语言指针小计

2、通过指针引用数组3、指针和const4、指针的类型转换5、二位数组a的有关指针

2022-07-08 23:29:08 1457 1

原创 Failed to execute goal org.apache.maven.plugins:maven-resources-plugin:3.2.0

问题idea打包jar包时一直报这个错java Failed to execute goal org.apache.maven.plugins:maven-resources-plugin:3.2.0解决尝试在pom.xml中添加了如下依赖<plugin> <groupId>org.apache.maven.plugins</groupId> <artifactId>maven-resources-plugin</arti

2021-08-19 15:56:32 1318

原创 HDFS的Java API操作

目录引言API实操1、连接hdfs(一)2、连接hdfs(二)3、创建文件夹4、上传文件5、遍历文件夹6、下载文件7、重命名文件或者文件夹8、删除文件或者文件夹9、小文件合并引言HDFS在生产应用中主要是客户端的开发,其核心步骤是从HDFS提供的API中构造一个HDFS的访问客户端对象,然后通过该客户端对象操作(增删改查)HDFS上的文件。API介绍:  1. API(Application Programming Interface,应用程序接口)是一些预先定义的接口(如函数、HTTP接口),或指

2021-08-16 12:02:00 1740

原创 Spark的任务提交和调度

目录1、Spark简介2、Spark核心组件3、运行流程概述4、任务提交流程4.1 SparkSubmit进程解析4.2 YARN Cluster 模式4.3 YARN Client 模式5、任务调度机制5.1 任务调度概述5.2 Spark Stage 级调度5.3 Spark Task 级调度1、Spark简介Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为A

2021-08-07 12:30:24 518

原创 即席查询(Ad Hoc)入门(Kylin)

目录1、什么是即席查询2、前置概念3、Kylin3.1 Kylin简介2.2 Kylin架构1、什么是即席查询即席查询(Ad Hoc)是用户根据自己的需求,灵活的选择查询条件,系统能够根据用户的选择生成相应的统计报表。即席查询与通常查询从SQL语句上来说,并没有本质的差别。它们之间的差别在于:通常的查询在系统设计和实施时是已知的,是定制开发的;所以我们可以在系统实施时通过建立索引、分区等技术来优化这些查询,使这些查询的效率很高。而即席查询是用户在使用时临时生产的,是用户自定义查询条件的;系统无法

2021-08-04 17:31:50 9424

原创 superset安装和简单入门

目录1、概述2、安装MiniConda3、创建python3.6环境4、部署superset5、操作superset6、使用superset 1、概述Apache Superset是一个开源的、现代的、轻量级BI分析工具,能够对接多种数据源、拥有丰富的图标展示形式、支持自定义仪表盘,且拥有友好的用户界面,十分易用。由于Superset能够对接常用的大数据分析工具,如Hive、Kylin、Druid等,且支持自定义仪表盘,故可作为数仓的可视化工具。查看详细的所支持数据库,请点这 compatibl

2021-07-25 13:26:39 1156

原创 Centos7下使用yum安装pip,提示没有可用的软件包。

问题:在Linux下,Miniconda创建了一个python3.6环境,然后使用yue下载pip,出现下列报错原因:pip不在centos官方yum源里面解决使用epel源,安装epel-release软件包。EPEL (Extra Packages for Enterprise Linux)是基于Fedora的一个项目,为“红帽系”的操作系统提供额外的软件包,适用于RHEL、CentOS等系统。可以在下面的网址上找到对应的系统版本,架构的软件包。执行下列命令,安装epel-rel..

2021-07-24 14:17:33 2095 1

原创 CondaHTTPError: HTTP 000 CONNECTION FAILED for url <https://mirrors.tuna.tsinghua.edu.cn/anaconda/pk

在Linux中,使用Miniconda创建 Python 3.6 环境时报以下错误[evil@hadoop102 ~]$ conda create --name superset python=3.6Collecting package metadata (current_repodata.json): failedCondaHTTPError: HTTP 000 CONNECTION FAILED for url <https://mirrors.tuna.tsinghua.edu.cn/a

2021-07-23 17:27:55 362 2

原创 FAILED: ParseException line 5:29 missing EOF at ‘)‘ near ‘1‘

FAILED: ParseException line 5:29 missing EOF at ')' near '1'看是不是\t,只需在sql前按删除键。若一下子删除了多格就是/t了,需要换成空格;否则不用换。

2021-07-22 16:40:04 14544

原创 shell中单引号(‘‘)、双引号(““)、反引号(``)的区别

shell中单引号(’’)、双引号("")、反引号(``)的区别脚本#!/bin/bashdo_date=$1echo '$do_date'echo "$do_date"echo "'$do_date'"echo '"$do_date"'echo `date`echo ${date}结果[evil@hadoop102 bin]$ vim test.sh [evil@hadoop102 bin]$ chmod 777 test.sh [evil@hadoop102 bin]$

2021-07-20 13:16:52 278

原创 Duplicated tag: ‘properties‘ (position: START_TAG seen ...<!--\u7248\u672c\u53f7\u7edf\u4e00 -->\n

Duplicated tag: ‘properties’ (position: START_TAG seen …\n … @17:17)

2021-07-18 13:51:19 9234

原创 INFO ipc.Client: Retrying connect to server: hadoop103/192.168.1.103:8032. Already tried 1

INFO ipc.Client: Retrying connect to server: hadoop103/192.168.1.103:8032. Already tried 1 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep第一、yarn没有开启第二、防火墙没有关闭

2021-07-18 13:50:07 967

原创 Cannot find hadoop installation: $HADOOP_HOME or $HADOOP_PREFIX must be set or hadoop must be in th

问题:Cannot find hadoop installation: $HADOOP_HOME or $HADOOP_PREFIX must be set or hadoop must be in the path原因:hive的hive-env.sh没有配置hadoop环境变量

2021-07-18 13:48:14 412

原创 快速入门Hive语法

DDL1、数据库创建: creat database [if not exists] database_name; //若所创的数据库已存在,[if not exists]可确保不报错 2、显示数据库: show databases [like 'str*']; //like进行正则匹配 show databases databaseName; show databases extended databaseName; //更详细地查看信息

2021-07-07 18:55:12 2662 4

原创 Hive(一)---- 简介和安装部署

目录1、什么是Hive2、Hive的优缺点3、Hive架构原理4、Hive和数据库比较5、Hive的部署5.1 Hive安装5.2 mysql安装和mysql存放metastone 1、什么是Hive1)hive 简介Hive:由 Facebook 开源用于解决海量结构化日志的数据统计工具。Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能。2) Hive 本质:将 HQL 转化成 MapReduce 程序Hive 处理的数据

2021-07-06 17:02:04 428

原创 Hadoop--MapReduce详解(Map、Shuffle、Reduce)

目录1、MapReduce概述1.1 MapReduce是什么1.2 MapReduce核心思想和简单过程1.3 MapReduce的优缺点2、MapReduce工作机制2.1 MapReduce常用数据序列化类型2.2 MapReduce简单过程图示2.2.1 MapReduce进程2.2.2 数据切片与MapTask并行度2.2.3 分区机制与ReduceTask并行度2.2.4 排序2.2.5 MapReduce过程描述2.3 MapReduce工作机制2.3.1 MapTask工作机制2.3.2 S

2021-07-05 17:04:35 5646

原创 Hadoop--NN和2NN工作机制

目录1、NameNode元数据的存储2、NameNode工作机制3、NN和2NN工作机制 1、NameNode元数据的存储Fsimage 和 Edits 文件Fsimage 和 Edits 文件都存储在磁盘中Fsimage文件:HDFS文件系统元数据的一个永久性的检查点,其中包含HDFS文件系统的所有目录和文件inode的序列化信息。Edits文件:存放HDFS文件系统的所有更新操作的路径,文件系统客户端执行的所有写操作首先会被记录到Edits文件中。说白了就是,Fsimage存放一定时间

2021-06-19 18:40:09 542 2

原创 Hadoop--HDFS读写数据流程

目录1、HDFS概述2、文件块大小3、HDFS写数据流程3.1 流程详解3.2 节点距离计算3.3 机架感知(副本存储节点选择)4、HDFS读数据流程 1、HDFS概述HDFS产生背景随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS 只是分布式文件管理系统中的一种。HDFS定义HDFS (Hadoop Distibuted File System),

2021-06-19 16:28:34 394

原创 Hadoop框架和四大组件简介

+

2021-06-18 23:46:49 2473 2

原创 Linux下mysql导入csv文件

直接上语句mysql>load data infile '/var/lib/mysql/ct/contact.csv' >into table Order character set utf8 >fields terminated by ',' optionally enclosed by '"' escaped by '"' >lines terminated by '\r\n';指令功能load d

2021-05-21 09:37:26 2567 1

原创 ssh免密登入失败(Authentication refused: bad ownership or modes for directory)

现象:配置完免密登入后,部分机器仍需要输入密码才能登入通过命令 /var/log/secure查看日志出现问题的机器Apr 26 22:58:47 hadoop102 sshd[58994]: Authentication refused: bad ownership or modes for directory /home/evil/.sshApr 26 22:58:52 hadoop102 sshd[58994]: Accepted password for evil from 192.1

2021-04-27 00:15:08 2626

原创 分布式系统搭建(CentOS7虚拟机)

VM版本:15.0.4 build-12990004Linux: 7.9.2009 (Core)Hadoop: hadoop-2.8.0JDK: jdk1.8.0_161目录1、创建一台虚拟机进行基本配置2、 安装jdk和hadoop3、克隆两台虚拟机4、分布式系统配置5、启动分布式系统1、创建一台虚拟机进行基本配置这里就不进行虚拟机的创建了。这里额外创建了一个evil用户,之后利用evil用户进行hadoop的相关操作。网络配置命令:vim /etc/sysconfi.

2021-03-09 14:09:26 653

原创 Linux入门

记录和分享最近所学的Linux,巩固基础和便于日后查找。文中有不对之处,欢迎指出。VM版本:15.0.4 build-12990004Linux:7.9.2009 (Core)这里的知识点主要是基于一个尚硅谷Linux课程所总结的。感兴趣的小伙伴可以点这里 尚硅谷韩老师Linux课程目录一、Linux介绍1、Linux简介2、Linux的特点3、Linux和其他操作系统的区别二、虚拟机和Linux系统安装1、虚拟机安装三、Linux的文件系统四、远程登入(Xshell XFtp)五、vi和vim

2021-02-03 08:02:53 680 1

原创 字符编码

字符编码一、ASCII码二、扩展的ASCLII码三、GB2312和GBK一、ASCII码计算机内部,所有信息最终都是一个二进制值。每一个二进制位(bit)有0和1两种状态,因此八个二进制位就可以组合出256种状态,这被称为一个字节(byte)。也就是说,一个字节一共可以用来表示256种不同的状态,每一个状态对应一个符号,就是256个符号,从00000000到11111111。美国制定的标准ASCII码一共规定了128个字符的编码,一个字节表示一个字符。比如大写的字母A是65(二进制01000001),

2021-01-23 22:16:12 1007

原创 missingno库---缺失值可视化分析

最近发现一个用于缺失值可视化的库,十分的方便、直观。missingno 下载可以用pip install missingno 即可下载该库导入库import missingno as msno下面开始举一些栗子1.条形密度图msno.matrix(data.sample(1000),labels=True)#data表示类型为dataframe的表格,#sample(1000)表示抽取表格中1000个样本。#labels为True表示显示标签,默认不显示图是可视化的结果,白线.

2020-11-10 10:37:23 1586

原创 逻辑回归(logistics regression)

1.算法概论2.目标函数3.损失函数4.梯度下降最小化损失函数5.代码实现6.小结

2020-10-14 12:28:56 480 2

原创 OperationalError: unrecognized token: “:“

我在使用python中的sqlite3库时,向数据库插入数据时出现OperationalError: unrecognized token: ":"这个错误#3.2保存数据def saveDataDB(dbpath,datalist): init_db(dbpath)#创建数据库 conn = sqlite3.connect(dbpath) cursor = conn.cursor() for data in datalist: for i in da.

2020-10-06 20:48:28 1415

原创 正则化防止过拟合

在上次的线性回归就有提到正则化,下面就来更具体地介绍什么是正则化。1.为什么要正则化2.正则化的作用3.

2020-10-03 08:37:11 1780

原创 SVM分类算法

1.基本概念支持向量机(SVM)的基本模型是在特征空间上找到最佳的分离超平面使得训练集上正负样本间隔最大。SVM是用来解决二分类问题的有监督学习算法,在引入了核方法之后SVM也可以用来解决非线性问题。 实际应用中一般要解决觉得是多分类问题,SVM也可以用了来解决多分类,可以通过多个二类支持向量机的组合来解决。主要有一对多组合模式、一对一组合模式等。一般SVM有下面三种:硬间隔支持向量机(线性可分支持向量机):当训练数据线性可分时,可通过硬间隔最大化学得一个线性可分支持向量机。软间隔支持向量机:当训

2020-08-28 17:01:27 11542 3

原创 决策树分类算法

1.算法概要决策树2.重点分析划分处理1、ID3算法划分 信息增益最大的属性做为最有划分属性2、C4.5算法划分(为了解决ID3算法对取值数目较多的属性有所偏好的问题) 增益率最大的属性做为最有划分属性3、基尼系数划分 基尼系数最小的属性做为最有划分属性剪枝处理防止过拟合1、预剪枝 (树生成的过程中进行处理)2、后剪枝 (树生成以后进行处理)3.代码实现...

2020-08-14 19:58:21 4847

原创 BP神经网络算法

1.基本思想先上一个图Layer1为输入层,x1,x2,x3表示一个样本里的每个特征;Layer2为隐藏层当然,隐藏层可以不止一层,在神经网络中,输入层与输出层之间的层称为隐含层或隐层,隐层和输出层的神经元都是具有激活函数的功能神经元;Layer3为输出层,输出值更大的对于类别作为预测label。人工神经网络结构有以下特点:每层神经元与下一层神经元之间完全互连神经元之间不存在同层连接神经元之间不存在跨层连接wLij中,L表示第几层,i表示第L层第i个神经元,j表示第L层第i个神经

2020-07-31 19:13:39 2509

原创 朴素贝叶斯分类器简单分析

1.基础知识我们先来看看贝叶斯公式:P()2.

2020-07-24 08:17:33 563

原创 KNN分类算法简单分析

1.算法概要k-NearestNeighbor分类算法,顾名思义,找到K个与待测数据最近的样本数据,根据K个样本类别情况来判断待测数据的类别。为什么可以这样?相近的物体往往具有一些共性,例如,在学校里一般成绩比较好的学生都喜欢坐在一起,而有些成绩较差的往往也喜欢玩到一块去。KNN算法有三个步骤:1.算距离:计算待测数据到每个样本数据的距离2.找邻居:选出K个距离最近的样本数据3.做分类:在前k个样本中选择频率最高的类别作为预测类别2.KNN的三个重要因素K值的选取如下图:蓝色正方形和红色三角

2020-07-16 19:31:42 2606

原创 线性回归

1.含义线性回归是一种以线性模型来建立因变量与自变量关系的方法,通常分为一元线性回归和多元线性回归。线性回归模型根据定数据集D= {(x1, y1), (x2,y3),…,(xm,ym)},其中xi(xi1; xi2. . . ; xid), yi∈R"线性回归"(linear regression)试图学得一个线性模型以尽可能准确地预测连续型实值输出标记.2.一般形式f(x)=ω1x1+ω2x2+ω3x3+…+ωdxd+b矩阵形式f(x)=ωTx+b于ω直观表达了各属性在预测中的重要性,

2020-07-12 11:19:32 507

Windows版hadoop winutils-master.zip文件大全

hadoop-2.6.5、hadoop-2.7.3、hadoop-2.7.4、hadoop-2.7.6、hadoop-2.7.7、hadoop-2.8.0、hadoop-2.8.1、hadoop-2.8.2、hadoop-2.8.3、hadoop-2.8.4、hadoop-2.8.5、hadoop-2.9.0、hadoop-2.9.2、hadoop-3.0.1、hadoop-3.0.2、hadoop-3.1.0、hadoop-3.1.1、hadoop-3.1.2、hadoop-3.2.0、hadoop-3.2.1、

2021-06-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除