不会飞的乌龟-CSDN博客

原创 Tomcat10安装及配置教程win11

tomcat安装及配置教程win11，详细介绍tomcat本地安装以及常见问题解决方法

2023-08-23 14:31:11 3054 1

原创 for循环检查linux中IP是否被占用

for循环检查linux中IP是否被占用：for i in 192.168.200.{130..140}do ping -c 2 -W 1 $i &> /dev/null if [ "$?" = "0" ];then echo $i " 正在被使用!" else echo $i ”空闲" fidone

2021-12-08 20:40:02 2316

原创跨行业数据挖掘标准流程（CRISP-DM模型）基本步骤

CRISP-DM模型简介： CRISP-DM是Cross Industry Standard Process -Data Mining的缩写，是当今数据挖掘界通用的流行标准之一。它强调数据挖掘技术在商业中的应用，是用以管理并指导Data Miner 有效、准确的开展数据挖掘工作以期获得最佳挖掘成果的一系列工作步骤的标准规范。CRISP-DM模型的基本步骤包括：商业理解：

2021-11-12 11:33:44 5419

# Global logging configuration#log4j.rootLogger=INFO, stdoutlog4j.rootLogger=WARN, stdout#log4j.rootLogger=ERROR, stdout# Console output...log4j.appender.stdout=org.apache.log4j.ConsoleAppenderlog4j.appender.stdout.layout=org.apache.log4j.PatternLayo

2021-10-09 11:24:55 127

原创 Kafka集群监控以及性能测试命令

kafka客户端安装路径cd /opt/hadoopclient/Kafka/kafka/bin监控kafka是否被使用netstat -anp | grep 21005 | awk '{print $5}' | awk -F':' '{print $1}' | sort | uniq -c netstat -anp | grep 21007 | awk '{print $5}' | awk -F':' '{print $1}' | sort | uniq -c ./clustercmd.

2021-09-26 11:10:24 533

原创 Linux操作系统shell脚本for循环示例

Linux操作系统shell脚本for循环示例示例01for a in {1..3}; do ssh [email protected].$a cat /root/.ssh/id_rsa.pub >> /root/.ssh/authorized_keys; done示例02for a in {2..3}; do scp /root/.ssh/authorized_keys [email protected]$a:/root/.ssh/authorized_keys ; done示

2021-08-23 11:41:55 445

原创 sparkStreaming同时访问kafka和hive

sparkStreaming同时访问kafka和hivepackage com.gcy.scala.spark.OnKafKaimport org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.kafka.common.serialization.StringDeserializerimport org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimpo

2021-08-23 11:11:16 120

原创 SparkOnHive本地运行访问hive（IDEA）

SparkOnHive本地运行访问hive（IDEA）1. 添加依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2.11</artifactId> <version>${spark.version}</version>

2021-08-23 10:58:03 208

原创 Linux7&CentOS7环境配置以及集群环境配置

Linux7&CentOS7环境配置以及集群环境配置配置环境的图形化界面打开命令nmtuiEnter键进入图形化界面配置IP地址1、如下图（上下左右键移动选中光标）2、按Enter键进入下一个界面如下图（上下左右键移动选中光标）3、按Enter键进入下一个界面如下图（上下左右键移动选中光标）4、按Enter键进入下一个界面如下图（上下左右键移动选中光标）5、按Enter键进入下一个界面如下图（上下左右键移动选中光标）6、按Enter键进入下一个界面如

2021-06-09 10:37:01 83

原创 CentOS7设置自定义开机启动,添加自定义系统服务

CentOS7设置自定义开机启动,添加自定义系统服务

2021-06-03 15:07:16 95

原创 ntp时间同步

时间同步yum install -y ntpvi /etc/ntp.conf#注释掉下面的行 #server 0.centos.pool.ntp.org iburst #server 1.centos.pool.ntp.org iburst #server 2.centos.pool.ntp.org iburst #server 3.centos.pool.ntp.org iburst # 阿里云公网时间服务器 server ntp.aliyun.com # 当该节点丢失网络连

2021-06-03 15:02:02 78

原创 CentOS 6 yum安装软件报错 YumRepo Error

CentOS 6 yum安装软件报错 YumRepo Error报错信息如下图：报错原因CentOS 6自从2020年11月30日开始，官方不再维护，所以连带着原来的yum存储库也不能用了。解决方法官方给出了迁移后的存储库的链接地址，这时候我们只需要更新yum存储库的镜像列表，就可以正常使用了。...

2021-05-31 16:04:09 150

转载 Spark 基本架构及原理

Spark 基本架构及原理转载链接https://www.cnblogs.com/cxxjohnson/p/8909578.html Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架，最初在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一，与Hadoop和Storm等其他大数据和MapReduce技术相比，Spark有如下优势：Spark提供了

2021-05-11 13:26:45 158

原创 spark原理简介

spark简介以及原理spark简介 spark是基于内存的分布式处理框架，它把要执行的作业拆分成多个任务，然后将任务分发到多个CPU进行处理，处理结果的中间数据存储在内存中，减少了数据处理过程中对硬盘的I/O操作，大大提升了处理效率。spark和MapReduce对比 spark相对于mr，性能上提高了100倍。 &

2021-05-11 10:15:02 770

原创 hive内置函数用法查询

hive内置函数查看系统内置函数：show functions;显示函数用法 eg：desc function upper;详细显示函数用法 eg：desc function extended upper常用函数：

2021-05-11 09:35:27 101

转载 RedHat Linux磁盘分区、格式化、挂载、卸载

RedHat Linux磁盘分区、格式化、挂载、卸载[root@CORPSE2010/]# fdisk -lDisk /dev/sda: 322.1 GB, 322122547200 bytes255 heads, 63 sectors/track, 39162 cylindersUnits = cylinders of 16065 * 512 = 8225280 bytesSector size (logical/physical): 512 bytes / 512 bytesI/O size

2021-05-08 22:17:07 2535

原创 hive优化

hive优化数据倾斜　　数据倾斜是指在进行数据计算的时候，因为数据的分散度不够，导致大量数据集中到一台或几台服务器上计算，而这些数据的计算速度远远低于数据计算的平均速度，进而导致整个数据计算速度变慢。开发基本原则　　尽量尽早地过滤数据，减少每个阶段的数据量,对于分区表要加分区，同时只选择需要使用到的字段。　　eg:select ... from Ajoin Bon A.userid = B.useridwhereA.userid>100and B.userid&l

2021-04-22 22:34:31 114

原创 hive语句的执行顺序

hive语句的执行顺序hive语句的执行顺序：fromonjoinwheregroup byhavingselectdistinctdistribute by /cluster bysort byorder bylimitunion /union all

2021-04-20 12:26:01 99

原创 hive内部表和外部表的区别

hive内部表和外部表的区别区别关键字：　　　　　　内部表：　　　　　　　外部表：create/load　　　　　数据移到仓库目录　　　数据不移动drop　　　　　　　　元数据和数据都删除　　只删元数据查询表的类型desc formatted tableName;修改内部表为外部表alter table tableName set tblproperties('EXTERNAL'='TRUE');修改外部表为内部表alter table tableName set tbl

2021-04-19 11:33:07 114

原创 Hadoop集群启动WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using

Hadoop集群启动WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable问题原因Apache提供的hadoop本地库是32位的，而在64位的服务器需要自己编译64位的版本。解决方案下载对应了64位的版本，如果没有你要的版本就下载hadoop-native-64.tarhttp://dl.b

2021-04-07 08:50:03 143

原创启动hadoop时，免密码登录引发的错误：The authenticity of host ‘node01 (192.168.80.11)’ can’t be established.

启动hadoop时，免密码登录引发的错误：The authenticity of host ‘node01 (192.168.80.11)’ can’t be established.解决该问题出现上述报错，主要是4台服务器间的免密码登录出现了问题。在搭建hadoop环境的时候，简单实现了node01可以免密码登录node02，node03，node04，可是虚拟机之后再重新启动后，启动的时候，就出现了上述的问题。这次，配置了4台服务器间的免密码登录。配置步骤：进入相应目录，删除原来生

2021-04-06 22:37:11 1072

原创 Linux系统下集群安装jdk

Linux系统下集群安装jdk下载Linux下的jdk安装包下载链接网址：http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html将本地电脑上的jdk包上传到Linux上将该文件转移到 /home 目录下命令： mv jdk-8u141-linux-x64.tar.gz /home/解压该文件在当前目录命令：tar -zxvf jdk-8u141-linu

2021-04-05 15:32:04 246 1

原创远程链接服务器工具SecureCRT设置默认字体、编码、背景色

远程链接服务器工具SecureCRT设置默认字体、编码、背景色选项=>全局选项=>常规=>默认会话=>编辑默认设置=>外观，如下图最后确定完成设置选项=>全局选项=>终端=>外观=>高级=>颜色方案=>编辑，如下图最后确定，完成背景和字体颜色设置...

2021-04-05 13:27:44 292

原创 Linux下常用的快捷键

Linux下常用的快捷键Ctrl + z ：退出Linux下的pingTab ：在Linux系统下的命令补全Ctrl + Alt ：鼠标光标退出Linux的命令窗口

2021-04-04 20:48:55 150

原创 maven下载安装以及配置setting.xml修改远程和本地仓库地址+IDEA配置本地库

maven下载安装以及配置setting.xml修改远程和本地仓库地址+IDEA配置本地库1. maven库下载安装下载网址：http://maven.apache.org/解压下载文件下，即可完成maven安装配置maven本地环境变量，如下图测试maven本地环境变量是否成功，管理员窗口输入mvn -version，可知已经配置成功。2. maven配置setting.xml修改远程和本地仓库地址打开maven解压文件目录，找到settings.xml，如下图打开setti

2021-04-03 19:55:48 814

原创删除U盘分区成为唯一区

删除U盘分区成为唯一区按下键盘的“微软窗口图标+R”打开运行对话框，输入命令CMD打开系统的命令提示符窗口按下图以此输入命令格式化U盘，恢复U盘的分区成唯一区

2021-02-22 20:21:54 76

原创卸载Python时报错：No Python 3.9.0 installation was detected

卸载Python时报错：No Python 3.9.0 installation was detected卸载Python时报错出现报错：No Python 3.9.0 installation was detected，无法卸载Python。此时可以按照下面的步骤来解决：打开C:\Users\Administrator\AppData\Local\Programs；删除Python文件夹；打开控制面板>> 删除程序，找到Python，右键点击更改；点击Repair （Uninst

2021-01-17 19:50:03 1465 2

原创 python开发工具Jupyter Notebook在Win10系统上的安装与使用

python开发工具Jupyter Notebook在Win10系统上的安装与使用利用Anaconda安装Jupyter Notebook1. Anaconda下载　　点击Get Started进入　　点击Download Anaconda installers　　如图下载需要的系统的版本的Anaconda。2. win10系统 Anaconda安装　　在下载目录下找到下载的Anaconda，win10系统需要的版本样式如图　　双击安装　　　4. 打开jupy

2020-12-30 18:50:58 266

原创 2020年之后版本pycharm官方汉化

2020年之后版本pycharm官方汉化1. 打开pycharm，左上角File找到Settings2. 点击Setting进入后找到插件Plugins，在搜索框右上角点击Marketplace,在搜索框搜索Chinese，找到第二个，点击install3. install完成后点击 Restart IDE和Restart4. 重启完成后可以看到已经完成了汉语话了5. 取消汉化步骤同样的位置，文件==>设置6. 点击设置进入后同样找到插件Plugins，在搜索框右上角点击inst

2020-12-28 23:12:14 396

原创 Python的全局安装源配置

Python的全局安装源配置配置Python的全局安装源的作用：　　在开发的过程中我们需要安装很多的模块或者库用以辅助我们的开发，而配置安装源可以在我们安装新的模块或者库的时候下载更快。　　配置Python的全局安装源的命令语法：pip install 模块名配置Python的全局安装源的步骤：@在电脑键盘上看住win + r@输入 %appdata% 进入文件管理界面@在该路径下右击新建文件夹命名为 pip 并进入@新建一个txt文本文档，打开@将一下代码复制粘贴（每一行必须顶

2020-12-27 23:22:24 1247 1

原创 python在Win10系统上的解释器部署

python在Win10系统上的解释器部署1. Win10系统上的Python解释器下载　　Python解释器就是将Python代码解释成能直接操作计算机的机器语言，然后机器语言在指导计算机工作，机器语言是计算机能只接识别的语言，是计算机能听懂的命令。　　Python官网：https://www.python.org/　　２. 下载流程登入Python官网后点击 Downloads。　　　点击 Downloads后，点击windows（可根据自己电脑系统选择不同的选项，windows是针对W

2020-12-27 23:19:36 154

原创 Python开发工具pycharm安装

Python开发工具pycharm安装下载pycharm　　　　百度pycharm登入官网，如图　　安装pycharm　　双击红箭头程序完成安装

2020-12-27 23:16:10 94

原创 http协议获取splunk上数据并写入hive

http协议获取splunk上数据并写入hive-依赖<dependency> <groupId>com.squareup.okhttp3</groupId> <artifactId>okhttp</artifactId> <version>3.0.0...

2020-03-25 12:01:31 477

原创 git常用命令，初始化配置和代码提交以及下载

git常用命令，代码提交和下载用户配置git config --global user.name “用户名”git config --global user.email “用户邮箱”代码提交git initgit add .git commit -u “备注内容”git push -u origin master代码下载git clone http://gitlab...

2020-03-19 10:31:31 216

原创解决mysql数据库表锁死

原因：多个进程同时执行，因争夺资源而造成的一种互相等待。常见于程序循环操作数据库，建议采用批量操作。解决方案： show full processlist kill 锁死进行，kill + id（或者重启mysql）查看state找到锁死进程kill掉。eg: kill 250244一定要检查造成死锁的代码，并修改，否则还会造成锁死。...

2020-03-18 18:10:56 607

原创 spark链接ldap获取数据（thumbnailPhoto属性获取以及转成base64图片格式存储）

spark链接ldap获取数据依赖 <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-distcp</artifactId> <version>2...

2020-03-18 14:44:13 515

原创 hive获取每组数据最大值

hive 分组top N案例01获取历史数据中每个用户最近时间的一条数据select itcode, timefrom (select itoode, time, row_number() over(partion by itcode order by time desc) rn from tb_his )where ...

2020-03-18 11:34:53 8143

原创 mysql等merge数据用法案例

mysql等merge数据用法案例*按user_name，离职日期(resign_date)字段merge，获取最新日期的数据。select * from tb01 mwhere not exists (select 1 from tb01 where user_name = m.user_name and resign_date > m.re...

2020-03-11 15:58:19 61881

转载 Spark性能调优

Spark性能调优-高级篇前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的...

2020-03-10 16:13:09 76

转载 IntelliJ IDEA 设置编码为utf-8编码

2020-03-05 09:20:30 292 1

Scala面向对象.docx

Scala编程基础.docx

Linux下安装jdk.docx

Linux三种网络.docx

linux 常用命令总结

web开发登入注册思路简介

空空如也