南洲.-CSDN博客

原创 CSDN如何将插入图片缩小并且居中

CSDN的插入图有时候显示比较大，不方便查看，这时只需要在原图片的地址上增加缩放比即可。例如插入后系统给的地址为：https://img-blog.csdnimg.cn/f348670dbadc4da2a52db5926c16d10b.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA5Y2X5rSyLg==,size_20,color_FFFFFF,t_70,g_se,x_16

2021-09-13 11:23:30 658

原创 python Qt designer 图形界面编程实战

1、概述最近做一个算法模块开发，刚开始参数是是在主函数修改，后来老大说需要有一个用户交互界面，方便调试，于是我就花了周末两天时间在网上学习了python Qt图形界面的开发（Python Qt 图形界面编程，很实用也很详细的视频课程），顺利完成项目需求，写入门使用，供大家参考。本文主要演示如何使用多线程打印输出以及不使用多线程会发生什么状况，还有就是如何从用户输

2020-08-18 15:28:18 12631

原创 linux常用命令总结

1、文件查找find /home |grep “hello” 查找/home目录下包含“hello”的文件find /home |xargs grep “hello” 查找/home目录下内容中包含“hello”的文件2.查看各文件的使用情况df -l以KB为单位显示各文件使用情况df -lm以M为单位显示各文件使用情况3.查看各文件大小排序du -sh *|sort ...

2019-07-30 09:53:31 375

原创 python日期、时间戳和日期字符串之间的转换

时间、字符串、时间戳之前的转换

2023-03-03 16:56:20 822 1

原创 Flume 数据流监控——Ganglia的安装与部署

1、Ganglia的安装（1）安装 dhttpd 服务与 php[yasin@hadoop102 flume]$ sudo yum -y install httpd php（2）安装其他依赖[atguigu@hadoop102 flume]$ sudo yum -y install rrdtool perl-rrdtoolrrdtool-devel[atguigu@hadoop102 flume]$ sudo yum -y install apr-devel（3）安装 gangli

2021-09-13 10:39:53 370

原创 Flume介绍

1、Flume定义Flume 是 Cloudera 提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构，灵活简单。Flume最主要的作用就是，实时读取服务器本地磁盘的数据，将数据写入到HDFS。2、Flume架构Flume 组成架构如图所示：（1）AgentAgent 是一个 JVM 进程，它以事件的形式将数据从源头送至目的。Agent 主要有 3 个部分组成，Source、Channel、Sink。（2） SourceSource 是负责接收

2021-09-09 21:06:32 374

原创 5道Hive典型题目解析

一、连续问题如下数据为蚂蚁森林中用户领取的低碳排放量（lowcarbon）id dt lowcarbon1001 2021-12-12 1231002 2021-12-12 451001 2021-12-13 431001 2021-12-13 451001 2021-12-13 231002 2021-12-14 451001 2021-12-14 2301002 2021-12-15 451001 2021-12-15 23… …找出连续 3 天及以上领取的

2021-09-08 21:49:03 1145

原创 Hive优化方法汇总

1、Fetch抓取Fetch 抓取是指，Hive 中对某些情况的查询可以不必使用 MapReduce 计算。例如：SELECT * FROM employees;在这种情况下，Hive 可以简单地读取 employee 对应的存储目录下的文件，然后输出查询结果到控制台。在 hive-default.xml.template 文件中 hive.fetch.task.conversion 默认是 more，老版本 hive 默认是 minimal，该属性修改为 more 以后，在全局查找、字段查找、limi

2021-09-01 21:56:33 4168 1

原创 order by, sort by, distribute by, cluster by 区别

四种在hive中都有排序和聚集的作用，但它们在执行时所启动的MR却各不相同。1、order byOrder By：全局排序，只有一个 Reducer。排序：ASC（ascend）: 升序（默认）DESC（descend）: 降序按照薪资水平对员工升序排列：hive (default)> select ename,sal from emp order by sal;ename salSMITH 800.0JAMES 950.0ADAMS 1100.0MARTIN 1250.0W

2021-08-26 17:13:16 581

原创 Linux系统下删除乱码类型文件

在linux下操作“rz”命令时，使得目录下产生了乱码文件，如下：对于有些有英文字母的文件可以直接按Tab 补全用rm命令删除，带???号文件则不行。这个乱码的文件需要通过iNode删除。查看iNode号ls -i[yasin@hadoop102 software]$ ls -i105583886 - 105583881 ??? 102424207 hadoop-3.1.3.tar.gz 104804033 zookee

2021-08-24 11:00:09 168

原创 Hive基本知识

1、Hive概念（1）Hive简介Hive：由 Facebook 开源用于解决海量结构化日志的数据统计工具。Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类 SQL 查询功能。（2）Hive本质本质：将 HQL 转化成 MapReduce 程序1）Hive 处理的数据存储在 HDFS2）Hive 分析数据底层的实现是 MapReduce3）执行程序运行在 Yarn 上2、Hive优缺点Hive优点：（1）操作接口采用类 SQL 语法，提

2021-08-23 15:35:22 155

原创 Zookeeper监听器原理

1、监听器详情1）首先要有一个main()线程2）在main线程中创建Zookeeper客户端，这时就会创建两个线程，一个负责网络连接通信（connet），一个负责监听（listener）。3）通过connect线程将注册的监听事件发送给Zookeeper。4）在Zookeeper的注册监听器列表中将注册的监听事件添加到列表中。5）Zookeeper监听到有数据或路径变化，就会将这个消息发送给listener线程。6）listener线程内部调用了process()方法。2、常见的监听1

2021-08-19 11:47:09 463

原创 Zookeeper选举机制

SID：服务器ID。用来唯一标识一台ZooKeeper集群中的机器，每台机器不能重复，和myid一致。ZXID：事务ID。ZXID是一个事务ID，用来标识一次服务器状态的变更。在某一时刻，集群中的每台机器的ZXID值不一定完全一致，这和ZooKeeper服务器对于客户端“更新请求”的处理逻辑有关。Epoch：每个Leader任期的代号。没有Leader时同一轮投票过程中的逻辑时钟值是相同的。每投完一次票这个数据就会增加。1、第一次启动（1）服务器1启动，发起一次选举。服务器1投自己一票。此时服务器

2021-08-18 17:26:45 373

原创 Yarn常用命令

1、yarn application查看任务yarn application -list2021-08-09 16:08:29,196 INFO client.RMProxy: Connecting to ResourceManager at hadoop103/192.168.10.103:8032Total number of applications (application-types: [], states: [SUBMITTED, ACCEPTED, RUNNING] and tags:

2021-08-09 16:16:16 487

原创 Yarn基础结构及工作机制

1、Yarn基础结构2、Yarn工作机制（1）MR 程序提交到客户端所在的节点。（2）YarnRunner 向 ResourceManager 申请一个 Application。（3）RM 将该应用程序的资源路径返回给 YarnRunner。（4）该程序将运行所需资源提交到 HDFS 上。（5）程序资源提交完毕后，申请运行 mrAppMaster。（6）RM 将用户的请求初始化成一个 Task。（7）其中一个 NodeManager 领取到 Task 任务。（8）该 NodeManag

2021-08-05 13:43:42 104

原创 MapReduce中的WritableComparable 排序

1、排序概述排序是MapReduce框架中最重要的操作之一。MapTask和ReduceTask均会对数据按照key进行排序。该操作属于Hadoop的默认行为。任何应用程序中的数据均会被排序，而不管逻辑上是否需要。默认排序是按照字典顺序排序，且实现该排序的方法是快速排序。对于MapTask，它会将处理的结果暂时放到环形缓冲区中，当环形缓冲区使用率达到一定阈值后，再对缓冲区中的数据进行一次快速排序，并将这些有序数据溢写到磁盘上，而当数据处理完毕后，它会对磁盘上所有文件进行归并排序。对于ReduceT

2021-07-27 21:37:58 146

原创 MapReduce中FileInputFormat解析

1、概述在map阶段，文件先被切分成split块，而后每一个split切片对应一个Mapper任务。FileInputFormat这个类先对输入文件进行逻辑上的划分,以128M为单位,将原始数据从逻辑上分割成若干个split,每个split切片对应一个Mapper任务。2、切片与与MapTask并行度决定机制数据块：Block 是 HDFS 物理上把数据分成一块一块。数据块是 HDFS 存储数据单位。数据切片：数据切片只是在逻辑上对输入进行分片，并不会在磁盘上将其切分成片进行存储。数据切片是Ma

2021-07-27 09:48:40 2555

原创 HDFS概述

1、HDFS 产出背景及定义（1）HDFS 产生背景随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS 只是分布式文件管理系统中的一种。（2）HDFS 定义HDFS（Hadoop Distributed File System），它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色

2021-07-25 20:29:20 173

原创 MapReduce介绍及核心思想

1、定义MapReduce 是一个分布式运算程序的编程框架，是用户开发“基于 Hadoop 的数据分析应用”的核心框架。MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个 Hadoop 集群上2、优点（1）MapReduce 易于编程它简单的实现一些接口，就可以完成一个分布式程序，这个分布式程序可以分布到大量廉价的 PC 机器上运行。也就是说你写一个分布式程序，跟写一个简单的串行程序是一模一样的。就是因为这个特点使得 MapRedu

2021-07-25 20:11:48 4989

原创 DateNode的工作机制

DataNode的工作机制：（1）一个数据块在 DataNode 上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。（2）DataNode 启动后向 NameNode 注册，通过后，周期性（6 小时）的向 NameNode 上报所有的块信息。DN 向 NN 汇报当前解读信息的时间间隔，默认 6 小时。DN 扫描自己节点块信息列表的时间，默认 6 小时。（3）心跳是每 3 秒一次，心跳返回结果带有 NameNode 给该 Data

2021-07-23 22:28:01 371 1

原创 NameNode 和和 SecondaryNameNode工作机制

1、引入问题：NameNode 中的元数据是存储在哪里的？首先，我们做个假设，如果存储在 NameNode 节点的磁盘中，因为经常需要进行随机访问，还有响应客户请求，必然是效率过低。因此，元数据需要存放在内存中。但如果只存在内存中，一旦断电，元数据丢失，整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage。这样又会带来新的问题，当在内存中的元数据更新时，如果同时更新FsImage，就会导致效率过低，但如果不更新，就会发生一致性问题，一旦 NameNode 节点断电，就会产生数据丢失。**因此

2021-07-23 22:00:20 136

转载 HDFS读写数据流程

1、hdfs的写数据流程（1）客户端通过 Distributed FileSystem 模块向 NameNode 请求上传文件，NameNode 检查目标文件是否已存在，父目录是否存在。（2）NameNode 返回是否可以上传。（3）客户端请求第一个 Block 上传到哪几个 DataNode 服务器上。（4）NameNode 返回 3 个 DataNode 节点，分别为 dn1、dn2、dn3。（5）客户端通过 FSDataOutputStream 模块请求 dn1 上传数据，dn1 收到请求

2021-07-23 21:40:02 177

原创 HDFS的API操作

对于hdfs的shell命令操作在前一篇的笔记中已经学习，最近对hdfs的API操作进行了学习，主要包括：1、hadoop的连接和关闭2、文件目录的创建3、文件上传4、文件下载5、文件删除6、文件的更名和移动7、获取文件详细信息8、判断是文件还是目录全部操作代码如下：package com.yasin.hdfs;/*1.获取一个客户端对象2.执行相关的操作命令3.关闭资源*/import org.apache.hadoop.conf.Configuration;impo

2021-07-23 20:56:14 1362

原创 HDFS的shell命令

1、启动和帮助命令1）启动 Hadoop 集群（方便后续的测试）[yasin@hadoop102 hadoop-3.3.1]$ sbin/start-dfs.sh[yasin@hadoop103 hadoop-3.3.1]$ sbin/start-yarn.sh2）-help：输出这个命令参数[yasin@hadoop102 hadoop-3.3.1]$ hadoop fs -help rm3）创建/sanguo 文件夹[yasin@hadoop102 hadoop-3.3.1]$ had

2021-07-19 20:59:14 168

原创 hadoop常用端口号

hadoop常用端口说明：hadoop2.xHDFS Namenode内部通常端口:8020/9000HDFS Namenode对用户的查询端口:50070Yarn查看任务运行情况的:8088历史服务器:19888hadoop3.xHDFS Namenode内部通常端口:8020/9000/9820HDFS Namenode对用户的査询端口:9870Yarn查看任务运行情况的:8088历史服务器:19888端口名称hadoop2.xhadoop3.xNamenod

2021-07-18 20:23:53 9261 1

原创 Hadoop集群操作相关命令总结

总结hadoop常用命令，供学习使用（持续更新）1、各个模块分开启动停止(配置ssh是前提，常用)(1)整体启动/停止 HDFSstart-dfs.sh/stop-dfs.sh(2)整体启动停止YARNstart-yarn.sh/stop-yarn sh2、各个服务组件逐一启动停止(1)分别启动停止HDFS组件hdfs --daemon start/stop namenode/datanode/secondarynamenode(2)启动停止 YARNyarn --daemon s

2021-07-18 18:59:38 190

原创 Hadoop 集群常用脚本

1、实现功能循环复制文件到所有集群节点的相同目录下。2、具体操作(1) 在/home/yasin/bin 目录下创建 xsync 文件[yasin@hadoop102 opt]$ cd /home/atguigu[yasin@hadoop102 ~]$ mkdir bin[yasin@hadoop102 ~]$ cd bin[yasin@hadoop102 bin]$ vim xsync实现脚本：#!/bin/bash#1. 判断参数个数if [ $# -lt 1 ]then

2021-07-18 18:53:01 437

原创 Shell自动化编程基本知识点

参考网上的教程，学习总结Shell自动化编程基本知识点。本文以命令行操作的形式进行展现1、Shell脚本入门（1）脚本格式脚本以#!/bin/bash开头（指定解析器）（2）第一个shell脚本:helloworldyasin@ubuntu:~/test$ touch helloword.shyasin@ubuntu:~/test$ vim helloword.sh yasin@ubuntu:~/test$ cat helloword.sh #!/bin/bashecho "hellowo

2021-07-15 16:47:28 790

原创简单Python爬虫获取指定网页内容示例

本文使用BeautifulSoup工具，根据网页源码字段分析指定网页网址后，爬取对应字段并储存到文件中，供参考。刚开始参考了一篇文章：Python获取网页指定内容(BeautifulSoup工具的使用方法)，自己尝试后，发现出现错误：urllib.error.HTTPError: HTTP Error 418，查询后发现是：某些网页有反爬虫的机制。解决方法参考

2020-10-15 17:03:51 15541 1

原创《利用Python 进行数据分析》第十章：时间序列

对《利用Python 进行数据分析》（Wes Mckinney著）一书中的第十章中时间序列进行代码实验。原书中采用的是Python2.7，而我采用的Python3.7在Pycharm调试的，因此对书中源代码进行了一定的修改，每步结果与原文校验对照一致（除了随机函数外；输出结果在注释中，简单的输出就没写结果），全手工敲写，供参考。 Pdf文档和数据集参见：《利用P

2020-09-30 14:21:12 431

原创《利用Python 进行数据分析》第九章：数据聚合与分组运算

对《利用Python 进行数据分析》（Wes Mckinney著）一书中的第九章中数据聚合与分组运算进行代码实验。原书中采用的是Python2.7，而我采用的Python3.7在Pycharm调试的，因此对书中源代码进行了一定的修改，每步结果与原文校验对照一致（除了随机函数外；输出结果在注释中，简单的输出就没写结果），全手工敲写，供参考。 Pdf文档和数据集参见

2020-09-28 10:32:51 523

原创《利用Python 进行数据分析》第八章：绘图和可视化

对《利用Python 进行数据分析》（Wes Mckinney著）一书中的第八章中绘图和可视化进行代码实验。原书中采用的是Python2.7，而我采用的Python3.7在Pycharm调试的，因此对书中源代码进行了一定的修改，每步结果与原文校验对照一致（输出结果在注释中，简单的输出就没写结果），全手工敲写，供参考。 Pdf文档和数据集参见：《利用Python

2020-09-24 22:54:34 739

原创《利用Python 进行数据分析》第七章：数组规整化：清理、转换、合并、重塑

对《利用Python 进行数据分析》（Wes Mckinney著）一书中的七章中数组规整化：清理、转换、合并、重塑进行代码实验。原书中采用的是Python2.7，而我采用的Python3.7在Pycharm调试的，因此对书中源代码进行了一定的修改，每步打印结果（除“随机”相关外）与原文校验对照一致（输出结果在注释中，简单的输出就没写结果），全手工敲写，供参考。数据加载、储存和文件格式：1、合并数

2020-09-22 17:39:12 367

原创《利用Python 进行数据分析》第六章：数据加载、储存和文件格式

对《利用Python 进行数据分析》（Wes Mckinney著）一书中的六章中数据加载、储存和文件格式进行代码实验。原书中采用的是Python2.7，而我采用的Python3.7在Pycharm调试的，因此对书中源代码进行了一定的修改，每步打印结果（除“随机”相关外）与原文校验对照一致（输出结果在注释中，简单的输出就没写结果），全手工敲写，供参考。数据加载、储存和文件格式：1、数据加载1.1

2020-09-19 22:48:46 473

原创《利用Python 进行数据分析》第五章：Pandas入门

对《利用Python 进行数据分析》（Wes Mckinney著）一书中的第五章中pandas 入门进行代码实验。原书中采用的是Python2.7，而我采用的Python3.7在Pycharm调试的，因此对书中源代码进行了一定的修改，每步打印结果（除“随机”相关外）与原文校验对照一致（输出结果在注释中，简单的输出就没写结果），全手工敲写，供参考。# -*- coding:utf-8 -*-from pandas import S

2020-09-17 23:33:53 240

原创《利用Python 进行数据分析》第四章：Numpy基础

对《利用Python 进行数据分析》（Wes Mckinney著）一书中的第四章中Numpy基础进行代码实验。原书中采用的是Python2.7，而我采用的Python3.7利用Pycharm调试的，因此对书中源代码进行了一定的修改，每步打印结果原文校验对照一致（部分打印结果已经关闭，需要查看结果则可以打开）供参考。#-*- coding:utf-8 -*-import numpy as np# Numpy基础：数组和矢量计算

2020-09-15 14:08:32 500

原创《利用Python 进行数据分析》第二章：引言中的分析（含pdf和数据集下载链接）

对利用Python 进行数据分析数据中的第二章中的第二部分——1880-2010全美婴儿姓名分析进行代码实验。原书中采用的是Python2.7，而我采用的Python3.7，因此对源代码进行了一定的修改，并且增加了部分画图代码，每步打印结果和画图与原文校验对照一致（部分打印结果已经关闭，需要查看结果则可以打开）供参考。其中《利用Python 进行数据分析》数据集链接如下： &nbsp

2020-09-12 23:54:58 614

转载通过国内镜像下载python库

由于 Python 服务器在国外，因此使用 pip 安装第三方模块或者库的时候，下载速度特别慢，可以通过国内镜像进行下载，速度非常快。豆瓣https://pypi.douban.com/simple阿里云https://mirrors.aliyun.com/pypi/simple清华大学https://pypi.tuna.tsinghua.edu.cn/simple中国科技大学https://pypi.mirrors.ustc.edu.cn/simple使用方法为在 pip 命令后加 -i

2020-08-17 15:45:54 2488

原创 Python list的双循环列表推导

最近看了一个代码，list列表里有一个双循环，看的有点晕，就是如下面代码中的给y的赋值，常见的列表推导是：x = [i for i in range(10)] 但加了两个循环，第一次没看懂（是我见的少了），仔细思考了一下才明白。代码如下：x = [["a","b","c"],["b","e"],["a","d"]]y = list(set([i fo

2020-08-12 20:24:30 5560

原创数据可视化工具介绍

收藏几个数据展示工具，以备后续数据分析展示使用。1、echartshttps://echarts.apache.org/zh/index.html这是一个前端的数据展示工具，里面包含各种炫酷的的数据展示示例，令人惊叹！2、plotyhttps://plotly.com/Plotly是开挂的作图神器，可以供js, python, R, DB等使用3、seabornhttp://seaborn.pydata.org/Seaborn是基于matplotlib的图形可视化python包。它提供了一

2020-08-06 16:29:36 250

opencv和opencv_contrib 3.4.4版本源码

经典目标检测论文合集

经典神经网络英文论文.zip

Python网络爬虫+源码.zip

Everything——windows 快速搜索文件（压缩包）

Go语言编程

PID Controller Design for Specified Performance.pdf

dataFrame的嵌套修改内容时，如何不影响原有的dataFrame，如代码