自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(33)
  • 资源 (2)
  • 收藏
  • 关注

原创 python搭建虚拟环境

python搭建虚拟环境

2022-11-08 21:20:37 906 1

原创 GeoPandas安装保姆级教程

一、简介geopandas是建立在GEOS、GDAL、PROJ等开源地理空间计算相关框架之上的,类似pandas 语法风格的空间数据分析 Python 库,其目标是尽可能地简化 Python 中的地理空间数据处理,减少对 Arcgis 、 PostGIS 等工具的依赖,使得处理地理空间数据变得更加高效简洁,打造纯 Python 式的空间数据处理工作流。本系列文章就将围绕 geopandas 及其使用过程中涉及到的其他包进行系统性的介绍说明,每一篇将尽可能全面具体地介绍 geopandas 对应.....

2022-05-09 09:33:16 17583 29

原创 arcpy结合GDAL使用之环境搭配

一、引言最近需要利用pycharm进行arcpy与GDAL的python开发,期间遇到了几个小问题,查了很多教程都没有解决。最主要的问题有两个,一是arcpy使用的是python2.7,因此需要安装与python2.7相对应的GDAL版本;另一个就是安装完GDAL后,发现numpy版本又不匹配,因此也需要重新安装numpy。以下是对问题与解决办法的总结。二、问题与总结...

2021-12-03 20:42:23 1389 2

原创 【学习历程】21 HBase表的热点

1.1 什么是热点检索habse的记录首先要通过rowkey来定位数据行。当大量的client访问hbase集群的一个或少数几个节点,造成少数region server的读/写请求过多、负载过大,而其他region server负载却很小,就造成了“热点”现象。1.2 热点的解决方案1.2.1 预分区预分区的目的让表的数据可以均衡的分散在集群中,而不是默认只有一个region分布在集群的一个节点上。1.2.2 加盐这里所说的加盐不是密码学中的加盐,而是在rowkey的前面增加随机数,

2021-09-13 11:43:14 183

原创 【学习历程】20 HBase集成Hive

文章目录1.1 HBase与Hive的对比1.1.1 Hive1.1.2 HBase1.1.3 总结:Hive与HBase1.2 整合配置1.2.1 拷贝jar包1.2.2 修改hive的配置文件1.2.3 修改hive-env.sh配置文件     Hive提供了与HBase的集成,使得能够在HBase表上使用hive sql语句进行查询、插入操作以及进行Join和Union等复杂查询,同时也可以将hive表中的数据映射到Hbase中1.1 HBase

2021-09-13 11:37:01 83

原创 【学习历程】19 HBase表的预分区

一、前言当一个table刚被创建的时候,Hbase默认的分配一个region给table。也就是说这个时候,所有的读写请求都会访问到同一个regionServer的同一个region中,这个时候就达不到负载均衡的效果了,集群中的其他regionServer就可能会处于比较空闲的状态。解决这个问题可以用pre-splitting,在创建table的时候就配置好,生成多个region。二、为何要预分区?增加数据读写效率负载均衡,防止数据倾斜方便集群容灾调度region优化Map数量三、预

2021-09-13 11:05:28 268

原创 【学习历程】18 HBase读写数据流程

一、HBase读数据流程说明:HBase集群,只有一张meta表,此表只有一个region,该region数据保存在一个HRegionServer上1.1 客户端首先与zk进行连接从zk找到meta表的region位置,即meta表的数据存储在某一HRegionServer上客户端与此HRegionServer建立连接,然后读取meta表中的数据;meta表中存储了所有用户表的region信息,我们可以通过scan 'hbase:meta'来查看meta表信息1.2 根据要查询的name

2021-09-13 10:51:20 311

原创 【学习历程】17 HBase的数据存储原理

1、 一个HRegionServer会负责管理很多个region2、 一个 region 包含很多个 store一个 列族 就划分成一个 store如果一个表中只有1个列族,那么每一个region中只有一个store如果一个表中有N个列族,那么每一个region中有N个store3、 一个store里面只有一个memstorememstore是一块内存区域,写入的数据会先写入memstore进行缓冲,然后再把数据刷到磁盘4、一个store里面有很多个 StoreFile, 最后数据是.

2021-09-13 10:28:55 149

原创 【学习历程】16 Hive的四种表模型

文章目录一、内部表与外部表1.1 内部表与外部表的区别1.2 内部表与外部表的使用时机二、分区表与分桶表2.1 分区表2.2 分桶表一、内部表与外部表1.1 内部表与外部表的区别1、建表语法的区别外部表在创建的时候需要加上external关键字2、删除表之后的区别内部表删除后,表的元数据和真实数据都被删除了外部表删除后,仅仅只是把该表的元数据删除了,真实数据还在,后期还是可以恢复出来1.2 内部表与外部表的使用时机内部表由于删除表的时候会同步删除HDFS的数据文件,所以确定如果一

2021-09-06 19:55:53 361

原创 【学习历程】15 Hadoop性能调优

文章目录一、HDFS参数调优hdfs-site.xml二、YARN参数调优yarn-site.xml三、mapreduce的优化方法一、HDFS参数调优hdfs-site.xml1、调整namenode处理客户端的线程数dfs.namenode.handler.count=20 * log2(Cluster Size)2、编辑日志存储路径dfs.namenode.edits.dir设置与镜像文件存储路径dfs.namenode.name.dir尽量分开,达到最低写入延迟3、元数据信息fsimag

2021-08-29 22:43:08 273

原创 【学习历程】14 Yarn之yarn的工作机制

一、yarn的架构    类似HDFS,Yarn也是经典的主从(master/slave)架构,Yarn服务由一个ResourceManager(RM)和多个NodeManager(NM)构成,ResourceManager为主节点(master),NodeManager为从节点(slave)。二、yarn的工作机制MR程序提交到客户端所在的节点YarnRunner向ResourceManager申请一个ApplicationRM将该应用程序的资源路径返

2021-08-29 22:11:17 151

原创 【学习历程】13 MapReduce之自定义outputFormat

一、需求      现在有一些订单的评论数据,需要将订单的好评与其他评论(中评、差评)进行区分开来,将最终的数据分开到不同的文件夹下面去,数据内容如下图,其中数据第九个字段表示好评,中评,差评。0:好评,1:中评,2:差评二、分析      关键点是要在一个mapreduce程序中根据数据的不同,输出两类结果到不同目录,这类灵活的输出需求可以通过自定义outputformat来实现

2021-08-29 21:37:28 147

原创 【学习历程】12 MapReduce之GroupingComparator分组详解

一、前言       GroupingComparator是mapreduce当中reduce端的一个功能组件,主要的作用是决定哪些数据作为一组,调用一次reduce的逻辑;默认是相同的key,作为同一组,每个组调用一次reduce逻辑;我们可以自定义GroupingComparator实现不同的key作为同一个组,调用一次reduce逻辑。分组排序属于mr中第六步,自定义一个分组类,细节如下:自定义类继承WritableComparato

2021-08-29 17:17:16 188

原创 【学习历程】11 MapReduce之InputFormat详解

一、前言      InputFormat是mapreduce当中用于处理数据输入的一个组件,是最顶级的一个抽象父类,主要用于解决各个地方的数据源的数据输入问题。FileInputFormat类是InputFormat的一个子类,如果需要操作hdfs上面的文件,基本上都是通过FileInputFormat类来实现的,我们可以通过FileInputFormat来实现各种格式的文件操作。二、自定义InputFormat  &n

2021-08-29 16:06:28 595

原创 【学习历程】10 MapReduce之mapreduce核心思想

一、mapreduce核心思想     MapReduce的思想核心是**“分而治之”**,适用于大量复杂的任务处理场景(大规模数据处理场景)。Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有依赖关系。Reduce负责“合”,即对map阶段的结果进行全局汇总。二、mapReduce编程模型     MapReduce的开发一

2021-08-28 23:01:05 1625

原创 【学习历程】09 Hadoop之Java API的使用

前言     分布式集群除了可以利用简单的shell命令进行操作外,还可以使用Java API的方式进行操作,下面是操作流程与代码分享。HDFS的JavaAPI操作首先,创建maven工程,并导入jar包<repositories> <repository> <id>cloudera</id> <url>https://repository.cloudera.c

2021-08-28 22:37:58 188

原创 【学习历程】08 Hadoop之namenode与secondaryNameNode解析

问题引入:    NameNode在集群当中主要负责元数据信息的管理,由于元数据信息需要经常随机访问,因此元数据信息必须可以高效的检索,那么如何保证namenode快速检索呢?元数据信息保存在哪里能够快速检索呢?如何保证元数据的持久安全呢? 解决方案:    为了保证元数据信息的快速检索,那么我们就必须将元数据存放在内存 当中,因为在内存当中元数据信息能够最快速的检索。    但是

2021-08-27 22:56:53 161

原创 【学习历程】07 Hadoop之HDFS读写流程

一、hdfs的写入流程文件上传流程如下:创建文件:HDFS client向HDFS写入数据,先调用DistributedFileSystem. create()RPC调用namenode的create(),会在HDFS目录树中指定的路径,添加新文件,并将操作记录在edits.log中。namenode.create()方法执行完后,返回一-个FSDataOutputStream,它是DFSOutputStream的包装类。建立数据流管道pipeline:client调用DFSOutput

2021-08-27 21:26:03 168

原创 【常见问题】03 开虚拟机导致电脑蓝屏

解决办法1、控制面板—程序—程序与功能—启用或关闭windows功能首先,检查Hyper-v是否关闭,如下图即可然后,启用Windows虚拟机监控平台与虚拟机平台,我第一次没有启用虚拟机平台,导致总是失败。如下图2、此电脑—右键—管理—服务与应用程序—服务,禁用下列服务,如图3、win+R,输入gpedit.msc计算机配置—管理模板—系统—Device Guard–打开基于虚拟化的安全—禁用4、打开win+X(Windows PowerShell选择管理员)输入 bcdedit /

2021-08-23 20:36:03 6347 2

原创 【学习历程】06 Hadoop集群的安装

文章目录1、上传压缩包并解压2、查看hadoop支持的压缩方式以及本地库3、修改配置文件4、创建文件存放目录5、安装包的分发scp6、配置hadoop的环境变量7、集群启动8、浏览器查看启动页面1、上传压缩包并解压将hadoop包上传到第一台服务器并解压;第一台机器执行以下命令cd /zzz/soft/tar -xzvf hadoop-2.6.0-cdh5.14.2_after_compile.tar.gz -C /zzz/install/2、查看hadoop支持的压缩方式以及本地库第一台机

2021-08-23 17:46:06 152 1

原创 【学习历程】05 安装大数据集群前的环境准备

1、三台虚拟机关闭防火墙三台机器执行以下命令(root用户来执行):systemctl stop firewalldsystemctl disable firewalld2、三台机器关闭selinux三台机器执行以下命令关闭selinux:vi /etc/selinux/configSELINUX=disabled3、三台机器更改主机名三台机器执行以下命令更改主机名:vi /etc/hostname第一台机器更改内容:node01.zzz.com第二台机器更改内容:n

2021-08-23 17:18:03 98

原创 【学习历程】04 win10下IDEA连接Linux上的Hadoop集群

     如果要在windows下连接虚拟机上的Hadoop集群,就必须要保证windows下有java环境和hadoop环境。一、环境准备1、jdk1.82、idea20193、Linux上hadoop集群,版本为hadoop2.6.0-cdh5.14.2二、win10上安装hadoop环境1、下载hadoop包网站链接:https://archive.apache.org/dist/hadoop/common/本文下载版本为:hado

2021-08-16 22:49:42 1860

原创 【学习历程】03 在IDEA中安装配置maven

1、下载Maven :apache-maven-3.6.1-bin.zip下载地址:http://maven.apache.org/download.cgi2、安装Maven并配置本地仓库(1)解压maven路径为:D:\soft\maven          本地仓库路径为:D:\soft\maven\repository(2)配置本地仓库路径 :          打开D:\soft\mave

2021-08-16 21:51:22 73

原创 【学习历程】02Linux在win10本地域名解析配置

       在使用Hadoop集群时,经常使用网页查看启动页面。但每次敲IP地址比较麻烦,因此可以在win本地Hosts 文件中配置域名和 IP 的映射关系,这样当我们输入域名计算机就能很快解析出 IP ,而不用请求网络上的 DNS 服务器。hosts文件所在位置C:\Windows\System32\drivers\etc       根据Windows系统

2021-08-16 11:22:24 168

原创 【常见问题】02在Hadoop 计算过程中出现 name node is in safe mode 问题

1、问题描述在/试运行Hadoop例子时,出现安全模式问题org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.SafeModeException): Cannot delete /tmp/hadoop-yarn/staging/hadoop/.staging/job_1490689337938_0001. Name node is in safe mode.2、解决方法使用下面命令,退出安全模式h

2021-08-16 11:10:57 159

原创 【学习历程】01三台linux服务器的安装

linux服务器的安装       大数据的软件一般都是运行在linux服务器上面的,所以需要通过几台linux服务器来安装大数据集群,如果需要几台linux的话,我们可以通过虚拟机来实现好多台linux的安装,通过虚拟机来安装三台linux的服务器出来,然后再在虚拟机里面来搭建大数据集群。1、安装VmWare       略2、通过Vmware安装第一台lin

2021-08-15 20:16:31 638

原创 【常见问题】01虚拟机启动时显示“Intel VT-x处于禁用状态”怎么解决?

“Intel VT-x处于禁用状态”的问题解决1、问题描述       第一次安装虚拟机时,经常会遇见“Intel VT-x处于禁用状态”的问题,截图如下。这是因为电脑的虚拟化没有开启,只有正确开启电脑的虚拟化,才能正常使用虚拟机。2、解决办法       此问题可以通过进入电脑BIOS进行设置,网上好多进入BIOS的设置,但是并不方便。本文介绍一种简单的方法

2021-08-15 19:44:40 9354 3

原创 夜间灯光影像区域稳定像元提取

夜光影像区域稳定像元提取1、引入    中国城市处于持续扩张状态,城市影像不应出现衰退现象,即前一期图像中出现的城市斑块,应在后一期影像中得到保留。分析夜间灯光数据发现,存在同一年份不同传感器数据总亮元数目不同或者前一期图像中的亮值像元在后期图像中消失的问题,将此类亮元称为不稳定亮元。这些亮元不能真实反应中国城市的发展,应予以剔除。假定时间序列中后一年的数据全部为稳定亮元,将前一年图像与后一年图像进行相交分析,保留前期中与后期数据有交集的亮值像元为前一年的稳定亮元。依照上面的方法迭代,得到长时间序列稳定

2021-07-05 21:43:35 560

原创 火星坐标转WGS84

火星坐标转为WGS84坐标import mathimport openpyxl as opx_pi = 3.14159265358979324 * 3000.0 / 180.0pi = 3.1415926535897932384626 # πa = 6378245.0 # 长半轴ee = 0.00669342162296594323 # 扁率def gcj02towgs84(lng, lat): """ GCJ02(火星坐标系)转GPS84 :param ln

2021-07-05 16:19:26 3013

转载 如何在spyder环境中使用arcpy

如何在spyder环境中使用arcpy注:文章参考于http://blog.sciencenet.cn/blog-365459-1236097.html软件准备1、ArcGIS Desktop 10.7(安装地址:D:\soft\ArcGIS)2、Anaconda(安装地址:D:\soft\anconda)  在安装过程注意不要勾选下图选项:3、ArcGIS安装成功的python版本,为Python 2.7.154、spyder版本,为Spyder 4.0.15、打开Anaconda

2021-07-05 16:03:40 1067

转载 利用邻域均值插值法对栅格图像进行补偿

利用PIE平台下载的数据,经常会遇到数据缺失的情况,因此必须对缺失数据进行必要的处理。空间数据插值是最常用的方法。本文使用邻域均值法对空值数据进行填充。本文的代码转载于:http://gaohr.win/site/blogs/2018/2018-09-03-img-comps.html#from osgeo import gdal,osrclass Raster: def __init__(self, nRows, nCols, data, noDataValue=None, geotrans

2021-07-02 10:31:04 679 5

原创 PIE-Engine利用modis计算ndvi

var map1 = pie.FeatureCollection(‘user/zzz2021/YMZ_SHP’);var roi = map1.first() //转化为对象.geometry(); //转化为几何形状//print(roi);// Map.addLayer(roi,{fillColor:“00000000”},“研究区”);// 创建一个函数用来去除有云的像元// 原文链接:https://blog.csdn.net/little00bee/article/details/10

2021-06-28 11:16:30 2704 14

原创 matlab 遗传算法工具箱(GATBX)

matlab 遗传算法工具箱(GATBX)遇到的问题:找不到 ‘bs2rv.m’ 的完全匹配项(区分大小写)最接近的匹配项为 D:\soft\Matlab2021a\toolbox\gatbx\bs2rv.M要更改文件扩展名,请将目录更改为文件所在的文件夹,键入:movefile bs2rv.M bs2rv.m_bad; movefile bs2rv.m_bad bs2rv.m,然后改回目录解决方案就是要选择添加子文件夹...

2021-05-31 15:38:24 1282

geopandas依赖包Python3.7Windows64位版本

geopandas依赖包Python3.7Windows64位版本

2022-05-09

geopandas依赖包python3.8Windows64位版

geopandas依赖包python3.8Windows64位版

2022-05-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除