LALALAND__-CSDN博客

一、简介geopandas是建立在GEOS、GDAL、PROJ等开源地理空间计算相关框架之上的，类似pandas 语法风格的空间数据分析 Python 库，其目标是尽可能地简化 Python 中的地理空间数据处理，减少对 Arcgis 、 PostGIS 等工具的依赖，使得处理地理空间数据变得更加高效简洁，打造纯 Python 式的空间数据处理工作流。本系列文章就将围绕 geopandas 及其使用过程中涉及到的其他包进行系统性的介绍说明，每一篇将尽可能全面具体地介绍 geopandas 对应.....

2022-05-09 09:33:16 17583 29

原创 arcpy结合GDAL使用之环境搭配

一、引言最近需要利用pycharm进行arcpy与GDAL的python开发，期间遇到了几个小问题，查了很多教程都没有解决。最主要的问题有两个，一是arcpy使用的是python2.7，因此需要安装与python2.7相对应的GDAL版本；另一个就是安装完GDAL后，发现numpy版本又不匹配，因此也需要重新安装numpy。以下是对问题与解决办法的总结。二、问题与总结...

2021-12-03 20:42:23 1389 2

原创【学习历程】21 HBase表的热点

1.1 什么是热点检索habse的记录首先要通过rowkey来定位数据行。当大量的client访问hbase集群的一个或少数几个节点，造成少数region server的读/写请求过多、负载过大，而其他region server负载却很小，就造成了“热点”现象。1.2 热点的解决方案1.2.1 预分区预分区的目的让表的数据可以均衡的分散在集群中，而不是默认只有一个region分布在集群的一个节点上。1.2.2 加盐这里所说的加盐不是密码学中的加盐，而是在rowkey的前面增加随机数，

2021-09-13 11:43:14 183

原创【学习历程】20 HBase集成Hive

文章目录1.1 HBase与Hive的对比1.1.1 Hive1.1.2 HBase1.1.3 总结：Hive与HBase1.2 整合配置1.2.1 拷贝jar包1.2.2 修改hive的配置文件1.2.3 修改hive-env.sh配置文件 Hive提供了与HBase的集成，使得能够在HBase表上使用hive sql语句进行查询、插入操作以及进行Join和Union等复杂查询，同时也可以将hive表中的数据映射到Hbase中1.1 HBase

2021-09-13 11:37:01 83

原创【学习历程】19 HBase表的预分区

一、前言当一个table刚被创建的时候，Hbase默认的分配一个region给table。也就是说这个时候，所有的读写请求都会访问到同一个regionServer的同一个region中，这个时候就达不到负载均衡的效果了，集群中的其他regionServer就可能会处于比较空闲的状态。解决这个问题可以用pre-splitting,在创建table的时候就配置好，生成多个region。二、为何要预分区？增加数据读写效率负载均衡，防止数据倾斜方便集群容灾调度region优化Map数量三、预

2021-09-13 11:05:28 268

原创【学习历程】18 HBase读写数据流程

一、HBase读数据流程说明：HBase集群，只有一张meta表，此表只有一个region，该region数据保存在一个HRegionServer上1.1 客户端首先与zk进行连接从zk找到meta表的region位置，即meta表的数据存储在某一HRegionServer上客户端与此HRegionServer建立连接，然后读取meta表中的数据；meta表中存储了所有用户表的region信息，我们可以通过scan 'hbase:meta'来查看meta表信息1.2 根据要查询的name

2021-09-13 10:51:20 311

原创【学习历程】17 HBase的数据存储原理

1、一个HRegionServer会负责管理很多个region2、一个 region 包含很多个 store一个列族就划分成一个 store如果一个表中只有1个列族，那么每一个region中只有一个store如果一个表中有N个列族，那么每一个region中有N个store3、一个store里面只有一个memstorememstore是一块内存区域，写入的数据会先写入memstore进行缓冲，然后再把数据刷到磁盘4、一个store里面有很多个 StoreFile, 最后数据是.

2021-09-13 10:28:55 149

原创【学习历程】16 Hive的四种表模型

文章目录一、内部表与外部表1.1 内部表与外部表的区别1.2 内部表与外部表的使用时机二、分区表与分桶表2.1 分区表2.2 分桶表一、内部表与外部表1.1 内部表与外部表的区别1、建表语法的区别外部表在创建的时候需要加上external关键字2、删除表之后的区别内部表删除后，表的元数据和真实数据都被删除了外部表删除后，仅仅只是把该表的元数据删除了，真实数据还在，后期还是可以恢复出来1.2 内部表与外部表的使用时机内部表由于删除表的时候会同步删除HDFS的数据文件，所以确定如果一

2021-09-06 19:55:53 361

原创【学习历程】15 Hadoop性能调优

文章目录一、HDFS参数调优hdfs-site.xml二、YARN参数调优yarn-site.xml三、mapreduce的优化方法一、HDFS参数调优hdfs-site.xml1、调整namenode处理客户端的线程数dfs.namenode.handler.count=20 * log2(Cluster Size)2、编辑日志存储路径dfs.namenode.edits.dir设置与镜像文件存储路径dfs.namenode.name.dir尽量分开，达到最低写入延迟3、元数据信息fsimag

2021-08-29 22:43:08 273

原创【学习历程】14 Yarn之yarn的工作机制

一、yarn的架构类似HDFS，Yarn也是经典的主从（master/slave）架构，Yarn服务由一个ResourceManager（RM）和多个NodeManager（NM）构成，ResourceManager为主节点（master），NodeManager为从节点（slave）。二、yarn的工作机制MR程序提交到客户端所在的节点YarnRunner向ResourceManager申请一个ApplicationRM将该应用程序的资源路径返

2021-08-29 22:11:17 151

原创【学习历程】13 MapReduce之自定义outputFormat

一、需求现在有一些订单的评论数据，需要将订单的好评与其他评论（中评、差评）进行区分开来，将最终的数据分开到不同的文件夹下面去，数据内容如下图，其中数据第九个字段表示好评，中评，差评。0：好评，1：中评，2：差评二、分析关键点是要在一个mapreduce程序中根据数据的不同，输出两类结果到不同目录，这类灵活的输出需求可以通过自定义outputformat来实现

2021-08-29 21:37:28 147

原创【学习历程】12 MapReduce之GroupingComparator分组详解

一、前言 GroupingComparator是mapreduce当中reduce端的一个功能组件，主要的作用是决定哪些数据作为一组，调用一次reduce的逻辑；默认是相同的key，作为同一组，每个组调用一次reduce逻辑；我们可以自定义GroupingComparator实现不同的key作为同一个组，调用一次reduce逻辑。分组排序属于mr中第六步，自定义一个分组类，细节如下：自定义类继承WritableComparato

2021-08-29 17:17:16 188

原创【学习历程】11 MapReduce之InputFormat详解

一、前言 InputFormat是mapreduce当中用于处理数据输入的一个组件，是最顶级的一个抽象父类，主要用于解决各个地方的数据源的数据输入问题。FileInputFormat类是InputFormat的一个子类，如果需要操作hdfs上面的文件，基本上都是通过FileInputFormat类来实现的，我们可以通过FileInputFormat来实现各种格式的文件操作。二、自定义InputFormat &n

2021-08-29 16:06:28 595

原创【学习历程】10 MapReduce之mapreduce核心思想

一、mapreduce核心思想 MapReduce的思想核心是**“分而治之”**，适用于大量复杂的任务处理场景（大规模数据处理场景）。Map负责“分”，即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。Reduce负责“合”，即对map阶段的结果进行全局汇总。二、mapReduce编程模型 MapReduce的开发一

2021-08-28 23:01:05 1625

原创【学习历程】09 Hadoop之Java API的使用

前言分布式集群除了可以利用简单的shell命令进行操作外，还可以使用Java API的方式进行操作，下面是操作流程与代码分享。HDFS的JavaAPI操作首先，创建maven工程，并导入jar包<repositories> <repository> <id>cloudera</id> <url>https://repository.cloudera.c

2021-08-28 22:37:58 188

原创【学习历程】08 Hadoop之namenode与secondaryNameNode解析

问题引入： NameNode在集群当中主要负责元数据信息的管理，由于元数据信息需要经常随机访问，因此元数据信息必须可以高效的检索，那么如何保证namenode快速检索呢？元数据信息保存在哪里能够快速检索呢？如何保证元数据的持久安全呢？解决方案：为了保证元数据信息的快速检索，那么我们就必须将元数据存放在内存当中，因为在内存当中元数据信息能够最快速的检索。但是

2021-08-27 22:56:53 161

原创【学习历程】07 Hadoop之HDFS读写流程

一、hdfs的写入流程文件上传流程如下:创建文件：HDFS client向HDFS写入数据，先调用DistributedFileSystem. create()RPC调用namenode的create()，会在HDFS目录树中指定的路径，添加新文件，并将操作记录在edits.log中。namenode.create()方法执行完后，返回一-个FSDataOutputStream，它是DFSOutputStream的包装类。建立数据流管道pipeline:client调用DFSOutput

2021-08-27 21:26:03 168

原创【常见问题】03 开虚拟机导致电脑蓝屏

解决办法1、控制面板—程序—程序与功能—启用或关闭windows功能首先，检查Hyper-v是否关闭，如下图即可然后，启用Windows虚拟机监控平台与虚拟机平台，我第一次没有启用虚拟机平台，导致总是失败。如下图2、此电脑—右键—管理—服务与应用程序—服务，禁用下列服务，如图3、win+R，输入gpedit.msc计算机配置—管理模板—系统—Device Guard–打开基于虚拟化的安全—禁用4、打开win+X（Windows PowerShell选择管理员）输入 bcdedit /

2021-08-23 20:36:03 6347 2

原创【学习历程】06 Hadoop集群的安装

文章目录1、上传压缩包并解压2、查看hadoop支持的压缩方式以及本地库3、修改配置文件4、创建文件存放目录5、安装包的分发scp6、配置hadoop的环境变量7、集群启动8、浏览器查看启动页面1、上传压缩包并解压将hadoop包上传到第一台服务器并解压；第一台机器执行以下命令cd /zzz/soft/tar -xzvf hadoop-2.6.0-cdh5.14.2_after_compile.tar.gz -C /zzz/install/2、查看hadoop支持的压缩方式以及本地库第一台机

2021-08-23 17:46:06 152 1

原创【学习历程】05 安装大数据集群前的环境准备

1、三台虚拟机关闭防火墙三台机器执行以下命令（root用户来执行）：systemctl stop firewalldsystemctl disable firewalld2、三台机器关闭selinux三台机器执行以下命令关闭selinux：vi /etc/selinux/configSELINUX=disabled3、三台机器更改主机名三台机器执行以下命令更改主机名：vi /etc/hostname第一台机器更改内容：node01.zzz.com第二台机器更改内容：n

2021-08-23 17:18:03 98

原创【学习历程】04 win10下IDEA连接Linux上的Hadoop集群

如果要在windows下连接虚拟机上的Hadoop集群,就必须要保证windows下有java环境和hadoop环境。一、环境准备1、jdk1.82、idea20193、Linux上hadoop集群，版本为hadoop2.6.0-cdh5.14.2二、win10上安装hadoop环境1、下载hadoop包网站链接：https://archive.apache.org/dist/hadoop/common/本文下载版本为：hado

2021-08-16 22:49:42 1860

原创【学习历程】03 在IDEA中安装配置maven

1、下载Maven ：apache-maven-3.6.1-bin.zip下载地址：http://maven.apache.org/download.cgi2、安装Maven并配置本地仓库（1）解压maven路径为：D:\soft\maven 本地仓库路径为：D:\soft\maven\repository（2）配置本地仓库路径：打开D:\soft\mave

2021-08-16 21:51:22 73

原创【学习历程】02Linux在win10本地域名解析配置

在使用Hadoop集群时，经常使用网页查看启动页面。但每次敲IP地址比较麻烦，因此可以在win本地Hosts 文件中配置域名和 IP 的映射关系，这样当我们输入域名计算机就能很快解析出 IP ，而不用请求网络上的 DNS 服务器。hosts文件所在位置C:\Windows\System32\drivers\etc 根据Windows系统

2021-08-16 11:22:24 168

原创【常见问题】02在Hadoop 计算过程中出现 name node is in safe mode 问题

1、问题描述在/试运行Hadoop例子时，出现安全模式问题org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.SafeModeException): Cannot delete /tmp/hadoop-yarn/staging/hadoop/.staging/job_1490689337938_0001. Name node is in safe mode.2、解决方法使用下面命令，退出安全模式h

2021-08-16 11:10:57 159

Aries1Chan的博客

原创 python搭建虚拟环境

原创 GeoPandas安装保姆级教程

原创 arcpy结合GDAL使用之环境搭配

原创【学习历程】21 HBase表的热点

原创【学习历程】20 HBase集成Hive

原创【学习历程】19 HBase表的预分区

原创【学习历程】18 HBase读写数据流程

原创【学习历程】17 HBase的数据存储原理

原创【学习历程】16 Hive的四种表模型

原创【学习历程】15 Hadoop性能调优

原创【学习历程】14 Yarn之yarn的工作机制

原创【学习历程】13 MapReduce之自定义outputFormat

原创【学习历程】12 MapReduce之GroupingComparator分组详解

原创【学习历程】11 MapReduce之InputFormat详解

原创【学习历程】10 MapReduce之mapreduce核心思想

原创【学习历程】09 Hadoop之Java API的使用

原创【学习历程】08 Hadoop之namenode与secondaryNameNode解析

原创【学习历程】07 Hadoop之HDFS读写流程

原创【常见问题】03 开虚拟机导致电脑蓝屏

原创【学习历程】06 Hadoop集群的安装

原创【学习历程】05 安装大数据集群前的环境准备

原创【学习历程】04 win10下IDEA连接Linux上的Hadoop集群

原创【学习历程】03 在IDEA中安装配置maven

原创【学习历程】02Linux在win10本地域名解析配置

原创【常见问题】02在Hadoop 计算过程中出现 name node is in safe mode 问题

原创【学习历程】01三台linux服务器的安装

原创【常见问题】01虚拟机启动时显示“Intel VT-x处于禁用状态”怎么解决？

原创夜间灯光影像区域稳定像元提取

原创火星坐标转WGS84

转载如何在spyder环境中使用arcpy

转载利用邻域均值插值法对栅格图像进行补偿

原创 PIE-Engine利用modis计算ndvi

原创 matlab 遗传算法工具箱（GATBX）

geopandas依赖包Python3.7Windows64位版本

geopandas依赖包python3.8Windows64位版

空空如也