6 幻影烈焰

尚未进行身份认证

暂无相关描述

等级
TA的排名 121w+

hive动态分区插入

动态分区插入(即多分区插入)旨在通过在扫描输入表时动态确定应该创建和填充的分区来解决此问题。该功能仅适用于0.6.0及以上版本。在动态分区插入中,将评估输入列值以确定应该将该行插入哪个分区。该分区如果尚未被创建,则会自动被创建。使用该功能,只需要一个insert语句来创建和填充所有必需的分区。另外,由于只有一个insert语句,因此只有一个相应的MapReduce作业。与多个insert语句相比,...

2019-06-16 18:14:13

apache airflow

airflow是一个以编程方式创建、调度以及监控工作流的平台。 使用airflow将工作流作为任务的有向无环图(DAG),airflow遵循指定的依赖项,同时,在一组worker上执行任务。airflow提供丰富的命令行工具以及用户界面。用户可以轻松地在DAG上执行复杂的操作,也很容易地查看生产环境中运行的pipeline,监控进度以及定位问题。...

2019-02-07 20:46:33

hdfs, hive, zeppelin集群数据迁移及数据一致性验证

1.概述 重新搭建了一套集群,需要迁移数据。集群上部署了hadoop,hive,zeppelin等组件,不同组件的数据迁移暂时没有统一的解决方案,因此需要分组件进行数据迁移。新老集群上各组件的版本均相同,但是新老集群的网络不通,多数配置文件也不相同。 2.数据迁移方案 2.1hdfs老集群上hdfs数据量几个g,比较小。DistCp是Hadoop自带的工具,并...

2019-01-26 11:22:01

spark中的cache和persist

cache()调用了persist(),具体看看源码。以2.1.0版本为例。打开文件core/src/main/scala/org/apache/spark/rdd/RDD.scaladefcache():this.type=persist()defpersist():this.type=persist(StorageLevel.MEMORY_ONLY)cach...

2018-08-09 00:06:28

apache atlas部署

1.首先下载atlas源码,根据源码构建编译下载链接http://atlas.apache.org/Downloads.html或者https://github.com/apache/atlas  2.构建atlastarzxfapache-atlas-1.0.0-sources.tar.gz-C/usr/localcd/usr/local/apach...

2018-07-29 21:22:08

zookeeper的watcher机制

watcher机制是zookeeper的一个重要功能。客户端可以在znode上面设置watcher,当znode发生变化时,客户端会收到zookeeperserver的通知,然后客户端可以根据znode的变化做出业务上的改变。 watch是一次性的,触发后,需要重新设置。zookeeper可以通过getData,exists以及getChildren设置watch,其中,getDa...

2018-07-22 23:37:56

apache atlas

1.概述atlas是一个hadoop生态系统元数据以及数据治理的一个框架,目前最新版本是1.0 2.组成结构atlas主要包括core,integration,metadatasources,applications等组件 3.core3.1typesystematlas允许用户为元数据对象定义一个模型,该模型由称为“类型“的定义组成,“类型“的实...

2018-07-15 16:57:49

一致性哈希算法与传统哈希算法的对比

1.传统哈希算法传统的哈希算法比较均匀的将数据分配到节点上。它依赖的hash算法(实现用的是md5算法)能够比较随机的分布。fromhashlibimportmd5fromstructimportunpack_fromITEMS=10000000NODES=100node_stat=[0foriinrange(NODES)]forite...

2018-07-08 08:20:21

hive metastore

1.概述通过hivemetastore能访问hive的元数据,hive的元数据使用DataNucleus持久化,因此mysql等数据库可以和hive结合,存储元数据。2.metastore的两种方式配置metastore服务端以及metastore数据库主要有内嵌、远程两种方式。2.1内嵌方式hive使用derby作为内嵌的metastore数据库,主要用于测试,但是在同一时间,它只允许...

2018-06-30 21:48:29

sgd kmeans

Kmeans算法一般采用两个步骤:1、遍历每条样本,确定距离最近的中心点为其中心;2、针对新的每条样本分布重新确定新的中心。重复步骤,直至各样本的中心点不再改变。 由于每次迭代需要所有样本,将其结合随机梯度下降算法,将提高收敛速度。主要见文献[1]。采用如下算法: 经过代码验证,采用irisdataset,有如下效果(效果受初始值影响):图1为原始分类,图2为...

2018-06-23 22:02:07
勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。