幻影烈焰-CSDN博客

原创 hive动态分区插入

动态分区插入（即多分区插入）旨在通过在扫描输入表时动态确定应该创建和填充的分区来解决此问题。该功能仅适用于0.6.0及以上版本。在动态分区插入中，将评估输入列值以确定应该将该行插入哪个分区。该分区如果尚未被创建，则会自动被创建。使用该功能，只需要一个insert语句来创建和填充所有必需的分区。另外，由于只有一个insert语句，因此只有一个相应的MapReduce作业。与多个insert语句相比，...

2019-06-16 18:14:13 1931

原创 apache airflow

airflow是一个以编程方式创建、调度以及监控工作流的平台。使用airflow将工作流作为任务的有向无环图（DAG），airflow遵循指定的依赖项，同时，在一组worker上执行任务。airflow提供丰富的命令行工具以及用户界面。用户可以轻松地在DAG上执行复杂的操作，也很容易地查看生产环境中运行的pipeline，监控进度以及定位问题。...

2019-02-07 20:46:33 555

原创 spark中的cache和persist

cache()调用了persist()，具体看看源码。以2.1.0版本为例。打开文件core/src/main/scala/org/apache/spark/rdd/RDD.scaladef cache(): this.type = persist()def persist(): this.type = persist(StorageLevel.MEMORY_ONLY)cach...

2018-08-09 00:06:28 349

原创 apache atlas部署

1.首先下载atlas源码，根据源码构建编译下载链接http://atlas.apache.org/Downloads.html或者https://github.com/apache/atlas 2.构建atlastar zxf apache-atlas-1.0.0-sources.tar.gz -C /usr/localcd /usr/local/apach...

2018-07-29 21:22:08 1354

原创 zookeeper的watcher机制

watcher机制是zookeeper的一个重要功能。客户端可以在znode上面设置watcher，当znode发生变化时，客户端会收到zookeeper server的通知，然后客户端可以根据znode的变化做出业务上的改变。 watch是一次性的，触发后，需要重新设置。zookeeper可以通过getData, exists以及getChildren设置watch，其中，getDa...

2018-07-22 23:37:56 236

原创 apache atlas

1. 概述atlas是一个hadoop生态系统元数据以及数据治理的一个框架，目前最新版本是1.0 2. 组成结构atlas主要包括core, integration, metadata sources, applications等组件 3. core3.1 type systematlas允许用户为元数据对象定义一个模型，该模型由称为“类型“的定义组成，“类型“的实...

2018-07-15 16:57:49 1862

原创一致性哈希算法与传统哈希算法的对比

1. 传统哈希算法传统的哈希算法比较均匀的将数据分配到节点上。它依赖的hash算法（实现用的是md5算法）能够比较随机的分布。from hashlib import md5from struct import unpack_fromITEMS = 10000000NODES = 100node_stat = [0 for i in range(NODES)]for ite...

2018-07-08 08:20:21 2647

原创 hive metastore

1. 概述通过hive metastore能访问hive的元数据，hive的元数据使用Data Nucleus持久化，因此mysql等数据库可以和hive结合，存储元数据。2. metastore的两种方式配置metastore服务端以及metastore数据库主要有内嵌、远程两种方式。2.1 内嵌方式hive使用derby作为内嵌的metastore数据库，主要用于测试，但是在同一时间，它只允许...

2018-06-30 21:48:29 949

原创 sgd kmeans

Kmeans算法一般采用两个步骤：1、遍历每条样本，确定距离最近的中心点为其中心；2、针对新的每条样本分布重新确定新的中心。重复步骤，直至各样本的中心点不再改变。由于每次迭代需要所有样本，将其结合随机梯度下降算法，将提高收敛速度。主要见文献[1]。采用如下算法：经过代码验证，采用iris dataset,有如下效果（效果受初始值影响）：图1为原始分类，图2为...

2018-06-23 22:02:07 813 2

u012360211的博客