自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

功夫熊猫

互联网|大数据|物联网|机器学习

  • 博客(38)
  • 收藏
  • 关注

原创 阿里云ECS搭建Jupyter Notebook(下)

4. 生成密码密文root@iZuf6e9bjg74ll9e9hcyagZ:~/anaconda# ipythonPython 3.6.5 |Anaconda, Inc.| (default, Apr 29 2018, 16:28:17) Type 'copyright', 'credits' or 'license' for more informationIPython 6.4.0 --...

2018-06-09 10:30:24 760 1

原创 阿里云ECS搭建Jupyter Notebook(上)

      前面把阿里云ECS的Python版本升级到Python3,下面接着就开始安装Jupyter Notebook,由于Anaconda集成了Jupyter,所以先安装Anaconda后再配置Jupyter1. 下载Anaconda安装包(Anaconda集成Jupyter)root@iZuf6e9bjg74ll9e9hcyagZ:~# pwd/rootroot@iZuf6e9bjg74...

2018-06-09 10:11:44 1644 1

原创 阿里云ECS升级python到python3

     去年双十一阿里云活动,廉价买了台ECS一直闲着没用,实在是资源浪费。突然想装个Jupyter Notebook,方便对机器的使用,希望能调动积极性。一看python的版本信息,居然是2.7.12的,所以第一步先把Python升级到Python3再说。1.  查看Python版本root@iZuf6e9bjg74ll9e9hcyagZ:~# pythonPython 2.7.12 (de...

2018-06-09 09:28:06 4303

原创 Apache Nifi

2.4.4 Controller Service分类介绍AvroReaderAvroReader解析Avro数据并且将每个Avro记录解析为一个独立的记录对象返回。解析Avro的schema可以来自于数据本身,也可以通过“Schema Access Strategy”属性配置的策略去Schema注册服务获取Schama。AvroRecordSetWriter将记录集的内容写成Avro二进制格式。S...

2018-05-27 08:20:11 1510

原创 Apache Nifi

2.4.3 为数据流添加Controller Service为一个数据流添加Controller Service,你可以右击处理组然后选择Configure,如也可以通过控制台的操作面板选择Configure,如当从控制面板进入Controller Service添加配置页面,需要对于Controller Service的应用范围需要特别注意。在没有选中任何处理组的情况下点击控制面板添加配置完成的...

2018-05-27 08:19:09 298

原创 Apache Nifi

2.4.2 配置Controller Service点击“”编辑按钮,弹出Controller Service的配置页面,如配置页面有3个Tab页:Settings,Properties和Comments。配置页面同样也类似于处理器单元的属性配置页面。在Settings的Tab页中可以根据需要给Controller Service配置一个唯一的名称,同时也给出了Controller Service...

2018-05-27 08:16:37 261

原创 Apache Nifi

2.4 NiFi Controller Service应用介绍Controller service是一个能被各个processor,reporting task以及其它service用于配置和任务执行的共享服务。举个具体的应用场景,当NiFi中创建了大量的数据流,且这些数据流都有从同一源数据库获取数据的需求。此时必然要考虑源数据库的连接数的问题,如果NiFi在各个数据流的访问数据库的处理器单元之间...

2018-05-27 08:13:45 3540

原创 Apache Nifi

2.3.9 HTTP协议类处理器单元GetHTTP GetHTTP处理器单元对配置的http或者https协议的URL发起请求并将返回结果输出到新的FlowFile中。而且GetHTTP会记录Etag和最新数据修改时间避免不停的访问给服务端产生不必要的开销。如下图ListenHTTP ListenHTTP处理器单元监听Http或者Https请求,如果有请求先返回200然后将POST的请求参数输出到...

2018-05-06 09:34:24 563 1

原创 Apache Nifi

2.3.8切分和聚合类处理器单元SplitTextSplitText处理器单元可以将一个文本内容的FlowFile切分成你想要数量的FlowFile。上面的图中表示Processor将输入的FlowFile的内容切分成多个FlowFile,每个FlowFile的内容都来自于FlowFile中的一行内容。SplitJsonSplitJson处理器单元可以将一个JSON对象根据它的结构拆解成JSON内...

2018-05-06 09:32:41 832

原创 Apache Nifi

2.3.7数据发送类处理器单元PutEmailPutEmail处理器单元主要功能是将FlowFile的内容以邮件的形式发送给配置的用户邮箱,也可以通过配置选择将FlowFile的内容以附件的方式发送出去。PutFilePutFile处理器主要功能是将FlowFile的内容以文件的形式写入本地磁盘。上面的图中表示Processor将接收到的FlowFile的内容写入到本地的磁盘文件中。(注意:1.5...

2018-05-06 09:28:01 521

原创 Apache Nifi

2.3.6 数据提取类处理器单元GetFileGetFile处理器单元从本地磁盘获取文件的内容到NiFi,并删除原有的磁盘文件。这个处理器应用场景是将一个文件从一个地方搬移到另外一个地方而不是对文件的拷贝。上面的图中表示Processor将/user/sample.txt文件的内容输出到FlowFile的内容中。GetFTPGetFTP处理器单元从FTP服务器文件内容输出到FlowFile中,并可...

2018-05-06 09:25:45 887

原创 Apache Nifi

2.3.5 系统交互类处理器单元ExecuteProcessExecuteProcess处理器单元能够运行用户定义的操作系统命令,将处理完的标准输出内容写入flowfile中。该处理器是一个不需要输入的源处理器,它会输出产生一个新的FlowFile。如果需要提供输入源请使用下面介绍的executestreamcommand处理器单元。上面的图中表示Processor根据输入的指令和参数执行命令ls...

2018-04-22 11:44:49 820

原创 Apache Nifi

2.3.4 属性提取类处理器单元EvaluateJsonPathEvaluateJsonPath处理器单元根据用户定义的JSONpath表达式对FlowFile的JSON内容进行解析,将这些表达式所解析出来的内容替换FlowFile的内容或者将其更新到FlowFile的属性中,以便于后续的单元处理器的引用。上面的图中表示Processor将输入内容为JSON格式的FlowFile例如{“name”...

2018-04-22 11:43:02 637

原创 Apache Nifi

2.3.3 数据接入类处理器单元ConvertJSONToSQLConvertJSONToSQL处理器单元可以将结构化的Json转换成INSERT或者UPDATE这样命令的SQL,配合PutSQL处理器单元可以直接根据这鞋命令将数据插入数据库中。上面的图中表示Processor根据输入的FlowFile的JSON内容,将JSON转化成Update的SQL语句。ExecuteSQLExecuteSQ...

2018-04-22 11:40:37 778

原创 Apache Nifi

2.3.2 数据路由类和调制处理器单元ControlRateControlRate处理器单元用来控制数据流部分流量的速率。上面的图中的例子表示1分钟内只允许最多1000个FlowFile流过。DetectDuplicateDetectDuplicate处理器单元用来依据用户定义的特征来监控和发现重复的FlowFile。通常这个处理器会搭配HashContent单元处理器来完成功能。上面的图中的例子...

2018-04-22 08:53:54 701

原创 Apache Nifi

2.3 NiFi Processor应用介绍对于NiFi的使用者来说,如果想要创建一个高效的数据流,那么就需要了解什么样的单元处理器才最适合这个数据流。NiFi拥有大量的可以用于各种业务场景的单元处理器可供使用者挑选和使用,这些单元处理器主要提供例如系统之间数据的传输,数据的路由,数据的转换、处理、分割和聚合等大类的功能。在每个NiFi的版本发布中都会有大量的新的处理器单元产生,这就导致本书中讲重...

2018-04-22 08:50:56 521

原创 Apache Nifi

2.2.4 NiFi创建数据流在创建NiFi数据流之前,先回顾下上一章节提到的两个重要术语:FlowFile和处理器单元,这两个是数据流的重要概念,对于我们理解并创建数据流有很大的帮助。FlowFile:数据流中的任何的用户数据都以FlowFile的形式存在。FlowFile包括两部分:正文和属性;其中正文指的是数据本身的内容,而属性则是对数据进行描述的键值对。处理器单元:处理器单元是NiFi数据...

2018-04-21 18:12:26 942

原创 Apache Nifi

2.2.3 NiFi控制台介绍按照以上步骤完成NiFi的启动后,现在可以尝试通过NiFi的UI来创建并监控一个数据流。NiFi默认启动后的访问端口是8080,我们可以直接在浏览器输入http://localhost:8080/nifi来登陆NiFi的控制台,NiFi的默认启动端口可以通过配置文件对其进行修改,在后面的章节中我们会具体介绍修改的配置参数。登陆控制台后我们可以看到一个空白的画布,后面可...

2018-04-21 18:07:58 374

原创 Apache Nifi

2.2 Apache NiFi快速入门2.2.1 NiFi版本包下载NiFi官方最新版本下载地址:https://nifi.apache.org/download.htmlNiFi官方历史版本下载地址:https://archive.apache.org/dist/nifi/NiFi官方Docker部署的介绍和镜像地址:https://hub.docker.com/r/apache/nifi/Ni...

2018-04-21 18:06:34 1028

原创 Apache Nifi

第2章 NiFi基础应用篇2.1 Apache NiFi术语介绍DataFlow ManagerNiFi是一个强大数据流管理平台,为用户提供数据流的创建、修改以及删除操作。FlowFile在NiFi中FlowFile代表数据流中的数据以及这个数据的相关属性。FlowFile由两部分组成:FlowFile的属性和内容。FlowFile的内容指的就是数据流中数据,属性是对数据的描述,例如数据的大小等,...

2018-04-21 18:02:20 1317

原创 Apache Nifi

1.3 Apache NiFi背景介绍Apache NiFi是由美国过国家安全局(NSA)贡献给Apache基金会的开源项目。2015年7月20日,Apache 基金会通过其博客宣布Apache NiFi顺利孵化完成称为Apache的顶级项目之一。NiFi初始的项目名称是Niagarafiles,当NiFi项目开源之后,一些早先在NSA(美国国家安全局)的开发者们创立了初创公司Onyara,Ony...

2018-04-21 17:56:55 367

原创 Apache Nifi

1.2 Apache NiFi功能介绍 Apache NiFi主要的功能如下:λ 图形化操作通过NiFi的Web控制台可以对数据流直接进行图形化创建、修改以及删除操作。从而能快速完成数据流的设计、上线以及监控。λ 数据血源NiFi对流过其数据流的数据进行了血源记录管理,用户可以很方便的对数据流中的历史数据进行问题定位以及血源分析。λ 基于优先级的数据处理NiFi对于其数据流Queue中的数据可以定...

2018-04-21 17:56:20 363

原创 Apache Nifi

1.1.3 Apache NiFi是什么简单来说,NiFi是一个强大的数据流管理平台。它很好的解决了上述的挑战。同时它也集服务总线、数据处理、消息总线以及ETL功能于一身。...

2018-04-21 17:55:39 236

原创 Apache Nifi

1.1.2 数据流挑战数据流(Data Flow)是用来抽象和概括各数据系统间数据交换和传递行为的专业术语。如果设计一个好的数据平台,主要面临以下一些挑战:可靠性企业往往会有很多数据系统,数据流负责将这些复杂的数据系统之间相互连接,所以数据系统的稳定性将直接影响连接这些系统的数据流的可靠性。而数据流本身的网络不稳定、磁盘损坏问题、软件的Bug以及人为的操作失误等因素也都直接影响数据流可靠性。数据缓...

2018-04-21 17:54:36 248

原创 Apache Nifi

第1章NiFi入门介绍篇1.1数据流挑战1.1.1 数据系统演进传统的数据系统都是由单一的子系统组成,且各子系统之间没有数据交换的需求。近些年来随着移动互联网、物联网的快速发展,人类创造了史无前例的有价值的大数据。这些有价值的大数据往往不仅仅会存在于单一的子系统中,数据需要在复杂的各个系统之间进行传递和交换,让各种维度的数据能够聚集分析,从而产生出远远大于单个数据所产生的价值。下面让我们看一个结构...

2018-04-21 17:53:27 285

转载 Janusgraph事务

事务原文连接:http://www.janusgraph.cn/#%E4%BA%8B%E5%8A%A1几乎所有与JanusGraph的交互都与事务相关。JanusGraph事务对于多线程并发使用是安全的。例如graph.V(…)和graph.tx().commit()方法都通过ThreadLocal查找以检索或创建与调用线程关联的事务。调用者也可以选择放弃ThreadLocal的事务管理方式,而改为调用graph.tx().createThreadedTx(),它返回对事务对象的引用,该对象具有读/

2020-12-12 09:28:19 531 1

转载 Janugraph部署场景

部署场景JanusGraph提供了很多存储和索引后端选择,这使得它的部署方式具有很大的灵活性。本章介绍一些可能的部署场景。在讨论不同的部署场景之前,我们先了解下JanusGraph本身和后端索引以及其后端存储的不同角色。首先,应用程序只与JanusGraph交互,主要是通过发送Gremlin遍历请求。然后JanusGraph与将接收到的遍历在后端的存储和索引中执行。当JanusGraph以JanusGraph Server的形式使用时,没有主节点和从节点之分且每个节点都是独立的。因此,应用程序可以通

2020-12-12 09:25:16 312

转载 JanusGraph Server

JanusGraph ServerJanusGraph使用Gremlin Server引擎作为服务器组件来处理和回答客户机查询。当封装在JanusGraph中时,Gremlin服务器称为JanusGraph服务器。JanusGraph服务器必须手动启动才能使用它。JanusGraph服务器提供了一种方法,可以针对其中托管的一个或多个JanusGraph实例远程执行Gremlin遍历。本节将描述如何使用WebSocket配置,以及如何配置JanusGraph服务器来处理客户端的HTTP请求。有关如何从

2020-12-12 09:22:16 232

转载 Janusgraph元数据及数据模型

元数据及数据模型每个JanusGraph图的元数据都由边标签、属性键及其使用的顶点标签组成。JanusGraph的元数据既可以显式定义,也可以隐式定义。建议用户在应用程序开发期间显式定义图的元数据。显式定义图的元数据是开发健壮应用程序的重要组成部分,同时提高协作软件的开发效率。注意,JanusGraph的元数据锁着时间的推移而不断的演进,而不会中断正常的数据库操作。扩展JanusGraph的元数据不会减慢查询响应速度,也不需要数据库停机维护。JanusGraph图的元数据类型(既边标签、属性健或)顶

2020-12-12 09:17:47 719

转载 Janusgraph配置概要

配置概要基本配置示例JanusGraph的基本配置主要包括使用的后端存储和索引的配置,如果需要高性能的查询还涉及缓存的配置。下面是针对不同存储和索引以及开启缓存的配置示例:Cassandra+Elasticsearch下面是使用本机安装的Cassandra作为后端存储,ElasticSearch作为索引后端的配置示例:storage.backend=cqlstorage.hostname=localhostindex.search.backend=elasticsearchin

2020-12-12 09:14:42 338

转载 Janusgraph架构

架构JanusGraph是一个图数据库引擎。JanusGraph本身专注于图形序列化、丰富的图数据模型和高效的图查询。此外,JanusGraph还利用Hadoop进行图形分析和批处理图形。JanusGraph为数据存储、数据索引以及客户端访问实现了健壮的模块化接口。JanusGraph的模块化架构允许它与各种的存储、索引以及客户机技术进行互操作,同时还简化了JanusGraph的扩展性。JanusGraph和磁盘之间有一个或多个存储和索引适配器。JanusGraph标准配置了以下适配器,同时Janu

2020-12-12 09:12:20 149

转载 Janusgraph使用示例

示例这里将借助希腊诸神图来示例如何使用Janusgraph。这个图是基于Property Graph Model数据模型,描述了希腊诸神与其所居住的位置关系。其中使用到Gremlin查询语言,详细可参照Gremlin Query Language。标记 含义 粗体关键字 图的索引。 带星的粗体关键字 图的索引且必须唯一 带下划线的关键字 vertex-centric索引关键字 空心箭头的边 无重复唯一的边 带短线的边 单向的边 将诸神图

2020-12-12 09:09:59 1037

转载 Janusgraph安装

安装Docker安装JanusGraphJanusGraph提供Docker image,使得其能在Docker容器中运行。下面就举例如何使用Docker技术来安装和运行JanusGraph:$ docker run -it -p 8182:8182 janusgraph/janusgraph运行docker命令,获取janusgraph的Dockerimage并运行于Docker容器,8182端口作为服务端口暴露对外。启动日志如下:SLF4J: Class path contain

2020-12-12 09:06:32 366

转载 Janusgraph简介

简介原文:http://www.janusgraph.cn/#%E7%AE%80%E4%BB%8BJanusGraph的优点JanusGraph支持对大图 (单机往往难以处理的大图) 进行实时的分析和遍历。主要有以下优点:JanusGraph可以通过扩展集群中的机器数量来进行弹性的扩展,从而能够实现对非常大的图数据处理。 JanusGraph支持对图的高并发处理以及事务处理,并且能力能够随着机器的扩展而弹性扩展。 JanusGraph支持Hadoop框架,并能够利用Hadoop对图进行大

2020-12-12 09:02:35 319

转载 Janusgraph中文文档

JanusGraph 简介 安装 示例 架构 配置概要 元数据及数据模型 Gremlin介绍 JanusGraph Server 部署场景 事务 缓存 事务日志 限制

2020-12-12 08:59:40 440

基于Apache Gremlin的电影推荐引擎

 

2018-11-01 15:12:40 299

原创 Region Server之间coprocessor相互调用

如下图所示,是一个利用HBase Coprocessor机制来减少应用和HBase集群间多步串行查询网络交互次数的方法。图的大体流程是,应用将查询的rowkey等参数传递到Region Server,然后Region Server先做自己所在Region的查询,将本机查询的结果作为下次查询的Rowkey,并将在本Region的Rowkey通过RPC请求其他Region Server,多步查询后...

2018-11-01 14:37:26 254

原创 实际动手编写HBase Coprocessor

1.背景在client端访问HBase的时候,经常会遇到多次串型查询(即client端应用程序每次从HBase中查询的结果中的一些数据作为下一步查询条件),这种场景往往导致不必要的网络消耗。我们可以利用HBase提供的Coprocessor机制来减少这种不必要的网络开销,从而达到性能上的优化。2.寻找HBase依赖的protobuf版本在实际生产环境往往已经安装了某个版本的HBase,...

2018-10-29 16:40:28 408

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除