11 冰上浮云

尚未进行身份认证

JAVA程序员,现在从从事大数据平台开发工作,关注大数据&人工智能,希望在编程的路上结交各路英豪。

等级
TA的排名 3k+

Redis Cluster架构

概述Redis作为常用的K-V内存数据库经常被用在大型互联网项目中,作为缓存使用,由于大型互联网项目一般数据量大并且必须保证服务高可用,使用redis一般都是以集群形式来使用,这样带来2点好处:自动把数据分布到不同节点,容易横向扩容。保证Redis集群中个别节点不可用时Redis服务是可用的。Redis 集群的 TCP 端口(Redis Cluster TCP ports)每个 Re...

2020-05-01 16:52:47

vscode调试django项目

这几天研究HUE,这个东西是基于Django开发的,于是又看了一眼Django,学着写个demo。微软开源的vscode在业界反应不错,以前也没用过,借着这次机会用用vscode,和pycharm比起来各有千秋,不过总体来说还是不错的。新工具各种不熟悉,连怎么调试都得研究研究,现在记录一下vscode 怎么弄Django项目的调试。下载Django模块进入vscode 先下载django,点击...

2020-03-09 22:09:29

CodeMirror.MergeView

最近项目上需要实现2个文本的比较展示功能,找了一圈发现CodeMirror.MergeView 自带这个功能,其实里面用的diff插件是Google的diff-match-patch,在github的星星还蛮多,就用选择这个插件了。下面写个demo以便备忘。安装依赖npm install codemirrornpm install diff-match-patch完整代码<te...

2020-02-02 21:14:39

hadoop 文件上传

hdsf 本质上就是一个分布式文件系统,只是相对于普通计算机来说,它可以很容易横向扩展,自带高可用机制。我们要在Hadoop做MapReduce计算的时候,就需要把写好的程序打成jar包放到hdfs上。hadoop提供多种方式方式让你能够把文件放入hdfs,比如 自带的shell命令行客户端put命令,java客户端的FileSystem,REST的HDFS API(WebHDFS与HttpFS...

2020-02-01 21:54:22

YARN资源调度策略之Fair Scheduler

目的这篇文章是对公平调度器(FairScheduler)的说明,它是hadoop的一个可插拔的调度器,目的是让应用程序在YARN上能够公平的共享巨大的集群资源。介绍公平调度是一种将资源分配给应用程序的方法,这样所有应用程序平均都能在一段时间内获得相同的资源份额。Hadoop NextGen能够调度多个资源类型。默认情况下,Fair调度器仅基于内存来进行公平性决策。利用Ghodsi等人提出的占...

2020-01-30 14:33:13

hive自定义函数(UDF)

概述用户自定义函数(UDF)是一个允许用户扩展HiveQL的强大的功能。用户可以使用Java编写自己的UDF,一旦将用户自定义函数加入到用户会话中(交互式的或者通过脚本执行的),它们就将和内置的函数一样使用,甚至可以提供联机帮助。Hive具有多种类型的用户自定义函数,每一种都会针对输入数据执行特定“一类”的转换过程。在ETL处理中,一个处理过程可能包含多个处理步骤。Hive语言具有多种方式来将...

2020-01-29 21:41:32

Fair Scheduler与Capacity Scheduler比较

1、Fair SchedulerFacebook开发的适合共享环境的调度器,支持多用户多分组管理,每个分组可以配置资源量,也可限制每个用户和每个分组中的并发运行作业数量;每个用户的作业有优先级,优先级越高分配的资源越多。2、Capacity SchedulerYahoo开发的适合共享环境的调度器,支持多用户多队列管理,每个队列可以配置资源量,也可限制每个用户和每个队列的并发运行作业数量,也可...

2020-01-28 15:01:08

YARN资源调度策略之Capacity Scheduler

什么是capacity schedulerCapacity Scheduler调度器以队列为单位划分资源。简单通俗点来说,就是一个个队列有独立的资源,队列的结构和资源是可以进行配置的,如下图:default队列占30%资源,analyst和dev分别占40%和30%资源;类似的,analyst和dev各有两个子队列,子队列在父队列的基础上再分配资源。队列以分层方式组织资源,设计了多层级别的...

2020-01-28 13:28:58

Yarn资源调度系统详解

1、Yarn介绍Apache Hadoop YARN 是 apache Software Foundation Hadoop的子项目,为分离Hadoop2.0资源管理和计算组件而引入。YARN的诞生缘于存储于HDFS的数据需要更多的交互模式,不单单是MapReduce模式。Hadoop2.0 的YARN 架构提供了更多的处理框架,比如spark框架,不再强迫使用MapReduce框架。从ha...

2020-01-27 15:40:27

presto测试安装

安装安装参考官方文档:https://prestodb.github.io/docs/current/installation/deployment.html环境要求JDK:>=8u151如果服务器里面的jdk版本低于目前presto需求,需要在launcher单独配置需要的jdk起动(将以下二行添加至bin/launcher文件)export JAVA_HOME=/usr/ja...

2019-10-13 21:58:36

在CentOS上重新编译nginx,加sticky模块

为了达到高可用目的,一个应用一般会部署多个实例,前面用nginx做负载。有些时候我们希望一个用户的所有请求都打到其中一个实例上(比如会话或者状态不能在服务集群所有实例间进行共享时),nginx官方默认的解决方案是通过ip_hash实现,但是ip hash 不够准确,ip hash其实就是把客户端ip v4地址4段中的前3段拿来做hash运算得到一个hash值,通过该hash值决定请求打到哪个服务上...

2019-10-04 17:07:07

mysql5.7忘记root密码处理(win10环境)

环境操作系统:win10MySQL版本:mysql-5.7.17-winx64操作步骤1. 停止mysql服务net stop mysql2. 关闭身份认证以管理员身份启动一个DOS窗口,进入mysql的bin目录,执行如下命令。./mysqld --skip-grant-tables;或者./mysqld -nt --skip-grant-tables;3. 重新...

2019-08-22 23:01:18

Flink数据流编程模型

抽象层次Flink 提供了不同层次的抽象给批/流编程模型使用。[外链图片转存失败(img-dO9iJvNu-1566143383239)(https://github.com/clj198606061111/image/blob/master/flink/levels_of_abstractic.png?raw=true)]最底层的抽象是状态流(stateful streaming),它通...

2019-08-18 23:50:32

Flink安装部署-window 本地部署

flink 可以运行在 Linux, Mac OS X, and Windows 操作系统上面。要运行Flink得先安装JDK 8.X。JDK安装参看:http://www.itclj.com/blog/5920236681c06e672f942ad4下载官网下载地址:https://flink.apache.org/zh/downloads.htmlGIThub源码下载地址:https:...

2019-08-17 15:56:06

Flink应用场景

Apache Flink 功能强大,支持开发和运行多种不同种类的应用程序。它的主要特性包括:批流一体化、精密的状态管理、事件时间支持以及精确一次的状态一致性保障等。Flink 不仅可以运行在包括 YARN、 Mesos、Kubernetes 在内的多种资源管理框架上,还支持在裸机集群上独立部署。在启用高可用选项的情况下,它不存在单点失效问题。事实证明,Flink 已经可以扩展到数千核心,其状态可以...

2019-08-17 14:11:07

Linux Netcat 命令——网络工具中的瑞士军刀

netcat是网络工具中的瑞士军刀,它能通过TCP和UDP在网络中读写数据。通过与其他工具结合和重定向,你可以在脚本中以多种方式使用它。使用netcat命令所能完成的事情令人惊讶。netcat所做的就是在两台电脑之间建立链接并返回两个数据流,在这之后所能做的事就看你的想像力了。你能建立一个服务器,传输文件,与朋友聊天,传输流媒体或者用它作为其它协议的独立客户端。下面是一些使用netcat的例子...

2019-08-04 22:17:44

vue g6 hello world

在下当前所在项目需要弄一个流程图,前端框架用的vue,所以研究一下g6在vue下的使用。g6介绍G6 是蚂蚁金服旗下一个开源图可视化框架。它提供了一套图可视化的基础设置,能帮助开发者搭建属于自己的图 图分析 应用或是 图编辑器 应用。个人感觉这个图可视化框架比 GoJS更优秀更好用些。项目地址:https://github.com/antvis/g6准备通过 npm 安装npm in...

2019-06-04 07:56:21

[anaconda]jupyter notebook 安装配置

背景现在在公司大数据平台部从事大数据基础组件开发工作,所需要涉及的知识面非常广,其中人工智能也是后续大数据基础平台建设的重要部分,于是就花了几千块报了个人工智能的课程。这个课程有一些前置基础课程,python就是其基础课程的一门。开始学习python,教学环境用的anaconda里面的jupyter notebook,为了使自己的学习和教程有一个相同的环境,也安装了一下anaconda,方便以后...

2019-03-26 17:42:16

数据治理之元数据管理实践

引言数字转型对不同的人意味着不同的东西,这取决于你的行业和你的业务性质。然而,所有的解释都有一个共同的主线,数据和数据治理的重要性。近年来,大家都在谈论数据逐步或已经成为企业的核心资产,数据驱动企业业务开展已经在不同的行业和企业中发挥着巨大的作用,那么作为企业的核心资产数据,如何进行管理是不同企业在进行全面数字化转型需要考虑的一个重要事情。关于元数据概念的文章网上有不少,本文主要探讨一般的企业...

2019-03-02 16:04:44

数据质量监控工具-Apache Griffin

一、概述随着业务发展和数据量的增加,大数据应用开发已成为部门应用开发常用的开发方式,由于部门业务特点的关系,spark和hive应用开发在部门内部较为常见。当处理的数据量达到一定量级和系统的复杂度上升时,数据的唯一性、完整性、一致性等等校验就开始受到关注,而通常做法是根据业务特点,额外开发job如报表或者检查任务,这样会比较费时费力。目前遇到的表大部分在几亿到几十亿的数据量之间,并且报表数量在...

2019-02-02 07:45:13

查看更多

勋章 我的勋章
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。