• 等级
  • 826019 访问
  • 159 原创
  • 91 转发
  • 3555 排名
  • 108 评论
  • 160 获赞

在公有云实现分布式系统上千节点功能测试?Alluxio团队基于Docker的模拟方案和经验总结

01摘要对分布式系统进行大规模测试通常是一个昂贵但又必要的流程。由于世界上很多公司和机构都依赖Alluxio技术,我们非常重视Alluxio的测试。因此,我们需要解决的一个问题是如何在不耗尽资源的情况下进行大规模测试。在本博客中,我们将展示Alluxio开源项目的开发维护者如何利用公有云基础设施以经济高效的方式构建和测试我们的系统。我们将Alluxio与流行的计算框架(如Spark和Hive)...

2019-02-14 14:13:04

Mac使用vnc远程登录ubuntu16.04桌面

mac使用vnc远程登录ubuntu16.04桌面1.安装在Ubuntu上安装x11vnc,如下:sudoapt-getinstallx11vnc2.配置vnc密码x11vnc-storepasswd3.启动vnc服务x11vnc-forever-shared-rfbauth~/.vnc/passwd最好后台执行4.在mac上安装vncviewer,安装好后,在...

2019-01-23 15:22:00

开源OLAP引擎测评报告(SparkSql、Presto、Impala、HAWQ、ClickHouse、GreenPlum)

本文为博主公司原创文章,仿冒必究,转载请回复留言开源OLAP引擎测评报告(SparkSql、Presto、Impala、HAWQ、ClickHouse、GreenPlum)易观CTO郭炜序现在大数据组件非常多,众说不一,在每个企业不同的使用场景里究竟应该使用哪个引擎呢?这是易观Spark实战营出品的开源Olap引擎测评报告,团队选取了Hive、Sparksql、Presto、Impala...

2019-01-21 10:47:05

大数据调度--有向无环图(DAG)之拓扑排序

拓扑排序(TopologicalSorting)维基百科上拓扑排序的定义为:对于任何有向无环图(DAG)而言,其拓扑排序为其所有结点的一个线性排序(同一个有向图可能存在多个这样的结点排序)。该排序满足这样的条件——对于图中的任意两个结点U和V,若存在一条有向边从U指向V,则在拓扑排序中U一定出现在V前面。通俗来讲:拓扑排序是一个有向无环图(DAG)的所有顶点的线性序列,该序列必须满足两个...

2019-01-20 22:47:02

2019.01.12 Presto中国区用户线下Meetup

2019.01.12号,我们邀请Presto原创团队莅临中国,带来关于Presto的最新feature和roadmap动态,也邀请国内的Presto前沿公司兄弟分享实践干货,期待各位朋友的参加:活动地点:北京朝阳区绿地中心B座10层盖亚互娱乌月神殿活动时间:2019年1月12日14:00~2019年1月12日17:30活动议程:议程一14:00-14:30Introdu...

2019-01-13 12:38:37

HDFS中的内存存储支持

因工作中olap场景中对性能的极致要求,我们将部分业务数据的hdfs路径的存储策略设置为放在内存中(RAM_DISK)中,这是在hadoop2.6以后的版本支持的。抽空翻译了官网的文章HDFS中的内存存储支持介绍 管理员配置 限制副本使用的内存 在数据节点上设置RAM磁盘 选择tmpfs(vsramfs) 挂载RAM磁盘 使用RAM_DISK存储类型标记tmpfs卷 ...

2019-01-10 00:03:37

如何建立数据思维

数据思维是新手和老手的分界线(之一)作为数据PM,不管是初入行还是处于打怪中间态,都需要建立数据思维,从实战经验来看,数据思维也是区分一般数据PM和高阶数据PM的分界线之一。我刚入行时,做广告商业产品,遇到一个case让我见识到了产品老大的数据思维。对于广告部门而言,收入是KPI,每天的广告收入是老大重点关注的指标,老大的功力在于能从整体的收入下降不断递进反推快速命中下降的原因。当天的真实情况是...

2019-01-02 22:33:55

如何定义数据指标

数据指标的定义,是培养数据思维要闯的第一道关。比如常见的以下指标定义:1、激活,如何定义一个激活?下载、安装并打开APP的用户数?我们暂且这么定义。根据定义,下载没安装或者安装没打开的用户,都不计入激活。只有完成所有步骤的用户才算。但是问题来了,一个用户下载、安装并打开APP时,根本没登录,他只是一个游客。激活的定义变成:下载、安装并打开APP的游客数。如果我们把这个定义交给开发,开发可能...

2019-01-02 22:20:30

大数据分析的下一代架构--IOTA架构设计实践[下]

IOTA架构提出背景大数据3.0时代以前,Lambda数据架构成为大数据公司必备的架构,它解决了大数据离线处理和实时数据处理的需求。典型的Lambda架构如下:Lambda架构的核心思想是:数据从底层的数据源开始,经过各样的格式进入大数据平台,然后分成两条线进行计算。一条线是进入流式计算平台,去计算实时的一些指标;另一条线进入批量数据处理离线计算平台,去计算T+1的相关业务指标,这些指标需...

2018-12-31 20:59:53

spark-submit时上传spark依赖到hdfs时间较长问题解决

spark-submit时,发现上传spark依赖到hdfs时间长达数分钟,现象如下方截图:这个日志之后在上传程序依赖的jar,根据不同网络负荷,需要耗时数十秒甚至数分钟,导致任务提交速度超级慢,在官网上查到出现这种现象的原因:https://spark.apache.org/docs/2.1.1/running-on-yarn.html翻译过来就是:要想在yarnspark...

2018-12-22 17:55:47

数据分析指标名词解释

数据分析指标名词解释名词解释维度指人们分析事物的角度。比如,分析活跃用户,可以从时间的维度,也可以从地域的维度去看,也可以时间、地域两个维度组合去分析。有层次关系的维度,就可以根据分析需求改变维的层次,变换分析的粒度钻取,比如分析活跃用户,从地域这个维度类型上,可以细分到省份、城市、县、乡镇的用户,也可以向上汇总。不同维度有些是相互独立的,比如时间维度和地域维度;但有些维度是有层次...

2018-12-21 22:23:07

图解机器学习

图解机器学习 每当提到机器学习,大家总是被其中的各种各样的算法和方法搞晕,觉得无从下手。确实,机器学习的各种套路确实不少,但是如果掌握了正确的路径和方法,其实还是有迹可循的,这里我推荐SAS的LiHui的这篇博客,讲述了如何选择机器学习的各种方法。 另外,Scikit-learn 也提供了一幅清晰的路线图给大家选择:其实机器学习的基本算法都很简单,下面我们就利用二维数据和交互...

2018-12-18 00:08:32

我应该使用哪种机器学习算法?

我应该使用哪种机器学习算法?该资源主要面向初学者到中级数据科学家或分析师,他们有兴趣识别和应用机器学习算法来解决他们感兴趣的问题。当面对各种各样的机器学习算法时,初学者提出的一个典型问题是“我应该使用哪种算法?”  问题的答案因许多因素而异,包括:数据的大小,质量和特性。 可用的计算时间。 任务的紧迫性。 您想要对数据做什么。即使是经验丰富的数据科学家也无法确定哪种算法在尝试...

2018-12-16 14:56:05

EasyScheduler大数据调度系统架构分享

EasyScheduler大数据调度系统架构分享导语EasyScheduler是易观平台自主研发的大数据分布式调度系统。主要解决数据研发ETL错综复杂的依赖关系,而不能直观监控任务健康状态等问题。EasyScheduler以DAG流式的方式将Task组装起来,可实时监控任务的运行状态,同时支持重试、从指定节点恢复失败、暂停及Kill任务等操作。背景任务调度系统在大数据平台当中是一个核心的...

2018-12-13 20:01:57

Alluxio客户端显示找不到FileSystem类问题分析与解决

我们发现时常在用户邮件列表上会出现一个有关作业失败的问题,这个失败伴随着错误消息“java.lang.ClassNotFoundException:Classalluxio.hadoop.FileSystemnotfound”。这篇博客分析解释了这种失败的原因以及发生该问题时的解决方案。为什么会发生这个错误?这个错误说明Alluxio客户端在运行时不可用。当作业尝试访问Alluxio文...

2018-12-13 17:30:24

劳动合同解除及补偿一览表

经济寒冬下,人员优化情况时有发生,小伙伴们了解一下自己的权益,哈哈!

2018-12-13 13:44:20

BitMap算法详解

BitMap算法详解  所谓的BitMap就是用一个bit位来标记某个元素所对应的value,而key即是该元素,由于BitMap使用了bit位来存储数据,因此可以大大节省存储空间。基本思想:  这此我用一个简单的例子来详细介绍BitMap算法的原理。假设我们要对0-7内的5个元素(4,7,2,5,3)进行排序(这里假设元素没有重复)。我们可以使用BitMap算法达到排序目的。要表示8...

2018-11-16 16:54:56

jvm疯狂吞占内存,罪魁祸首是谁

分享一篇公司小伙伴的关于jvm占用内存的技术文章导读:JVM是JavaVirtualMachine的缩写,中文名为Java虚拟机。它是一种用于计算设备的规范,是一个虚构出来的计算机,主要通过在实际的计算机上仿真模拟各种计算机功能来实现的。在实际运用过程中,易观技术人员注意到一台开发机上各个微服务进程占用内存很高,随即便展开了调查......现象:前段时间发现某台开发机上各个微服务进程占...

2018-11-12 14:25:32

druid异常处理:Types.collectionOf(Ljava/lang/reflect/Type;)Ljava/lang/reflect/ParameterizedType

2018-11-10T19:54:35,072INFO[task-runner-0-priority-0]io.druid.indexer.DetermineHashedPartitionsJob-Jobwikiticker-determine_partitions_hashed-Optional.of([2015-09-12T00:00:00.000Z/2015-09-13T00:...

2018-11-10 20:22:27

macbook上ssh localhost免密登录

第一步:ssh-keygen-trsa     然后提示输入直接按回车就好第二步:cat~/.ssh/id_rsa.pub>>~/.ssh/authorized_keys第三步:chmodog-wx~/.ssh/authorized_keys第四步:chmod750$HOME 搞定!...

2018-11-09 22:12:52

博客专家

代立冬

Stay Hungry Stay Foolish 外功修行 内功修神 ...展开 收起
关注
  • 互联网·电子商务/架构师
  • 中国 北京 朝阳区
奖章
  • 博客专家
  • 专栏达人
  • 持之以恒
  • 1024勋章