- 博客(30)
- 资源 (3)
- 收藏
- 关注
原创 supervisor 教程
概述(1) 基于python编写,安装方便(2) 进程管理工具,可以很方便的对用户定义的进程进行启动,关闭,重启,并且对意外关闭的进程进行重启 ,只需要简单的配置一下即可,且有web端,状态、日志查看清晰明了。(3) 组成部分 supervisord[服务端,所以要通过这个来启动它] supervisorctl[客户端,可以来执行stop等命令](4) 官方文档...
2018-12-10 12:41:27 822
原创 Azkaban 3.62 安装
介绍Azkaban是由Linkedin公司推出的一个批量工作流任务调度器,用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban使用job配置文件建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。 它有三个重要组件: 1. 元数据数据库(目前仅支持my...
2018-11-27 18:13:06 2007
原创 Azkaban 总览
一、为什么需要工作流调度器1、一个完整的数据分析系统通常都是由大量任务单元组成: shell 脚本程序,java 程序,mapreduce 程序、hive 脚本等2、各任务单元之间存在时间先后及前后依赖关系3、为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行例如,我们可能有这样一个需求,某个业务系统每天产生 20G 原始数据,我们每天都要对其进行处理,处理步骤如...
2018-11-27 17:24:29 294
原创 Hive SQL on where 优化
1. select t.* from A f join B t on (f.id = t.id and f.分区=20181111 and t.分区=20181111)2. select t.* from (select id from A where 分区=20181111) fjoin(select * from B where 分区=20181111) ton (f.id = ...
2018-11-13 16:10:47 2576 2
原创 Apache Hadoop、CDH、HDP、MapR区别
一、简述目前Hadoop的发行版除了Apache的开源版本之外,还有华为发行版、Intel发行版、Cloudera发行版(CDH)、Hortonworks发行版(HDP)、MapR等,所有这些发行版均是基于Apache Hadoop衍生出来的,因为Apache Hadoop的开源协议允许任何人对其进行修改并作为开源或者商业产品发布。国内大多数公司发行版是收费的,比如Intel发行版、华为发行版...
2018-10-11 18:05:01 6120
转载 开发、部署去中心化应用(Dapp) - 宠物商店
本文通过实例教大家来开发去中心化应用,应用效果如图:从本文,你可以学习到:搭建智能合约开发环境 创建Truffle项目 编写智能合约 编译和部署智能合约到区块链 如何通过Web3和智能合约交互 MetaMask 的使用项目背景Pete有一个宠物店,有16只宠物,他想开发一个去中心化应用,让大家来领养宠物。在truffle box中,已经提供了pet-shop的网站部分的代...
2018-10-08 15:35:33 359
转载 【Redis】缓存更新的套路
看到好些人在写更新缓存数据代码时,先删除缓存,然后再更新数据库,而后续的操作会把数据再装载的缓存中。然而,这个是逻辑是错误的。试想,两个并发操作,一个是更新操作,另一个是查询操作,更新操作删除缓存后,查询操作没有命中缓存,先把老数据读出来后放到缓存中,然后更新操作更新了数据库。于是,在缓存中的数据还是老的数据,导致缓存中的数据是脏的,而且还一直这样脏下去了。 我不知道为什么这么多...
2018-09-06 10:20:58 6029
转载 Apache-airflow 钉钉机器人插件
Directory 背景Airflow默认提供邮件和Slack插件发送报警邮件的功能。但是日常我们希望通过钉钉机器人形式发送。前期开发过程中使用的环境是python 3.4,airflow的一些插件库滞后更新到python3,所以推荐用python 2.7。测试的airflow版本是apache-airflow (1.9.0)。获取钉钉机器人在钉钉群内右上角可以看到Gr...
2018-07-16 16:40:13 4215
转载 Mac 安装telnet
问题:-bash: telnet: command not found-bash: brew: command not found解决:/usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"brew install telnet参考:brew: comman...
2018-07-13 21:13:32 32323 3
原创 Elasticsearch AWS S3 备份数据
按照 Elastic 官方给出的 Recommanded S3 Permissions 直接配置即可。Recommanded S3 Permissions:https://www.elastic.co/guide/en/elasticsearch/plugins/current/repository-s3-repository.html#repository-s3-permissions备份步骤:...
2018-07-11 20:30:15 3944
原创 清除sendmail 未发送的邮件队列
linux 一直发送邮件,重启也无法解决。解决方案:service sendmail stoprm -rf /var/spool/mqueue/*cat /var/spool/mail/ec2-userservice sendmail start解决。
2018-07-03 09:48:42 2846
原创 Databus 调研测试
1. 简介Databus是一个低延迟、可靠的、支持事务的、保持一致性的数据变更抓取系统。由LinkedIn于2013年开源。Databus通过挖掘数据库日志的方式,将数据库变更实时、可靠的从数据库拉取出来,业务可以通过定制化client实时获取变更并进行其他业务逻辑。Databus有以下特点:数据源和消费者之间的隔离。数据传输能保证顺序性和至少一次交付的高可用性。从变化流的任意时间点进行消费,包括...
2018-06-28 15:05:27 1294 1
转载 Kafka、RabbitMQ对比
featurescenarioKafkaRabbitMQ备注PUB-SUB 发布订阅模型√√ 推拉消费Consumer消费消息的动作方式。pullpush/pullpush更关注实时性。pull更关注消费者消费能力。延迟消费Producer产生一条消息后,并不希望立刻被消费掉。X√高阶需求。consumer group同一条Message能同时被多个消费组消费,但同一group中,一条Messa...
2018-06-26 15:37:05 830
原创 Oracle GoldenGate 调研
# 概述Oracle GoldenGate 是一款用于实时数据集成和异构数据库复制的产品。它支持组织实现与分析系统的实时数据集成、无停机地迁移和整合到云架构、 从事务系统(内部和云)分流报告功能以实现最高性能、实施主动-主动数据库复制以实 现数据分布和持续可用性。## 定位- 零宕机时间数据库升级和迁移。- 满足用户亚秒级实时数据的需求。- 可持续的数据高可用性和实时商务智能。- 异构平台及跨操作...
2018-06-12 18:45:12 391
原创 Hive存储格式textfile转orcfile,并导出数据到另一hive集群
1. 在源hive数据库,创建一张orcfile格式的临时表CREATE TABLE `user_tmp`( `id` bigint, `created` string, `modified` string)ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'STORED AS orcfile;2. 在目标hive数据库,创建一张orcfile格式...
2018-05-30 14:28:45 6994
原创 ElasticSearch启动报错,bootstrap checks failed
修改elasticsearch.yml配置文件,允许外网访问。vim config/elasticsearch.yml# 增加network.host: 0.0.0.0启动失败,检查没有通过,报错[2018-05-18T17:44:59,658][INFO ][o.e.b.BootstrapChecks ] [gFOuNlS] bound or publishing to a non-loo...
2018-05-18 18:11:58 86818 22
转载 调整Linux时区
如果你的 Linux 系统时区配置不正确,必需要手动调整到正确的当地时区。NTP 对时间的同步处理只计算当地时间与 UTC 时间的偏移量,因此配置一个 NTP 对时间进行同步并不能解决时区不正确的问题。所以大家在用了国外云计算服务商如 Microsoft Azure 或其它 VPS、虚拟机时,需要注意是否与中国大陆的时区一致。查看Linux当前时区你可以使用如下命令非常容易地就查看到 Linux ...
2018-05-17 11:33:25 3802
原创 【Sqoop】Descriptor location does not exist: hdfs://<path>.metadata
Sqoop v1.4.6 Bug,目前还在修复,fix version待定:https://issues.apache.org/jira/browse/SQOOP-3151
2018-05-13 19:25:49 1518
原创 AWS oozie sqoop action 调度mysql to hive
本文基于AWS S3,oozie 4.5.0,sqoop 1.4.7,sqoop自己安装,其余AWS安装。配置SQOOP_HOME环境变量vim /etc/profileexport SQOOP_HOME=/usr/lib/sqoopexport PATH=$PATH:$SQOOP_HOME/bin配置sqoop-env.sh# included in all the hadoop scripts...
2018-05-10 18:52:33 545
原创 sqoop 从hdfs向TiDB导数据,WriteConflict
问题:java.io.IOException: java.sql.SQLException: (conn=16679) [try again later]: tikv restarts txn: Txn(Mvcc(WriteConflict))待解决:
2018-05-02 11:22:41 2506
原创 Sqoop导数据 S3 to Mysql
使用Sqoop导数据,步骤:1. 在mysql中建表2.将s3数据copy到hdfs:hadoop distcp s3n://dir-path hdfs://dir-path3.用sqoop将hdfs中的数据导入mysql:sqoop export \--connect 'jdbc:mysql://mysqlHost:3306/dbName' \--username 'xxx' \--passwo...
2018-05-01 20:27:20 1052
转载 spark作业配置及spark-submit参数说明
转:http://bigdataer.net/?p=4371.spark作业配置的三种方式读取指定配置文件,默认为conf/spark-defaults.conf。在程序中的SparkConf中指定,如conf.setAppName(“myspark”)。spark-submit中使用参数。这三种方式的优先级为SparkConf>spark-submit>配置文件。可以在spark-s...
2018-04-26 21:39:00 5206
原创 Descriptor location does not exist: hdfs://<path>.metadata
Sqoop 1.4.6 的bug,文章发表时为open状态,fix version未定:https://issues.apache.org/jira/browse/SQOOP-3151
2018-04-26 18:20:10 1369
转载 四种解决Spark数据倾斜(Data Skew)的方法
本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案,包括避免数据源倾斜,调整并行度,使用自定义Partitioner,使用Map侧Join代替Reduce侧Join,给倾斜Key加上随机前缀等。文章目录1 为何要处理数据倾斜(Data Skew)1.1 什么是数据倾斜1.2 数据倾斜是如何造成的2 如何缓解/消除数据倾斜2.1 尽量避免数据源的数据倾斜2.2 调整并行度...
2018-04-04 14:32:33 2035
转载 Hive中小表与大表关联(join)的性能分析
经常看到一些Hive优化的建议中说当小表与大表做关联时,把小表写在前面,这样可以使Hive的关联速度更快,提到的原因都是说因为小表可以先放到内存中,然后大表的每条记录再去内存中检测,最终完成关联查询。这样的原因看似合理,但是仔细推敲,又站不住脚跟。 多小的表算小表?如果所谓的小表在内存中放不下怎么办?我用2个只有几条记录的表做关联查询,这应该算是小表了,在查看reduce的执行日志...
2018-04-03 17:13:51 160
原创 could not find implicit value for evidence parameter of type TypeInformation[String]
demo代码:object SocketWindowWordCount { def main(args: Array[String]): Unit = { val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment val text: DataSt...
2018-03-30 11:22:47 2504 2
原创 Linux安装JDK完整步骤
1、检查一下系统中的jdk版本[root@localhost software]# java -version显示:openjdk version "1.8.0_102"OpenJDK Runtime Environment (build 1.8.0_102-b14)OpenJDK 64-Bit Server VM (build 25.102-b14, mixed mode)2、检测jdk安装...
2018-03-21 15:51:29 192
转载 Greenplum利用gpload,gpfist实现数据入库
转载:http://blog.csdn.net/stoneliul/article/details/81267001.python版本要求2.4.4以上[python] view plain copy[root@test install]# python Python 2.6.2 (r262:71600, May 14
2016-07-27 16:03:32 5562
毕设论文(物流文集采集系统)
2012-03-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人