Lyle-liang-CSDN博客

原创 supervisor 教程

概述(1) 基于python编写，安装方便(2) 进程管理工具，可以很方便的对用户定义的进程进行启动，关闭，重启，并且对意外关闭的进程进行重启，只需要简单的配置一下即可，且有web端，状态、日志查看清晰明了。(3) 组成部分 supervisord[服务端，所以要通过这个来启动它] supervisorctl[客户端，可以来执行stop等命令](4) 官方文档...

2018-12-10 12:41:27 822

原创 Azkaban 3.62 安装

介绍Azkaban是由Linkedin公司推出的一个批量工作流任务调度器，用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban使用job配置文件建立任务之间的依赖关系，并提供一个易于使用的web用户界面维护和跟踪你的工作流。它有三个重要组件： 1. 元数据数据库（目前仅支持my...

2018-11-27 18:13:06 2007

原创 Azkaban 总览

一、为什么需要工作流调度器1、一个完整的数据分析系统通常都是由大量任务单元组成： shell 脚本程序，java 程序，mapreduce 程序、hive 脚本等2、各任务单元之间存在时间先后及前后依赖关系3、为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行例如，我们可能有这样一个需求，某个业务系统每天产生 20G 原始数据，我们每天都要对其进行处理，处理步骤如...

2018-11-27 17:24:29 294

原创 Hive SQL on where 优化

1. select t.* from A f join B t on (f.id = t.id and f.分区=20181111 and t.分区=20181111)2. select t.* from (select id from A where 分区=20181111) fjoin(select * from B where 分区=20181111) ton (f.id = ...

2018-11-13 16:10:47 2576 2

原创 Apache Hadoop、CDH、HDP、MapR区别

一、简述目前Hadoop的发行版除了Apache的开源版本之外，还有华为发行版、Intel发行版、Cloudera发行版(CDH)、Hortonworks发行版（HDP）、MapR等，所有这些发行版均是基于Apache Hadoop衍生出来的，因为Apache Hadoop的开源协议允许任何人对其进行修改并作为开源或者商业产品发布。国内大多数公司发行版是收费的，比如Intel发行版、华为发行版...

2018-10-11 18:05:01 6120

转载开发、部署去中心化应用(Dapp) - 宠物商店

本文通过实例教大家来开发去中心化应用，应用效果如图：从本文，你可以学习到：搭建智能合约开发环境创建Truffle项目编写智能合约编译和部署智能合约到区块链如何通过Web3和智能合约交互 MetaMask 的使用项目背景Pete有一个宠物店，有16只宠物，他想开发一个去中心化应用，让大家来领养宠物。在truffle box中，已经提供了pet-shop的网站部分的代...

2018-10-08 15:35:33 359

原创数据仓库建模

Caption

2018-09-06 16:20:01 359

转载【Redis】缓存更新的套路

看到好些人在写更新缓存数据代码时，先删除缓存，然后再更新数据库，而后续的操作会把数据再装载的缓存中。然而，这个是逻辑是错误的。试想，两个并发操作，一个是更新操作，另一个是查询操作，更新操作删除缓存后，查询操作没有命中缓存，先把老数据读出来后放到缓存中，然后更新操作更新了数据库。于是，在缓存中的数据还是老的数据，导致缓存中的数据是脏的，而且还一直这样脏下去了。我不知道为什么这么多...

2018-09-06 10:20:58 6029

转载 Apache-airflow 钉钉机器人插件

Directory 背景Airflow默认提供邮件和Slack插件发送报警邮件的功能。但是日常我们希望通过钉钉机器人形式发送。前期开发过程中使用的环境是python 3.4，airflow的一些插件库滞后更新到python3，所以推荐用python 2.7。测试的airflow版本是apache-airflow (1.9.0)。获取钉钉机器人在钉钉群内右上角可以看到Gr...

2018-07-16 16:40:13 4215

转载 Mac 安装telnet

问题：-bash: telnet: command not found-bash: brew: command not found解决：/usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"brew install telnet参考：brew: comman...

2018-07-13 21:13:32 32323 3

原创 Elasticsearch AWS S3 备份数据

按照 Elastic 官方给出的 Recommanded S3 Permissions 直接配置即可。Recommanded S3 Permissions:https://www.elastic.co/guide/en/elasticsearch/plugins/current/repository-s3-repository.html#repository-s3-permissions备份步骤：...

2018-07-11 20:30:15 3944

原创清除sendmail 未发送的邮件队列

linux 一直发送邮件，重启也无法解决。解决方案：service sendmail stoprm -rf /var/spool/mqueue/*cat /var/spool/mail/ec2-userservice sendmail start解决。

2018-07-03 09:48:42 2846

原创 Databus 调研测试

1. 简介Databus是一个低延迟、可靠的、支持事务的、保持一致性的数据变更抓取系统。由LinkedIn于2013年开源。Databus通过挖掘数据库日志的方式，将数据库变更实时、可靠的从数据库拉取出来，业务可以通过定制化client实时获取变更并进行其他业务逻辑。Databus有以下特点：数据源和消费者之间的隔离。数据传输能保证顺序性和至少一次交付的高可用性。从变化流的任意时间点进行消费，包括...

2018-06-28 15:05:27 1294 1

转载 Kafka、RabbitMQ对比

featurescenarioKafkaRabbitMQ备注PUB-SUB 发布订阅模型√√ 推拉消费Consumer消费消息的动作方式。pullpush/pullpush更关注实时性。pull更关注消费者消费能力。延迟消费Producer产生一条消息后，并不希望立刻被消费掉。X√高阶需求。consumer group同一条Message能同时被多个消费组消费，但同一group中，一条Messa...

2018-06-26 15:37:05 830

原创 Oracle GoldenGate 调研

# 概述Oracle GoldenGate 是一款用于实时数据集成和异构数据库复制的产品。它支持组织实现与分析系统的实时数据集成、无停机地迁移和整合到云架构、从事务系统(内部和云)分流报告功能以实现最高性能、实施主动-主动数据库复制以实现数据分布和持续可用性。## 定位- 零宕机时间数据库升级和迁移。- 满足用户亚秒级实时数据的需求。- 可持续的数据高可用性和实时商务智能。- 异构平台及跨操作...

2018-06-12 18:45:12 391

原创 Hive存储格式textfile转orcfile，并导出数据到另一hive集群

1. 在源hive数据库，创建一张orcfile格式的临时表CREATE TABLE `user_tmp`( `id` bigint, `created` string, `modified` string)ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'STORED AS orcfile;2. 在目标hive数据库，创建一张orcfile格式...

2018-05-30 14:28:45 6994

原创 ElasticSearch启动报错，bootstrap checks failed

修改elasticsearch.yml配置文件，允许外网访问。vim config/elasticsearch.yml# 增加network.host: 0.0.0.0启动失败，检查没有通过，报错[2018-05-18T17:44:59,658][INFO ][o.e.b.BootstrapChecks ] [gFOuNlS] bound or publishing to a non-loo...

2018-05-18 18:11:58 86818 22

转载调整Linux时区

如果你的 Linux 系统时区配置不正确，必需要手动调整到正确的当地时区。NTP 对时间的同步处理只计算当地时间与 UTC 时间的偏移量，因此配置一个 NTP 对时间进行同步并不能解决时区不正确的问题。所以大家在用了国外云计算服务商如 Microsoft Azure 或其它 VPS、虚拟机时，需要注意是否与中国大陆的时区一致。查看Linux当前时区你可以使用如下命令非常容易地就查看到 Linux ...

2018-05-17 11:33:25 3802

原创【Sqoop】Descriptor location does not exist: hdfs://<path>.metadata

Sqoop v1.4.6 Bug，目前还在修复，fix version待定：https://issues.apache.org/jira/browse/SQOOP-3151

2018-05-13 19:25:49 1518

原创 AWS oozie sqoop action 调度mysql to hive

本文基于AWS S3，oozie 4.5.0，sqoop 1.4.7，sqoop自己安装，其余AWS安装。配置SQOOP_HOME环境变量vim /etc/profileexport SQOOP_HOME=/usr/lib/sqoopexport PATH=$PATH:$SQOOP_HOME/bin配置sqoop-env.sh# included in all the hadoop scripts...

2018-05-10 18:52:33 545

原创 sqoop 从hdfs向TiDB导数据，WriteConflict

问题：java.io.IOException: java.sql.SQLException: (conn=16679) [try again later]: tikv restarts txn: Txn(Mvcc(WriteConflict))待解决：

2018-05-02 11:22:41 2506

原创 Sqoop导数据 S3 to Mysql

使用Sqoop导数据，步骤：1. 在mysql中建表2.将s3数据copy到hdfs：hadoop distcp s3n://dir-path hdfs://dir-path3.用sqoop将hdfs中的数据导入mysql：sqoop export \--connect 'jdbc:mysql://mysqlHost:3306/dbName' \--username 'xxx' \--passwo...

2018-05-01 20:27:20 1052

转载 spark作业配置及spark-submit参数说明

转：http://bigdataer.net/?p=4371.spark作业配置的三种方式读取指定配置文件，默认为conf/spark-defaults.conf。在程序中的SparkConf中指定，如conf.setAppName(“myspark”)。spark-submit中使用参数。这三种方式的优先级为SparkConf>spark-submit>配置文件。可以在spark-s...

2018-04-26 21:39:00 5206

原创 Descriptor location does not exist: hdfs://<path>.metadata

Sqoop 1.4.6 的bug，文章发表时为open状态，fix version未定：https://issues.apache.org/jira/browse/SQOOP-3151

2018-04-26 18:20:10 1369

转载四种解决Spark数据倾斜（Data Skew）的方法

本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案，包括避免数据源倾斜，调整并行度，使用自定义Partitioner，使用Map侧Join代替Reduce侧Join，给倾斜Key加上随机前缀等。文章目录1 为何要处理数据倾斜（Data Skew）1.1 什么是数据倾斜1.2 数据倾斜是如何造成的2 如何缓解/消除数据倾斜2.1 尽量避免数据源的数据倾斜2.2 调整并行度...

2018-04-04 14:32:33 2035

转载 Hive中小表与大表关联(join)的性能分析

经常看到一些Hive优化的建议中说当小表与大表做关联时，把小表写在前面，这样可以使Hive的关联速度更快，提到的原因都是说因为小表可以先放到内存中，然后大表的每条记录再去内存中检测，最终完成关联查询。这样的原因看似合理，但是仔细推敲，又站不住脚跟。多小的表算小表？如果所谓的小表在内存中放不下怎么办？我用2个只有几条记录的表做关联查询，这应该算是小表了，在查看reduce的执行日志...

2018-04-03 17:13:51 160

原创 could not find implicit value for evidence parameter of type TypeInformation[String]

demo代码：object SocketWindowWordCount { def main(args: Array[String]): Unit = { val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment val text: DataSt...

2018-03-30 11:22:47 2504 2

原创 IT技能图谱

github：https://github.com/TeamStuQ/skill-map

2018-03-22 15:11:59 639

原创 Linux安装JDK完整步骤

1、检查一下系统中的jdk版本[root@localhost software]# java -version显示：openjdk version "1.8.0_102"OpenJDK Runtime Environment (build 1.8.0_102-b14)OpenJDK 64-Bit Server VM (build 25.102-b14, mixed mode)2、检测jdk安装...

2018-03-21 15:51:29 192

转载 Greenplum利用gpload,gpfist实现数据入库

转载：http://blog.csdn.net/stoneliul/article/details/81267001.python版本要求2.4.4以上[python] view plain copy[root@test install]# python Python 2.6.2 (r262:71600, May 14

2016-07-27 16:03:32 5562

swt designer for eclipse 3.3

swt designer for eclipse 3.3，解压后复制到eclipse对应文件夹即可。

2014-01-08

BestMail.jar

java程序开发，短信发送，程序驱动，BestMail.jar，短信猫

2012-03-06

毕设论文（物流文集采集系统）

物流文集采集系统的功能随着信息化时代的到来，网络让不同地区的不同人们之间的距离拉近了；同时也让生产者和消费者的距离缩小。物流行业作为一个新兴的行业正渐渐地改变了人们的生活，也越来越受人们的关注。物流文集采集系统对物流行业的网络化、信息化、高效化都起到很好的推动作用，它通过对有用文章的采集、归类、分析、管理等运作为企业提供快速的物流信息、为企业的计划实施、发展方向提供有效的信息，并能随时方便的查阅以前的信息资料，从而根据这些信息迅速把握市场动态，做出正确的决策。该系统是以信息主体，以强大的计算机软硬件技术为后台支撑的，综合性的信息采编发布管理系统。系统应该具有以下功能：  支持海量信息。各种行业的信息浩如烟海，因此系统应该支持海量的数据。  完善的权限设置。基于角色的权限设置，行级的权限设置，同时系统具有完善的发布审核机制，来保证系统的安全性，防范攻击。  易用性。通过简易的浏览器界面操作，非专业人员即可完成信息采集、管理和发布的全部工作，不需要具备HTML语言等专业知识。  易维护性。完全的B/S结构，支持异地办公和远程信息采集和提交。系统支持多用户同时本地或异地操作  可扩展性。系统采用客户端/应用层/数据层三层结构设计，充分保证了系统的稳定性、安全性、灵活性和高扩展性能  支持不同的数据库类型；  检索的高效性。对于咨询信息库中的海量数据检索应该响应时间在毫秒级。  将传统的系统设计转化成该发布系统可识别的模式，可自动生成最终结果，即实现由数据结构向应用的自动转化过程；作为一个物流文集采集系统的设计目的，就是要能正确、及时、方便的传递信息给用户。而物流文集采集系统，从功能上来讲，就是发布和检索有关物流的各种信息；从用户角度来讲，就是浏览和查找信息。因此，在设计一个物流文集采集系统的时候，从功能上要考虑到如何能正确、及时的发布各类物流信息，包括：  对新信息的制作、发布的方便性；  发布信息的正确性，以及对过时信息的及时更换；  对各类信息的兼容性，既能支持发布各种不同数据格式的信息；  对历史数据信息的兼容性；  对信息的安全性，只有具有相应权限的人才能看相应的信息；  整个系统的性能要求，例如在价格上、速度上等的要求。而从用户角度来看，要尽量使用户使用起来觉得方便，包括：  用户使用的浏览软件应尽量简单，界面友好，对用户来讲使用方便；  对信息的组织、归类，使用户在大量的信息面前能清楚的选择自己所需要的；  提供信息查询功能，使用户能及时找到自己所要的信息。因此，在建立物流文集采集系统时，一般应先从功能上进行考虑、设计。作为通常的物流文集采集系统一般具有以下功能：  建立信息采集系统，信息采集人员可以对信息按产业、行业分类进行入库。采集的信息包括文章的标题、二级标题、作者、关键词、内容、摘要、文章的压缩文件等。  建立后台维护系统，包括对用户、高级用户的管理，设定相应的权限，实现平台的分级授权管理。同部门人员分配相同权限，形成系统用户群组，便于内部管理和日志记录。  建立安全管理。需要审核信息采用分布录入和同步审核设置，确保录入信息的规范以及采集的效率。信息库具有自动备份和防火墙等功能，提供安全稳定的信息服务。  建立搜索管理。对文章的标题、摘要、内容等字段建立全文索引库，所有内容可以进行一般检索和高级检索，同时支持二次检索.方便用户准确查询所需信息。

2012-03-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人