自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 资源 (3)
  • 收藏
  • 关注

原创 supervisor 教程

概述(1) 基于python编写,安装方便(2) 进程管理工具,可以很方便的对用户定义的进程进行启动,关闭,重启,并且对意外关闭的进程进行重启 ,只需要简单的配置一下即可,且有web端,状态、日志查看清晰明了。(3) 组成部分 supervisord[服务端,所以要通过这个来启动它] supervisorctl[客户端,可以来执行stop等命令](4) 官方文档...

2018-12-10 12:41:27 822

原创 Azkaban 3.62 安装

介绍Azkaban是由Linkedin公司推出的一个批量工作流任务调度器,用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban使用job配置文件建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。 它有三个重要组件:                                               1. 元数据数据库(目前仅支持my...

2018-11-27 18:13:06 2007

原创 Azkaban 总览

一、为什么需要工作流调度器1、一个完整的数据分析系统通常都是由大量任务单元组成: shell 脚本程序,java 程序,mapreduce 程序、hive 脚本等2、各任务单元之间存在时间先后及前后依赖关系3、为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行例如,我们可能有这样一个需求,某个业务系统每天产生 20G 原始数据,我们每天都要对其进行处理,处理步骤如...

2018-11-27 17:24:29 294

原创 Hive SQL on where 优化

1. select t.* from A f join B t on (f.id = t.id and f.分区=20181111 and t.分区=20181111)2. select t.* from (select id from A where 分区=20181111) fjoin(select * from B where 分区=20181111) ton (f.id = ...

2018-11-13 16:10:47 2576 2

原创 Apache Hadoop、CDH、HDP、MapR区别

一、简述目前Hadoop的发行版除了Apache的开源版本之外,还有华为发行版、Intel发行版、Cloudera发行版(CDH)、Hortonworks发行版(HDP)、MapR等,所有这些发行版均是基于Apache Hadoop衍生出来的,因为Apache Hadoop的开源协议允许任何人对其进行修改并作为开源或者商业产品发布。国内大多数公司发行版是收费的,比如Intel发行版、华为发行版...

2018-10-11 18:05:01 6120

转载 开发、部署去中心化应用(Dapp) - 宠物商店

本文通过实例教大家来开发去中心化应用,应用效果如图:从本文,你可以学习到:搭建智能合约开发环境 创建Truffle项目 编写智能合约 编译和部署智能合约到区块链 如何通过Web3和智能合约交互 MetaMask 的使用项目背景Pete有一个宠物店,有16只宠物,他想开发一个去中心化应用,让大家来领养宠物。在truffle box中,已经提供了pet-shop的网站部分的代...

2018-10-08 15:35:33 359

原创 数据仓库建模

Caption 

2018-09-06 16:20:01 359

转载 【Redis】缓存更新的套路

 看到好些人在写更新缓存数据代码时,先删除缓存,然后再更新数据库,而后续的操作会把数据再装载的缓存中。然而,这个是逻辑是错误的。试想,两个并发操作,一个是更新操作,另一个是查询操作,更新操作删除缓存后,查询操作没有命中缓存,先把老数据读出来后放到缓存中,然后更新操作更新了数据库。于是,在缓存中的数据还是老的数据,导致缓存中的数据是脏的,而且还一直这样脏下去了。       我不知道为什么这么多...

2018-09-06 10:20:58 6029

转载 Apache-airflow 钉钉机器人插件

Directory 背景Airflow默认提供邮件和Slack插件发送报警邮件的功能。但是日常我们希望通过钉钉机器人形式发送。前期开发过程中使用的环境是python 3.4,airflow的一些插件库滞后更新到python3,所以推荐用python 2.7。测试的airflow版本是apache-airflow (1.9.0)。获取钉钉机器人在钉钉群内右上角可以看到Gr...

2018-07-16 16:40:13 4215

转载 Mac 安装telnet

问题:-bash: telnet: command not found-bash: brew: command not found解决:/usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"brew install telnet参考:brew: comman...

2018-07-13 21:13:32 32323 3

原创 Elasticsearch AWS S3 备份数据

按照 Elastic 官方给出的 Recommanded S3 Permissions 直接配置即可。Recommanded S3 Permissions:https://www.elastic.co/guide/en/elasticsearch/plugins/current/repository-s3-repository.html#repository-s3-permissions备份步骤:...

2018-07-11 20:30:15 3944

原创 清除sendmail 未发送的邮件队列

linux 一直发送邮件,重启也无法解决。解决方案:service sendmail stoprm -rf /var/spool/mqueue/*cat /var/spool/mail/ec2-userservice sendmail start解决。

2018-07-03 09:48:42 2846

原创 Databus 调研测试

1. 简介Databus是一个低延迟、可靠的、支持事务的、保持一致性的数据变更抓取系统。由LinkedIn于2013年开源。Databus通过挖掘数据库日志的方式,将数据库变更实时、可靠的从数据库拉取出来,业务可以通过定制化client实时获取变更并进行其他业务逻辑。Databus有以下特点:数据源和消费者之间的隔离。数据传输能保证顺序性和至少一次交付的高可用性。从变化流的任意时间点进行消费,包括...

2018-06-28 15:05:27 1294 1

转载 Kafka、RabbitMQ对比

featurescenarioKafkaRabbitMQ备注PUB-SUB 发布订阅模型√√  推拉消费Consumer消费消息的动作方式。pullpush/pullpush更关注实时性。pull更关注消费者消费能力。延迟消费Producer产生一条消息后,并不希望立刻被消费掉。X√高阶需求。consumer group同一条Message能同时被多个消费组消费,但同一group中,一条Messa...

2018-06-26 15:37:05 830

原创 Oracle GoldenGate 调研

# 概述Oracle GoldenGate 是一款用于实时数据集成和异构数据库复制的产品。它支持组织实现与分析系统的实时数据集成、无停机地迁移和整合到云架构、 从事务系统(内部和云)分流报告功能以实现最高性能、实施主动-主动数据库复制以实 现数据分布和持续可用性。## 定位- 零宕机时间数据库升级和迁移。- 满足用户亚秒级实时数据的需求。- 可持续的数据高可用性和实时商务智能。- 异构平台及跨操作...

2018-06-12 18:45:12 391

原创 Hive存储格式textfile转orcfile,并导出数据到另一hive集群

1. 在源hive数据库,创建一张orcfile格式的临时表CREATE TABLE `user_tmp`( `id` bigint, `created` string, `modified` string)ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'STORED AS orcfile;2. 在目标hive数据库,创建一张orcfile格式...

2018-05-30 14:28:45 6994

原创 ElasticSearch启动报错,bootstrap checks failed

修改elasticsearch.yml配置文件,允许外网访问。vim config/elasticsearch.yml# 增加network.host: 0.0.0.0启动失败,检查没有通过,报错[2018-05-18T17:44:59,658][INFO ][o.e.b.BootstrapChecks    ] [gFOuNlS] bound or publishing to a non-loo...

2018-05-18 18:11:58 86818 22

转载 调整Linux时区

如果你的 Linux 系统时区配置不正确,必需要手动调整到正确的当地时区。NTP 对时间的同步处理只计算当地时间与 UTC 时间的偏移量,因此配置一个 NTP 对时间进行同步并不能解决时区不正确的问题。所以大家在用了国外云计算服务商如 Microsoft Azure 或其它 VPS、虚拟机时,需要注意是否与中国大陆的时区一致。查看Linux当前时区你可以使用如下命令非常容易地就查看到 Linux ...

2018-05-17 11:33:25 3802

原创 【Sqoop】Descriptor location does not exist: hdfs://<path>.metadata

Sqoop v1.4.6 Bug,目前还在修复,fix version待定:https://issues.apache.org/jira/browse/SQOOP-3151

2018-05-13 19:25:49 1518

原创 AWS oozie sqoop action 调度mysql to hive

本文基于AWS S3,oozie 4.5.0,sqoop 1.4.7,sqoop自己安装,其余AWS安装。配置SQOOP_HOME环境变量vim /etc/profileexport SQOOP_HOME=/usr/lib/sqoopexport PATH=$PATH:$SQOOP_HOME/bin配置sqoop-env.sh# included in all the hadoop scripts...

2018-05-10 18:52:33 545

原创 sqoop 从hdfs向TiDB导数据,WriteConflict

问题:java.io.IOException: java.sql.SQLException: (conn=16679) [try again later]: tikv restarts txn: Txn(Mvcc(WriteConflict))待解决:

2018-05-02 11:22:41 2506

原创 Sqoop导数据 S3 to Mysql

使用Sqoop导数据,步骤:1. 在mysql中建表2.将s3数据copy到hdfs:hadoop distcp s3n://dir-path hdfs://dir-path3.用sqoop将hdfs中的数据导入mysql:sqoop export \--connect 'jdbc:mysql://mysqlHost:3306/dbName' \--username 'xxx' \--passwo...

2018-05-01 20:27:20 1052

转载 spark作业配置及spark-submit参数说明

转:http://bigdataer.net/?p=4371.spark作业配置的三种方式读取指定配置文件,默认为conf/spark-defaults.conf。在程序中的SparkConf中指定,如conf.setAppName(“myspark”)。spark-submit中使用参数。这三种方式的优先级为SparkConf>spark-submit>配置文件。可以在spark-s...

2018-04-26 21:39:00 5206

原创 Descriptor location does not exist: hdfs://<path>.metadata

Sqoop 1.4.6 的bug,文章发表时为open状态,fix version未定:https://issues.apache.org/jira/browse/SQOOP-3151

2018-04-26 18:20:10 1369

转载 四种解决Spark数据倾斜(Data Skew)的方法

     本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案,包括避免数据源倾斜,调整并行度,使用自定义Partitioner,使用Map侧Join代替Reduce侧Join,给倾斜Key加上随机前缀等。文章目录1 为何要处理数据倾斜(Data Skew)1.1 什么是数据倾斜1.2 数据倾斜是如何造成的2 如何缓解/消除数据倾斜2.1 尽量避免数据源的数据倾斜2.2 调整并行度...

2018-04-04 14:32:33 2035

转载 Hive中小表与大表关联(join)的性能分析

 经常看到一些Hive优化的建议中说当小表与大表做关联时,把小表写在前面,这样可以使Hive的关联速度更快,提到的原因都是说因为小表可以先放到内存中,然后大表的每条记录再去内存中检测,最终完成关联查询。这样的原因看似合理,但是仔细推敲,又站不住脚跟。        多小的表算小表?如果所谓的小表在内存中放不下怎么办?我用2个只有几条记录的表做关联查询,这应该算是小表了,在查看reduce的执行日志...

2018-04-03 17:13:51 160

原创 could not find implicit value for evidence parameter of type TypeInformation[String]

demo代码:object SocketWindowWordCount { def main(args: Array[String]): Unit = { val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment val text: DataSt...

2018-03-30 11:22:47 2504 2

原创 IT技能图谱

github:https://github.com/TeamStuQ/skill-map

2018-03-22 15:11:59 639

原创 Linux安装JDK完整步骤

1、检查一下系统中的jdk版本[root@localhost software]# java -version显示:openjdk version "1.8.0_102"OpenJDK Runtime Environment (build 1.8.0_102-b14)OpenJDK 64-Bit Server VM (build 25.102-b14, mixed mode)2、检测jdk安装...

2018-03-21 15:51:29 192

转载 Greenplum利用gpload,gpfist实现数据入库

转载:http://blog.csdn.net/stoneliul/article/details/81267001.python版本要求2.4.4以上[python] view plain copy[root@test install]# python  Python 2.6.2 (r262:71600, May 14 

2016-07-27 16:03:32 5562

swt designer for eclipse 3.3

swt designer for eclipse 3.3,解压后复制到eclipse对应文件夹即可。

2014-01-08

BestMail.jar

java程序开发,短信发送,程序驱动,BestMail.jar,短信猫

2012-03-06

毕设论文(物流文集采集系统)

物流文集采集系统的功能 随着信息化时代的到来,网络让不同地区的不同人们之间的距离拉近了;同时也让生产者和消费者的距离缩小。物流行业作为一个新兴的行业正渐渐地改变了人们的生活,也越来越受人们的关注。物流文集采集系统对物流行业的网络化、信息化、高效化都起到很好的推动作用,它通过对有用文章的采集、归类、分析、管理等运作为企业提供快速的物流信息、为企业的计划实施、发展方向提供有效的信息,并能随时方便的查阅以前的信息资料,从而根据这些信息迅速把握市场动态,做出正确的决策。 该系统是以信息主体,以强大的计算机软硬件技术为后台支撑的,综合性的信息采编发布管理系统。系统应该具有以下功能:  支持海量信息。各种行业的信息浩如烟海,因此系统应该支持海量的数据。  完善的权限设置。基于角色的权限设置,行级的权限设置,同时系统具有完善的发布审核机制,来保证系统的安全性,防范攻击。  易用性。通过简易的浏览器界面操作,非专业人员即可完成信息采集、管理和发布的全部工作,不需要具备HTML语言等专业知识。  易维护性。完全的B/S结构,支持异地办公和远程信息采集和提交。系统支持多用户同时本地或异地操作  可扩展性。系统采用客户端/应用层/数据层三层结构设计,充分保证了系统的稳定性、安全性、灵活性和高扩展性能  支持不同的数据库类型;  检索的高效性。对于咨询信息库中的海量数据检索应该响应时间在毫秒级。  将传统的系统设计转化成该发布系统可识别的模式,可自动生成最终结果,即实现由数据结构向应用的自动转化过程; 作为一个物流文集采集系统的设计目的,就是要能正确、及时、方便的传递信息给用户。而物流文集采集系统,从功能上来讲,就是发布和检索有关物流的各种信息;从用户角度来讲,就是浏览和查找信息。因此,在设计一个物流文集采集系统的时候,从功能上要考虑到如何能正确、及时的发布各类物流信息,包括:  对新信息的制作、发布的方便性;  发布信息的正确性,以及对过时信息的及时更换;  对各类信息的兼容性,既能支持发布各种不同数据格式的信息;  对历史数据信息的兼容性;  对信息的安全性,只有具有相应权限的人才能看相应的信息;  整个系统的性能要求,例如在价格上、速度上等的要求。 而从用户角度来看,要尽量使用户使用起来觉得方便,包括:  用户使用的浏览软件应尽量简单,界面友好,对用户来讲使用方便;  对信息的组织、归类,使用户在大量的信息面前能清楚的选择自己所需要的;  提供信息查询功能,使用户能及时找到自己所要的信息。 因此,在建立物流文集采集系统时,一般应先从功能上进行考虑、设计。作为通常的物流文集采集系统一般具有以下功能:  建立信息采集系统,信息采集人员可以对信息按产业、行业分类进行入库。采集的信息包括文章的标题、二级标题、作者、关键词、内容、摘要、文章的压缩文件等。  建立后台维护系统,包括对用户、高级用户的管理,设定相应的权限,实现平台的分级授权管理。同部门人员分配相同权限,形成系统用户群组,便于内部管理和日志记录。  建立安全管理。需要审核信息采用分布录入和同步审核设置,确保录入信息的规范以及采集的效率。信息库具有自动备份和防火墙等功能,提供安全稳定的信息服务。  建立搜索管理。对文章的标题、摘要、内容等字段建立全文索引库,所有内容可以进行一般检索和高级检索,同时支持二次检索.方便用户准确查询所需信息。

2012-03-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除