6 HuFeiHu-Blog

尚未进行身份认证

知无涯者,虚心若愚,求知若饥,勇者天佑!

等级
TA的排名 3k+

Sublime Text 3 在文件上右键Open with Sublime Text的设置

把下面的语句保存为注册表文件WindowsRegistryEditorVersion5.00[HKEY_CLASSES_ROOT\*\shell\SublimeText3]@="OpenwithSublimeText""Icon"="C:\\ProgramFiles\\SublimeText3\\sublime_text.exe"[HKEY_CLASSES_RO...

2019-05-04 17:51:56

在文件夹上鼠标右键Open with Sublime Text的Sublime Text 3 设置方法

把下面的语句保存为注册表文件WindowsRegistryEditorVersion5.00[HKEY_CLASSES_ROOT\Directory\shell\SublimeText3]@="OpenwithSublimeText""Icon"="C:\\ProgramFiles\\SublimeText3\\sublime_text.exe"[HKEY_...

2019-05-04 17:40:02

非码农也能看懂的“机器学习”原理

我们先来说个老生常谈的情景:某天你去买芒果,小贩摊了满满一车芒果,你一个个选好,拿给小贩称重,然后论斤付钱。自然,你的目标是那些最甜最成熟的芒果,那怎么选呢?你想起来,啊外婆说过,明黄色的比淡黄色的甜。你就设了条标准:只选明黄色的芒果。于是按颜色挑好、付钱、回家。啊哈,人生完整了?呵呵呵。告诉你吧人生就是各种麻烦等你回到家,尝了下芒果。有些确实挺甜,有些就不行了。额...

2019-04-18 17:04:43

kafka connect

一.KafkaConnect简介  Kafka是一个使用越来越广的消息系统,尤其是在大数据开发中(实时数据处理和分析)。为何集成其他系统和解耦应用,经常使用Producer来发送消息到Broker,并使用Consumer来消费Broker中的消息。KafkaConnect是到0.9版本才提供的并极大的简化了其他系统与Kafka的集成。KafkaConnect运用用户快速定义并实现各种C...

2019-04-13 16:03:48

进阶Java架构师必看的15本书

1、大型网站技术架构:核心原理与案例分析本书通过梳理大型网站技术发展历程,剖析大型网站技术架构模式,深入讲述大型互联网架构设计的核心原理,并通过一组典型网站技术架构设计案例,为读者呈现一幅包括技术选型、架构设计、性能优化、Web安全、系统发布、运维监控等在内的大型网站开发全景视图。本书作者李智慧,曾在阿里巴巴担任技术专家,参与阿里巴巴基础技术平台开发和架构设计。2、分布式服务框架原理与...

2019-03-21 22:57:48

FlinkX--基于flink的分布式数据同步工具

GitHub地址:https://github.com/DTStack/flinkx.git1什么是FlinkXFlinkX是在是袋鼠云内部广泛使用的基于flink的分布式离线数据同步框架,实现了多种异构数据源之间高效的数据迁移。不同的数据源头被抽象成不同的Reader插件,不同的数据目标被抽象成不同的Writer插件。理论上,FlinkX框架可以支持任意数据源类型的数据同步工作。作为...

2019-02-07 16:17:00

Python之系统交互

本文转自:http://www.cnblogs.com/yyds/p/7288916.htmlos与commands模块 subprocess模块 subprocess.Popen类 总结我们几乎可以在任何操作系统上通过命令行指令与操作系统进行交互,比如Linux平台下的shell。那么我们如何通过Python来完成这些命令行指令的执行呢?另外,我们应该知道的是命令行指令的执行通常有两...

2019-01-24 20:54:30

Python 大规模数据存储与读取、并行计算:Dask库简述

本文转自:https://blog.csdn.net/sinat_26917383/article/details/78044437数据结构与pandas非常相似,比较容易理解。原文文档:http://dask.pydata.org/en/latest/index.htmlgithub:https://github.com/daskdask的内容很多,挑一些我比较看好的内容着重点一下...

2019-01-21 20:51:47

Dubbo的使用及原理浅析

Dubbo是什么?Dubbo是阿里巴巴SOA服务化治理方案的核心框架,每天为2,000+个服务提供3,000,000,000+次访问量支持,并被广泛应用于阿里巴巴集团的各成员站点。Dubbo[]是一个分布式服务框架,致力于提供高性能和透明化的RPC远程服务调用方案,以及SOA服务治理方案。其核心部分包含:远程通讯:提供对多种基于长连接的NIO框架抽象封装,包括多种线程模型,序列...

2019-01-21 15:40:20

构建实时流数据平台实践指南

本文转自:https://www.jdon.com/bigdata/stream-data-platform.html  如今流处理streamprocessing,事件数据和实时等词语非常流行,它们经常和 Kafka, Storm, Samza,以及Spark的 Streamingmodule等具体技术有关,本指南是介绍如何将这些技术堆栈架构到具体实践中。这些最佳实践经验来自于Lin...

2019-01-20 00:44:17

Apache Tez基本知识

官方blog:http://hortonworks.com/blog/author/arun_murthy/svn源码:http://hortonworks.com/blog/introducing-tez-faster-hadoop-processing/看到一篇很不错的文章:http://dongxicheng.org/mapreduce-nextgen/apache-te...

2019-01-20 00:44:06

Druid-简介

本文转自:https://yq.aliyun.com/articles/58778?spm=a2c4e.11153940.blogcont58779.37.2625548a2SUN0KDruid是目前比较流行的高性能的,分布式列存储的OLAP框架(具体来说是MOLAP)。它有如下几个特点:一.亚秒级查询   druid提供了快速的聚合能力以及亚秒级的OLAP查询能力,多租户的设...

2019-01-20 00:43:52

Apache Tez最新进展

为了更高效地运行存在依赖关系的作业(比如Pig和Hive产生的MapReduce作业),减少磁盘和网络IO,Hortonworks开发了DAG计算框架Tez。Tez是从MapReduce计算框架演化而来的通用DAG计算框架,可作为MapReduceR/Pig/Hive等系统的底层数据处理引擎,它天生融入Hadoop2.0中的资源管理平台YARN,且由Hadoop2.0核心人员精心打造,势必将会...

2019-01-20 00:43:43

一文读懂 Apache Kudu

本文转自:https://www.jianshu.com/p/83290cd817ac前言ApacheKudu是由Cloudera开源的存储引擎,可以同时提供低延迟的随机读写和高效的数据分析能力。Kudu支持水平扩展,使用Raft协议进行一致性保证,并且与ClouderaImpala和ApacheSpark等当前流行的大数据查询和分析工具结合紧密。本文将为您介绍Kudu的一些基本概念...

2019-01-20 00:43:33

实时流处理Storm、Spark Streaming、Samza、Flink孰优孰劣

From http://www.dataguru.cn/article-9532-1.html  分布式流处理需求日益增加,包括支付交易、社交网络、物联网(IOT)、系统监控等。业界对流处理已经有几种适用的框架来解决,下面我们来比较各流处理框架的相同点以及区别。 分布式流处理是对无边界数据集进行连续不断的处理、聚合和分析。它跟MapReduce一样是一种通用计算,但我们期望延迟...

2019-01-20 00:43:15

Presto简介

是Facebook开源的,完全基于内存的并⾏计算,分布式SQL交互式查询引擎是一种Massivelyparallelprocessing(MPP)架构,多个节点管道式执⾏⽀持任意数据源(通过扩展式Connector组件),数据规模GB~PB级使用的技术,如向量计算,动态编译执⾏计划,优化的ORC和ParquetReader等presto不太支持存储过程,支持部分标准sql...

2019-01-20 00:43:01

实时流Streaming大数据:Storm,Spark和Samza

 当前有许多分布式计算系统能够实时处理大数据,这篇文章是对Apache的三个框架进行比较,试图提供一个快速的高屋建瓴地异同性总结。ApacheStorm  在Storm中,你设计的实时计算图称为toplogy,将其以集群方式运行,其主节点会在工作节点之间分发代码并执行,在一个topology中,数据是在spout之间传递,它发射数据流作为不可变的key-value匹配集合,这种key-v...

2019-01-20 00:42:35

Phoenix入门到精通

摘要: 此Phoenix系列文章将会从Phoenix的语法和功能特性、相关工具、实践经验以及应用案例多方面从浅入深的阐述。希望对Phoenix入门、在做架构设计和技术选型的同学能有一些帮助。概述Phoenix是一个开源的HBASESQL层。它不仅可以使用标准的JDBCAPI替代HBASEclientAPI创建表,插入和查询HBASE,也支持二级索引、事物以及多种SQL层优化。此...

2019-01-20 00:42:23

Apache NiFi简介

一个易用、强大、可靠的数据处理与分发系统。基于Web图形界面,通过拖拽、连接、配置完成基于流程的编程,实现数据采集等功能一、什么是NiFi?NiFi是美国国家安全局开发并使用了8年的可视化数据集成产品,2014年NAS将其贡献给了Apache社区,2015年成为Apache顶级项目传统的数据流解决方案往往会遇到以下挑战:网络错误 硬盘错误 软件崩溃 人为错误 数...

2019-01-20 00:41:54

机器学习H2O AI框架简介

1.  H2O框架优势:自己实现分布式计算框架,算法种类全,有深度学习算法,同时可以通过Sparkling-water将h2o和spark进行完美整合a.底层数据层底层数据读取Hdfs数据  s3数据  SQL数据  noSQL数据       s3AmazonSimpleStorageService亚马逊的云存储结构       Hive其实就是读取HDFS...

2019-01-19 22:11:11

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。