自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 资源 (6)
  • 收藏
  • 关注

原创 开源众包的坑,真实记录

因为比较忙就没再折腾这事,过了一个月登录上去再看看,发现托管的2000元没了!结果:网页上的400-8982-008号码,拨打后提示无此业务号码!最近有个小项目打算找人做,到开源众包上发布了个悬赏任务。然后托管了2000元钱,因为需求改动想关闭悬赏重新发。开源众包,oschina,大坑啊!然后依旧是没法联系上这个平台!在线客服一直没人回复!向邮箱发邮件也没回应!

2023-08-29 10:16:38 1037 10

原创 数据湖和Apache Iceberg,Apache Hudi,Delta Lake

数据湖这个词目前已经流行开来,逐步被数据相关的从业者接受,可能还有很多人不太清楚它和Hadoop,Hive,Spark这些大数据系统的区别,简单说数据湖是个业务概念,主要是为了区别传统数仓这个概念的。提到数据湖,很多人会和Hudi,Iceberg, Delta Lake三个词联系起来,甚至觉得不用到上面三个技术的系统不是数据湖。这是不对的,数据湖是个业务概念,Hudi、Iceberg这些只是实现技术之一,而且仅用到Hudi、IceBerg或Delta Lake无法实现数据湖.........

2022-06-17 15:56:10 768 1

原创 大数据 元数据管理 apache atlas

随着公司数据量的增多,Hive表已经有近千个,为了方便使用和管理,这时候需要一个“元数据管理系统”。经过搜索,目前开源的Apache Atlas比较符合要求,准备搭建起来试试网上有很多入门的文章,官网也有介绍,但是…花了快一天的时间竟然没运行起来!编译耗时很久,报错…依赖Zookeeper,Hbase,Solr…只需要管理下元数据要这么复杂吗?看了下源码,主项目下面有一堆子项目,子项目里还有子项目…应该有个精简版,能快速上手,然后根据需要逐步增加复杂的功能

2022-05-20 11:09:13 442 2

原创 Java:字符串(String)类型转成整型(int)的方法

在 Java 中,我们可以使用 Integer.parseInt() 或 Integer.valueOf() 将 String 转换为 int。Integer.parseInt() – 返回原始整数。Integer.valueOf() – 返回一个 Integer 对象。对于字符串中的位置或负数,转换是相同的 String number = "7"; // result = 7 int result = Integer.parseInt(numbe...

2021-12-19 19:52:19 57467 1

原创 Java:如何获取当前时间

本文介绍如何从新的 Java 8 java.time.* 中获取当前日期时间,如 Localdate、LocalTime、LocalDateTime、ZonedDateTime、Instant 以及旧的日期时间 API,如 Date 和 Calendar。新旧API:对于新的 Java 8 的java.time.* API,我们可以使用 .now() 获取当前日期时间并使用 DateTimeFormatter 对其进行格式化。 对于传统的日期时间 API,我们可以使用 new Date() 和 C.

2021-12-17 20:17:45 8448

原创 词义辨析:BI, 数据仓库,数据中台,数据湖,Hadoop

这是一个不断出现新概念的时代,和大数据相关的上面这些词含义有什么区别呢?本人根据多年的大数据领域工作经验来说一下自己的理解。企业对于数据的使用由来已久,数据量小的时候通过人工+类似Excel的软件就能搞定,随着公司规模扩大和数据量增多,并且随着互联网这种对数据依赖性强的企业出现,对数据加工使用的难度就大大增加了。所以产生了很多新概念、新技术,其中就有BI, 数据仓库,数据中台,数据湖,Hadoop等。 这些词产生的时间、背景、目的等各不相同,但是数据处理和使用的本质是不变的...

2021-12-14 09:19:12 1478

原创 Spark Streaming:通过Dstreams 或 DataFrames做流数据处理,结果写入ClickHouse或Hive表

Apache Spark 当前最流行的大数据处理框架之一。最初它是作为替代 Hadoop 的 MapReduce 批处理框架而创建的,但现在它也支持 SQL、机器学习和流处理。今天我们重点看看 Spark Streaming,展示常用流处理的方式。 流数据处理常出现在大数据用例中,用于连续生成动态数据的场景。在大多数情况下,数据以近似实时的方式处理,一次一条记录,处理结果用于提供及时的报警、呈现在仪表板上或者提供给机器学习模型,让我们基于数据的变化快速做出反应。Dstre...

2021-12-11 16:23:56 3151

原创 Hadoop, MapReduce,Hive, HBase, Storm, Spark, Flink, Kylin等大数据框架的角色和关系

 各种大数据框架近几年发展得如火如荼,比如Hadoop, MapReduce,Hive, Hbase, Storm, Spark, Flink, Kylin 等,各个框架的角色是怎么样的?如何配合起来使用?本文将从时间顺序上逐个说明。首先要介绍一下Hadoop,现在Hadoop分为3部分,分别是HDFS,Yarn和Mrv2近几年大数据潮流的推进,是需求和技术相互促进的结果,对大数据需求...

2019-01-17 14:38:17 10092 1

原创 Flink的window机制

Window在流式计算中很重要,因为”流”是一个无终点的持续输入,所以通过window机制来分块,进行聚合等各种处理Keyed vs Non-Keyed WindowsNon-key window是在整个流上进行分块,没法并行处理Window Assigners分为4种窗口类型,分别是:Tumbling Windows;Sliding Windows;Session Wind...

2018-12-26 09:43:27 250

原创 Flink的可靠性保证 – CheckPoint机制

Flink支持Exactly-Once级别的准确行,这是一个很高的要求,一般的高吞吐量系统只支持At-least-Once级别的。Lightweight Asynchronous Snapshots for Distributed Dataflows 这篇论文是Checkpointing 机制的理论基础,这个机制的思想来源于K.MANI CHANDY和LESLIE LAMPORT 发表的一篇分布式...

2018-12-25 16:01:33 807

原创 Flink的可靠性保证 - 状态存储

一 为什么需要State存储与批计算相比,State是流计算特有的,批计算的failover机制,是失败后重新计算;流计算在大多数场景下是增量计算,数据逐条处理,每次计算是在上一次计算结果之上进行处理的,这就要求对上一次的计算结果进行存储,当因为机器,网络,脏数据等原因导致程序错误的时候,可以重启Job进行state恢复。Flink就是基于state存储,通过CheckPoint机制来保证数据...

2018-12-25 10:58:28 1075

原创 Flink流式计算里的时间和watermark机制

一 流计算对“批计算”的优势:    “流计算”是相对于“批计算”来的,MapReduce,Spark底层的计算方式是目前主流的“批计算”实现方式,很多公司在使用这种方式做大数据处理。但是越来越多的公司目前开始关注“流计算”,主要有以下一些原因:1 对处理时间的要求。随着技术的进步,用户对“延迟”的忍受能力越来越弱,能更及时发现问题、解决问题,能提升用户体验。2 在大数据分析领域,数据...

2018-12-24 16:45:34 722

原创 Storm常用计算模式

Apache Storm是目前最流行的实时计算框架之一,基于 streams, spouts, bolts, and topologies这些基本组件,可以组合出一些计算模式,每个模式对应解决一类现实中的问题。下面介绍7种计算模式,并给出代码示例,希望对读者有所帮助:模式1: JOINJoin一般是指基于摸个共同的属性,把2类内容

2017-03-02 17:47:36 628

原创 分布式实时系统STORM的运行时模型

一 storm的静态模型    storm的静态模型比较好理解,弄清楚Topology,Spout,Bolt,Stream的含义大概就明白了,不清楚的可以看看strom文档中的Concepts部分。但是storm是个并行执行的框架,运行状态下的模型是怎么样的呢?二 storm运行时基本模型    storm运行是的模型,要弄清楚worker,

2017-03-02 13:36:21 1177

原创 SVM(支持向量机)算法原理和实际应用

的说法是1 对svm有个直观的了解,最好的解释是下面这个http://www.zhihu.com/question/21094489https://www.reddit.com/r/MachineLearning/comments/15zrpp/please_explain_support_vector_machines_svm_like_i/

2016-12-23 15:09:35 14015

Spring技术内幕 第二版 计文柯著

Spring技术内幕 第二版 计文柯著,带目录高清版,讲解Spring的经典书籍

2017-10-31

电子书翻页效果源码(java)

电子书翻页效果源码,很好的参考,初学者可以照着编写程序,java语言

2011-05-31

图书管理系统源码(java + mysql)

图书管理系统源码,很好的示例,对初学者是个很好的参考,java + mysql 构架。

2011-05-31

Inside SQLite chm 格式

分析 sqlite3 的经典书,chm 格式,可以很方便地浏览和搜索。

2010-08-26

编程珠玑 programing pearls

本书给出了一些精心设计的有趣而且颇具指导意义的程序,书中充满了对实用程序设计技巧及基本设计原则的清晰而机智的描述。《编程珠玑》(第2版)(英文版)增加了3个方面的新内容:测试、调试和计时;集合表示;字符串问题,并对第1版的所有程序都进行了改写,生成了等量的新代码。

2010-04-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除