彩色蚂蚁-CSDN博客

原创快速理解AIGC图像控制利器ControlNet和Lora的架构原理

ControlNet以及Lora是什么，玩过stable diffusion AI图像生成的同学应该都不陌生。一般来说，如果你用以SD 或 SDXL为基础的模型来生成图像，产出的图像往往非常随机，很难对图像的内容做相对精确的控制。尤其是原始的SD和SDXL的底模，拥有很好的图像泛化能力（也就是说能根据提示词输出各种类型的图像），但也使得图像的效果通常不是最佳的，对内容的定向精确化控制的能力往往也不足。比如你想让生成的图像更接近真人摄影风格一些（肤质，环境，灯光，胶片感等等）

2024-03-15 10:23:43 1060 1

原创通俗深入的理解Sora的架构原理

这篇文章是面向有一定理工科基础，能理解一些基本的工程逻辑或理工常识，但非数学或算法相关专业或职能的同学。他们可能对相关系统，架构感兴趣，想要从基本原理的角度去理解它的核心思想，进而希望做到能有自己的观点和判断，有理有据，不人云亦云。

2024-03-08 10:36:21 1325

原创 AI4DATA，生成式BI能力现状观察和业界实践探讨

以当前业界的情况来看，AI4DATA可以做些什么，生成式BI应该具备什么样的能力，适用于什么样的场景，呈现出什么样的产品形态，并没有明确的定义或共识，大体还处在一个集思广益，积极探索能力边界的阶段。以下仅根据笔者工作实践过程中，所接触到的客户需求，业界的产品为线索，结合个人的认知和理解，谈一下从满足用户BI工作链路需求的角度来看，生成式BI可能需要具备的各种能力。同时，按照各种能力对客户商业智能洞察这个终极目标需求的满足程度，智能化程度，做一下成熟度的阶段划分。

2024-02-20 08:00:00 741

原创数据资产入表，这泼天的富贵大数据团队怎样才能接住？

大数据团队是成本中心还是价值中心？数据资产入表后，大数据平台应具备哪些能力，才能助力企业最大化数据资产价值？

2023-12-26 17:48:24 948

原创写一篇靠谱的方案设计文档-之实践问题清单

这篇实际上4年前就写了，但是一直没发在csdn上，是上一篇如何写好项目规划和方案设计文档_colorant的专栏-CSDN博客_项目方案的具体实践问题后续。补发一下上一篇，重点讲述的是撰写项目规划和方案设计文档的指导原则，要写成什么样子才能发挥它应有的价值。具体如何做到，往往还需要实践经验和技术功底的支撑，仅仅知道方向，很可能也是心有余而力不足。尽管如此，还是有一些在具体实践环节中通用的方法论和Checklist清单，可以帮助到大家。让大家在自己的能力范围内，将思考的过程变得标准化，...

2022-02-10 09:22:17 838

原创那些聪明又理智，勤奋还有钱的人，后来怎么样了

据说，因为太聪明，太理智，太勤奋，太优秀。。。所以，后来他们大部分都落到了穷困潦倒的地步。我的天呐，这怎么可能？你不信，我也不信，直到最近看了一本书。书里大部分的章节写的就是这样的悲剧故事，认真读了一遍，不得不认同作者的观点，也顺便学习了一下如何避免这样的悲剧。（这样的书我也敢读，我想我是膨胀了。）所以，这本书的名字叫做：《创新者的窘境》人们通常认为，一些行业领先的企业如果未能保持其领...

2019-01-15 17:02:34 729 1

原创如何写好项目规划和方案设计文档

在工作中，很多时候，我们都需要就一个问题提出一个解决方案，这时候，我们很可能需要产出一个文档来供大家讨论，并指导下一步工作计划。问题可大可小，形式上是否叫它为一个项目并不重要，重要的是为了解决这个问题，项目规划和方案设计的流程是一致的。就大数据平台构建的语言环境来说，它可以是整个平台体系的搭建方案，也可以是具体某个组件如调度系统的建设，还可以是某个具体的功能点或问题改进比如用户任务脚...

2018-07-27 09:49:14 87554 7

原创大数据平台基础架构指南

之前的文章，整理了一下，补充了一些内容，做了一些更新，现已出版上市了。无耻的推广一下哈；）淘宝，JD都有现货，Amazon貌似还是预售状态中感谢博文视点的@侠少，感谢各位替本书写推荐语软文的朋友们，感谢之前蘑菇街大数据团队的各位小伙伴。目录列表：第1章大数据平台整体建设思想 11.1 什么是大数据平台 11.2 大数据平台的建设目标 31.2.1 别人的大数据平台是怎样的 31.2....

2018-07-07 13:03:39 23188 5

原创 Ray - 面向增强学习场景的分布式计算框架

如果关注这个领域的同学可能知道，Ray其实在去年就已经在开源社区正式发布了，只不过后来就一直没有什么太大动静，前段时间也是因为机缘巧合，我又回头学习了解了一下，顺便总结如下：Ray是什么？Ray 是RISELab实验室（前身也就是开发Spark/Mesos等的AMPLab实验室）针对机器学习领域开发的一种新的分布式计算框架。按照官方的定义：“Ray is a flexible, high-perf...

2018-05-23 11:57:02 10815 7

原创大数据平台-元数据管理系统解析

什么是元数据？在前面的集成开发环境建设相关文章中，我们也提到过，元数据MetaData狭义的解释是用来描述数据的数据，广义的来看，除了业务逻辑直接读写处理的那些业务数据，所有其它用来维持整个系统运转所需的信息／数据都可以叫作元数据。比如数据表格的Schema信息，任务的血缘关系，用户和脚本／任务的权限映射关系信息等等。管理这些附加MetaData信息的目的，一方面是为了让用户能够更高效的挖掘和使用...

2018-03-14 09:25:24 53602 8

原创论一个糟糕的大数据码农的自我修养

幸福的家庭都是一样的，不幸的家庭各有各的不幸 - 如何成为一名糟糕的大数据平台开发工程师？

2017-12-18 17:05:50 3509 1

原创深入探讨大数据权限管理方案-从哲学到技术

不论是在技术层面还是在产品层面，大数据平台环境下的权限管理工作都是一个让人伤脑筋的烫手山芋，它不仅仅是一个技术问题，还是一个业务问题，甚至还可能是一个人际沟通和权衡利益得失的哲学问题。。。所以，以下内容分两部分展开，先谈哲学问题，再谈技术问题。

2017-11-30 09:49:09 15910 3

原创大数据开发平台-数据同步服务

同步一切

2017-09-21 13:38:35 18445

原创集成开发环境-大数据开发平台的门户

全家桶，来一份？

2017-09-05 09:24:11 7182

原创日志采集与用户行为链路跟踪

日志采集这部分内容，其实在上一篇文章阿里巴巴大数据实践-读书笔记里面多多少少已经提到了一些。不过正如前文提到的，这部分内容，从技术的角度来说，未必有多么高深，但是从业务角度来说，要做到完善却也很难，特别是在分析用户行为链路的场景下，所以这篇专门来讨论一下这一块的内容。

2017-08-22 09:20:23 16542 1

原创阿里巴巴大数据实践-读书笔记

大数据之路-阿里巴巴大数据实践读书笔记

2017-08-15 10:05:39 3947 1

原创那些年，我们迁移过的大数据集群

大数据集群迁移这件事，不知道有多少同学做过。我说的不是把一个集群的数据备份到另一个集群上。我指的是整个数据平台与大数据相关的所有集群及业务的迁移工作，从一个机房到另一个机房。这事，我们已经做了三次了。。。

2017-08-08 09:36:20 11716 9

原创数据可视化平台理论与实践

前面说完了大数据开发平台的核心组件，作业调度系统，接下来讨论一下大数据开发平台的脸面之一，数据可视化平台。

2017-08-02 09:32:26 24806 7

原创数据平台作业调度系统详解－实践篇

上一篇文章，讨论了作业调度系统的分类，流派，架构实现方案和各种方案的优缺点以及适用场景，最后还简单总结了理想中，一个完备的工作流作业调度系统，应该具备哪些功能特性。但是，纸上得来终觉浅，绝知此事要躬行。实践才是硬道理。我司刚巧在开发工作流作业调度系统这块有一些实践经验，所以这篇文章来和大家探讨一下过去两年多来，我司Jarvis调度系统的产品功能定位，架构实现以及经验教训。

2017-07-25 09:34:19 29939 12

原创数据平台作业调度系统详解－理论篇

前面放完建设四个现代化大数据平台乌托邦理想的大卫星，接下来的文章得谈谈具体组件的生产大跃进了。第一篇，先来讨论一下大数据开发平台的核心组件之一：作业调度系统。作业调度系统是一个相对复杂的系统，涉及的内容繁杂，针对的场景多种多样，实现的方案千差万别。本文重点谈理论，会先从大的场景划分的角度对市面上的各种调度系统进行分类讨论，然后再针对具体的作业调度系统，探讨一下各自的优缺点

2017-07-13 18:50:32 14049 10

原创谷歌DataFlow编程模型以及Spark/Flink/StreamCQL的相关实现

流式计算框架编程接口的标准化，傻瓜化，SQL化，自打谷歌发表Dataflow编程模型的Paper起，就有走上台面的趋势。各家计算框架都开始认真考虑相关的问题，俨然成为大家竞争的热点方向。在过去一年多的时间里，Beam／Flink／Spark在这方面的努力和相关工作也逐渐落地成熟，实际线上成熟应用的日子看起来指日可待了。所以，翻出一年多前阅读DataFlow Paper的旧文，更新一下部分过时信息

2017-07-11 11:24:09 8363 3

原创分布式一致性协议Raft，以及难搞的Paxos

分布式一致性协议Raft & Paxos 简单 v.s. 完美

2017-06-29 13:47:21 7931 1

原创 “王者荣耀”与大数据平台的产品化思想

以“荣耀”的名义

2017-06-21 12:30:32 4228

原创如何构建用户满意的“服务化”数据平台

同志们辛苦了，为人民服务～

2017-06-13 12:29:33 4279 1

原创为建设四个现代化的大数据平台奋斗终身

所以，你要问，做为大数据务虚系列文章的第一篇，就想搞个大新闻，放一个有中国特色的四个现代化的社会主义大数据平台的卫星么？

2017-06-08 18:42:27 2079 1

原创开个公众号大数据务虚杂谈；）

开个公众号：大数据务虚杂谈

2017-06-02 22:44:26 1445

原创简约至上－读书笔记

《简约至上》的内容，可能平时我们自己或多或少也有些体会，但是否足够重视，是否真的认可它的重要性，是否把它们作为出发点和基本原则，贯彻到所做的每一件事情中去。而非景上添花，可有可无的后续改进目标，可能才是看完书以后需要时刻提醒自己的。

2017-01-19 15:51:37 1772

原创关于产品，服务，项目开发的碎碎念

鸡汤这玩意，看着有理，但知易行难，如果不实践，或者没有切身体会，，再多都是陈词滥调。

2016-12-28 17:05:23 1005

原创 RC ORC Parquet 格式比较和性能测试

RC ORC Parquet 格式比较和性能测试作者：刘旭晖 Raymond 转载请注明出处 Email：colorant at 163.com BLOG：http://blog.csdn.net/colorant/为什么要比较这三者为什么要比较，起因是为了提高Hadoop集群的存储和计算效率，尤其是离线Hive作业的效率，为什么比较的是这三者，是因为三者是目前Hive离线作业中正在大规模使用或

2016-12-16 21:48:37 19034 1

原创谷歌Dataflow编程模型和spark 2.0 structured streaming

主要介绍一下Dataflow编程模型的基本思想，再简单比较一下spark 2.0 structured streaming的编程模型

2016-08-09 16:35:05 8543 4

原创 KUDU － Cloudera开发的又一个Hadoop系存储系统

Kudu是Todd Lipcon@Cloudera带头开发的存储系统，其整体应用模式和HBase比较接近，即支持行级别的随机读写，并支持批量顺序检索功能。定位于应对快速变化数据的快速分析型数据仓库，希望靠系统自身能力，支撑起同时需要高吞吐率的顺序和随机读写的应用场景（可能的场景，比如时间序列数据分析，日志数据实时监控分析），提供一个介于HDFS和HBase的性能特点之间的一个系统，在随机读写和批量扫描之间找到一个平衡点，并保障稳定可预测的响应延迟

2016-03-04 15:47:25 26474 5

原创 Mesa - 谷歌近实时分析型数据仓库

Mesa并不是一个从底层开始重新构建的系统，它依托Colossus提供分布式数据存储服务，依托Bigtable做元数据存储。使用MapReduce进行批量数据处理工作。之所以能实现它所声称的这些底层系统所不具备的综合能力（高一致性＋原子更新＋低延时＋近实时＋海量吞吐率），其原因还是因为它针对了广告数据的应用场景，采用了各种类似系统的最佳实践和一些特定的Tradeoff策略

2016-03-03 14:25:37 10516 1

原创快速理解 Omid: Yahoo在HBase上的分布式事务方案

OMID是Yahoo构建在HBase上的一个分布式事务解决方案，用来拓展HBase所不支持跨行跨表级别的事务。其定位目标是OLTP类型的事务。类似的系统也有不少，他们或多或少都借鉴了谷歌的Percolator的思想，而omid则有较大的区别，具体区别在哪，下文详细分析。

2015-08-05 14:02:34 6217 1

原创 Percolator Google的海量数据增量处理系统

Percolator的目标是在海量规模的数据集上提供增量更新的能力，并通过支持分布式的事务来确保增量处理过程的数据一致性和整体系统的可扩展性。

2015-08-04 08:53:40 8022 3

原创 Spark 性能相关参数配置详解－任务调度篇

随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。－　任务调度篇

2014-08-19 14:47:27 35457 9

原创 Spark 性能相关参数配置详解－压缩与序列化篇

随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。- 压缩与序列化篇

2014-08-19 14:47:15 22546 1

原创 Spark 性能相关参数配置详解－Storage篇

随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。－storage篇

2014-08-19 14:37:49 48224 5

原创 Spark 性能相关参数配置详解－shuffle篇

随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。

2014-08-19 13:48:08 27787 5

原创 Dryad 微软的分布式运算框架

Dryad的论文是微软早在2007年就发布的，Tez的核心思想来源于Dryad，差不多可以算是Dryad的开源实现吧。最近正好看到几个有趣的项目是基于Tez实现的，于是顺便追本溯源，学习了一下Dryad的理论基础

2014-07-08 10:51:33 12116

原创 spark internal - 作业调度

作者：刘旭晖 Raymond 转载请注明出处Email：colorant at 163.comBLOG：http://blog.csdn.net/colorant/在Spark中作业调度的相关类最重要的就是DAGScheduler，DAGScheduler顾名思义就是基于DAG图的SchedulerDAG全称 DirectedAcyclic

2014-04-18 13:19:20 14682 2

ETSI TS 102 223 V8.20 Smart Cards : Card Application Toolkit

佳能EOS相机闪光摄影

gamma曲线计算工具

计算YUV转RGB的EXCEL表格

空空如也