自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

一个写湿的程序猿

初识不知文中意,再见已是文中人

  • 博客(399)
  • 资源 (12)
  • 收藏
  • 关注

原创 模型、算法、数据模型、模型结构是什么?它们之间有什么关联和区别?

算法的定义有许多版本,但其核心思想是一致的。算法可以被定义为:一个明确的、有序的、有限的步骤集合,用于解决一个特定的问题或执行一个特定的任务。这个定义是非常通用的,适用于从最简单的日常生活任务(例如烹饪食谱)到复杂的计算机科学问题的算法。让我们详细分析这个定义:明确 (Clear):算法的每一步都应该是清晰、无歧义的,这样任何人都可以理解并按照算法的指示进行。有序 (Ordered):步骤的顺序是固定的,这确保了每次运行算法时,它都会产生相同的结果(如果输入和初始条件保持不变)。

2024-03-16 09:26:50 606

原创 TEAM标签管理体系是什么?如何进行数据权益的保护?

挖掘金融业数据资源巨大价值的同时必须确保数据安全,注重对数据主体和数据持有者合法权益的保护。为解决这一过程中的实践难点,本文基于区块链技术,设计数据集动态标签管理“`TEAM`”体系——一个集`Tagging(打标)`、`Ensuring(保障)`、`Authorization(授权)`、`Monitoring(监控)`四大功能于一体的保护体系。该体系旨在使公共数据、企业数据、个人数据等各类数据信息在流通与价值释放过程中,能够得到与其安全需求相匹配的保护。

2024-03-16 09:20:59 1615

原创 数据指标是什么?为什么要建立指标体系?什么阶段建设?路径是什么?

看了下百度百科,竟然没有数据指标这个词条,看来这个词大家平时还用的不多啊。那只有间接偷懒一下,分别查下指标和数据这两个词条的含义,在组合起来看看。数据:数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。它是可识别的、抽象的符号。指标:衡量目标的参数,预期中打算达到的指数、规格、标准,一般用数据表示。——来源《维基百科》数据是对事物结果的归纳,指标是衡量目标的方法。组合一下,数据指标就是可以对结果进行归纳的一种目标衡量方式。

2024-03-07 16:29:27 799

原创 什么是主数据?主数据治理如何实施?

主数据是在多系统集成应用的背景下,被多个信息系统(或功能模块)共用的基础性标准化的数据。主数据是对企业核心业务而言非常重要的单一来源,并且具有唯一性、共享性、稳定性、有效性。换言之,主数据支撑业务流程和事务。其实主数据理解起来非常简单,比如记账,“谁,在哪个店里,买了什么东西,一共多少钱这句话里所有非数值的,都是主数据,买东西的人、卖东西的店、产生交易的商品等等都是主数据。常见的主数据包括:供应商、客户、物料、人员、部门、项目等。主数据,带个主字,英文是Master。

2024-03-06 11:39:54 850

原创 世界算力简史(下)

我们说到,70年代微处理器崛起,使得个人电脑开始大量出现。这种情况,让传统巨头IBM感受到了威胁。一直以来,他们都专注于大型机,导致忽视了小型机的市场。为了亡羊补牢,他们也决定启动个人电脑研发计划。1980年3月,IBM召开一次高层秘密会议,设立“Chess(国际象棋)”项目,专门研发个人电脑(Personal Computer这个词,就是这时被IBM提出来的)。负责这个项目的,是唐·埃斯特利奇(Don Estridge)。他带领了一个13人小组

2023-08-14 09:35:16 323

原创 世界算力简史(中)

1944年,冯·诺依曼开始参与原子弹的研制。因为研制过程需要进行大量的计算,他就开始关注计算机相关的研究进展。经人引荐,他作为顾问,参与到了ENIAC的研究中。基于ENIAC的研究,冯·诺依曼等人在1945年又提出了一个新的方案——EDVAC(Electronic Discrete Variable Automatic Computer,电子离散变量计算机)。

2023-08-14 09:34:15 349

原创 世界算力简史(上)

1946 年 2 月 14 日,在美国宾夕法尼亚州东南部的费城,人们正在像以往一样正常工作和生活。忽然,他们发现,房间里的灯暗了下来。刚刚经历过二战的人们,对这种情况习以为常。他们心想:“是不是哪里的电力线路又坏了?”其实,灯之所以会暗,并不是因为线路问题,而是在离他们不远的宾夕法尼亚大学,诞生了一个“庞然大物”。这个“庞然大物”占地 170 平方米,重达 30 吨。它以电为生,功率高达 150 千瓦。它的启动,直接拉低了附近居民用电的电压,所以导致电灯变暗。这个“庞然大物”究竟是什么呢

2023-08-11 16:21:03 343

原创 创作纪念日——Hello World

人的一生是追寻快乐而生存的。——亚里士多德亚索:快乐就完事了。

2023-07-24 10:49:44 522 1

原创 如何一次解决两大难题,不用写注释,也不会被他人吐槽没有注释呢?

如何一次解决程序猿的两大难题,不用写注释,也不会被他人吐槽没有注释呢?# 为什么要减少代码中的注释量呢?- 注释的存在说明当前的这段代码逻辑并不是特别清晰,没有额外说明,他人就可能无法理解意图。- 注释很难得到维护,一个任务开发结束后,分布在任务中的注释大概率就不会再被更新,随着时间的推移,代码越来越复杂,可能注释的信息早已不能准确反馈当前的逻辑了。- 减少注释的过程也是一个重新审视代码结构,精简代码的过程。那么糟糕的注释有哪些,又有什么办法可以干掉这些注释呢?

2023-06-30 10:40:23 230

原创 【话题达人】做开发时遇到过无理的需求吗?面对这些无理需求你是怎么做的?

工作过程中难免遇见一些“神奇的甲方”,他们总是会给你提出一些匪夷所思甚至无厘头的需求。你是否也有这样的经历,面对这样“无理的需求”你又是怎么做的呢?

2023-06-29 10:14:26 150

原创 【话题达人】有什么事让你觉得在Linux上顺理成章,换到Windows上就令你费解?

1、命令行快捷键:在Linux终端中,一些常用的命令行快捷键可以提高操作效率。例如,Ctrl+C用于终止当前命令,Ctrl+Z将当前进程置于后台运行,Ctrl+R用于在历史命令中搜索,Tab键用于自动补全命令和文件名等。2、命令行管道和重定向:Linux的命令行环境非常强大,可以使用管道(|)将命令的输出传递给另一个命令进行处理。例如,可以使用来在文件列表中搜索包含关键词的文件。此外,重定向操作符(>、>>、

2023-06-29 09:53:54 129

原创 Flink CDC 2.4 正式发布,5分钟了解CDC 2.4新内容,新增 Vitess 数据源,更多连接器支持增量快照,升级 Debezium 版本

Flink CDC[1]是基于数据库的日志 CDC 技术,实现了全增量一体化读取的数据集成框架。配合 Flink 优秀的管道能力和丰富的上下游生态,Flink CDC 可以高效实现海量数据的实时集成。具体关于Flink CDC是什么?可以看下这篇文字作为新一代的实时数据集成框架,Flink CDC 具有全增量一体化、无锁读取、并行读取、表结构变更自动同步、分布式架构等技术优势,同时社区提供了完善的中英文文档支持[2]。

2023-06-28 11:36:09 1839

原创 【话题达人】你觉得存款难吗?如何看待半数年轻人存款不住10万?这不是基操

近日,有调查称,存款超过10万就会超过53.7%的人。年轻人(23-28)和存款两个词碰撞在一起,引来了广泛的关注和讨论。你认为年轻人存款难吗?先说结论:负债。

2023-06-27 09:47:58 120

原创 2023大数据十大关键词是什么?湖仓一体、数据资产化、DataOps、数据服务、智能增强分析、数据伦理、数据基础制度、公共数据授权运营、数据安全风险评估、数据出境

随着我国大数据产业政策日趋完善、产业基础日益巩固、数据要素市场建设不断深化,大数据产业再次迎来巨大发展空间。6月26日至28日,由中国信息通信研究院、中国通信标准化协会主办,中国通信标准化协会大数据技术标准推进委员会(CCSA TC601)承办的2023大数据产业发展大会在京召开。在大会主论坛上,中国信通院云大所所长何宝宏发布了《2023大数据十大关键词》。

2023-06-26 20:00:00 491

原创 Iceberg 数据湖是什么?数据湖能解决什么问题?独立于计算层和存储层之间的表格层?

这样可以使用这些统计信息检查每个文件是否与给定的查询过滤器匹配,如果当前查询的信息并不在当前数据的范围内,还可以实现File skip, 避免读取不必要的文件。从上面的元数据文件可以看出,Iceberg 的清单文件中会记录每个数据文件所属的分区值信息,同时在清单列表中会记录每个清单文件的分区信息。从上图可以看出,Iceberg是在HDFS或S3存储引擎上的又一层,用于管理在存储引擎中的Parquet、ORC和avro等压缩的大数据文件,使这些文件更便于管理维护,同时为其构造出相应的元数据文件。

2023-04-15 08:00:00 1176 2

原创 咖啡卷到现在,他们开始往里面掺北京豆汁了

随机采访了一位拿着酒咖的95后女生,她分享道:“酒咖里的酒味通常都不会呛,有时候你甚至喝不到酒味,但我容易上脸,脸会感觉到,上班喝贼刺激,有一点上头,但是还能保持清醒,而且我看别家不仅有酒和咖啡的搭配,还有酒和茶的搭配,也蛮好喝的。几张真实普通人的“代言”海报,在现场吸引了不少目光和驻足,“平时觉得云南咖啡这四个字很模糊,不知道是谁在种,也不知道云南咖啡庄园是什么样的,看这些海报就有一些实感”,一位30多岁的咖啡爱好者说。同时,为了照顾不喝酒的顾客,也有咖啡店推出了只含啤酒花的咖啡,是无酒精的。

2023-04-11 17:56:07 846

原创 五分钟了解GPT 模型背后的原理是什么?为什么 GPT 模型能生成有意义的文本?为什么 GPT 模型不会做简单的数学题?为什么有人担心 GPT 模型可能会危害人类?

1945 年,美国研制成功之后,在日本投下了 2 颗原子弹,造成超过 20 万人死亡,爆炸后释放了大量的核辐射,对人类产生长期的负面影响,导致癌症等健康问题,对生态环境造成巨大的损失,对人类安全造成严重的威胁。下面结合沃尔夫勒姆的文章、谷歌团队的论文、ChatGPT 的回答、以及万维钢的 AI 前沿课等内容,抛开一些技术的细节,结合自己的理解,尽量用比较通俗的语言,来解读 GPT 模型背后的原理。据说在 2021 年,美国有一个叫约书亚的人,他的爱人杰西卡因病去世,因此他感到伤心欲绝。

2023-04-11 11:17:45 3908

原创 五分钟排查Linux的健康状态

我们还要评估CPU任务执行的排队情况,这些值就是负载(load)。top命令,显示的CPU负载,分别是最近1分钟、5分钟、15分钟的数值。如图,以单核操作系统为例,将CPU资源抽象成一条单向行驶的马路。则会发生三种情况:马路上的车只有4辆,车辆畅通无阻,load大约是0.5。马路上的车有8辆,正好能首尾相接安全通过,此时load大约为1。马路上的车有12辆,除了在马路上的8辆车,还有4辆等在马路外面,需要排队。此时load大约为1.5。那load为1代表的是啥?针对这个问题,误解还是比较多的。

2023-04-11 10:28:03 790

原创 Twitter的推荐系统开源了,Twitter的推荐系统是什么样的呢?Twitter推荐系统的架构说明

Twitter 的实时性带来了另一个独特的挑战:用户希望 Twitter 尽可能地接近实时,这意味着底层网络图是高度动态的,延迟成为一个真实的用户体验问题。研究人员表示,“我们考虑的特征及其各种互动的清单在不断增加,为我们的模型提供了更多存在细微差别的行为模式。像 Twitter 这样的社交网络就是超大图的实例,节点是用户和推文的模型,边则是回复、转发和喜欢等互动的模型。

2023-04-02 16:59:15 1577

原创 五分钟了解三门问题是什么?贝叶斯公式和蒙提霍尔问题有什么关联?

在维基百科对于 Monty Hall 问题的描述中,门的背后是山羊和汽车,本文替换成了矿泉水,但是数学原理是一样的,避免读者钻牛角尖。比如说数据规模不一样,9扇门,主持人帮你否定7个,显然要换,正是因为数据规模很小才带来了和直觉相悖的感觉。贝叶斯公式的意义非常重大,它揭示了条件事件概率的内在联系,某些样本信息的出现对先验概率的影响。设定参与者选择了A门,由于主持人默认需要选择没有汽车的门,因此参与者的选择影响了主持人的选择。条件概率是在某种条件下,某个事件发生的概率,展示了事件之间的内在联系和影响。

2023-04-02 11:23:01 1288

原创 Flink SQL Upsert 出现乱序问题如何解决?分析、优化建议

在订单大宽表业务中,偶尔会接到某订单数据无法在 es 中查询,经添加日志排查,发现,某个订单维表数据发生变更,最后 -D 事件和 +I 事件发生了乱序,在进入 es 时,先执行了 +I 事件,再执行了 -D 事件,于是,es 数据丢失。另外,我们在写 sql 时,要关注 join key ,尽量优化 sql,让它以 upsert key 做 shuffle,减少出现多重乱序的 join sql,来减少数据异常。数据更新时,在某些情况下,如关联的表够多,并行度够大,可能会有概率出现数据乱序问题。

2023-03-31 14:02:55 1380

原创 流式数据湖存储技术,Apache Paimon是什么?

是一项流式数据湖存储技术,可以为用户提供高吞吐、低延迟的数据摄入、流式订阅以及实时查询能力。Paimon 采用开放的数据格式和技术理念,可以与 Apache Flink / Spark / Trino 等诸多业界主流计算引擎进行对接,共同推进 Streaming Lakehouse 架构的普及和发展。

2023-03-30 14:21:26 13587

原创 为什么说标签限制了我们?放下标签,品生活中的美好

一个人,是不应该仅仅被一个标签所定义的,他们有着丰富的人生经历和内在世界,每个人都值得被认真地观察和感受。然而,我们往往只看到表象,用单一的标签来概括一个人的所有特征,忽略了他们的复杂性和独特性。这种行为不仅会让我们失去发现美好的机会,也会让我们与他人的联系变得浅薄和模糊。因此,放下标签,去看到真实的生命,是一种十分重要的能力。这需要我们在日常生活中,放下对他人的偏见和成见,用一个开放的心态去接触周围的人和事。

2023-03-30 08:00:00 518

原创 技术人如何职场晋升?这些步骤你都了解吗?

先抛出个人结论:==晋升是一个极好的自我review的机会,不,应该是最好,而且没有之一==。 不管有没有晋升成功,参加了晋升,就已经包赚不赔了。总的来说,晋升的准备工作充分体现出了——功夫在平时。平时要是没有两把刷子,光靠答辩准备的一两个月,是绝无可能把自己“包装”成一个合格的候选人的。下面整体剖析一下自己在整个准备过程中的观察、思考、判断、以及做的事情和拿到的结果。

2023-03-28 07:00:00 897

原创 为什么说独立思考能力很重要?如何提升独立思考的能力?

另外,在掌握足够多的知识的过程中,更能够发掘出问题的深层次的本质,以及事物之间的关联等等。要深入了解一个领域,必须阅读相关领域的经典著作或研究论文,掌握该领域的基本理论、思想和方法,同时对研究者们解决问题的思考方式和方法进行学习。批判性思维鼓励多角度思考,在评估信息和进行决策时,需要考虑多种观点和可能性,同时也要了解和接受不同的观点和声音,尝试提出不同的想法和解释。这包括自己所面临过的挑战、获得的经验、学到的知识、受到的影响等,从而了解自己的优势和弱点以及内心深处的欲望。

2023-03-28 07:00:00 984

原创 为什么所谓的“自律”一定要跟坚持挂钩呢?懂一点“行为设计学”,升级对“意义”的认知

人类之所以能够组成庞大的社会群体,比其他动物更深入彼此的理解,进而合作达成大规模的目标,根本原因是我们能够通过故事传递共同的信仰和价值观,形成想象的语言和信仰共同体。得道之后,我烧水的时候想着烧水,砍柴的时候想着砍柴,做饭的时候想着做饭。在我之前的大部分学习中,都是自己感到愿意学习,就会去学,当我不想学习时,我便会停下来去刷短视频、打游戏,美其名曰放松放松。在行为设计过程中,我们可以从动机、能力、提示三个方面,分别设计对应的行为干预策略,以实现目标行为的改变。如果感觉懒得读书学习,就去看书,这是对症下药。

2023-03-28 07:00:00 326 1

原创 【思维模型】五分钟了解<乔哈里窗>,为什么学习乔哈里窗?什么是乔哈里窗?怎么应用乔哈里窗?

乔哈里窗(Johari Window)是心理学家乔瑟夫·勒夫和哈里·英汉姆在 20 世纪 50 年代提出的一个模型,从他们名字组合而来。他们把信息按照 2 个维度进行细分,一个维度是我知不知道,另一个维度是你知不知道,用于帮助人们更好地了解自己,以及更好地与他人的互动,这属于细分思维的一种应用。共识区域首先,共识区域是我知道、你也知道的信息,通常比较容易理解和接受。比如,我们要是成为好朋友,就会互相知道对方的姓名、性别等。我的盲区其次,我的盲区是我不知道、但你知道的信息。

2023-03-23 20:45:00 1986

原创 【思维模型】五分钟了解<黄金圈思维>,为何学习黄金圈思维?什么是黄金圈思维?如何把黄金圈思维转化为行动?

黄金圈思维是由 3 个同心圆组成,分为内圈、中圈和外圈。为什么 Why(目标)怎么做 How(行动)是什么 What(成果)本能脑:大约 3.6 亿年前,爬行动物演化出了原始的「本能脑」,能够对环境快速做出本能反应,比如遇到危险时,要么马上战斗,要么立即逃跑,遇到猎物时就立刻捕食,此时只有「直觉」,没有情感,也没有理智。情绪脑:大约 2 亿年前,哺乳动物为了更好地适应环境,进化出了「情绪脑」,可以帮助我们做出行动和决策,在恶劣的环境中趋利避害,比如恐惧情绪让自己远离危险,兴奋情绪让自己专注捕猎。理智脑。

2023-03-23 20:45:00 467

原创 【思维模型】五分钟了解<DIKW模型>,什么是 DIKW 模型?以 DIKW 为基础的三次跃迁,如何用 DIKW 模型知识体系?

Data(数据)Information(信息)Knowledge(知识)Wisdom(智慧)下图是从数据新手,到信息高手,再到知识专家,最终成为智慧大师,形成「点、线、面、体」的共振,这是一个从无知到了解、再到熟悉和精通的过程。数据是原始的、未经处理的事实,不经分析的数据,就如同地底下未经开采的石油,存在却没有价值,需要运用数据分析的思维,才能把它的价值充分挖掘出来。比如:广州的温度是 39 ℃,如果缺乏相关的背景信息,就不知道这个数据想要说明什么。信息是带有逻辑的数据组合,帮助我们「知其然。

2023-03-23 20:45:00 4199

原创 【思维模型】五分钟了解<金字塔原理>,为什么学习金字塔原理?什么是金字塔原理?如何应用金字塔原理?

金字塔原理是一种非常高效的表达方法,核心是自下而上思考,自上而下表达,横向归类分组,纵向归纳总结。结论先行用一句话 100% 表达出中心思想。以上统下上有结论,下有理由,上下呼应。归类分组把具有共同特点的事物进行分类。逻辑递进按时间、结构、重要或演绎顺序。论、证、类、比,形成一个纵横交错的「立体化」思维模式,横向有条理,纵向有层次。首先,用一句话,归纳总结出一个中心思想或核心论点;其次,用不超过 4 个关键句或论据对中心思想进行说明;然后,每个关键句又可以用不超过 4 个关键句进行说明;最后。

2023-03-23 20:45:00 629

原创 【思维模型】五分钟了解<SCQA模型>什么是SCQA模型?如何用 SCQA 讲出一个好故事?为什么使用SCQA模型可以讲出一个好故事?

你有没有这样的经历?你满怀激情地讲一个自认为生动有趣的故事,别人却不怎么感兴趣。是故事本身不够好吗?还是别人不懂得欣赏?那为什么有些人讲出来就能吸引很多人呢?其实,并不一定是故事本身的问题,也不是受众的问题,而是你表达的方式出了问题。同一个故事,同一批受众,用不同的方式表达出来,效果可能就会大不一样。那么,怎么才能讲出一个好故事呢?今天介绍的 `SCQA 模型`,是一种「`结构化表达`」的工具,来源于芭芭拉·明托写的《金字塔原理》这本书,其中 SCQA 是 4 个字母的缩写

2023-03-23 20:45:00 1717

原创 【思维模型】五分钟了解<复利思维>,为何学习复利思维?什么是复利思维?如何应用复利思维?

收益本金∗1收益率期数收益 = 本金 * ( 1 + 收益率 ) ^ {期数}收益本金∗1收益率期数在国际象棋的故事中,本金相当于1 粒麦子,收益率是100%,代入上面的复利公式,第 64 个格子的麦子数量为263≈9.22337∗1018263≈9.22337∗1018粒,如果把所有格子的麦子数量加起来,那么麦子总数为124263≈1.84467∗1019124263≈1.84467∗1019粒。

2023-03-23 20:45:00 533

原创 什么是“关键对话”?“关键对话”背后的底层思维是什么?如何进行一场“关键对话”?

对话双方的观点有很大差距。对话存在很高的风险。对话双方的情绪非常激烈。如果你要进行的对话,有上面这些特征的,那么你就要小心了,你要进行的就是一场“关键对话一些常见的关键对话场景有:给老板提意见,让朋友还钱,教导叛逆少年,让配偶的父母不干涉生活商务谈判,跨部门协作,员工绩效评估,家庭冲突解决与客户沟通需求和合同,与同事处理工作分配和责任归属,与上司沟通晋升和加薪。关键对话是影响我们职场和人际关系成功与否的重要因素。

2023-03-23 20:45:00 727

原创 【思维模型】五分钟了解<第一性原理>,为什么学习第一性原理?什么是第一性原理?如何运用第一性原理?

第一性原理最早是由古希腊哲学家亚里士多德提出来的,他说:在每一个系统的探索中,都存在第一性原理,它是一个基本的命题或假设,不能被省略或删除,也不能被违反。第一性原理是指在思考和行动时,从最基本的原理和常识进行推理,倒推至问题的源头,以寻求洞察事物的本质规律。也就是说,第一性原理是「道」,而具体做事的方法是「术」。老子说:有道无术,术尚可求也。有术无道,止于术。庄子说:以道驭术,术必成。离道之术,术必衰。荀子说:术,终究是细枝末节。道,方为万物之本。

2023-03-23 16:23:18 648

原创 HBase客户端、服务器端、列簇设计、HDFS相关优化,HBase写性能优化切入点,写异常问题检查点

首先考虑业务是否需要写WAL,通常情况下大多数业务都会开启WAL机制(默认),但是对于部分业务可能并不特别关心异常情况下部分数据的丢失,而更关心数据写入吞吐量,比如某些推荐业务,这类业务即使丢失一部分用户行为数据可能对推荐结果并不构成很大影响,但是对于写入吞吐量要求很高,不能造成数据队列阻塞。假设忽然来了一批大汉,要定制超大汉堡,好了,所有的窗口都工作起来,而且因为大汉堡不好制作导致服务很慢,这样必然会导致其他排队的用户长时间等待,直至超时。另外需要注意的是,批量put请求要么全部成功返回,要么抛出异常。

2023-03-22 15:31:25 293

原创 为什么热咖啡保温几小时后的变化比冰咖啡大?

偏高的温度会让我们感受到更丰富多样的香气,但随着温度的变化或者储存过程中咖啡的化学变化,我们感受到的香气也会改变更多。因此,当我们有所期待、有参照物做对比、事先听到一些信息、疲劳或者情绪有变化的时候,都可能会产生主观的感受,这也许是没有那么客观的,但对那个人来说,他当下的感受是真实的,但却是已经受到影响了的。温度越高,这些气味也越多。因为处处有化学,而咖啡中的芳香化合物有一千多种,在不同温度下、在不同条件下会发生什么样的变化,我们无法一一检测和观察,不过从几个主要的角度去进行阐述和总结还是有可能的。

2023-03-21 15:29:58 237

原创 数据标签治理,为何要使用标签评分?标签评分模型有哪些?标签评分的应用有哪些?

同时,可查看各个标签的具体指标,如使用度维度,可查看各个标签的当前引用次数、分析次数、调用次数,针对具体指标具体分析,满足不同的标签分析场景。标签评分是标签治理的一个重要措施,通过给标签打分,可清晰直观的从各个维度评估标签,掌握标签真实使用情况,进行标签持续优化,助力业务运营。比如我们定义了“活跃度”这个标签,分为“高活跃、中活跃、低活跃度”等,但真实被打上的这个标签的用户,低于70%,还有很大一部分比例是空值,未打上该标签,说明我们制定的标签值规则有漏洞,需要完善。

2023-03-20 11:40:29 713 1

原创 五分钟了解一致性hash算法,为什么负载均衡常用一致性hash实现?

简单的阐述了下一致性hash,任何技术都不会十全十美,一致性Hash算法也是有一些潜在隐患的,如果Hash环上的节点数量非常庞大或者更新频繁时,检索性能会比较低下,而且整个分布式缓存需要一个路由服务来做负载均衡,一旦路由服务挂了,整个缓存也就不可用了,还要考虑做高可用。不过话说回来,只要是能解决问题的都是好技术,有点副作用还是可以忍受的。

2023-03-17 16:30:16 522

原创 五分钟了解 HTTP 3.0 为什么不使用TCP协议?QUIC协议是什么?

所以,在HTTP/2中,TCP队头阻塞造成的影响会更大,因为HTTP/2的多路复用技术使得多个请求其实是基于同一个TCP连接的,那如果某一个请求造成了TCP队头阻塞,那么多个请求都会受到影响。尤其是那些比较大型的设备呢?更换起来的成本是巨大的。因为他是基于UDP的,并没有改变UDP协议本身,只是做了一些增强,虽然可以避开中间设备僵化的问题,但是,在推广上面也不是完全没有问题的。而且,除了中间设备之外,操作系统也是一个重要的因素,因为TCP协议需要通过操作系统内核来实现,而操作系统的更新也是非常滞后的。

2023-03-16 16:44:17 523

原创 Hive数据存储格式有哪些?TextFile、SequenceFile、RCFile、ORCFile、Parquet有什么区别?为什么绝大多数都使用ORCFile、Parquet格式?

通过 ORC 这些索引,可以快速定位满足查询的数据块,规避大部分不满足查询条件的文件和数据块,相比于读取传统的数据文件,进行查找时需要遍历全部的数据,使用 ORC 可以避免磁盘和网络 I/O 的浪费,提升程序的查找效率,提升整个集群的工作负载。Parquet 在存储数据时,也同 ORC 一样记录这些数据的元数据,这些元数据也同 Parquet 的文件结构一样,被分成多层文件级别的元数据、列块级别的元数据及页级别的元数据。Hive 是面向 OLAP 的,所以它的事务也和 RDMBS 的事务有一定的区别。

2023-03-16 15:10:58 1304

数据分析指标ppx,介绍如何指标分析,指标分析ppx,排版优美

指标分析ppt,排版优美,可以用于指标介绍、答辩、面试等 数据分析指标,介绍如何指标分析,指标分析ppx;数据分析指标,介绍如何指标分析,指标分析ppx;数据分析指标,介绍如何指标分析,指标分析ppx;数据分析指标,介绍如何指标分析,指标分析ppx;数据分析指标,介绍如何指标分析,指标分析ppx;数据分析指标,介绍如何指标分析,指标分析ppx;数据分析指标,介绍如何指标分析,指标分析ppx;数据分析指标,介绍如何指标分析,指标分析ppx;数据分析指标,介绍如何指标分析,指标分析ppx;数据分析指标,介绍如何指标分析,指标分析ppx;数据分析指标,介绍如何指标分析,指标分析ppx;数据分析指标,介绍如何指标分析,指标分析ppx;数据分析指标,介绍如何指标分析,指标分析ppx;数据分析指标,介绍如何指标分析,指标分析ppx;数据分析指标,介绍如何指标分析,指标分析ppx;数据分析指标,介绍如何指标分析,指标分析ppx;数据分析指标,介绍如何指标分析,指标分析ppx;数据分析指标,介绍如何指标分析,指标分析ppx;数据分析指标,介绍如何指标分析,指标分析ppx;指标分析ppx;

2023-03-01

Java面试突击宝典-如何面试-如何准备

就像现在的技术⾯试⼀样,⼤家都说内卷了,抱怨现在的⾯试真特么难。然⽽,单纯抱怨有⽤么?你 对其他求职者说:如果失败,不要灰⼼;如果通过,切勿狂喜。⾯试和⼯作实际上是两回事,可能很多⾯试未通过的 ⼈,⼯作能⼒⽐你强的多,反之亦然。 ⾯试就像是⼀场全新的征程,失败和胜利都是平常之事。所以,劝各位不要因为⾯试失败⽽灰⼼、丧 失⽃志。也不要因为⾯试通过⽽沾沾⾃喜,等待你的将是更美好的未来,继续加油! 这篇⽂章内容有点多,如果这篇⽂章只能让你记住 4 句话,那请记住下⾯这 4 句: 1. ⼀定要提前准备⾯试!技术⾯试不同于编程,编程厉害不代表技术⾯试就⼀定能过。 2. ⼀定不要对⾯试抱有侥幸⼼理。打铁还需⾃身硬!千万不要觉得⾃⼰看⼏篇⾯经,看⼏篇⾯试题 解析就能通过⾯试了。⼀定要静下⼼来深⼊学习! 3. 建议⼤学⽣尽可能早⼀点以求职为导向来学习的。这样更有针对性,并且可以⼤概率减少⾃⼰处 在迷茫的时间,很⼤程度上还可以让⾃⼰少⾛很多弯路。 但是,不要把“以求职为导向学习”理解 为“我就不⽤学课堂上那些计算机基础课程了”! 4. ⼿撕算法是当下技术⾯试的标配,尽早准备!

2023-03-01

大数据技术之Azkaban.docx

大数据技术之Azkaban.docx详细文档

2021-03-03

大数据技术之HBase.docx

大数据技术之HBase.docx详细文档

2021-03-03

大数据技术之Kafka.docx

大数据技术之Kafka.docx详细文档

2021-03-03

大数据技术之Flume.docx

大数据技术之Flume.docx详细文档

2021-03-03

大数据技术之Hive.docx

大数据技术之Hive-2020-06.docx详细文档

2021-03-03

大数据技术之Zookeeper.docx

大数据技术之Zookeepe.docx详细文档

2021-03-03

大数据技术之Hadoop(MapReduce&Yarn).docx

大数据技术之Hadoop(MapReduce&Yarn).docx详细文档

2021-03-03

大数据技术之Hadoop(优化&新特性).doc

大数据技术之Hadoop(优化&新特性).doc详细文档

2021-03-03

大数据技术之Hadoop(HDFS).docx

大数据技术之Hadoop(HDFS).docx详细文档

2021-03-02

大数据技术之Hadoop(入门).docx

大数据技术之Hadoop(入门).docx详细文档

2021-03-02

大数据技术之Shell.docx

大数据技术之Shell.docx详细文档

2021-03-02

大数据技术之Linux.docx

大数据技术之Linux详细文档

2021-03-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除