- 博客(56)
- 资源 (4)
- 收藏
- 关注
原创 主流后端开发语言:JAVA、C、C++、GO、PYTHON对比
软件开发领域,语言本身在各自领域都有适用场景,有许多流行的编程语言可供选择,每种语言都有其独特的特点和适用场景。
2024-03-28 23:52:43 420
原创 系统架构设计-构建系统应用
系统架构指的是对一个系统整体结构的设计和组织方式,包括系统中各个组件之间的关系、功能划分、数据流动以及相互作用等方面的规划。系统架构旨在确保系统能够满足业务需求并具备所需的性能、可靠性、可维护性和安全性。
2024-03-23 23:36:22 752 1
原创 数据治理系统论-结合数据要素等
数据治理是指组织内外部对数据进行管理和监控的全面框架。它涵盖了数据的安全、合规性、可用性和价值最大化等方面。通过有效的数据治理,组织能够更好地理解其数据资产,并确保数据被正确地管理和利用。治理技术:包括数据质量管理、元数据管理、主数据管理、数据安全等技术。治理工具系统。
2024-03-17 18:58:02 1108 1
原创 Flink技术简介与入门实践
Flink 是一个分布式流处理和批处理计算框架,具有高性能、容错性和灵活性。JobManager:JobManager 是 Flink 集群的主节点,负责接收和处理用户提交的作业。解析和验证用户提交的作业。生成执行计划,并将作业图分发给 TaskManager。协调任务的调度和执行。管理作业的状态和元数据信息。:TaskManager 是 Flink 集群的工作节点,负责执行具体的任务。
2024-03-11 00:19:42 877
原创 人工智能AI网站推荐
AI爱好者在论文整理和分享方面有着非常出色的内容和质量,其中不仅有很多经典的AI论文,还有大量来自大牛教授的学术讲座和专业领域的实践案例。如果想开展AI领域的深度研究和学习,这个平台值得一试。AI中国(https://www.aicn.me/)致力于收集与AI相关的热门工具,包括但不限于ChatGPT、AI视频、AI办公、AI语音等领域,并为广大AI爱好者提供学习平台,降低获取学习资源的成本。该机构致力于推动科技信息的传播和共享,他们的网站提供了丰富的学术论文资源,包括人工智能领域的研究成果。
2024-03-05 22:53:52 1284
原创 大数据智能化-长视频领域
随着数字化与AI时代的到来,长视频领域的发展迎来了新的机遇和挑战。在这一背景下,大数据智能化技术的应用成为长视频行业提升用户体验、优化运营管理的重要手段之一。本文将从优爱腾3大长视频背景需求出发,分析静态资源CDN、视频文件存储与分发、UGC/PGC/AIGC内容管理与应用、用户APP埋点数据分析等方面的大数据智能化应用流程,并以爱奇艺的天工大数据运维平台为例,探讨大数据技术在长视频领域的具体应用。
2024-03-02 10:47:55 1209
原创 海豚调度DolphinScheduler入门学习
DolphinScheduler 是一款分布式的、易扩展的、高可用的数据处理平台,主要包含调度中心、元数据管理、任务编排、任务调度、任务执行和告警等模块。其技术架构基于 Spring Boot 和 Spring Cloud 技术栈,采用了分布式锁、分布式任务队列等技术确保任务高可用性。部署灵活,支持单机部署、分布式部署、容器化部署等方式。应用场景广泛,可用于大数据处理、定时任务和流程管理等领域。具有易扩展性、高可用性、多语言支持、易用性和活跃的开发社区等技术优势。
2024-02-25 22:43:44 1064
原创 基于CU,PO,RD,IPO矩阵图分析数据资产-自创
通过计算出的数据资产的可靠度,使用权重指标,可以对数据是否有下游使用,使用的重要程度,对数据是否可以归档或则销毁作为参考,以及对数据的价值,质量具有一定参考意义。像金融,社交媒体,视频网站,电商零售,传统房地产,车联网企业,制造业,工业互联网等每天都产生大量的数据,这些数据就像水一样,处理的好会成为一种力量能源,帮助公司的业务能够朝着正确的方向,更好更快的前进;数据资产管理,涉及对数据的复用,生产,数据资产成本分析,数据资产评级等,形成系统化的功能后,可以总结,并开发出数据资产管理相关的系统或产品。
2024-02-14 17:26:06 1193
原创 浅析大数据汇总
传统,大数据主要关注数据的采集、存储和处理能力。随着互联网的快速发展,用户在互联网上产生了大量的数据,这些数据包括用户行为数据、社交媒体数据、传感器数据等。传统的数据库技术已经无法满足对这些海量数据的存储和处理需求,因此出现了分布式存储和计算技术,如Hadoop、HBase等。这些技术使得大数据的存储和处理变得更加可行,同时也带来了对数据分析和挖掘能力的需求。现阶段,大数据不再局限于数据的规模,更多地关注数据的质量、价值和应用。随着人工智能技术的快速发展,大数据与人工智能的结合成为了一个重要的趋势。
2024-01-28 22:49:31 995
原创 浅谈大数据智能化技术在多个领域的应用实践
大数据智能化技术在当今信息社会中得到了广泛的应用。从金融、互联网电商、视频行业到垂直短视频领域,从工业互联网到云计算、边缘计算等领域,大数据智能化技术已经成为了企业竞争力的重要组成部分。技术实践、架构设计、指标体系、数据质量、数据分析、数据挖掘、数据采集、数据智能化应用、BI、AI等方面,大数据智能化技术在不同领域的应用场景和代码编写。
2024-01-21 20:51:56 1030
原创 CDN内容分发网络
CDN是内容分发网络(Content Delivery Network)的缩写。它是一种通过将内容部署到全球各地的服务器节点,使用户能够快速访问和下载内容的网络架构。简单来说,CDN通过将内容分发到离用户更近的服务器节点上,以减少传输延迟和带宽拥塞,从而提供更快速和可靠的内容传输。
2024-01-14 23:43:00 921
原创 从政府工作报告探计算机行业发展
政府工作报告作为政府工作的全面总结和未来规划,不仅反映了国家整体的发展态势,也为各行各业提供了发展的指引和参考。随着信息技术的快速发展,计算机行业已经成为推动经济社会发展的重要引擎之一。因此,从政府工作报告中探寻计算机行业的发展趋势、政策导向和未来机遇,对于行业内的企业和从业者来说具有重要的指导意义。
2024-03-20 22:40:51 641
原创 LLM~AI写AI
在当前和未来的应用场景中,我们可以看到AI技术为我们的生活带来的巨大变革和便利。然而,随着AI技术的不断发展,我们也需要关注其潜在的风险和挑战,并积极应对相关问题。从最初的概念提出,到如今的广泛应用,AI技术已经成为我们生活中不可或缺的一部分。本文将带您领略AI技术的历史、发展、当前现状以及未来趋势,并探讨其在产品和技术领域的应用。盘古大模型强调在中文领域的表现,使用了大量的中文数据进行训练,以更好地适应中文语境下的应用场景。未来,我们需要建立完善的伦理规范和法律法规,确保AI技术的合理、公正和安全应用。
2024-03-14 19:42:03 357 1
原创 浅谈数仓发展
数仓作为企业数据管理的核心架构,经历了从传统到现代的演进过程。现代新型数仓采用灵活、可扩展的技术架构,具备更好的实时性和扩展性。未来数仓将继续推动数据创新应用的发展,并与人工智能、区块链等技术相结合,开创更广阔的数据管理和洞察领域。随着技术的不断发展和应用,数仓将继续发挥着重要的作用,助力企业实现数据驱动的业务成功。
2024-02-20 23:03:14 933
原创 构建高效可靠的数据血缘技术架构-文字解说
在日益快速增长的大数据领域,了解和管理数据的来源、流向以及变化成为了一项重要任务。数据血缘分析可以帮助企业更好地了解数据的历史记录和变化过程,提高数据质量和决策的准确性。构建高效可靠的数据血缘技术架构,有助于以下几点:提高数据质量:通过了解数据的来源、流向和变化过程,可以更好地监控和管理数据质量,减少数据错误和冗余,从而提高数据的准确性和可靠性。支持决策分析:数据血缘分析可以帮助企业更好地理解数据背后的故事,为决策提供可靠的数据支持。通过追踪数据的历史记录和变化,可以更准确地评估数据对业务决策的影响。
2024-02-06 13:06:54 831
原创 浅谈Doris在物联网应用
本文介绍了如何使用Doris分析物联网设备数据,包含基本概念和技术实现。通过使用Doris,我们可以轻松地对物联网设备数据进行建模、导入和查询,进一步分析设备使用情况和环境变化情况,为设备维护和管理提供有力支持。同时,我们还提供了Python代码示例,帮助读者更好地理解和使用Doris。
2024-01-04 21:47:28 600
原创 机器学习几大算法总结
机器学习十大算法总结:一、朴素贝叶斯二、决策树三、随机森林四、梯度提升树五、逻辑回归六、多层感知机七、因子分解机八、卷积神经网络九、循环神经网络十、变形金刚 等。
2023-12-11 00:46:08 271
原创 内存数据库对比
Redis、Memcached、Apache Ignite和Hazelcast都是常见的内存数据库,它们在技术架构、优缺点、应用场景、发展历史和前景等方面存在差异。选择合适的内存数据库需要综合考虑实际需求、技术特点和成本等因素,并进行充分的评估和测试。随着大数据、人工智能、物联网等技术的不断发展,内存数据库在高速数据处理场景中的应用。
2023-05-19 09:08:35 78
原创 Atlas-实现数据治理的利器
Atlas是一款强大的开源数据治理和元数据管理工具,旨在帮助组织管理其数据资产、了解数据血缘关系,并确保数据的合规性和安全性。本篇博客将深入探讨Atlas组件的各方面内容,包括应用架构、业务架构、数据架构、功能架构、技术架构等,并重点介绍其与大数据生态系统中Hadoop、Hive、HBase等组件的集成。血缘关系的采集是Atlas的核心功能之一,通过元数据管理和数据血缘追踪,用户可以了解数据的来源、传输路径和影响范围。Atlas的数据架构主要包括元数据存储和索引,用于存储和检索各种数据资产的元数据信息。
2023-04-20 20:37:48 4
原创 自动化运维工具SaltStack
Salt基于C/S架构,服务端叫Master,客户端叫Minion,Master与Minion之间通信是通过ZeroMQ消息队列。Master与Minion都以守护进程的方式运行,一直监听配置文件里面的ret_port端口(4506,接收Minion请求)和publish_port(4505,ZMQ的发布消息)。ZeroMQ使Salt能快速在成千上万台机器上进行各种操作。
2023-04-19 22:07:41 903 2
原创 vim命令详解
Vim是一款高度可定制的文本编辑器,广泛用于编程和文本处理。它的核心特点是基于键盘命令的操作,这使得用户能够高效地处理文本。在本篇文章中,我们将详细介绍Vim的一些基本和高级命令。
2023-04-16 23:47:55 3480
原创 数仓选型对比
数仓类型大致如下:"传统数仓(SQLServer、Oracle等关系型数据库)""MPP数仓(以GreenPlum为例)"Hadoop数仓
2023-04-13 23:41:39 529
原创 图数据库选型对比
常见的图数据库包括:JanusGraph、Neo4j、Dgraph、NebulaGraph、HugeGraph、OrientDB、ArangoDB、TigerGraph等。下面列举,主流和推荐的几款图数据库的简介,应用场景和架构。
2023-04-11 23:34:53 4168
原创 大数据OLAP查询引擎选型对比
目前大数据比较常用的OLAP查询引擎包括:Presto、Impala、Druid、Kylin、Doris、Clickhouse、GreenPlum等。不同引擎特点不尽相同,针对不同场景,可能每个引擎的表现也各有优缺点。
2023-04-10 22:46:25 5891 1
原创 大数据CDC技术
CDC全称是Change Data Capture,是一种捕获增量数据的技术统称,目前主要应用在捕获数据库数据变更的技术。其中数据库变更包括DDL,DML,DCL的语句触发的表更。在数据备份容灾、数据分发、面向数仓的数据集成等场景中广泛应用。在增量数据识别中,增量捕获能否实现更多依赖于源端系统。
2023-04-09 23:38:18 890
原创 Spark简介
Spark是大数据的调度,监控和分配引擎。它是一个快速通用的集群计算平台.Spark扩展了流行的MapReduce模型.Spark提供的主要功能之一就是能够在内存中运行计算 ,但对于在磁盘上运行的复杂应用程序,系统也比MapReduce更有效。
2023-04-09 01:52:52 2121
原创 ATAM架构评估方法
软件系统架构的选择对于软件系统开发的成败至关重要,软件架构各种风格各种方法,光分层架构方法就很多,如何评估哪个软件系统架构方法更合适。CMU/SEI(卡梅隆大学软件工程协会)提出了一套架构权衡分析方法,Architecture Tradeoff Analysis Method,简称ATAM。传统软件架构评估方法按评估形式,一般分为三种。一是调查问卷法,即直接请对系统架构了解的专家学者对系统架构做出主观评估。二是度量法,即将软件系统架构完全量化,通过一些客观的数字指标来评估架构的好坏。
2023-04-07 23:13:16 1596
原创 自动化运维利器Ansible
ansible是一种比较常用自动化运维工具,基于开发,集合了众多运维工具(puppet、cfengine、chef、func、fabric)的优点,实现了批量系统配置、批量程序部署、批量运行命令等功能。远程执行命令只需要打通节点ssh登录即可。是一个开源软件供应,配置管理和应用程序部署工具。可以管理成百上千的节点。由于python语言开发,大多数linux系统都支持良好。很多互联网公司运维团队都比较喜欢使用。
2023-04-06 22:47:30 141
原创 Arthas教程
Arthas是 Alibaba 在 2018 年 9 月开源的工具。支持 JDK6+, 采用命令行交互模式,可以方便的定位和诊断线上程序运行问题。相关官方文档十分详细,官网地址可参考:https://alibaba.github.io/arthas。
2023-04-05 20:56:52 171
原创 手把手教CDH
使用 LXC 的优点就是不需要安装太多的软件包,使用过程也不会占用太多的资源,LXC 是在 Linux 平台上基于容器的虚拟化技术的未来标准,最初的 LXC 技术是由 IBM 研发的,目前已经进入 Linux 内核主线,这意味着 LXC 技术将是目前最有竞争力的轻量级虚拟容器技术。增加的节点功能可以分为边缘节点,计算节点,主节点等,同样功能的节点也会因为服务器配置不同而需要采用不同的配置,例如不同大小的内存,硬盘等。1. Object,实体,常见的例如,server,database,table,URL。
2023-04-04 19:38:01 678
原创 Grafana自动化运维
Grafana是开源的、炫酷的可视化监控、分析工具,它主要包含以下特点:多种展示方式,支持多数据源,多种通知提醒,混合展示
2023-04-02 23:43:03 173
原创 日志采集组件Flume
Flume 是Cloudera开发的一个分布式的、可靠的、高可用的系统,它能够将不同数据源的海量日志数据进行高效收集、聚合、移动,最后存储到一个中心化的数据存储系统中。随着互联网的发展,特别是移动互联网的兴起,产生了海量的用户日志信息,为了实时分析和挖掘用户需求,需要使用Flume高效快速采集用户日志,同时对日志进行聚合避免小文件的产生,然后将聚合后的数据通过管道移动到存储系统进行后续的数据分析和挖掘。
2023-04-01 23:15:43 521
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人