自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

金融科技和数据治理

金融行业科技的实践、数据治理实践,企业数字化转型的思考和总结。

  • 博客(214)
  • 资源 (9)
  • 收藏
  • 关注

原创 编程:数据开发经验

思考问题的核心是最原始的数据是什么,先找到最原始的数据,然后基于原始数据做增加、过滤、联结等操作。T1–数据来源大范围;T2–关联表及相关;第二步,结合数据条件,拼凑出原始数据–基础数据;第三步,根据基础数据拼凑出最终想要的数据;第一步,搞清楚数据范围;

2023-02-09 15:38:31 262 1

原创 AI:从技术视角理解chatGPT

从GPT-3和Codex等早期模型的部署中获得的许多经验教训为这个版本的安全缓解措施提供了参考,包括通过使用来自人类反馈的强化学习,大幅减少有害和不真实的输出…ChatGPT使用同样的一般方法进行训练,但在第一步,人类通过编造自己和一个假想的聊天机器人之间的对话来生成一个数据集。他们在发布第一个[InstructGPT]模型时发表了一篇论文,解释了他们是如何做到的,而新的ChatGPT和text-davinci-003只是同一事物的最新版本,只是现在他们有了更多来自人类反馈的标签数据,导致了性能的提升。

2023-02-08 09:21:59 3143

翻译 翻译:Apache Linkis Graduated to Apache Top-Level Project(Apache Linkis 升级为顶级项目)

它提供了一个基本的编排框架,以支持不同的策略来管理计算任务,并通过减少连接和可扩展性所需的工作量,允许轻松开发功能性应用程序。它能够提供细粒度路由、负载平衡、多租户、流量控制、资源控制和编排策略,如双主动、主动待机等。它还提供了一种管理和控制对底层引擎的访问的方法,包括身份验证、风险预防和记录保存。目前,Linkis支持各种计算和存储引擎,如Spark、Hive、Flink、Python、Presto、ElasticSearch、JDBC等,并将在未来支持更多,如Trino和SeaTunnel。

2023-02-06 14:31:17 295

原创 大数据:Hive视图和索引

Hive 中的视图和 RDBMS 中视图的概念一致,都是一组数据的逻辑表示,本质上就是一条 SELECT 语句的结果集。视图是纯粹的逻辑对象,没有关联的存储 (Hive 3.0.0 引入的物化视图除外),当查询引用视图时,Hive 可以将视图的定义与查询结合起来,例如将查询中的过滤器推送到视图中。Hive 在 0.7.0 引入了索引的功能,索引的设计目标是提高表某些列的查询速度。如果没有索引,带有谓词的查询(如’WHERE table1.column = 10’)会加载整个表或分区并处理所有行。

2023-01-05 19:58:35 651 1

原创 2023年考证时间一览表

2022年已经成为历史,在疫情背景全面开放下给大家整理了2023年全年的考试时间以及报名时间新鲜出炉,了解清楚,为2023年提前做好规划!

2023-01-05 19:50:58 1237

翻译 翻译:Google Publishes Technique for AI Language Model Self-Improvement(谷歌发布AI语言模型自我改进技术)

谷歌和伊利诺伊大学厄巴纳-香槟分校(UIUC)的研究人员发表了一项名为“语言模型自我改进”(LMSI)的技术,该技术可以在由同一模型生成的数据集上微调大型语言模型(LLM)。我们希望,我们的简单方法和强有力的实证结果能够鼓励社区在未来开展更多工作,在没有额外人力监督的情况下调查预训练LLM的最佳性能。除了微调540B PaLM模型外,团队还研究了知识蒸馏,使用生成的数据集微调较小版本的PaLM。团队发现,微调的62B参数模型优于预训练的540B参数模型,微调的8B参数模型优于预先训练的62B模型。

2023-01-05 14:56:05 183

原创 数字化转型之数字化和业务化论证

业务数据化是指将业务过程中产生的各种痕迹或原始信息记录并转变为数据的过程。业务数据化从本质上说是用数据表现和解读业务。业务数据化其实早就开始了,或者说之前叫信息化。从CRM系统、OA系统,到ERP系统其实都属于业务的数据化,只是由于传统行业许多业务是在线下展开,完全数据化十分困难。借着互联网,尤其是移动互联网的普及,DT时代来临,才有条件实现完全的业务数据化。完成业务的数据化需要经过简单数字化和流程数据化两个步骤。

2023-01-05 14:10:24 504

原创 R语言入门先知先会

由于用户的对子目录的读写权限问题, 有时不允许一般用户安装扩展包到R的主目录中。如果不用RStudio, 在R图形界面选菜单“程序包-安装程序包”, 在弹出的“CRAN mirror”选择窗口中选择一个中国的镜像如“China (Beijing 2)”, 然后在弹出的“Packages”选择窗口中选择要安装的扩展软件包名称, 即可完成下载和安装。在安装基本R软件时, 已经伴随安装了一些必要的扩展包, 如base, stats, graphics等, 这些包在启动R时会默认载入, 不需要用户干预。

2023-01-04 19:57:15 256

翻译 翻译:Swift to Add Support for Ownership, Macros, and C++ Interop(Swift将增加对所有权、宏和C++互操作的支持)

根据语言团队的说法,C++interop的当前实现已经支持自有值类型、平凡值类型、外部引用类型和迭代器,并为方法、指针以及l值和r值引用的基本问题提供了答案。此外,Swift还可以获得对不可复制类型的支持,以限制关键值的生命周期。特别是,对于并发性,目标将是改进Sendable和参与者提供的数据隔离,而泛型的工作将带来对可变泛型的支持,即具有可变数量占位符类型的泛型。所有权是内存管理的一种方法,最近由于Rust而变得流行,Rust是最具定义性的语言特性之一,也是其提供内存安全保证能力的基础。

2022-12-09 07:15:16 140

原创 大数据:Storm集成Kafka

这里我服务端安装的 Kafka 版本为 2.2.0(Released Mar 22, 2019) ,按照官方 0.10.x+ 的整合文档进行整合,不适用于 0.8.x 版本的 Kafka。可以用直接使用本地模式运行,也可以打包后提交到服务器集群运行。接口定义了 Kafka 中 Record 与输出流之间的映射关系,可以在构建。中 定义了 tuple 中所有可用的字段:主题,分区,偏移量,消息键,值。字段中获取 kafka 输出的值数据。方法传入,并最后传递给具体的。在开发中,我们可以通过继承。

2022-12-09 07:12:09 301

原创 大数据:Storm集成HDFS和HBase

指定 count 字段,被指定的字段会自动进行累加操作,这样也可以实现词频统计。需要注意的是 withCounterFields 指定的字段必须是 Long 类型,不能是 String 类型。这里 HDFS 的地址和数据存储路径均使用了硬编码,在实际开发中可以通过外部传参指定,这样程序更为灵活。在上面的用例中我们是手动编码来实现词频统计,并将最后的结果存储到 HBase 中。可以用直接使用本地模式运行,也可以打包后提交到服务器集群运行。可以用直接使用本地模式运行,也可以打包后提交到服务器集群运行。

2022-12-09 07:09:41 309

翻译 翻译:The Future of Technology Depends on the Talent to Run it(技术的未来取决于管理技术的人才)

这阻碍了公司的成功,既因为员工数量减少,也因为就业市场上的员工对为公司工作不太感兴趣,因为这些公司可能会让他们在不太注意的情况下离职。LATAM开发人员与美国客户的合作使公司能够接触到优秀的技术人员,并使拉丁美洲国家能够留住他们的天才工程师,他们可以支持他们的亲人和当地经济。与此同时,像卢旺达和肯尼亚这样的国家正在经历第四次工业革命的好处,允许他们的技术工人与欧洲以外的公司合作。并非所有外包公司都是相同的。当你靠近海岸时,你正在与在与你的时区兼容的地区工作的员工签约,通常在你的内部团队的三小时内。

2022-12-08 19:28:07 331

原创 大数据:Storm 集成 Redis 详解

Storm-Redis 提供了 Storm 与 Redis 的集成支持,你只需要引入对应的依赖即可使用:

2022-12-08 19:22:25 326

原创 大数据:Storm三种打包方式对比分析

在将 Storm Topology 提交到服务器集群运行时,需要先将项目进行打包。本文主要对比分析各种打包方式,并将打包过程中需要注意的事项进行说明。第一种:不加任何插件,直接使用 mvn package 打包;第二种:使用 maven-assembly-plugin 插件进行打包;第三种:使用 maven-shade-plugin 进行打包。以下分别进行详细的说明。

2022-12-08 19:16:29 119

翻译 翻译:How to Test Low Code Applications(如何测试低代码应用程序)

Jan Jaap Cannegister表示,对于低代码应用程序,有些技术上的东西不需要测试,比如与数据库的集成和屏幕的语法。但你仍然需要进行功能测试,以检查你是否构建了正确的东西。端到端测试和非功能测试对于低代码应用程序非常重要。Cannegister将在2022年QA&TEST Embedded上谈论测试低代码。本次会议将于10月19-21日在西班牙毕尔巴鄂举行。测试有助于解决低代码开发中的风险,Cannegister解释道:由于代码较低,我们仍然存在与人为错误和复杂业务规则相关的风险。但存在额外

2022-12-07 19:08:20 305

原创 大数据:Storm 编程模型

下图为 Strom 的运行流程图,在开发 Storm 流处理程序时,我们需要采用内置或自定义实现 (数据源) 和 (处理单元),并通过 将它们之间进行关联,形成 。 接口定义了 Topology 中所有组件 (spout/bolt) 的公共方法,自定义的 spout 或 bolt 必须直接或间接实现这个接口。三、Spout3.1 ISpout接口自定义的 spout 需要实现 接口,它定义了 spout 的所有可用方法:3.2 BaseRichSpout抽象类通常情况下,我们实现自定义的 Sp

2022-12-07 19:01:59 100

原创 大数据:Storm和流处理简介

Storm 是一个开源的分布式实时计算框架,可以以简单、可靠的方式进行大数据流的处理。通常用于实时分析,在线机器学习、持续计算、分布式 RPC、ETL 等场景。Storm 具有以下特点:Hadoop 采用 MapReduce 处理数据,而 MapReduce 主要是对数据进行批处理,这使得 Hadoop 更适合于海量数据离线处理的场景。而 Strom 的设计目标是对数据进行实时计算,这使得其更适合实时数据分析的场景。Spark Streaming 并不是真正意义上的流处理框架。 Spark Streamin

2022-12-07 18:56:20 195

翻译 翻译:Can MTTR Be an Effective Business Metric?(MTTR能否成为有效的商业指标?)

在最近的一篇博客文章中,Sidu Ponnapa分享了平均恢复时间(MTTR)应该如何成为衡量工程效率的关键业务指标。Ponnapa指出,仅跟踪正常运行时间并不能提供改进目标。Verica高级研究分析师考特尼·纳什(Courtney Nash)最近在SREcon22的一次演讲中表示,MTTR可能会歪曲事故发生时的实际情况,并且可能是一个不可靠的指标。正如Ponnapa所解释的,MTTR可以成为一种衡量标准,有助于弥合商业和工程之间的沟通差距。通过让每个团队报告他们拥有的每个服务的MTTR,它可以充当质量和

2022-12-06 17:42:42 61

原创 大数据:Storm 核心概念详解

一个完整的 Storm 流处理程序被称为 Storm topology(拓扑)。它是一个是由 和 通过 连接起来的有向无环图,Storm 会保持每个提交到集群的 topology 持续地运行,从而处理源源不断的数据流,直到你将其主动杀死 (kill) 为止。 是 Storm 中的核心概念。一个 是一个无界的、以分布式方式并行创建和处理的 序列。Tuple 可以包含大多数基本类型以及自定义类型的数据。简单来说,Tuple 就是流数据的实际载体,而 Stream 就是一系列 Tuple。 是流数据的源

2022-12-06 17:39:14 371

原创 大数据:Storm和流处理简介

Storm 是一个开源的分布式实时计算框架,可以以简单、可靠的方式进行大数据流的处理。通常用于实时分析,在线机器学习、持续计算、分布式 RPC、ETL 等场景。Storm 具有以下特点:Hadoop 采用 MapReduce 处理数据,而 MapReduce 主要是对数据进行批处理,这使得 Hadoop 更适合于海量数据离线处理的场景。而 Strom 的设计目标是对数据进行实时计算,这使得其更适合实时数据分析的场景。Spark Streaming 并不是真正意义上的流处理框架。 Spark Streamin

2022-12-06 17:34:03 478

翻译 翻译:AWS Lambda SnapStart Accelerates Java Functions(AWS快照加速Java功能)

在最近的re:Invent上,AWS宣布对其FaaS产品AWS Lambda进行更新,该产品具有Lambda SnapStart功能,减少了Java函数的冷启动。AWS Lambda函数在一个安全且隔离的执行环境中运行,每个环境的生命周期由三个主要阶段组成:初始化、调用和关闭。第一阶段Init启动函数的运行时并运行函数的静态代码。对于某些语言,如Java、运行时以及Spring Boot、Quarkus或Micronaut等框架,根据该公司的说法,第一阶段Init有时需要长达10秒(这包括依赖注入、编译

2022-12-05 18:01:46 117

原创 大数据:数据策略之CAP理论和BASE理论

在分布式环境中,一致性是指数据在多个节点之间能够保持一致的特性。如果在某个节点上执行变更操作后,用户可以立即从其他任意节点上读取到变更后的数据,那么就认为这样的系统具备强一致性。可以性是指系统提供的服务必须一直处于可用状态,对于用户的每一个操作请求总是能够在有限的时间内返回结果。它主要强调以下两点:分区容错性指定是分布式系统在遇到网络分区时,仍需要能够对外提供一致性和可用性的服务,除非是整个网络环境都发生了故障。这里的网络分区指的是:在分布式系统中,由于不同的节点会分布在不同子网中(不同机房或异地网络等),

2022-12-05 17:55:15 1326

原创 大数据:Flink项目概述

Apache Flink 诞生于柏林工业大学的一个研究性项目,原名 StratoSphere 。2014 年,由 StratoSphere 项目孵化出 Flink,并于同年捐赠 Apache,之后成为 Apache 的顶级项目。2019 年 1 年,阿里巴巴收购了 Flink 的母公司 Data Artisans,并宣布开源内部的 Blink,Blink 是阿里巴巴基于 Flink 优化后的版本,增加了大量的新功能,并在性能和稳定性上进行了各种优化,经历过阿里内部多种复杂业务的挑战和检验。同时阿里巴巴也表示

2022-12-05 17:51:40 537

原创 大数据:Sqoop 简介与安装

Sqoop 是一个常用的数据迁移工具,主要用于在不同存储系统之间实现数据的导入与导出:导入数据:从 MySQL,Oracle 等关系型数据库中导入数据到 HDFS、Hive、HBase 等分布式文件存储系统中;导出数据:从 分布式文件系统中导出数据到关系数据库中。其原理是将执行命令转化成 MapReduce 作业来实现数据的迁移,如下图:版本选择:目前 Sqoop 有 Sqoop 1 和 Sqoop 2 两个版本,但是截至到目前,官方并不推荐使用 Sqoop 2,因为其与 Sqoop 1 并不兼容,且功能还

2022-12-04 12:27:11 447

翻译 翻译:Google Open-Sources Secure ML Operating System KataOS(谷歌开源安全ML操作系统KataOS)

谷歌的AmbiML团队最近开源了KataOS,这是一种可证明安全的嵌入式ML硬件操作系统。KataOS基于seL4微内核,在Rust中实现。与KataOS一起,谷歌正在发布Sparrow,这是一个针对基于RISC-V架构的安全硬件平台的操作系统的参考实现。该版本在谷歌开源博客上发布。AmbiML团队在安全的嵌入式环境中为ML构建工具,开发了KataOS,以解决与管理智能设备收集的数据的隐私和安全相关的挑战。这个解决方案的基础是seL4,一个在数学上被证明是安全的微内核。其他组件是用Rust编写的,团队之所以

2022-12-04 12:23:24 178

原创 项目:金融行业反欺诈模型

当今以互联网、移动终端等为代表的技术力量正深刻地影响着金融支付市场,信息化、网络化、无线终端等技术的应用,使金融机构特别是银行业的经营发生了天翻地覆的变化,传统的银行柜台和网点业务,正渐渐被电子化交易所替代,电子银行以其便利性和增值服务各方面的优势,已经成为银行业保持活力和竞争力的主要发展动力。围绕电子渠道信息泄露、资金被盗、诈骗等威胁与日俱增,欺诈信息、木马病毒、仿制克隆卡等欺诈手段层出不穷,让各家银行头疼不已。1、身份欺诈,即利用虚假的身份信息向金融机构申请贷款。身份造假有以下几种类型:(1)盗用或冒用

2022-12-04 12:20:27 1881 2

翻译 翻译:Google‘s Apollo AI for Chip Design Improves Deep Learning Performance by 25%

中文标题:Google 的 Apollo 芯片设计人工智能框架将深度学习芯片的性能提高了 25%Google Research 的科学家公布了一种用于优化人工智能加速器芯片设计的新框架 APOLLO。APOLLO 使用革命性的算法选择芯片参数,以最小的芯片面积最大程度地减少深度学习推理延迟。在阿波罗的帮助下,研究人员找到了比那些通过基线算法选择的设计快 24.6% 的设计方案。研究科学家 Amir Yazdanbakhsh 在最近的博客文章中对该系统进行了概述。APOLLO 搜索一组硬件参数,例如内存

2022-12-03 19:00:28 139

原创 大数据:Hive简介及核心概念

Hive 是一个构建在 Hadoop 之上的数据仓库,它可以将结构化的数据文件映射成表,并提供类 SQL 查询功能,用于查询的 SQL 语句会被转化为 MapReduce 作业,然后提交到 Hadoop 上运行。特点:可以用 command-line shell 和 thrift/jdbc 两种方式来操作数据:在 Hive 中,表名、表结构、字段名、字段类型、表的分隔符等统一被称为元数据。所有的元数据默认存储在 Hive 内置的 derby 数据库中,但由于 derby 只能有一个实例,也就是说不能有多个命

2022-12-03 18:55:28 654

原创 业务:财务软件之会计六要素

会计六要素是资产、负债、所有者权益、收入、费用、利润。资产随处可见,比如房屋、机器设备、运输工具、仓库里的货物等。负债确认必须具备以下条件:负债是企业承担的现时义务;负债预期会导致经济利益流出企业;负债是由企业过去的交易或者事项形成的。所有者权益就是投资者对企业净资产的所有权,又称为股东权益。会计六要素是:1、资产,资产随处可见,比如房屋、机器设备、运输工具、仓库里的货物等。2、负债,负债确认必须具备以下条件:负债是企业承担的现时义务;负债预期会导致经济利益流出企业;负债是由企业过去的交易或者事项形成的

2022-12-03 18:50:32 340

翻译 翻译:Time Series Anomaly Detection Algorithms(时间序列异常检测算法)

在 Statsbot 中, 我们不断回顾了异常检测方法的发展,并在此基础上重新完善了我们的模型。本文概述了最常用的时间序列异常检测算法及其优缺点。本文针对的是只想了解一下异常检测技术现状的无经验读者。我们不想用复杂的数学模型来唬人,所以我们把所有的数学原理推导都放在下面的推荐链接里面了。

2022-12-02 19:45:35 375

翻译 翻译:Time Series Analysis in Python: An Introduction(Python 的时间序列分析:简介)

如果我们的模型太贴近训练数据,也就是所谓的过于拟合,我们的偏差会过大,模型也难以泛化到其他新的数据。我先从谷歌收集每月的销售销售量然后用 groupby 平均这些月份,这是由其重要的步骤因为我们常常想比较两个范畴的数据,例如一个年龄层的用户或者是一个厂商的不同汽车。我们用同样的方式生成 GM 的数据并合并两组数据。Quandl 自动把我们的数据整合到 pandas 的数据框,也就是数据科学的一种数据结构(把 “TSLA” 或 “GM” 换成别的股票代号便可以取得其他公司的数据,你还可以指定某个时间区间)。

2022-12-02 19:41:32 193

原创 大数据:Hadoop分布式文件系统——HDFS

HDFS()是 Hadoop 下的分布式文件系统,具有高容错、高吞吐量等特性,可以部署在低成本的硬件上。

2022-12-02 17:50:43 603

原创 业务:财会业务知识之借贷记账法

因为它和会计分录,对账系统,系统清算,结算科目,总分核对,试算平衡有密切关系,你必须知道账是怎么记录的和怎么计算的;还是上面的例子,采用复式记账,可以很直接的知道花钱买了瓶酒的事实;说实话,我第一次接触这个定义时,也是非常懵逼, 是因为记账规则已经高度抽象化和规则化,对于已经懂的人,他会觉得总结的很好,概括的很精简;如果你是一位金融行业的IT从业者,那你经常会接触到借贷的概念,只要复式记账的概念,其实也够用了,在记录交易流水时,跟业务问清楚哪些交易记录哪个借贷符号,记录哪些科目既可以;

2022-12-02 15:36:09 466

翻译 翻译:The 10 Statistical Techniques Data Scientists Need to Master(数据科学家需要掌握的十种统计技术)

无论你在数据科学是否“性感“的问题上站定何种立场,都无法忽略一个事实:数据,和我们分析数据、组织数据、确定数据上下文关系的能力正在越来越重要。凭借庞大的就业数据和员工反馈,Glassdoor(一家美国的求职社区,译者注)将数据科学家排在全美最佳的 25 个职位中的第一名。因此,虽然这个角色会依然存在,但毫无疑问,数据科学家们所做的具体任务将会不断进化。随着像机器学习这样的技术的普及,还有像深度学习这样的新兴领域,获得了来自研究人员和工程师们及他们所在的公司的巨大关注,数据科学家们将继续在创新和科技进步的浪潮

2022-12-01 16:46:48 106

原创 数据分析:从界定问题开始做数据分析?

界定问题是一个需求分析的过程。在这一过程中,我们要澄清分析对象,明确分析目标。需要解决的问题具体而言是什么?这个问题需要被解决到什么样的程度?其希望达成的目标是什么?例如,一个手机产品经理提出:希望了解消费者对新产品的评价。澄清分析对象这里的新产品是指某款产品,还是今年上市的所有产品?这里的消费者是指所有的潜在手机消费者,还是我们品牌的消费者,还是购买了“新产品”的用户?这里的评价是指整体的评价,还是侧重硬件的评价,亦或者侧重软件的评价?明确分析目标。

2022-12-01 16:37:14 586

原创 如何设计指标?

让我们简单的回忆一下:我们日常最常接触到的指标,像身高、体重、温度、GDP。它们的共性是什么?——共性在于它们的载体都是数值。例如,身高180,体重154,温度26,GDP14.7万亿。它们的差别是什么?——差别在于它们的含义各不相同。比方说,身高180(cm)和体重180(斤)的含义是截然不同的。所以,指标是一个被定义的数值,用来对事实进行量化抽象。当一个事实比较简单的时候,例如某个物品的轻重,我们用通过质量这一个指标就可以衡量清楚。

2022-12-01 16:25:03 143

原创 业务:财务会计业务知识

其实就是在 “资产=负债”的基础上,把左边的资产分为了公司现有的资产和已经花费的资产,把右边的负债分为了 外债,股东权益,收入。举个例子:我们成立了家IT公司,我自己出资了10w,又找银行借了10w 我们的公司用2w进了一批货,卖了7w,赚了5w。动态: 资产+费用= 负债 +所有者权益+ 收入 (20w+5w) +2w = 10w+ 10w + 7w。静态: 资产= 负债 +所有者权益+ (收入-费用) 25w = 10w+ 10w + (7w-2w)资产= 负债 20w = 10w+10w。

2022-11-30 19:43:58 486

原创 算法:Bloom Filter

Bloom Filter,被译作称布隆过滤器,是一种空间效率很高的随机数据结构,Bloom filter可以看做是对bit-map的扩展,它的原理是:当一个元素被加入集合时,通过K个Hash函数将这个元素映射成一个位阵列(Bit array)中的K个点,把它们置为1**。检索时,我们只要看看这些点是不是都是1就(大约)知道集合中有没有它了:如果这些点有任何一个0,则被检索元素一定不在;如果都是1,则被检索元素很可能在。其可以用来实现数据字典,进行数据的判重,或者集合求交集。

2022-11-30 19:37:40 281

翻译 翻译:3 Levels of Deep Learning Competence(深度学习能力的三个等级)

如何评估(深度学习)能力建立深度学习作品集深度学习能力的等级在这篇文章中,你发现了深度学习能力的三个等级,作为一个从业者,你必须在每一个等级上证明什么具体而言,你学习了:深度学习的能力最好是通过项目组合去评估。三个能力级别的层次结构可用于对从业者进行分类,并提供一个识别预期技能的框架。最普通的错误是新手从 3 级就开始,意味着他们试图一下就学到所有的等级,导致困惑和挫折感。

2022-11-29 16:01:19 241

原创 算法:行列递增矩阵的查找

首先直接定位到最右上角的元素,再配以二分查找,比要找的数(6)大就往左走,比要找数(6)的小就往下走,直到找到要找的数字(6)为止,这个方法的时间复杂度O(m+n)。我们已经知道杨氏矩阵的每行的元素从左到右单调递增,每列的元素从上到下也单调递增的矩阵。如果在这个数组中查找数字6,则返回true;这种行和列分别递增的矩阵,有一个专有名词叫做杨氏矩阵,由剑桥大学数学家杨表在1900年推提出,在这个矩阵中的查找,俗称杨氏矩阵查找。给定 n×n 的实数矩阵,每行和每列都是递增的,求这 n^2 个数的中位数。

2022-11-29 15:49:35 466

基于卷积神经网络研究的应用

通过分析火控计算机的工作原理,选取了 12 个主要参数作为故障预测的输入, 针对输入数据的特性,选用了卷积神经网络(CNN)建立故障预测模型,针对传统卷积神 经网络模型存在的问题,加入批标准化层提高网络训练效果。通过实例验证,在数据充足 的条件下,针对训练弹的改进后卷积神经网络的火控计算机故障预测模型,预测准确率为 93.1%

2023-02-11

互联网大厂JAVA岗面试宝典

进互联网大厂是很多人的梦想,而能不能顺利进入互联网大厂工作,关键在于面试,笔者根据自己和身边朋友的亲身经历,整理了一份从初面/电话面试、技术面、领导面和HR面遇到过的真实试题和比较完美的回答,希望能给想进互联网大厂的朋友助一臂之力。 《互联网大厂JAVA岗面试宝典》是针对互联网大厂JAVA岗位的面试指南,基本涵盖JAVA重点、难点和易考点,同时,除了技术部分还包含初面、HR面和领导面,内含丰富的面试技巧和经验,希望能帮助到广大粉丝朋友。

2023-02-08

CDGA试题混编188题+模拟测验100题+考前押题348题

DAMA 数据治理工程师”(Certified Data Governance Associate 简称CDGA)考试,根据参加考试考生和专业机构汇编整理,分三种类型题目,适合不同情况的学生。 入门级:《CDGA试题混编88题》 进阶级:《CDGA试题混编88题+模拟测验100题》 高手级:《CDGA试题混编188题+模拟测验100题+考前押题348题》 以上资源都可在本人的资源项找到,希望大家都能顺利通过考试。

2023-01-07

CDGA试题混编88题+模拟测验100题

DAMA 数据治理工程师”(Certified Data Governance Associate 简称CDGA)考试,根据参加考试考生和专业机构汇编整理,分三种类型题目,适合不同情况的学生。 入门级:《CDGA试题混编88题》 进阶级:《CDGA试题混编88题+模拟测验100题》 高手级:《CDGA试题混编188题+模拟测验100题+考前押题348题》 以上资源都可在本人的资源项找到,希望大家都能顺利通过考试。

2023-01-07

CDGA试题混编88题

DAMA 数据治理工程师”(Certified Data Governance Associate 简称CDGA)考试,根据参加考试考生和专业机构汇编整理,分三种类型题目,适合不同情况的学生。 入门级:《CDGA试题混编88题》 进阶级:《CDGA试题混编88题+模拟测验100题》 高手级:《CDGA试题混编188题+模拟测验100题+考前押题348题》 以上资源都可在本人的资源项找到,希望大家都能顺利通过考试。

2023-01-07

DAMA CDMP真题名师详解(100道中英文翻译)

CDMP(Certified Data Management Professional)数据管理专业认证是由DAMA国际于2004推出,是一项涵盖学历教育、工作经验和专业知识考试在内的综合资格认证,也是目前全球唯一数据管理方面权威性认证。CDMP证书一共分为四个等级:基础级、专家级、大师级、院士极。本资料是CDMP考试真题,根据考生回忆版本整理汇集,包含详细的解答和相应内容,供参加CDMP考试、复习使用,亦可作为数据治理考核或学习使用。

2022-12-11

2022年最好数字化战略和案例实践总结分享

2022年数字化战略经典分享,包含丰富的案例总结与实践,适用公司中高层对企业数字化转型的思考、总结和工作汇报,也适合底层人对公司数字化战略的理解和学习。

2022-11-13

详解数据架构的七类视图

架构师构建一个系统的艺术和科学,以及在此过程中形成的成果,数据架构包括数据架构成果、数据架构活动、数据架构行为等。数据架构师数据管理的基础。本文详细分析了七种不同视图下的数据架构图,供数据管理从业者学习和交流。

2022-11-11

Python编程进阶实例

在学习Pyhont过程中,百看不如一练,编程是非常注重实践的。要能落地,而不是空中阁楼,Python进阶实例合集,共计100个案例,外加3个项目,是大家练手、学习的很好素材。

2022-11-11

机器学习线性回归算法(Python代码版)

线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。其表达形式为y = w'x+e,e为误差服从均值为0的正态分布。

2022-11-11

支持向量机python代码实现版本

支持向量机(Support Vector Machine, SVM)是一类按监督学习(supervised learning)方式对数据进行二元分类的广义线性分类器(generalized linear classifier),其决策边界是对学习样本求解的最大边距超平面(maximum-margin hyperplane)

2022-11-11

K-Means聚类算法python实现版本

k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。

2022-11-11

建设银行大数据应用探索和总结

建设银行深刻洞察大数据将成为重要生产要素、驱动银行提高智慧化水平的发展趋势,在国内同业中率先启动实施大数据战略,提出建设具有同业领先数据竞争优势的大数据银行的目标,明确以“量化、洞察、预测、智慧”为概要特征的大数据应用导向。

2022-11-11

数据管控平台建设思路(项目实践总结分享)

数据管控平台建设思路,基于大客户的项目实践经验总结分享,从数据治理的角度分析数据治理,以及对数据管控平台的架构、功能模块等系统的详细介绍。

2022-11-10

MATLAB优化算法案例分析与应用(进阶篇)教学PPT 共30章

MATLAB优化算法案例分析与应用,系统性的学习MATLAB优化算法,涉及常见的场景,是不错的提升和学习教程。

2022-11-09

阿里巴巴数据治理实践总结与分享

PPT详细讲述了阿里巴巴在数据治理中的实践经验和项目总结,对要做好数据治理的企业来说有很好的借鉴意义。

2022-11-09

DCMM数据管理能力成熟度评估模型

DCMM模型是一个整合了标准规范、管理方法论、评估模型等多方面内容的综合框架,她将组织内部数据能力划分为八个重要组成部分,描述了每个组成部分的定义、功能、目标和标准。附件PPT系统讲解了数据管理能力成熟度评估模型。

2022-11-09

CDGA 权威专家预测考题100道(命中率高)

DAMA 数据治理工程师”(Certified Data Governance Associate 简称CDGA)权威专家预测考题100道(命中率高)

2022-07-14

CDGA 模拟真题100道(含历年真题)

DAMA 数据治理工程师”(Certified Data Governance Associate 简称CDGA)模拟真题100道(含历年真题)

2022-07-14

大数据技术架构

搭建大数据框架的技术框架文档,涉及项目有hadoop、spark、yarn、mesos、hbase、hive,主要为数据分析、数据挖掘、大屏展示、数据运营服务。(vsd文件,请用MS Visio软件打开)

2019-04-30

数据库表命名规范

随着项目规模慢慢变大,以及业务复杂程度越来越大,像编码规范一样,针对数据库、表和字段整理的一份命名规范,方便运维和团队内使用交流。

2019-04-28

大数据系统架构

为传统行业公司量身打造的大数据架构图,全部采用开源软件,节约成本,同时又拥抱技术。欢迎交流。

2019-04-17

GICS(全球行业分类标准)

全球行业分类系统(GICS)是由标准普尔(S&P)与摩根斯坦利公司(MSCI)于1999年8月联手推出的行业分类系统。该标准为全球金融业提供了一个全面的、全球统一的经济板块和行业定义。作为一个行业分类模型,GICS已经在世界范围内得到广泛的认可,它的意义在于不仅为创造易复制的、量体裁衣的投资组合提供了坚实基础,更使得对全球范围经济板块和行业的研究更具可比性。

2019-04-13

Wind金融终端使用手册

Wind金融终端最权威的使用手册,里面包含了常用功能。

2019-04-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除