数据工程与机器学习-CSDN博客

原创 SQL从优秀走向卓越(第二部分)

SQL中的日期和时间无论您有多少SQL经验，处理日期和时间都不是一项简单的任务，它们令人惊讶地棘手，有时候甚至要花费好几个小时才能解决问题。本文将介绍一些对新手和专家都有益的日期/时间处理技巧。操作卡在深入代码之前，先对高级工具进行评估。就像玩棋盘游戏Pandemic，让您角色的操作卡始终可见，这就能在每个回合中知道要采取什么操作。下面是我们的SQL日期/时间操作卡，包括可以对日期/时间执行哪些操作。每个操作都有一系列单独的函数和语法。假设您有一些带有字符串日期列的销售数据，而老板想要查看季度总

2021-06-16 10:23:54 314

原创 SQL从优秀走向卓越(第一部分)

使用CTE（公共表表达式），您可以走得更远。什么是CTE？公共表表达式(CTE)是在单个查询中可用的临时表。它们使用以下语法：WITH cte_name AS (SELECT ... FROM ... ) SELECT * FROM cte_name; 为什么CTE很重要?为了说明这种查询构造为何如此有用，让我们看一个示例。假设有两张表：比赛（matches）：网球比赛统计数据球员（players）：网球球员元数据网球比赛表：网球运动员表：我想知道每个球员在赢得

2021-06-11 10:17:55 303 1

原创 5个提升技能的数据工程项目

所有迹象都表明数据工程将蓬勃发展。Dice发布的2020年科技工作报告将数据工程列为2020年增长最快的领域，增长幅度达到惊人的50%，而数据科学职位仅增长了10%。您可以放心，数据工程的发展势头不会很快消退。为支持这一假设，国际数据集团 (IDG) 预测，从2021年到2024年，数据使用量的五年复合增长率 (CAGR) 将超过过去 30 年的数据创建总量。如果您仍然不相信数据工程的前景，那么让我们来看看收入潜力。截至2021年5月9日，Indeed数据表明数据工程师的年薪比数据科学家多10000美

2021-06-10 10:17:12 525

原创 2021年数据工程现状

让我们从显而易见的问题开始：lakeFS项目不是孤立存在的，它属于一个更大的数据工程技术生态系统，与我们正在解决的问题互补。更重要的是，我认为了解LakeFS所处的位置对于确定我们可以通过解决当今实践中的痛点为用户带来额外价值至关重要。话虽如此，我很高兴与数据工程社区分享我们创建和维护的内容！最后我总结了一些关于未来的想法和预测。数据黑客：开源金融数据仓库，专注数据工程和机器学习。2021年数据工程现状：数据生态系统lakeFS所在的部分可以描述为开放、灵活的分析平台，能够支持现代数据团队的

2021-06-08 10:21:21 333

原创如何用Python在3分钟内创建一个金融网页应用

数据驱动项目的重要组成部分是其易于解释和可视化的能力，即使事先对数据一无所知的其他人也是如此。Streamlit是一个非常易于使用和直观的工具，用于在Python中构建高度交互、数据驱动的网页应用（Web App）。使用此工具，您可以只关注数据层面，而不必担心使用Flask或Django进行繁琐的部署。该过程非常简单，阅读完本文后，您也能在几分钟内部署Web应用，并且只需几行代码！配置项目要使用Streamlit构建网页应用，首先使用PyPi（Python包管理器）下载和安装它。在终端中使用以下命令

2021-06-02 10:13:26 455 1

原创可视化Kafka

Kafka是开源流处理软件，用于构建事件驱动系统。尽管还有其他指南，但我想着重于可视化Kafka背后的主要概念。这样，当您阅读其他指南时，会感到更加自信。让我们开始吧！基础概念在开始之前，让我们先了解什么是Kafka，它是事件流软件，允许后端服务（通常在微服务体系结构中）彼此通信。生产者和消费者生产者(Producer)和消费者(Consumer)是负责发送/监听消息的服务，这些服务一般是后端程序。服务既可以是消费者，也可以是生产者。主题(Topic)主题是生产者可以向其发送消息的地址

2021-06-01 10:25:23 816

原创如何用Python从IEX下载日内K线数据

您是否正在寻找一种免费获取股票日内K线的方法？使用这些数据，可以在本地回测交易策略和训练机器学习模型。本文将向您展示如何从IEX交易所下载免费的日内数据。IEX是美国的证券交易所，交易股票的数量超过8000个。为什么选择IEX？免费。 IEX是唯一能够免费定期下载大量日内OHCL（高开低收）数据的平台。出色的API。IEX API的文档齐全，易于理解，最重要的是它完美支持异步请求。在Alpaca上进行模拟交易。个人认为Alpaca是算法交易的最佳API，允许在IEX进行所有股票的模拟交易。因此，

2021-05-27 16:06:23 504

原创 2021年最好用的5个股票API

无论您是为对冲基金构建算法交易应用程序，还是为Robinhood构建应用程序，股市API都不可或缺。以下是目前市场上最好的股票API：FinnhubIEX CloudIntrinioTiingoMarketStack每个数据提供商都有不同的产品，您应该根据需求和预算选择最合适的产品。1. Finnhub简介： Finnhub是一家总部位于纽约的金融科技公司，向机构投资者和零售交易员提供金融数据。数据：全球基本面数据（财务报表，股票分红，分析师预测等），全球市场报价，财报电话会议

2021-05-17 10:29:40 3209 1

原创数据工程师应该掌握的7个数据库概念

如果您准备面试数据工程师，则必须了解数据库的所有主要概念。这不是夸大其词，几个月前，我进行了几次相关的面试，所有面试都涉及我在本文中提到的主题问题。这些概念不仅对数据工程师有用，对使用数据库的专业人员也很有用：数据科学家，机器学习工程师，软件开发人员等等。这些主要概念是：关系模型数据归一化主键和外键索引数据库事务复制分片让我们开始吧！关系模型关系模型（Relational model）是一种结构化和管理数据的方法。在此模型中，数据被组织到表中。每个表都有自己的架构，这意味着它

2021-05-15 08:47:33 267 2

原创 Docker多阶段构建指南

将映像推入生产环境时，使用Dockerfile创建高效的Docker映像非常重要。我们需要生产中使用尽可能小的映像，以实现更快的下载速度和更少的安全漏洞。在本文中，我们将了解如何使用Docker多阶段构建(multi-stage builds)有效地构建映像，并且还将探索在多阶段构建之前的选项。以下我们在本文中讨论的主题：示例项目使用Dockerfile构建映像常规构建的问题什么是生成器模式（Builder Pattern）生成器模式的问题什么是多阶段构建（Multi-stage Buil

2021-05-14 10:55:01 571 1

原创编写Dockerfile的最佳实践

自从Docker面世以来，它彻底改变了我们使用容器的方式。这主要归功于Docker带来的简便性。它允许任何人，而无需处理与容器相关的任何高级主题。如果您不熟悉Docker，请考虑一下它，因为您可以选择一个模板（基础映像）并定义指令（Docker文件命令）以将代码放入其中并运行程序。尽管Docker的简单性可以帮助您完成工作，但是对其进行优化需要经验，用户需要花时间学习。我使用Docker已经有很长一段时间了，因此我决定与您分享一些最佳实践的经验，以便从第一天开始就开发更好的容器。1. 识别可缓存单元

2021-05-13 10:00:27 181

原创如何用Python Faust构建流数据管道（下篇）

本文是如何用Python和Faust创建流处理管道系列文章的第二部分。如果您还不熟悉Faust的一般概念，建议先阅读系列文章的第一部分。今天，我们将建立一个简单的流处理管道，包含多个任务。这是Kafka streams的常见用例，也是探索Faust的一种有趣方式。好的，现在让我们动起来！项目布局在开始新项目和学习新技术时，最令人沮丧的事情之一就是设置项目结构。在单个Python模块中启动Faust项目是完全可行的，但是如果您打算创建多个流处理任务，则最好从设置项目结构开始。Faust为大中型项目提

2021-05-10 09:39:59 671

原创如何用Python Faust构建流数据管道（上篇）

Faust是一个将Kafka Streams的概念移植到Python的三方库。如果您不熟悉Kafka，那么在阅读该系列之前，最好先阅读Kafka文档和Kafka Streams。我们先介绍Faust的基础知识，包括核心概念和通用API。Kafka Streams在Apache Kafka之上为客户端库提供了一些抽象。因为Faust在很大程度上重用了完全相同的概念，所以学习Faust的过程就是学习Kafka Streams的过程。好的，让我们开始吧！应用(Application)应用程序(Appli

2021-05-10 09:39:03 489

原创大数据流处理引擎和框架大全

大数据流处理框架，应用程序和其他资源的精选列表。目录流处理引擎流处理库流处理应用物联网DSL（特定领域语言）数据管道在线机器学习流式SQL工具包性能基准闭源软件流处理引擎Apache Apex [Java] - 用于大数据流处理和批处理的统一平台。Apache Ballista [Rust]-Apache Arrow支持的分布式计算平台。Apache Flink [Java]-用于高吞吐量，低延迟的数据流处理的系统，支持状态计算，数据驱动的窗口语义和迭代流处理。Apa

2021-05-07 10:57:22 1399 1

原创 Apache Kafka的3个核心Python客户端库

数据赋予了世界力量。我们每秒获取大量信息，我们对其进行清理，分析并创建更有价值的输出，无论是日志文件，用户活动，聊天消息还是其他内容。我们提供的速度越快，便会为客户带来更多的价值。我们正处于一个快节奏且瞬息万变的环境时代。Apache Kafka是一个分布式流平台，可以实时发布，订阅，存储和处理消息。其拉取式的体系结构减轻了繁重负载对服务的压力，并使其易于扩展。它以低延迟将大量数据从源移动到目的地。Kafka是基于JVM的平台，因此客户端的主流编程语言是Java。但是，随着社区的蓬勃发展，高质量的开源P

2021-05-05 08:50:21 732 4

原创 Apache Airflow实用技巧和最佳实践

当我第一次使用Airflow构建ETL数据管道时，在弄清为什么管道无法运行之后，我经历了许多令人难忘的“啊哈”时刻。由于技术文档无法涵盖所有内容，因此我倾向于通过试错和阅读优秀的源代码来学习新工具。在本文中，我将分享Airflow的许多实用技巧和最佳实践，以帮助您建立更可靠和可扩展的数据管道。DAG Schedule在Airflow中，Airflow调度程序会根据DAG文件中指定的start_date和schedule_interval来运行DAG，对于初学者来说，很容易被Airflow的工作计划机制弄

2021-04-30 10:21:19 1111

原创 Apache Airflow 2.0能否满足当前数据工程需求？

目录与以前的版本相比，Airflow 2.0的优势新UI看起来更现代调度程序不再是瓶颈有了完善的REST API更智能的传感器(sensors)整个项目已经进行了重组无法令我信服的新功能TaskGroup功能通过TaskFlow API在任务之间共享数据新版本中尚未解决的Airflow弱点混乱的调度逻辑仍然没有数据管道的版本控制配置过载本地开发结论与旧版本相比，Airflow 2.0的优势新UI看起来更现代安装Airflow 2.0之后，您将能够访问与以前

2021-04-28 09:53:35 309 1

原创机器学习：如何快速寻找性能最佳的模型

设想一下您要测试给定数据集是否具有足够的特征来训练机器学习算法，或者在给定数据集上测试不同算法的性能，这两种情况在数据科学领域非常普遍。通常情况下，要测试特征是否有效，可以训练没有正则化的模型，并验证损失函数是否接近零。使用哪种算法？该问题的答案类似于探索性数据分析（EDA）的过程。进行探索性数据分析可以深入了解数据集。同样，有几种方法可以找到最适合该数据集的最佳算法，但这通常需要在循环中迭代多个模型，这可能很耗时。要克服此限制，可以使用lazypredict(Python库)作为选择最佳性能算法

2021-04-23 10:36:15 922 1

原创 BigQuery：如何查询数据

在之前的BigQuery教程中，我们介绍了BigQuery体系结构，存储管理，以及将数据提取到BigQuery中。在本文中，我们将介绍使用SQL在BigQuery中查询数据，保存和共享查询，创建视图和实例化视图。标准SQLBigQuery支持两种SQL方言：标准SQL和旧式SQL。标准SQL是查询BigQuery中存储的数据的首选，因为它符合ANSI SQL 2011标准。与旧版SQL相比，它还有其他优点，例如JOIN操作的自动谓词下推以及对相关子查询的支持。有关更多信息，请参见标准SQL优点。在Bi

2021-04-21 10:00:21 1681

原创了解足够有用的docker知识（第二部分）

在本系列的第1部分中，我们探讨了Docker容器的概念。我们讨论了Docker容器重要的原因以及理解它们的几种方法。在本文中，我将分享您需要了解的Docker生态系统中的其他核心术语。为了更容易理解，我将Docker术语分为两类：Essentials（基础）和Scaling（高级）。基础术语Docker Platform：Docker软件，可以在任何Linux服务器上用容器打包和运行应用程序。Docker平台捆绑了代码文件和依赖项。它通过实现可移植性和可重现性来促进轻松扩展。Docker Engi

2021-01-07 07:54:44 158 1

原创了解足够有用的Docker知识（第一部分）

容器（Docker）对于改善软件开发和数据科学中的安全性，可重复性和可伸缩性非常有用。它们的崛起是当今技术最重要的趋势之一。Docker是一个用于在容器内开发，部署和运行应用程序的平台。Docker本质上是容器化的代名词。如果您是现任或有抱负的软件开发人员或数据科学家，那么Docker就是您的未来。如果您还不了解最新技术，请不要担心，本文将帮助您了解基础性概念。在本系列的五篇文章中，我们将介绍Docker术语，Dockerfiles，Docker映像，Docker命令和数据存储。本文来自《数据黑客》

2021-01-07 07:52:21 140

原创数据科学：如何用docker部署FastAPI应用

在本文中，我们将讨论FastAPI和Docker。然后，我们将使用这些技术在GCP（谷歌云平台）上快速轻松地创建和部署API接口应用。什么是FastAPI？FastAPI是一种现代，快速，高性能的网络框架，基于标准Python类型提示并使用Python 3.6+构建API。FastAPI基于Pydantic和Starlette。FastAPI使用Pydantic定义架构并验证数据。Starlette是轻量级的ASGI框架，非常适合构建高性能的异步服务。其他python微服务框架不容易与SQLAlc

2021-01-05 10:02:28 823

原创量化策略：如何用RSI²领先指标侦测趋势反转

相对强弱指数（RSI）是技术分析领域最流行的指标之一。在本文中，我们将优化RSI指标，创建一个帮助判断趋势反转的领先信号。接下来，我们基于此创新（称为RSI²）创建交易策略并进行回溯检验。相对强弱指数RSI是最著名的动能指标之一，它有很多优势，可以应用到不同的资产。RSI的取值范围限制在0到100，这使它更易于解释。当更多的交易员和基金经理关注RSI，就会有更多的人根据RSI的信号做出反应，从而反过来影响市场价格。当然，我们无法证明这个想法，这仅仅是一种直觉性解释，技术分析的基础之一就是它是自我实现的

2020-12-31 09:45:32 1113

原创数据工程：将Jupyter Notebook作为数据管道

本文介绍了python kf-notebook-component项目，该项目允许Jupyter Notebook作为Kubeflow管道单独执行。我相信每个人都同意Jupyter Notebook是处理数据的好工具。Kubeflow具有内置的“ Jupyter Notebook Server”模块，可让你直接在Notebook中进行研究。当你完成实验阶段并希望将其投入生产时，你可以将代码包装在管道步骤（pipeline steps）中，并直接从Notebook的“Kubeflow Pipelines”模

2020-12-30 08:38:55 334

原创 PyCaret和Streamlit：快速创建和部署数据科学应用

建立和部署机器学习模型从未如此简单。现在，有许多框架和库帮助我们仅用几行代码来构建机器学习模型，PyCaret是最好的工具之一，而最近非常流行的Streamlit可用于快速创建和部署Web应用程序。在本文中，我们将使用这两个库来创建一个数据科学Web应用程序。我们将使用PyCaret构建葡萄酒质量分类器。接下来，使用Streamlit创建和部署葡萄酒分类器。您将惊讶于构建分类器并部署Web应用是如此简单和快捷。让我们开始吧！本文来自《数据黑客》，登录官网可阅读更多精彩资讯和文章。加载和预处理数据我们

2020-12-28 09:42:02 1164

原创量化策略：基于波动率范围指标的反向交易策略

金融时间序列非常复杂，我们需要许多变量来理解和解释它们。只有这样，我们才有机会预测价格并从中获利。在本文中，我将介绍一个新的技术指标，称为波动范围指标（VRI），该指标使用波动率，动量和范围的概念来生成高质量的交易信号。波动范围指标（VRI）VRI是一个相对复杂的指标，由三个要素组成：波动率由历史标准偏差衡量。按收盘价之差衡量的动量。最大-最小范围技术。在将每个部分组合在一起之前，我们将单独讨论它们，将“波动率范围指标”（VRI）全部呈现出来，然后创建交易策略并回溯检验。本文来自《数据黑客

2020-12-27 09:32:56 2375

原创 Julia爱好者的福音，MIT推出用Julia授课的开源计算思维课程

背景Python是AI编程语言无可争议的领导者，有87％的数据科学家使用Python。但正如很多编程语言（COBOL, ALGOL, BASIC）已经消亡一样，谁也不能保证Python能够永远流行。人工智能专家和Kaggle的前总裁杰里米·霍华德曾表示：“Python并不是机器学习的未来”。简单来说，原生Python太慢，性能开销太大。Julia速度更快，具有精心设计的类型系统和调度系统，在未来的AI世界中具有巨大的潜力。MIT的Julia课程MIT（麻省理工学院）最近宣布了免费的在线计算思维课

2020-12-26 08:15:03 687

原创 Python编程：用装饰器并行化函数

如果您可以通过在函数中添加装饰器（decorator）来加快程序运行速度，那会不会很酷？如果您不必担心并行运行列表中的数据，这会很酷吗？今天，我们将要编写一个python装饰器，该装饰器会自动添加函数的并行功能，这样您就可以将更多精力放在代码的逻辑上，而不必担心多线程问题。在开始之前，先了解python多线程的一些基础知识。用装饰器并行化函数的起点是针对IO密集型任务，例如API调用，DB调用，打开文件，等待数据流，从网站下载文件等等。通常的做法是使线程数等于系统中可用的CPU数。这只是一个标准，

2020-12-26 08:13:34 432 2

原创数据工程：如何用Apache Airflow构建数据管道

数据管道（Data Pipelines）难以构建和管理，因此最好使用特定的工具来帮助我们完成任务。Apache Airflow是一个非常流行的开源管理工作流平台，在本文中，您将学习如何使用它来自动化第一个工作流。本文假设您已经知道如何创建和运行Bash和Python脚本。本教程使用Ubuntu 20.04，并安装了ImageMagick，tesseract和Python3。如何准备工作流一个重要的概念是，您将仅使用Airflow来自动化和管理任务，因此必须设计工作流并将其分解为Bash或Python脚

2020-12-25 09:40:15 513

原创数据科学：7个步骤解决任何数据科学问题

1. 入门在外人看来，数据科学似乎是一门庞大而模糊的学科。当今的数据科学专家并没有上大学以获得数据科学学位（尽管现在许多大学都提供这些课程）。第一代专业数据科学家来自数学，统计学，计算机科学和物理学等学科。数据科学的“科学”部分是提出问题，生成假设，检查证据并制定解释证据的模型。这些是任何人都可以学习的技能，并且比以往任何时候都有更多的资源来学习。最好的资源之一是Kaggle 。他们的数据科学竞赛为所有人提供了一个挑战真实项目的平台。围绕这些挑战而形成的社区也是向他人学习的好地方。当我从物理学家

2020-12-24 11:00:01 1163

原创量化策略：如何用均线生成反转信号

移动平均线（Moving Average）是最简单的技术指标之一，它能够快速且有效地帮助我们进行交易和分析。在本文中，我们将从不同的角度讨论均线交叉的概念。我们通常将短期均线和长期均线交叉作为交易信号，如果我们想从均线交叉中提取更多信息，可以创建一个新指标，包含多个信号的生成过程。该指标非常容易计算和理解，我们将在下面详细介绍。本文来自《数据黑客》，登录官网可阅读更多精彩资讯和文章。关于均线交叉移动平均线有助于确认并把握趋势。它们是最著名的技术指标，使用简单且可靠。我们可以用均线来确定支撑和阻力位，

2020-12-20 09:18:52 1513 1

原创如何用Python装饰器函数实现重试策略

实现重试装饰器可以防止意外的异常。人们通常将Python描述为“胶水语言”。在我看来，“胶水”意味着一种语言能够连接系统，确保数据以正确的格式从A点达到B点。我用Python构建了无数的ETL脚本（Extract, Transform, Load）。所有这些脚本基本上都按照相同的原理运行，从某处提取数据，转换数据，然后运行最终操作。最后的操作通常意味着将数据上传到某个地方。现代科技公司的基础架构中越来越多的一部分正在迁移到云中，这意味着您可能需要从某个地方提取数据或在非本地计算机上写入数据。当处理的

2020-12-18 07:31:27 472

原创量化策略：如何用分形指标检测市场顶部和底部

有效的市场假说无法解决金融资产中的许多异常现象和反复出现的可利用模式。这就是为什么与被动投资相比，主动投资组合管理仍是主导方的原因。金融市场不是完全随机的，而是类似随机的，即它们显示出低的信噪比。换句话说，很难预测市场，甚至很难持续获利。但是，“很难”一词并不意味着不可能。在本文中，我们将学习混沌理论及其在金融市场中的定义。然后，我们将开发一个指标，该指标使用的公式接近于“重标范围”计算，该公式通常与分形数学（fractal mathematics）有关。本文来自《数据黑客》，登录官网可阅读更多精彩资讯

2020-12-18 07:29:19 1706

原创数据工程：建立可靠数据管道的15个原则

我作为数据工程师学习到很重要的经验是，任何数据管道（data pipelines）在某个时刻都会失败。连接断开，依赖关系断开，数据到达时间太晚，或者外部API无法访问等。发生故障的原因很多，但是无论如何，我们都可以采取措施来减轻数据管道故障的影响。本文来自《数据黑客》，登录官网可阅读更多精彩资讯和文章。1. 区分初始数据摄取和常规数据摄取每当我们集成新的数据源时，通常都需要将整个历史记录加载到集中式存储库中。然后，对于日常业务，我们将创建仅吸收新数据的管道，并且有可能会丢弃初始摄入的代码。想象一下，

2020-12-15 10:15:11 257

原创 3个独一无二的机器学习Python库

Python有大量广泛应用于数据科学的软件包，其中部分工具旨在实现机器学习算法。我将介绍一些新的软件包，您以前可能从未听说过这些工具，或者用得很少。这些库使机器学习算法的选择变得更快和更容易。如果您想了解更多重要的机器学习Python库，请继续阅读，它们并不是scikit-learn，TensorFlow。我们将讨论PyCaret，pickle和Imbalanced-learn。本文来自《数据黑客》，登录官网可阅读更多精彩资讯和文章。PyCaretPyCaret能够用更少的代码来实现机器学习算法，选择

2020-12-13 09:40:39 233 1

原创量化策略：如何利用自回归模型构建日内高频策略

我非常喜欢Ernie Chan写的量化交易的书籍：《Quantitative Trading》，《Algorithmic Trading》和《Machine Trading》。书中有一些很棒的见解，但是我最喜欢的是对各种策略进行简单而透彻的讲解，以及可以用来研究和交易的量化工具。Ernie明确指出，书中的示例无法用于实盘交易，但它们无疑为后来者提供了指引。《Machine Trading》介绍了一种基于自回归模型的外汇日内交易策略，它的净值曲线非常吸引人，所以我决定深入研究一下。本文来自《数据黑客》，登

2020-12-12 09:40:55 1933

原创量化策略：如何利用死猫反弹获利？

股市遭受重挫后会发生什么？本文发现，股市重挫后往往会发生“死猫反弹（dead cat bounce）”，但接下来第二天会继续下跌。针对国际市场，我探索了一种交易策略，旨在从死猫反弹后的行情中获利。本文来自《数据黑客》，登录官网可阅读更多精彩资讯和文章。什么是死猫式反弹？大多数交易员都熟悉“死猫反弹（dead cat bounce）”：在股票价格大幅下跌后短暂的反弹修正，随后继续进一步下跌。但是什么时候价格会反弹，什么时候会重回下跌通道呢？使用美股的日图价格数据，我研究了单日跌幅在-10％或以上的所有

2020-12-10 07:11:51 1216

空空如也

空空如也