• 博客(18)
  • 收藏
  • 关注

原创 熵简技术谈 | 熵简科技在资管数据中台的探索与实践

导读:数据中台是熵简科技数据智能解决方案中的核心部分。引入数据中台可以打破数据与数据的界限、技术与业务的界限,为业务层的迭代提供更快的数据响应,真正做到业务数据化、数据资产化。熵简科技在长期的实践过程中总结出了一套适用于资管机构的数据中台架构方案。本文将从数据仓库建设、数据管理和开发和数据服务体系三个维度介绍数据中台在资管场景下的落地规范和方案。作者信息:熵简科技 Airworks 团队,团队致力于打造高性能、低代码的一体化大数据分析平台,为机构组织的数据团队及各业务部门人员提供“数据智能全链路”.

2021-11-04 20:00:00 2183

原创 熵简科技联合创始人李渔博士 | 受邀出席智能投研技术联盟(ITL)“自然语言处理”智能技术应用研讨会

李渔,清华大学电子工程系博士(电子科学与技术专业),以第一作者身份发表学术论文10余篇,申请专利6项,致力于将先进NLP技术落地于金融资管领域,让科技赋能产业。

2021-04-16 10:12:17 480

原创 熵简科技联合创始人李渔博士出席DataFun知识图谱在线峰会 | 分享金融资管领域知识图谱的构建和应用

2021年3月27日,熵简科技联合创始人李渔博士应DataFun的邀请出席第一届DataFunSummit:知识图谱在线峰会,与来自复旦大学、百度、华为等大型机构的50余位专家、教授汇聚一堂共话知识图谱核心技术和前沿应用。本次峰会共设知识表示与推理、知识获取、知识图谱与智能推荐、知识图谱与智能问答、工业知识图谱、金融知识图谱、医疗知识图谱、知识图谱与智能创作等八个分论坛,报名参与人数6474,同时在线观看人数30401,李渔博士作为出品人主持了金融知识图谱论坛。

2021-04-09 11:27:18 607

原创 熵简科技 | 面向一体化大数据平台的文件系统架构设计

文件系统作为整套架构的存储基础,提供了对于数据库、数据表等资源的操作和管理,保证了平台对于各个资源灵活、高效的调用,为数据治理、资源安全、数仓搭建、数据模型管理等上层应用提供了底层支撑。

2021-04-01 14:27:51 531

原创 熵简技术谈 | 我们真的需要那么多标注数据吗?半监督学习技术近年来的发展历程及典型算法框架的演进

作者信息:李渔,熵简科技联合创始人,清华大学电子工程系博士,已在国际会议及期刊上发表学术论文16篇,申请专利6项,致力于将先进的自然语言处理及深度学习技术真正落地于金融资管领域,让科技赋能产业。导读:即使在大数据时代,获取大批量高质量的标注数据在实际中往往成本高昂,半监督学习技术作为一类可以同时有效利用有标签数据和无标签数据的学习范式,有希望大大降低监督任务对于标签数据的需求。文本从 2013年所提出的 Pseudo-Label 开始,至 2020 年 CMU 所提出的 MixText 技术为止,详细介绍

2021-01-15 17:45:00 781 1

原创 知识图谱的皇冠:知识图谱推理的前世今生

作者信息:费斌杰,熵简科技创始人兼CEO,长期深耕金融资管数据科技一线,对数据中台、知识图谱的技术实践和产业应用有深入理解,曾就职于嘉实基金,毕业于清华大学五道口金融学院、清华大学工业工程系。导读:业界和学界对知识图谱的关注主要集中于两大领域,分别是知识图谱的构建和知识图谱的应用。前者聚焦于通过对结构化、非结构化数据的整合,实现统一形式的数据存储;后者则着眼于通过算法对海量知识图谱数据进行学习与挖掘,从而推理出新的知识,服务于具体行业应用。知识图谱推理在其中发挥了重要作用,被誉为知识图谱领域的皇冠。本

2020-12-31 15:37:21 499

原创 熵简技术谈 | 大数据量场景下图表组件的设计与思考

导读:随着信息技术的发展,各种业务场景下数据量、数据维度极速增长,对于如何挖掘数据价值、找出数据之间关联的需求不断增加。BI(商业智能)平台通过用户拖拽等快捷交互,以可视化的方式实现多维度的数据整合和展示,从而辅助用户进行智能分析、业务决策。本文以大数据场景下图表组件设计为研究对象,详细介绍了熵简科技在数据智能分析场景中,为实现复杂功能交互、大数据量下的高性能渲染、动态样式配置等需求,在图表组件设计及优化中的实践经验。作者:本文出自熵简科技大前端团队,团队致力于打造世界级的B端产品。主要工作包括搭建先进

2020-12-25 18:16:12 291

原创 熵简技术谈 | 金融情绪分析真的有用吗?一起来看金融情绪分析的研究进展及应用实践

导读:随着近十年来自然语言处理技术以及互联网社交媒体的发展,基于市场情绪提取的金融分析作为一项主要的技术手段,已经被广泛的研究并应用到多种实际的投资辅助决策系统中。在这篇文章中,熵简科技的NLP团队将会对金融情绪分析这个重要的应用方向进行全面的介绍,重点对金融情绪分析的发展历程及其有效性、主要技术手段和最新的应用案例进行详细的论述和讨论。作者信息:文本出自熵简科技 NLP 算法团队,团队利用迁移学习、少样本学习、无监督学习等深度学习领域最新的思想和技术,为熵简科技各大业务线提供底层 AI 技术支持和可落

2020-12-22 16:08:59 1641 4

原创 熵简技术谈 | 私有化部署方案的演进

作者信息:本文出自熵简后台团队,团队致力于为熵简科技各产品线构建高可用、易扩展、低运维的后台系统,并逐步构建起统一、灵活的大后台架构,帮助各研发团队实现快速、高效的产品开发。导读:熵简科技在近年的金融企业服务的过程当中,随着业务的高速发展,对于私有化部署方案也经历了多次升级,基于 DevOps 的思想,如 DRY (Don’t Repeat Yourself)、SSOT (Single Source of Truth)、CaC (Configuration as Code)、IaC (Infrastruc

2020-12-15 18:39:46 1295

原创 给你的数据加上杠杆:文本增强技术的研究进展及应用实践

作者信息:文本出自熵简科技 NLP 算法团队,团队利用迁移学习、少样本学习、无监督学习等深度学习领域最新的思想和技术,为熵简科技各大业务线提供底层 AI 技术支持和可落地的解决方案,包括前沿算法的领域内落地以及持续部署的后台支持等。导读:本文摘自熵简科技NLP团队的内部技术沙龙,文章系统性地回顾了自然语言处理领域中的文本增强技术在近几年的发展情况,重点列举和讨论了18年、19年中人们常用的五类文本增强技术路径以及对应的代表性技术。接下来,文章以金融领域的自然语言处理任务入手,多维度地分析几类通用文本数据增

2020-12-10 11:20:29 466

原创 资管科技的明珠:智能投研3.0体系构建导论——价值、定义与方法论

**作者:**金箫,北京熵简科技有限公司联合创始人,深耕资管科技,专注于数据中台在金融领域的落地与智能投研整体解决方案的业务架构设计;曾任职于中信证券股份有限公司 ,清华大学五道口金融学院金融硕士 、中央财经大学金融学士。**导读:**资管科技被称为金融科技的下半场,涵盖投研、交易、风控、营销等多场景;其中智能投研因其业务地位的核心性,可谓是“资管科技的明珠”。我们认为,“智能投研”的核心目标,是通过“数据中台”和“知识图谱”,将“HI”与“AI”有机结合,系统性的对抗个体相较于市场的信息不对称与认知不对

2020-12-04 11:03:41 2146

原创 熵简科技 AI Lab 开源金融领域中文预训练语言模型 FinBERT

作者信息:熵简科技 AI Lab 团队,团队利用迁移学习、少样本学习、无监督学习等深度学习领域最新的思想和技术,为熵简科技各大业务线提供底层 AI 技术支持和可落地的解决方案,包括前沿算法的领域内落地以及持续部署的后台支持等。一、背景及下载地址为了促进自然语言处理技术在金融科技领域的应用和发展,熵简科技 AI Lab 近期开源了基于 BERT 架构的金融领域预训练语言模型 FinBERT 1.0。据我们所知,这是国内首个在金融领域大规模语料上训练的开源中文BERT预训练模型。相对于Google发布的原

2020-11-17 17:10:38 801 1

原创 熵简技术谈 | 实时OLAP引擎之Apache Druid:架构、原理和应用实践

在熵简数据智能解决方案中,其中离用户最近的一环,是利用数据中台对外提供的数据服务做数据分析。在金融、消费、工业等不同领域的场景中,数据分析的维度、方式、需求各不相同,不过其核心都离不开一个实时 OLAP 引擎,向用户实时提供各种维度和度量的上卷、下钻、切片、切块等类型的分析结果。本文以实时 OLAP 引擎的优秀代表 Druid 为研究对象,详细介绍 Druid 的架构思想和核心特性。在此基础上,我们介绍了熵简科技在数据智能分析场景下,针对私有化部署与实时响应优化的实践经验。作者信息本文出自熵.

2020-08-14 17:19:30 809 1

原创 半监督学习在金融文本分类上的探索和实践

垂直领域内的自然语言处理任务往往面临着标注数据缺乏的问题,而近年来快速发展的半监督学习技术为此类问题提供了有希望的解决方案。文本以 Google 在 2019 年提出的 UDA 框架为研究主体,详细探索该技术在熵简科技真实业务场景中的实践效果。本文主要有三方面的贡献。第一,以金融文本分类为案例,探索了 UDA 在真实场景中的效果和不足;第二,探索了 UDA 在轻量级模型上的效果;第三,增加了原始 UDA 论文中未披露或未完成的研究,如领域外数据的影响,错误标记数据的影响。1 背景2 金融领域.

2020-07-13 16:46:32 558

原创 熵简技术谈 | 基于对象存储的离线大数据处理架构和应用实践

导读:熵简科技大数据处理系统目前已经累计完成 3.7 PB 规模的大数据处理和分析,覆盖了超 2000+数据源,涉及丰富的数据类型,如宏观经济数据、电商招聘等另类数据、研报新闻等文本类数据。这背后,是一个处理PB级数据的离线大数据处理架构。本文从离线大数据处理的数据存储选型要点入手,详细介绍如何构建一套基于对象存储的离线大数据处理框架。同时,作为彩蛋,我们在文章最后一部分,介绍了基于该大数据处理框架的电商大数据实践案例,该数据集已被广泛应用于金融投资分析中。作者信息本文出自熵简科技大数据团队,团.

2020-06-17 20:21:41 566

原创 熵简技术谈 | 2B 场景下的前端组件库换肤设计理念与实践

背景前端组件化已经成为一种主流,一种共识。一个统一、规范的组件库,能够不断沉淀设计师的思考、降低设计与开发成本,同时也可以降低用户在不同产品模块之间切换的学习成本,保证产品在不断发展的过程中,用户体验不被打断。熵简科技是一家为企业客户提供数据智能平台的服务商,因此我们团队在构建前端组件库时,除了需要考虑上面的需求以外,同时还要兼容 2B 场景下的业务特征。在2B场景下,很多客户需要对产品进行私有化部署以及定制化改造,客户往往会对设计风格提出与自身公司文化背景相统一的定制化需求,这时就需要我们的组件库能

2020-06-02 11:30:56 402

原创 NLP技术在金融资管领域的落地实践

导读:在数字化浪潮的大背景下,金融资管行业的先行者正在积极探索将人工智能、大数据等先进技术用于构建面向未来的智能化投资研究平台。本文将从金融资管领域对于数据智能的需求入手,详细介绍自然语言处理技术在金融资管领域的典型落地实践。针对海量文本的信息挖掘场景,我们利用Transformer、CNN等最新研究成果以及团队自研的 tag2vec 等技术,构建了端到端的文本大数据分析系统,包含了从海量文本智能化采集、文本数据结构化到辅助投资决策的全流程,实现千万级文本数据的采集和快速分析,进而帮助客户进行快速精准的行业

2020-05-26 17:17:18 2516

原创 送你一颗子弹:私有化部署环境中,从零到一搭建开箱即用的基于ELK的日志和指标收集与监控系统

作者 | 熵简科技后台团队背景在当前的项目中,我们已经使用了 Elasticsearch 作为业务的数据储存,同时利用 ansible、docker、jenkins 组合了一套快速部署的工具。在配置好需要部署主机的 ssh 连接信息后,我们可以通过 jenkins 一键部署一个 Elasticsearch 和 Kibana。这套系统遵循以下的设计原则:1.Self-Contained Deployment:我们把所有的部署脚本、配置文件、Jenkins 任务都打包到一个标准化的 Jenkins d

2020-05-13 10:55:41 308

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除