8 李博Garvin

尚未进行身份认证

我要认证

Dancing with data

等级
TA的排名 1k+

解析:IEEE批准首个联邦机器学习框架标准

最近1个多月内出现了一个可能对后续人工智能行业有着深远影响的事件,现在这件事件还没有发酵起来,是因为联邦学习还没有真正步入企业生产行列。这个事件就是IEEE批准了国际首个联邦机器学习框架标准。《IEEE Approved Draft Guide for Architectural Framework and Application of Federated Machine Learning》这个标准的介绍文档大家可以在这里去买:https://www.techstreet.com/ieee/stan

2020-09-29 20:21:01

浅谈湖仓一体化对上层机器学习业务的促进

背景概述最近湖仓一体化的概念在大数据圈子突然蹿红,知乎上很多大神已经分析了湖仓一体化主要的革新点,今天主要介绍下湖仓一体化对机器学习业务的影响。还是简单讲下“湖”和“仓”的区别。湖有点像一个开放的储物空间,可以存放结构化数据、非结构化数据、半结构化数据,存储成本很低,很灵活。仓更像是一个有无数小格子的储物间,所有数据需要按照要求放到小格子里。湖的优势是很灵活,什么样的数据直接扔进去就好了,但是如果想查某个结构化数据,甚至做ETL工作,就会效果很差,因为所有数据都是随机摆放的。仓的优.

2020-09-19 22:08:38

解析KDTCN:知识图谱和深度学习模型联合实现股票预测

背景概述今天看了一篇论文我觉得挺有意思,一方面是讲的股票预测相关,另一方面是把深度学习和知识图谱相结合解决一个问题。通常知识图谱和深度学习很少有交集,一般是独立发展的两个人工智能领域解决问题的手段,两者如何一起解决问题呢?这个也引发了我的好奇心,因为一直对知识图谱这个领域念念不忘,在《机器学习实践应用》最后一章还要特意加入知识图谱的内容。论文的名字叫:<Knowledge-Driven Stock Trend Prediction and Explanation via Temporal Co

2020-09-12 16:51:10

黄金价格预测:如何将时序数据处理成监督学习数据

背景概述今天介绍下如何将时序数据处理成监督学习可用的训练样本。比较典型的场景是黄金的原始数据,一般黄金走势数据是由两个字段组成,分别是时间字段和价格字段。走势图如下:顺便安利一个黄金数据的下载网址:https://fred.stlouisfed.org/series/GOLDAMGBD228NLBM数据滑动窗口原理那这种时序数据如何转换成包含特征和目标列的监督学习训练样本呢?今天介绍一个叫“数据滑动窗口”的方法。在数据滑动窗口这个方法中,把当前日期叫做t,前一天是t-1,后一

2020-09-08 10:55:58

微信公众号文章质量评分算法详解

作为一个多年的微信公众号作者,了解微信公众号文章打分的机制是十分有必要的。微信在后台其实有一整套的打分机制,今天基于腾讯的这篇Paper《Cognitive Representation Learning of Self-Media Online Ariticle Quality》为大家介绍下文章质量打分背后的算法理论。在这篇paper中其实重点分享了两个方面,一方面是文章质量分的深度学习模型设计方法,另一方面是训练数据的构造法。1 文章质量分模型架构设计方法整个模型的设计分为两层,第一层是

2020-08-25 17:16:21

开源在线机器学习Online Learning/Incremental Learning库-creme介绍

最近在学习实时机器学习或者说增量学习相关的内容,目前中文资料相关的介绍非常少,今天借着creme这个库介绍下Online Learning的原理,以及Online Learning和Batch Learning的一些区别。1 Online Learning和Batch Learning的区别Batch就是目前常用的计算模式,需要离线数据,离线训练,离线评估,然后上线。离线的好处就是比较稳定,可以用大的数据量去训练和评估,如果模型效果不好也方便替换。OnlineLearning更多地是一个实时

2020-08-13 19:51:29

详解下一代神经网络-无监督对比学习框架SimCLR

背景今天介绍下SimCLR,也是Hinton老爷子在今年提出的工作。首先介绍下为什么下一代神经网络需要无监督对比学习。目前整个人工智能行业的落地,其实都依赖于监督学习模式,无论是OCR、ASR、TTS、ImageDetection,如果没有大量的标注,是很难训练出商业化程度的模型的。这个模式需要被打破,因为世界上存在太多的未知场景,完全依赖人肉标注是不行的。所以未来无监督学习大势所趋。其实在这方面之前已经有了一些工作,比如Bert模型,就可以基于大量的unlabeled数据训练,然后在小...

2020-08-09 20:09:11

浅析人类最贵、最大的机器学习模型GPT-3及背后隐含的商业逻辑

GPT-3一诞生就成了业内议论的焦点,因为这个模型大概是目前人类历史上最大且最贵的机器学习模型。究竟有多大呢,这个模型有1750亿余个参数,虽然OpenAI没有开源这个pre-train的模型,但是可以预估模型体积在700G左右。这是什么概念,就是假设OpenAI把这个模型放出来开放下载,也很少有机构有能力让这个模型serving起来。那这个模型有多贵呢,训练它用了3640petaflops-day,相当于每秒钟做千万亿次浮点运算,计算了3640天。约等于500个A100卡算1个月,实际消耗的计算资

2020-08-05 17:37:06

浅谈最广泛应用的金融风控算法-评分卡

背景信用是一切社会金融体系的根本,有了每个人的信用我们才可以进行放贷、共享充电宝、共享单车等业务。如果可以准确的给每个社会成员的信用做一个打分,将对金融业务的推进有很大作用,很多相关业务的企业也在探索如何实现信用分。目前业内最通用的方案是评分卡算法,这个算法底层其实就是简单地二分类模型,将逻辑回归或者xgboost进行封装。但是为什么不能直接使用xgboost甚至深度学习算法做信用评估呢?因为金融业务有自己的特殊性,要求模型需要有强解释性,所以评分卡解决方案经常包含分箱和评分两个模块。就是.

2020-08-03 20:26:57

详解TF-Ranking:Google开源的排序框架,应用于邮件检索、推荐系统等场景

今天分享的是一个有关LTR框架的介绍,LTR是Learning-To-Rank,解决的是排序问题。排序问题在人工智能领域应用很广,比如在Gmail里搜索一个关键词,返回最匹配的邮件。再比如进入Google Drive后的一些文章推荐。傲海的分享主要参考Google2019年发布的一篇论文《TF-Ranking:Scalable TensorFlow Library for Learning-to-Rank》,蛮长的,看了小一周才学习完。这个库已经开源了,大家可以在下方地址访问并使用:https://

2020-07-26 11:24:16

Google AutoML最新技术解析:AutoML-Zero,从0构建模型

AutoML是我一直很关注的领域,也实际设计过相关的很多功能,但是目前AutoML在商业化层面落地的还不多。一个关键因素是AutoML现在在Feature生成或者调参方面有一些应用,但是这些应用更多地是建模的辅助。目前的AutoML技术很难实现从0构建一个算法。如果AutoML希望大规模的应用,一定要在NAS,也就是网络探索上有建树。这也是Google最新发表的这篇文章的原因,他提出AutoML-Zero,从零起步去构建算法。接下来作者会给大家分享下一些看法。定义算法生成的流程这篇论文比较有意思的一

2020-07-17 17:25:30

最全推荐系统Embedding召回算法总结

最近特别忙,工作日几乎没什么时间学习。平时攒了一堆推荐相关的文章,趁周末整体学习了一下。主要是参考了网上的一篇技术文章(迄今为止我看到的比较好的推荐Embedding总结)以及我自己的一些理解。​Embedding概念首先一些概念性的内容要科普下。推荐系统分召回和排序,召回为将每个用户找出他可能喜欢的物品的候选集,排序是对候选集按照用户的喜爱程度进行排序,最终得出给用户推荐的结果。在推荐系统的召回阶段,需要对每个用户和每个被推荐物品做数学层面的表示,目前比较主流的方法是通过向量,也就是Em.

2020-07-05 12:14:36

互联网男士穿搭推荐-2020年新版

本文仅限互联网行业。因为根据我混迹本行业多年的经验,大部分同学的穿搭都有待提升,特别是程序员。另外,因为互联网行业对于着装没有什么要求,所以本文以休闲服饰为主。所有介绍的品牌都是作者自己平时经常穿的牌子。不能帮大家变成潮男,可以让大家穿的稍微阳光点1 开篇首先,挑衣服就跟选基金一样,要先挑基金经理,然后买这个对应基金经理的基金就ok了。穿搭一定要先选品牌,选好自己喜欢的牌子,再挑这些牌子下的各种款式的衣服。另外,轻易不要网购,最好实体店购买。这样可以搭配同一家店的多件衣服,挑上身效果比较好的。而

2020-06-24 23:08:28

实操将TensorFlow模型部署成Docker服务化

背景深度学习模型如何服务化是一个机器学习领域工程方面的热点,现在业内一个比较主流的做法是将模型和模型的服务环境做成docker image。这样做的一个好处是屏蔽了模型对环境的依赖,因为深度学习模型在服务的时候可能对各种框架版本和依赖库有要求,解决运行环境问题一直是个令人头痛的事情。将模型通过docker服务化后意味着深度学习模型可以在各种环境使用,比如云端直接通过k8s调度拉起,或者在一些IOT领域,比方说一些智能摄像头也可以通过拉起镜像服务的方式使用模型。看来一些网上的资料,发现大.

2020-06-19 17:49:22

浅谈主动学习(Active Learning)

1背景概述在机器学习领域有很多学习模式,比方说监督学习、半监督学习、强化学习、无监督学习等。平时大家接触比较多的一般都是监督学习,在监督学习里面,比方说要做个人和鱼的图像分类模型,假设有200张图片,那就需要把这200张样本都打好标记再训练。监督学习存在很多问题,比如最直接的一点,当样本打标成本很高的时候,比如要标记一个人脸,可能需要在图片上打上百个点,用监督学习很消耗资源。主动学习(Active Learning)很好地解决了这个问题,主动学习的本质是让训练样本的利用率最大化,今天就来介.

2020-06-18 17:25:08

开源机器学习模型管理工具DVC介绍

算法工程师往往在使用算法的过程中要不断地调整参数去找到最好的效果,俗称“调参民工”。在不断的调参过程中,会产生各种各样的模型,如何记录好这些参数与模型效果对应的关系,往往另算法工程师很头疼。所以大家都在呼唤一款实用的模型管理工具,因为有了版本管理机制才能更好的做效果比对,甚至多人协同开发。今天就介绍一款开源的模型管理工具-DVC:https://dvc.org/doc/tutorials/get-started/experiments1模型版本控制的误区在设计模型版本管理功能的时候有一个误区,.

2020-06-05 18:23:41

支付宝扫一下就能体验的深度学习模型

背景我们最近跟支付宝合作做了一款应用,挺有意思的分享给大家。这个产品好玩的一点就是把ToB产品赋予了ToC的属性,任何没有算法背景的同学,只要做简单的标记就可以生成一个图像相关的模型,拿支付宝扫下二维码就可以体验效果。不信拿出你的支付宝扫下这个二维码打开应用,然后在应用中扫下下面这个图你会发现图像模型自动的识别出了名为BANGO的小吃,并且在画面中框了出来,像下图这样,是不是很好玩。自己动手搞一个制作这样的一个模型只需要10分钟,最近公测免费,并且不需要任何算法背景.

2020-05-22 17:01:36

独家解析英伟达最新GPU-A100对AI行业带来的影响

最近英伟达发布了最新GPU-A100,当我们先后经历了K系列、M系列、P系列、V系列之后,这一次的A系列发布又会带来哪些影响,未来行业的走势如何,新入行的同学究竟选择哪个领域入门比较合适。今天我将从3个方向为大家一一剖析, 计算力变强了,会给行业带来什么影响 计算力变便宜了,会给行业带来什么影响 英伟达的野心在哪里,对行业有什么影响 1 计算力变强的影响这次新的GPU在算力方面变强的幅度是比较夸张的,根据官方数据显示,在Bert模型的场景下,训练和预测都有大幅度的提升。

2020-05-16 17:42:41

运筹学vs机器学习

在西方一些国家,运筹学是非常热门的一个领域,很多公司都会保留大量的运筹学专家。但是在国内,运筹学理论除了在考研中有一些声音,在企业的业务中的应用还不算多,特别是相比于算法工程师的数量,运筹学专业的从业者相对较少,后续随着工业数字化的提升,运筹学一定会成为热点业务交叉度运筹学研究的问题可以归纳为:“依照给定条件和目标,从众多方案中选择最佳方案。”所以也有人称之为最优化技术。机器学习研究的问题是如何从历史的经验数据,通过数据建模的方式生成经验模型。从业务角度来看,运筹学和机器学习有很大的交.

2020-05-14 19:48:08

浅析Faiss在推荐系统中的应用及原理

之前在业务中应用了许多Faiss,也看了几篇关于Faiss的论文,简单记录下Faiss的一些属性和应用。Faiss是Facebook的AI团队开源的一套用于做聚类或者相似性搜索的软件库,底层是用C++实现。Faiss因为超级优越的性能,被广泛应用于推荐相关的业务当中。接下来分Faiss在推荐业务应用和Faiss的基本原理两部分进行介绍。1Faiss在推荐业务中的应用在我的认知里,基本上5...

2020-05-05 19:47:37

查看更多

CSDN身份
  • 博客专家
勋章 我的勋章
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 学习力
    学习力
    《原力计划【第二季】》第一期主题勋章 ,第一期活动已经结束啦,小伙伴们可以去参加第二期打卡挑战活动获取更多勋章哦。
  • 原力新人
    原力新人
    在《原力计划【第二季】》打卡挑战活动中,成功参与本活动并发布一篇原创文章的博主,即可获得此勋章。