• 等级
  • 1131513 访问
  • 260 原创
  • 40 转发
  • 1540 排名
  • 627 评论
  • 619 获赞

最核心的特征工程方法-分箱算法

分箱算法简介先来讲讲什么是分箱算法,根据字面意思就是把数据按照不同的规则分到不同的箱子里。其实分箱是特征工程的一种,可以理解为一种连续数据变为离散数据的建模方式。举个直观的例子,比如有一组连续数据,比如为25,14,68,43,63。假设数据的分箱逻辑是大于50为0,小于50为1,那么最终数据会变成1,1,0,1,0,数据就离散化了。当然分箱有很多方式,大致作用就是把连续数据按照一定...

2019-03-22 16:04:00

把广告投给你要几步,一文带你了解广告业务

互联网发展了好几十年,其实真正沉淀下来的变现方式非常有限,广告无疑是所有流量变现的首选。整个广告的模式其实比较复杂,成熟的广告系统里面会大量应用算法,今天大家粗浅的分享下广告行业中的一些业务特点首先,从广告这个业务的人群角度,分为广告平台、广告消费者以及广告主。 广告消费者:互联网上的每个人都是广告消费者,打开优酷视频,会先看到一段广告。在百度搜索一些内容,也会看到很多广告 广...

2019-03-22 16:00:51

机器学习去除马赛克案例(代码)

知道步兵和骑兵的区别么,步兵是没“码”的。今天就给大家介绍一种去码的方法背景概念 废话不多说,先看下效果:上图中的左边的图有很多干扰,右边是经过本文要介绍的方法所处理后的结果。从图片去码的原理来讲,在深度学习领域大致有两种方法: 学习法,就是通过大量代码的图片放入神经网络进行训练和学习,让神经网络可以学习到图片打码的一些特征,从而生成一个可以去掉码的模型。这种...

2019-02-13 16:04:33

为什么产品经理总被吐槽是”水货“

最近年底了,总参加各种聚餐,作为一个产品经理经常会听到各种UED、开发、运营的吐槽,大体内容是我们那又来个产品经理,实在太水了,你要是来我们那比他强太多了之类的话。今天就为大家分析下产品经理为啥会水~空降的产品经理最易水空降的产品经理就是部门缺人,从外面社招的,校招就不提了,基本上校招来的大家也不会抱太高期望。空降的产品基本上十个有八个会被吐槽水,如果是转行的那种,比如本来做BI产品转化做...

2019-01-29 18:23:24

Online Learning场景下实时新闻热点机器学习训练实践

(机器学习PAIOnlineLearning模块上线邀测,目前只支持华北2(北京)区域使用,本实验会用到流式机器学习算法)PAI地址:https://data.aliyun.com/product/learn邀测申请地址:https://data.aliyun.com/paionlinelearning打开新闻客户端,往往会收到热点新闻推送相关的内容。新闻客户端作为一个承载新闻的平台,实...

2019-01-28 14:01:45

深度学习脱掉图片人物的裤子【python教程】

效果演示本文案例使用的是开源项目instagan,是一种比较新的gan模型建模原理,来自2019年ICLR的论文,下面看下效果对照:(出于人道主义,会把人物的长裤脱掉然后换上短裙)环境配置首先玩这个模型需要两个前提条件: 有梯子 python3.6版本 有GPU环境(因为源代码是要求必须在GPU的Cuda环境下运行,如果没有GPU的同学推荐用PAI里面...

2019-01-15 19:12:17

推荐系统之信息茧房问题

前两篇推荐相关的文章得到了不错的反响,也获得了知乎的推荐(知乎id:GarvinLi),今天来讲下信息茧房,这个词可能很多同学比较陌生,但也是推荐系统必须要克服的问题什么是信息茧房信息茧房其实是现在社会一个很可怕的现象,从字面意思来看的话其实比喻的是信息被虫茧一般封锁住。这个问题反映了现在随着个性化推荐的普及衍射的一个社会问题。 平时在浏览新闻或者淘宝的时候,平台会自动根据用户...

2018-12-26 16:42:30

推荐系统之业务架构总览

前言前一篇介绍了推荐系统冷启动的问题,既然已经coldstart了,这一节就大致讲下新闻推荐系统的业务架构,也就是新闻推荐系统需要有哪些模块组成,每一个模块的职责是什么。 首先看下整个新闻推荐系统大图,今天这篇文章就是为大家讲解这张图的具体含义和相互关系,今天主要是介绍大概最为开篇,接下来会有一系列文章介绍图中每一部分的策略。(画图不容易版权相关,转载请注明出处~)图中红...

2018-12-18 10:33:58

推荐系统之冷启动问题

前言冷启动问题同比于启动车辆,通常车正式开启之前需要有热车阶段,这个过程就是冷启动过程。冷启动在推荐系统也是常见的问题,大家知道类似于抖音、淘宝等工具,都会根据用户的兴趣去推荐内容,如果一个新用户进来,系统完全不清楚他的兴趣,该如何推荐呢?这就是本文要给大家介绍的内容。 冷启动对于一个推荐系统是至关重要的,因为新用户最初使用APP阶段也是这名用户最可能卸载APP的时候,如果新用户进入产...

2018-12-13 16:40:19

谈谈对搜索技术Elastic Search&Lucene的理解

前言十一一直陪家人,所以也没时间写文章。最近刚好赶上ElasticSearch上市,其实在圈子里还是挺轰动的,因为这个也是少数的靠卖开源软件服务上市的公司。大家都知道ES是做搜索服务的,今天就聊聊我对搜索的认识从业务属性讲搜索的话,其实是大家接触最多的一类业务。其实说机器学习,其实是一门技术,而搜索是一项业务,机器学习可以应用到搜索业务中去,同时中间件技术、数据库技术等都跟搜索密不可分。...

2018-10-09 12:24:02

白话异常检测算法Isolation Forest

前言好久没讲算法了,今天分享一个异常点检测算法IsolationForest。之前也是没听说过这个算法,中文名叫孤立森林,听客户讲了就顺便查了下这个算法的论文,感觉还是非常有用滴。论文地址:http://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/icdm08b.pdf异常检测的概念首先聊下什么是异常检测,异常检测就是发现一堆数据中的异常点...

2018-09-29 10:03:32

流式机器学习算法的入门和认知

一些些背景其实技术总在更新,做这个行业也是一直要走在学习并适应的路上,这也是人工智能领域最吸引我的地方,其实基础的理论是不变的,但是随着业务的发展,计算能力的发展,上层的实现总是在迭代,今天讲下我对于流计算的一些认知。先聊下计算引擎的进化,随手画了上面的图。其实第一代分布式计算引擎是Hadoop,这是一个跨时代的创造,人们使用Hadoop的MapReduce框架实现了许多的算法,这些算法也发...

2018-09-18 09:38:36

机器学习根据文字生成图片教程(附python代码)

背景其实在过往我们生活的世界里,当人们需要获取信息的时候,更多地强调的是信息的检索和遍历,意味着去已经存在的物品中找到自己合适的。在我看来这是一种很低级的生活形态,比如我的意识中有一个某种图案的杯子,想要它,只能打开淘宝根据标签去找已经设计好的款式有没有相近的,而不能直接根据我的想法自动生成一个我需要的杯子。又比如,我想要一张猫正在喝水的照片,只能去搜索引擎里去根据关键词搜索已经存在的...

2018-09-05 17:41:48

AutoML功能解析

背景介绍如果你用过机器学习算法,那一定体验被算法调参支配的恐怖。面对错综复杂的算法参数,算法使用者们往往要花费无尽的黑夜去不断尝试,犹如大海捞针。有的时候加班到深夜,终于找到了一个靠谱的参数组合,然而找到的参数组合真的是最优的么?天知道。然而在搭建机器学习链路的过程中,往往不止调参这一步耗时耗力。好不容易生成了算法模型,怎么把模型部署成服务供手机、PC这些终端调用也是困扰开发同学的...

2018-08-31 19:41:10

贝叶斯超参优化方法

数学是个奇妙的东西,可以把生活中的一切量化。人生也是个奇妙的东西,起起伏伏,好比一个高斯分布函数。今天就结合一些人生的感悟聊聊贝叶斯超参优化一些些背景很多算法工程师戏谑自己是调参工程师,因为他们需要在繁杂的算法参数中找到最优的组合,往往在调参的过程中痛苦而漫长的度过一天。如果有一种方式可以帮助工程师找到最优的参数组合,那一定大有裨益,贝叶斯超参优化就是其中的一种。如果是单单罗列公式,可...

2018-08-21 13:51:57

由《我不是药神》到互联网行业从业保障

一.影评关于电影本身的内容就不剧透了,总体来看还是一部相当推荐的电影。影片讲的是一个比较敏感的话题,是关乎民生的,个人觉得比战狼这种政治剧要有价值的多。电影本身,无论是从票房考虑,还是从为了过审的角度来说,带有一定的偏向性,偏向的是患病的弱势群体,个人觉得这一点到无可厚非。相信导演是想传递更多内容的,总体看敢于跳出商业片的思维,去讲述一个病患话题的事情,投资方和导演一定是越过了很多障碍才把...

2018-07-08 15:16:53

十行Python代码搞定图片中的物体检测

“Wordisuseless,showmethepic”-MRLu先看下原图:图片表述的是一男一女在散步,后面有一辆车,现在来看下我们通过十行代码实现的效果:我们可以看到,在这幅图中其实有三个“person”被识别出来,包括后面非常非常小的行人,还有一个“car”被识别出来,可以说模型能力基本达到了人眼的能力。现在就来介绍...

2018-07-08 15:14:33

网红女神是怎么诞生的-深度学习图像分割技术

这个技术能干啥咋一说图像分割技术,或者更专业一点的叫法“图像语意分析”技术有哪些用途。大家可能还不一定能马上想出来,其实这个东西正在影响着我们的生活。我也是短视频软件的中毒用户,上面有特别多的美女网红,甚至发现过高中同学长得一般的妹子也成了网红女神。这一切的原因是什么的?就是短视频软件可以很好地将人像抠图,把该瘦的地方瘦,该大的地方大。这种分割技术也能在其它很多领域应用,比如说图像虚化...

2018-06-07 16:17:24

图像拐点检测-原理以及代码实现

今天带来的内容只用两个字形容-干货!!首先我们科普下图像识别的常识,图片在电脑看来,其实就是一个矩阵,每个矩阵中的一个值都对应图片的一个像素点。(下图摘自《机器学习实践应用》)图片中其实是有很多的边以及拐角的,今天要介绍的就是如何通过算法找到图片拐角。  原理其实找到拐角,很简单,就是在图片矩阵中,通过一个移动的窗口去遍历矩阵中的数值,一旦返现有像素变化明显的地方,那就可能是一个拐点。这个过程就有

2018-04-18 19:49:08

5行python代码讲清楚如何在区块链挖矿

之前发了好几篇讲区块链的,还有同学说不懂,今天我就试试用最少的话讲明白挖矿,背景知识可以参考下我之前发的内容。先说下哈希是啥,哈希就是每个东西的唯一标识,比如x的哈希:hash(x)=ga8e9hea7h8ae89h78aeh9r区块链就是一个一个区块,每个区块是一个哈希挖矿就是已知上一个区块链的哈希值,找到与其匹配的下一个哈希值,这个匹配关系可以自己定义,比如上一个区块链的值和下一...

2018-03-28 11:48:07

博客专家

李博Garvin

Dancing with data
关注
  • 互联网·电子商务/产品经理
  • 北京 东城区
奖章
  • 专栏达人
  • 持之以恒