自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

数据产品笔记

聚焦数据的应用场景

  • 博客(135)
  • 收藏
  • 关注

原创 【数据应用案例】阿里巴巴客服助手_人机协作提高客服效率

案例来源:@阿里巴巴机器智能案例地址:https://weibo.com/ttarticle/p/show?id=2309404343904739692374一、背景1. 阿里每天客服进线量大,除了机器客服外,人工客服仍不可避免,提高人工客服效率能保障用户体验2. 客服接入电话主要有三个耗时过程:1)确定会员名;2)确定订单号;3)确定问题&找到解决方案二、...

2019-03-12 22:53:32 1961

原创 【数据应用案例】关系数据的隐私保护

案例来源:@关会华 阿里技术案例地址:https://mp.weixin.qq.com/s/4Eqh4p0j3cDj_0M4VAG-aA 0. 背景:    1)关系数据描述的是实体与实体之间的联系,如人与人之间的交际关系、企业与企业之间的关联交易关系等。通过关系数据可以生成一张大网,也成为网络数据或者图数据    2)关系数据的研究包括子群识别、信息传播、欺诈识别等   ...

2018-11-09 10:15:27 2553 3

原创 【数据应用案例】人群优选算法模型,挖掘品牌潜客

案例来源:@阿里巴巴机器智能案例地址:https://mp.weixin.qq.com/s/OF51cPHD7C3rfw-WW5NA3Q 导读:为A电商做年货节品牌营销,目标是识别目标受众,广告投放后由“机会人群”转向“兴趣人群”的比例更高。解决方案是:第一步:多方向人群扩散。通过兴趣偏好、品类偏好、竞品受众、搜索人群、流失人群、lookalike人群 六个方向获得潜客名单...

2018-10-19 09:23:48 4058

原创 【数据应用案例】基于图像搜索引擎的图文无关识别方法

案例来源:@字节跳动技术团队案例地址:https://www.jianshu.com/p/5bab8008e98e 0. 背景:知乎、悟空问答中,用户的回答配上美女、风景图,能大大提高点击率和点赞率,这样对正常回答的内容不公平,影响排序质量。需要找到一种方法,识别图文不符的内容,降低其排序权重。 1. 传统方法:  1)色情图片识别  2)OCR技术:从图片中识别文字,...

2018-09-28 09:53:54 901 2

原创 【数据应用案例】摩拜骑行数据挖掘违章停车

案例来源:@机器之心作者:Tianfu He、Jie Bao、Ruiyuan Li、Sijie Ruan、Yanhua Li、Chao Tian、Yu Zheng案例地址:https://mp.weixin.qq.com/s/oGSk9Hsu6lbthJjLHF59Hg 0. 背景:随着汽车保有量增加,停车位供不应求,违章停车现象增加。传统的检测违停的方式是交警巡逻和摄像头检测...

2018-09-26 19:33:19 1208

原创 【思考题】新客老客定义

一、问题数据分析的两层模型中,第一层就是对分析对象做细分,然后第二层看指标异动。针对用户的分析中,最常见的细分方式是做“新客/老客”分析,对新客老客的行为、画像进行分析。在实际应用中,发现“新客/老客”的概念有二义,因此做辨析。考虑下面一种场景:某店A顾客1月份第一次到店,以后每月到店1次;B顾客2月份第一次到店,以后每月到店1次;依次类推,如图所示:   ...

2018-09-20 10:59:33 7634 6

原创 【数据产品案例】阿里XSigma智能客服调度平台

案例来源:@阿里技术案例地址:https://mp.weixin.qq.com/s/nqOvcKtxpqehWFO4XkXr5g 0. 背景:以往的客服调度由人工进行,效率低、手段少、无法评测,难以有效应对并发的客服需求(如天猫某个优惠券出了问题,可能瞬间涌入上千通热线) 1. 客服调度的难点:    1)机房可以快速增加设备,客服上岗需要培训    2)客服间差异大,...

2018-09-05 14:13:32 2479

原创 【思考题】类滴滴顺风车业务的风险控制

0. 背景:    1)滴滴顺风车业务在短期内出现多起司机杀害乘客事件    2)专车、快车、顺风车对应的是不同定价水平的“黑车”,该市场长期存在,滴滴等网约车平台只是将其搬到线上。    3)随着专车的网约车牌照审核要求不断提升,一些黑车司机选择顺风车作为获客的来源。同时中国存在许多城镇间交通,这类交通需求出租车、专车不愿意接(过去后很难找到返程的乘客)或者价格昂贵,大巴客运便捷性低...

2018-09-02 19:50:13 2955

原创 【数据应用案例】医院里的男性就是医生,女性就是护士?NLP 模型的性别偏见到底有多大?

案例来源:@WBLUE @Ben Packer @Yoni Halpern案例地址:https://www.leiphone.com/news/201805/UPjA3tnsC9HY4SLx.html;https://chinagdg.org/2018/04/text-embedding-models-contain-bias-heres-why-that-matters/ 0. ...

2018-08-29 09:49:36 909

原创 【数据应用技巧】阿里UC视频推荐优化

案例来源:@阿里技术案例地址:https://mp.weixin.qq.com/s/lb5b-7ImTI0hlFwIBkpqxQ 0. 背景:    视频优化目标    1)感知相关性优化:CTR为目标    2)真实相关性优化:停留时长RDTM/播放完成率PCR    强调感知相关性(CTR)的情况下,会造成用户兴趣收窄、头部流量集中的问题。因此需要引入真实相关性,提...

2018-08-27 09:58:38 1485

原创 【数据应用案例】隐私保护与PATE方法

案例来源:@百度安全实验室 @AI科技评论 @雷锋网案例地址:http://www.freebuf.com/column/147115.html,https://mp.weixin.qq.com/s/k-nACTv7IhTgfevkdDZ8rQ,http://wemedia.ifeng.com/28852972/wemedia.shtml 0. 背景:对于公开的数据集和模型,里面包含了...

2018-08-23 13:05:39 6134

原创 【数据应用案例】美团外卖语音助手

案例来源:@美团技术团队案例地址:https://tech.meituan.com/herenqing_ai_con.html 0. 背景:骑手在配送时打电话有三个困难:    1)决策复杂:什么时候打电话?打晚了影响配送速度,打早了影响用户体验    2)操作繁琐与危险:一次操作手机要5-6个操作,大部分在骑电瓶车的时候使用,很危险 1. 目标:美团外卖语音助手解决方...

2018-08-21 18:59:45 3635

原创 【数据应用案例】根据代码风格识别作者

案例来源:@量子位 @Edwin Dauber @Aylin Caliskan案例地址:https://mp.weixin.qq.com/s/2Jv2TBS_jFrdfRN7rZStLw;https://arxiv.org/pdf/1701.05681.pdf 1. 目标:根据代码,识别代码属于哪个作者。可应用于代码抄袭检测 2. 数据:从github上获取1178个作者的C+...

2018-08-20 13:49:02 527

原创 【数据应用案例】阿里巴巴长标题压缩

案例来源:@阿里巴巴机器智能案例地址:https://mp.weixin.qq.com/s/m31WKGLIe6P2bA02b8uV8Q;https://arxiv.org/pdf/1801.01725.pdf 0. 背景:阿里巴巴平台上的商户为了提高用户搜索中的召回率,会在标题堆砌很多关键词。在手机淘宝的搜索结果中,需要对长标题进行压缩,提高C端用户的体验,提高点击率 1. ...

2018-08-15 13:36:14 605 1

原创 【数据应用案例】DeepMind听声辨位

案例来源:@机器之心案例地址:https://mp.weixin.qq.com/s/ywU4L659iRcmIgmV6RtbXA;https://arxiv.org/pdf/1712.06651.pdf 1. 目标:利用同时具有音频和视频的数据进行训练,进而识别出某段音频是否可能由某段视频产生(如弹吉他、说话、酒杯摔碎),并识别出声音是由哪个部分产生的 2. 匹配音频与视频...

2018-08-14 14:17:31 952 4

原创 【数据应用案例】openFive dota5v5战胜人类

@案例来源:@AI科技大本营 @AI科技评论 @论智@案例地址:https://mp.weixin.qq.com/s/exvP4FucUfeOONsUkyTz7w;https://mp.weixin.qq.com/s/-llCCnFkDypVNiEh4yjNMg;https://www.jqr.com/article/000306 0. 背景:美国时间8月5日,open AI的5v5d...

2018-08-10 12:24:42 642

原创 【数据应用案例】使用时空自编码器检测视频异常事件

案例来源:@阿里巴巴机器智能案例地址:https://mp.weixin.qq.com/s/rUuaaBI3McesED3VVVbsBw 1. 目标:识别视频中的异常事件(如车祸) 2. 难点:正例数据量远远小于负例,同时正例之间的差异性很大,因此难以采用有监督方法进行训练。传统解决方法是使用无监督方法为正常视频建模,然后将异常值视为异常事件。 3. 解决思路:  ...

2018-08-09 14:28:18 2103

原创 【数据应用案例】通过字体识别国籍

案例来源:@量子位案例地址:https://mp.weixin.qq.com/s/m8IQNuCZUCHUUzw1OZEJpg 1. 目标:基于字体,识别国籍(中国、印度、马来西亚、孟加拉国、伊朗五个国家) 2. 数据预处理    1)处理文本图像中的噪点    2)抽取行文本图像 2. 特征工程    1)字母间距离    2)Cloud of...

2018-08-08 10:05:45 456

原创 【数据应用技巧】NLP领域的预训练之风

案例来源:@AI科技评论 @集智翻译组 @人工智能LeadAI案例地址:https://mp.weixin.qq.com/s/NCLkZqdmqY9lm5BhyEcLXQ;https://www.sohu.com/a/233269391_395209;https://arxiv.org/pdf/1801.06146.pdf;http://wemedia.ifeng.com/64207141/w...

2018-08-07 15:17:15 1084

原创 【校招面经】机器学习与数据挖掘常见面试题整理 part9

八十、SVM的核函数from:https://blog.csdn.net/lihaitao000/article/details/51173459SVM核函数包括线性核函数、多项式核函数、径向基核函数、高斯核函数、幂指数核函数、拉普拉斯核函数、ANOVA核函数、二次有理核函数、多元二次核函数、逆多元二次核函数以及Sigmoid核函数. 核函数的定义并不困难,根据泛函的有关理论,只要一种函数...

2018-08-04 22:10:31 1229

原创 【校招面经】机器学习与数据挖掘常见面试题整理 part8

七十六、t-SNEfrom:http://www.datakit.cn/blog/2017/02/05/t_sne_full.htmlt-SNE(t-distributed stochastic neighbor embedding)是用于降维的一种机器学习算法,是由 Laurens van der Maaten 和 Geoffrey Hinton在08年提出来。此外,t-SNE 是一种非...

2018-08-04 21:46:27 1444

原创 【校招面经】机器学习与数据挖掘常见面试题整理 part7

七十、势函数法from:https://www.cnblogs.com/huadongw/p/4106290.html势函数主要用于确定分类面,其思想来源于物理。1 势函数法基本思想假设要划分属于两种类别ω1和ω2的模式样本,这些样本可看成是分布在n维模式空间中的点xk。 把属于ω1的点比拟为某种能源点,在点上,电位达到峰值。 随着与该点距离的增大,电位分布迅速减小,即把样本x...

2018-08-04 21:32:43 912

原创 【校招面经】数据库 part2

七、数据库范式1. 1NF:不存在可以分的属性2. 2NF:每一个非主属性依赖于关系模型的某个候选键3. 3NF:不存在非主属性的传递依赖于关系模型的侯选建4. BCNF:每个属性都不存在传递依赖于关系模型的侯选建1NF: 字段是最小的的单元不可再分2NF:满足1NF,表中的字段必须完全依赖于全部主键而非部分主键 (一般我们都会做到)3NF:满足2NF,非主键外的所有字...

2018-08-04 20:38:27 550

原创 【校招面经】统计与概率基础 part2

十六、对偶问题线性规划有一个有趣的特性,就是任何一个求极大的问题都有一个与其匹配的求极小的线性规划问题。例;原问题为MAX X=8*Z1+10*Z2+2*Z3s.t. 2*Z1+1*Z2+3*Z3 〈=704*Z1+2*Z2+2*Z3 〈=803*Z1+ 1*Z3 〈=152*Z1+2*Z2 〈=50Z1,Z2,Z3 〉=0Z则其对偶问题为MIN =70*Y...

2018-08-04 20:30:08 924

原创 【校招面经】计算机基础

一、java中Array和ArrayList区别1)精辟阐述:可以将 ArrayList想象成一种“会自动扩增容量的Array”。2)Array([]):最高效;但是其容量固定且无法动态改变;     ArrayList:  容量可动态增长;但牺牲效率;3)建议:基于效率和类型检验,应尽可能使用Array,无法确定数组大小时才使用ArrayList!不过当你试着解决更一...

2018-08-04 16:40:03 2220

原创 【校招面经】机器学习与数据挖掘常见面试题整理 part6

六十五、海量的 item 算文本相似度的优化方法 —— simhashfrom:https://blog.csdn.net/chenguolinblog/article/details/50830948背景如何设计一个比较两篇文章相似度的算法?可能你会回答几个比较传统点的思路:一种方案是先将两篇文章分别进行分词,得到一系列特征向量,然后计算特征向量之间的距离(可以计算它们之间的欧氏...

2018-08-04 16:01:10 804

原创 【校招面经】机器学习与数据挖掘常见面试题整理 part5

五十九、计量经济学中的平稳性  六十、高斯混合分布1. 生成模型2. 认为点是由多个高斯分布产生的,每个点可以归入多个类3. 目标是使观测到的点在生成的高斯分布中出现概率最大 在做参数估计的时候,常采用的方法是 最大似然 。最大似然法就是使样本点在估计的概率密度函数上的概率值最大 。由于概率值一般都很小, N 很大的时候这个连乘的结果非常小,容易造成浮点数下溢。...

2018-08-04 15:58:45 616

原创 【数据应用案例】基于机器学习方法与眼球移动信号的性格检测

案例来源:@将门创投案例地址:https://mp.weixin.qq.com/s/HTIykLcgJkW7tfvXF72Y1Q;https://www.frontiersin.org/articles/10.3389/fnhum.2018.00105/full 1. 目标:通过眼球运动判断用户的性格 2. 方法:    1)使用眼动仪收集被试者在生活中的眼球运动   ...

2018-08-03 18:46:10 471

原创 【数据应用案例】atom2vec,通过无监督学习的方式复现元素周期表

案例来源:@量子位 @CoupMF @新智元案例地址:https://mp.weixin.qq.com/s/fOOXBImDHEeweYTcMZ1cBg;https://cloud.tencent.com/developer/news/260987;https://xueqiu.com/3426965578/109607389 1. 目标:让模型学习现有的分子结构式,将同类型的原子归类...

2018-08-01 18:43:50 542

原创 【数据应用案例】担心在机场丢行李?这个日本AI能帮你到处找包

案例来源:@量子位案例地址:https://mp.weixin.qq.com/s/g3JePFenmgt9dRmMuECLDA 1. 场景1-找包:    1)CV识别包    2)追踪各监控中包的移动轨迹,预测包可能丢失的地点 2. 场景2-找人:    1)为了避免侵犯个人隐私,不采用人脸识别的方式是别人,而是根据头发、衣着、背包、身高、鞋子颜色等120个特征建...

2018-08-01 09:36:52 389

原创 【数据应用案例】教神经网络写汉字

案例来源:@新智元 @量子位案例地址:https://mp.weixin.qq.com/s/aqfwn0kiXbZwVDVhHXBAXQ;https://mp.weixin.qq.com/s/78GXuz6Sfi7YffSw4Rwgng;http://blog.otoro.net/2015/12/28/recurrent-net-dreams-up-fake-chinese-character...

2018-07-27 09:50:25 415

原创 【数据应用案例】神“乐”马良:AI直接将音频转换成动画

案例来源:@新智元案例地址:https://mp.weixin.qq.com/s/XljHirBxi_n3lw2WfB2Xlw 1. 目标:根据音乐内容,生成对应的演奏视频(类似于根据文本内容生成人物嘴唇变化)      2. 方法:    1)选择小提琴与钢琴演奏两种场景为目标,采集演奏视频和音频    2)通过三个库来提取关键点:...

2018-07-26 14:03:03 549

原创 【数据应用技巧】基于快速GeoHash,实现海量商品与商圈的高效匹配

案例来源:@阿里技术案例地址:https://mp.weixin.qq.com/s/vwhetMpQllczILptBNcoWg 0. 背景:闲鱼每天都有海量商品位置(点数据)与大量商圈(面数据)的匹配问题,如果计算每个点落在哪个面里,需要的计算复杂度非常高 1. 目标:在尽可能保持精度的前提下,快速判断每个商品位置(点数据)属于哪个商圈(面数据) 2. 方法:  ...

2018-07-26 10:10:57 722

原创 【数据应用案例】微软小冰英语作文改错——通过全新学习和推断机制提升seq2seq模型的语法改错性能

案例来源:@微软研究院AI头条案例地址:https://www.jiqizhixin.com/articles/2018-07-22-10 1. 目标:实现对英文作文的自动改错(见:https://mp.weixin.qq.com/s/6vPhyKnh4U4JYu-okDUX6Q,并从拼写、语法准确性、行文流畅性、内容丰富性、词汇句式使用程度等多个维度进行打分) 2. 难点:...

2018-07-25 12:51:51 1417

原创 【校招面经】机器学习与数据挖掘常见面试题整理 part4

五十一、Hinge lossHinge loss 的叫法来源于其损失函数的图形,为一个折线,通用的函数表达式为:L(mi)=max(0,1−mi(w)) 表示如果被正确分类,损失是0,否则损失就是 1−mi(w) 。在机器学习中,Hing 可以用来解 间距最大化 的问题,最有代表性的就是SVM 问题,最初的SVM 优化函数如下:argminw,ζ12||w||2+C∑iζi...

2018-07-25 12:43:21 1089 1

原创 【校招面经】机器学习与数据挖掘常见面试题整理 part3

四十一、请简要说说EM算法有时候因为样本的产生和隐含变量有关(隐含变量是不能观察的),而求模型的参数时一般采用最大似然估计,由于含有了隐含变量,所以对似然函数参数求导是求不出来的,这时可以采用EM算法来求模型的参数的(对应模型参数个数可能有多个),EM算法一般分为2步:   E步:选取一组参数,求出在该参数下隐含变量的条件概率值;   M步:结合E步求出的隐含变量条件概率,求出似然函数下界函数...

2018-07-25 12:41:35 1067

原创 【校招面经】机器学习与数据挖掘常见面试题整理 part2

三十、随机森林如何评估特征重要性衡量变量重要性的方法有两种,Decrease GINI 和 Decrease Accuracy: 1) Decrease GINI: 对于回归问题,直接使用argmax(VarVarLeftVarRight)作为评判标准,即当前节点训练集的方差Var减去左节点的方差VarLeft和右节点的方差VarRight。 2) Decrease Accuracy:对于一棵...

2018-07-25 12:36:40 1244

原创 【数据应用案例】腾讯知文团队负责人钟黎:从 0 到1 打造下一代智能对话引擎

案例来源:@AI科技评论案例地址:https://mp.weixin.qq.com/s/621j43q_rTWYm3EupgsSGw 1. 目标:打造通用智能问答平台 2. 智能问答平台的三种类型:    1)任务驱动型:如查天气、查汇率等    2)信息获取型:目前业界落地最多的智能问答平台类型    3)通用闲聊型:如微软小冰、苹果siri,使对话系统更人性化,...

2018-07-24 17:25:39 567

原创 【数据应用案例】AI算法与道德规则如何平衡?IBM推出AI推荐技术

案例来源:@雷锋网案例地址:https://www.leiphone.com/news/201807/b1qadmWOWgBYVs1b.html 1. 背景:现有推荐算法(如今日头条、netflix)容易让用户进入“过滤泡泡”,高度同质化的信息流阻碍人们认识真实的世界。同时一些家长也希望能限制儿童对一些色情、暴力信息的浏览。如果仅仅用规则法,难以过滤对所有情况进行过滤,因此采用一种...

2018-07-23 09:42:08 277

原创 【校招面经】统计与概率基础 part1

注:以下是本人春招时看面经时收集的常见面试题,答案部分是由网上多个信息源整理而成,部分是个人解答。当时整理时只是自己看的,很多没有注明来源地址,后续有时间补上来源,如有侵权请告知。 一、p值的含义其实理解起来很简单,基本原理只有3个: 1、一个命题只能证伪,不能证明为真 2、在一次观测中,小概率事件不可能发生 3、在一次观测中,如果小概率事件发生了,那就是假设命题为假证明逻辑就是:...

2018-07-23 00:18:21 2153

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除