• 等级
  • 1022215 访问
  • 251 原创
  • 40 转发
  • 1588 排名
  • 550 评论
  • 543 获赞

谈谈对搜索技术Elastic Search&Lucene的理解

前言 十一一直陪家人,所以也没时间写文章。最近刚好赶上Elastic Search上市,其实在圈子里还是挺轰动的,因为这个也是少数的靠卖开源软件服务上市的公司。大家都知道ES是做搜索服务的,今天就聊聊我对搜索的认识 从业务属性讲 搜索的话,其实是大家接触最多的一类业务。其实说机器学习,其实是一门技术,而搜索是一项业务,机器学习可以应用到搜索业务中去,同时中间件技术、数据库技术等都跟搜索密不可分。 ...

2018-10-09 12:24:02

白话异常检测算法Isolation Forest

前言 好久没讲算法了,今天分享一个异常点检测算法Isolation Forest。之前也是没听说过这个算法,中文名叫孤立森林,听客户讲了就顺便查了下这个算法的论文,感觉还是非常有用滴。 论文地址:http://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/icdm08b.pdf 异常检测的概念 首先聊下什么是异常检测,异常检测就是发现一堆数据中的异常点...

2018-09-29 10:03:32

流式机器学习算法的入门和认知

一些些背景 其实技术总在更新,做这个行业也是一直要走在学习并适应的路上,这也是人工智能领域最吸引我的地方,其实基础的理论是不变的,但是随着业务的发展,计算能力的发展,上层的实现总是在迭代,今天讲下我对于流计算的一些认知。 先聊下计算引擎的进化,随手画了上面的图。其实第一代分布式计算引擎是Hadoop,这是一个跨时代的创造,人们使用Hadoop的MapReduce框架实现了许多的算法,这些算法也发...

2018-09-18 09:38:36

机器学习根据文字生成图片教程(附python代码)

背景 其实在过往我们生活的世界里,当人们需要获取信息的时候,更多地强调的是信息的检索和遍历,意味着去已经存在的物品中找到自己合适的。在我看来这是一种很低级的生活形态,比如我的意识中有一个某种图案的杯子,想要它,只能打开淘宝根据标签去找已经设计好的款式有没有相近的,而不能直接根据我的想法自动生成一个我需要的杯子。 又比如,我想要一张猫正在喝水的照片,只能去搜索引擎里去根据关键词搜索已经存在的...

2018-09-05 17:41:48

AutoML功能解析

背景介绍 如果你用过机器学习算法,那一定体验被算法调参支配的恐怖。面对错综复杂的算法参数,算法使用者们往往要花费无尽的黑夜去不断尝试,犹如大海捞针。有的时候加班到深夜,终于找到了一个靠谱的参数组合,然而找到的参数组合真的是最优的么?天知道。 然而在搭建机器学习链路的过程中,往往不止调参这一步耗时耗力。好不容易生成了算法模型,怎么把模型部署成服务供手机、PC这些终端调用也是困扰开发同学的...

2018-08-31 19:41:10

贝叶斯超参优化方法

数学是个奇妙的东西,可以把生活中的一切量化。人生也是个奇妙的东西,起起伏伏,好比一个高斯分布函数。今天就结合一些人生的感悟聊聊贝叶斯超参优化 一些些背景 很多算法工程师戏谑自己是调参工程师,因为他们需要在繁杂的算法参数中找到最优的组合,往往在调参的过程中痛苦而漫长的度过一天。如果有一种方式可以帮助工程师找到最优的参数组合,那一定大有裨益,贝叶斯超参优化就是其中的一种。如果是单单罗列公式,可...

2018-08-21 13:51:57

由《我不是药神》到互联网行业从业保障

一.影评 关于电影本身的内容就不剧透了,总体来看还是一部相当推荐的电影。影片讲的是一个比较敏感的话题,是关乎民生的,个人觉得比战狼这种政治剧要有价值的多。电影本身,无论是从票房考虑,还是从为了过审的角度来说,带有一定的偏向性,偏向的是患病的弱势群体,个人觉得这一点到无可厚非。相信导演是想传递更多内容的,总体看敢于跳出商业片的思维,去讲述一个病患话题的事情,投资方和导演一定是越过了很多障碍才把...

2018-07-08 15:16:53

十行Python代码搞定图片中的物体检测

“Word is useless, show me the pic” -MR Lu 先看下原图: 图片表述的是一男一女在散步,后面有一辆车,现在来看下我们通过十行代码实现的效果: 我们可以看到,在这幅图中其实有三个“person”被识别出来,包括后面非常非常小的行人,还有一个“car”被识别出来,可以说模型能力基本达到了人眼的能力。现在就来介绍...

2018-07-08 15:14:33

网红女神是怎么诞生的-深度学习图像分割技术

这个技术能干啥 咋一说图像分割技术,或者更专业一点的叫法“图像语意分析”技术有哪些用途。大家可能还不一定能马上想出来,其实这个东西正在影响着我们的生活。我也是短视频软件的中毒用户,上面有特别多的美女网红,甚至发现过高中同学长得一般的妹子也成了网红女神。这一切的原因是什么的?就是短视频软件可以很好地将人像抠图,把该瘦的地方瘦,该大的地方大。 这种分割技术也能在其它很多领域应用,比如说图像虚化...

2018-06-07 16:17:24

图像拐点检测-原理以及代码实现

今天带来的内容只用两个字形容-干货!!首先我们科普下图像识别的常识,图片在电脑看来,其实就是一个矩阵,每个矩阵中的一个值都对应图片的一个像素点。(下图摘自《机器学习实践应用》)图片中其实是有很多的边以及拐角的,今天要介绍的就是如何通过算法找到图片拐角。  原理其实找到拐角,很简单,就是在图片矩阵中,通过一个移动的窗口去遍历矩阵中的数值,一旦返现有像素变化明显的地方,那就可能是一个拐点。这个过程就有

2018-04-18 19:49:08

5行python代码讲清楚如何在区块链挖矿

之前发了好几篇讲区块链的,还有同学说不懂,今天我就试试用最少的话讲明白挖矿,背景知识可以参考下我之前发的内容。 先说下哈希是啥,哈希就是每个东西的唯一标识,比如x的哈希:hash(x)=ga8e9hea7h8ae89h78aeh9r 区块链就是一个一个区块,每个区块是一个哈希 挖矿就是已知上一个区块链的哈希值,找到与其匹配的下一个哈希值,这个匹配关系可以自己定义,比如上一个区块链的值和下一...

2018-03-28 11:48:07

五句话了解区块链,扫盲系列

1.区块链解决了啥问题一个东西有价值,一定是解决了一个社会上的痛点。我们说人工智能是未来的趋势,因为它主要解决的是生产力的升级问题,工业革命代替人的简单体力劳动,人工智能代替的是例如思考之类的复杂劳动。区块链解决的是生产关系的问题,也就是信任的问题,想一下为什么淘宝需要有支付宝,因为如果没拿到货而直接付钱,卖家不发货怎么办?需要担保机制,这就是买卖间彼此不信任的问题。2.区块链的核心技术理论是啥?

2018-03-22 09:16:56

浅谈文本词向量转换的机制embedding

首先感谢大家对上一篇文章的关注吧,建议看这篇文章前先看下上一篇我推送的《20行代码实现电影评论情感分析》,上篇文章其实留了个坑,不过不一定坑到大家,因为可能90%的同学可能不会去认真读一遍代码,或者去跑一下程序。上文说道关于文本词向量转换的embedding相关的内容,其实是没有详细说明的,那这一篇我尝试着去解释一些,说的不对的还望各位大神指正,我也是自学的,没人一起讨论,可能有理解不到位的地方。

2018-03-12 18:37:52

20行代码实现电影评论情感分析

背景情感分析有很多的应用场景,比如做一个电商网站,卖家需要时刻关心用户对于商品的评论是否是正面的。再比如做一个电影的宣传和策划,电影在键盘侠们中的口碑也至关重要。互联网上关于任何一个事件或物品都有可能产生成千上万的文本评论,如何定义每一个文本的情绪是正面或是负面的,是一个很有挑战的事情。挑战体现在以下几个方面,区别于结构化数据,评论数据的长短不一,很难限定到固定的维度。另外很难通过某个词判断用户的...

2018-03-09 09:33:17

聊聊互联网实习相关的事儿

过年回来啦,其实之前答应了群里的同学分享一下关于实习的一些事情,跳票到了今天,实在不好意思。其实找实习这个事情就有点像我们考试做题目,需要分两方面看,一方面需要去想为什么老师出这道题,第二方面去想我要怎么解才是对的。先来扯扯为啥公司会招聘实习生,无外乎两种可能性:以部分外企或者小创业公司为主,有很多杂活干不完,需要廉价劳动力。针对这种需求的公司,其实对于小白同学是有一定几率拿到offer的。因为是

2018-02-22 11:53:32

[特征工程系列三]显性特征的衍生

前一文讲的是一些特征的基础处理方式,包括怎么降维、怎么处理脏数据等等。其实特征工程真正的难点是如何结合业务需求衍生出新的特征。结合业务需求讲的是利用专家经验来提取出数据里对结果影响更大的特征,往往是原有数据字段通过加减乘除等操作生成新的字段,这些字段在结合一些线性算法做训练的时候往往能起到提升模型效果的作用,接下来就简单介绍下特征衍生。因为衍生特征这个方法是需要结合业务特点的,范围太广,所以本文就

2018-02-11 17:38:30

[特征工程系列二]显性特征的基本处理方法

今天接着前一篇文章讲,主要分享基于显性特征工程的一些最基本的处理方法。关于显性特征是什么,大家可以去看系列文章一。关于显性特征的处理方法可以做这样的类比:不知道大家平时会不会自己做菜,我个人的话基本每周都会做。我们从菜市场买的菜,不经过处理是不能下锅的,因为需要清洗、摘取烂的叶子、切段等操作后才可以下锅。如果把机器学习整个流程比做炒一盘青菜的话,今天要介绍这些方式就有点像菜的前期处理过程。那我们就

2018-02-11 17:36:45

[特征工程系列一] 论特征的重要性

满打满算,还有十天左右就要过年了,这些天大家或多或少都有点浮躁。反过来想,趁大家都懈怠的时候,正是学习的最佳时机。趁着这几天,也给自己加点码,去认真的再看一下特征工程。我给自己列了下面的这一份学习清单,也会在过年前后逐一分享给大家。《特征工程系列二,显性特征的基本处理方法》:讲一下如何处理数据特征,以及最基本的概念《特征工程三,显性特征的衍生》:准备通过NBA球星的数据,展示下特征的衍生的一些概念

2018-02-01 18:08:20

深度学习实现NBA球星颜值打分完整案例(二)

已经上传了完整的代码和数据,数据比较少,大家可以帮忙补充。项目地址(记得给个start):https://github.com/jimenbian/face_rank 最近咳嗽加班比较严重,耽误了几天,今天接着之前的文章来讲。在上一篇文章中我们已经生成了预测模型,今天要做的事情很简单,就是调用这个模型针对某一张人脸图片进行分类,看看究竟把这个人按照颜值分到class1(好看的一类)还是class2

2018-01-23 09:33:51

用深度学习做球星颜值打分完整案例(一)

已经上传了完整的代码和数据,数据比较少,大家可以帮忙补充。项目地址(记得给个start):https://github.com/jimenbian/face_rank先来说一下项目的背景,这次做的是一个最基础的图像识别案例,通过训练一个模型来给NBA球星的颜值打分,嗯,楼主麦迪、艾弗森球迷。选择NBA的数据是因为,NBA球星都有正装照,比较好收集。我们最终呈现的效果是这样的:先收集球星大脸照,标记

2018-01-18 09:32:27

博客专家

李博Garvin

Dancing with data
关注
  • 互联网·电子商务/产品经理
  • 北京 东城区
奖章
  • 博客专家
  • 专栏达人
  • 持之以恒