6 hust-dou

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 6w+

论文阅读-LightGBM: A Highly Efficient Gradient Boosting Decision Tree

GBDT是常用的机器学习算法,有少量高质量的实现算法,例如:XGBoost和pGBRT。

2017-12-15 21:22:23

论文阅读-XGBoost: A Scalable Tree Boosting System

Tianqi Chen大神提出了一种可扩展性的端到端基于树的boosting系统,这个系统可以处理稀疏性数据,通过分布式加权直方图算法去近似学习树,这个系统也提供基于缓存的加速模式、数据压缩、分片功能。机器学习应用于垃圾邮件分类、基于上下文植入广告、阻止银行恶意袭击的漏洞检测系统、探测引发物理显现的事件。有两个重要的因子驱动这些成功的应用:发现数据之间相关性的模型、从大量数据集中学习到有趣的模型。

2017-12-15 20:50:33

文本信息熵

public class InfoEntropy { // 代表每个字母的出现的频率。 public int[] count = new int[26]; private double entropy; private int sumCount ; public InfoEntropy(String str){ // 不区分大小写 String lowStr = s

2017-12-07 16:40:50

京东推荐系统

京东推荐系统编辑删除在电商领域,推荐的价值在于挖掘用户潜在购买需求,缩短用户到商品的距离,提升用户的购物体验。京东推荐的演进史是绚丽多彩的。京东的推荐起步于2012年,当时的推荐产品甚至是基于规则匹配做的。整个推荐产品线组合就像一个个松散的原始部落一样,部落与部落之前没有任何工程、算法的交集。2013年,国内大数据时代到来,一方面如果做的事情与大数据不沾边,

2017-12-07 09:19:48

论文Recent Trends in Deep Learning Based Natural Language Processing

一:abstract。深度学习已经应用于很多领域,特别是在计算视觉和模式识别方面取得了突出的成绩。深度学习应用于NLP的一大优势是自动特征提取,而传统的NLP处理技术大多是通过手工提取特征,手工提取特征耗时、不完整。Natural Language Processing (Almost) from Scratch阐述了基于深度学习的框架和算法在词性标注、命名实体识别、语义角色标签等NLP任

2017-12-01 17:02:09

论文Natural Language Processing: State of The Art, Current Trends and Challenges

摘要:这篇文章提出自然语言处理涉及到自然语言理解和生成自然语言(understand and generate the text)。自然语言处理任务又分为:语音(听觉),语言形态、语法、语义、语用(语言的角度)。自然语言任务细分为:自动生成文本摘要、共指消解、话语分析、命名实体识别、形态切分、字符识别、词性标注。自动生成文本摘要(auto summarization):生成易于

2017-12-01 10:51:15

一个框架解决kaggle问题

一个框架解决几乎所有机器学习问题 但是没有具体的例子和代码,今天看到一个不错的 kaggle 上的 codeExploratory Tutorial - Titanic 来解析一下,源码可以直接点这个链接。在这篇文章中可以学到一个完整的运用机器学习解决分析问题的过程,它包括了解决问题的一般流程,描述性统计的常用方法,数据清洗的常用方法,如何由给定的普通变量启发式思考其他影响因素,skl

2017-11-29 20:03:42

微信paxos库PhxPaxos实现原理与解析

微信paxos类库PhxPaxos实现原理与解析       微信最近开源了其paxos类库PhxPaxos,具体参考资料:     1.  phxpaxos github的地址:点击打开链接          2.  微信自研生产级paxos类库PhxPaxos实现原理介绍 : 点击打开链接              ===========

2017-11-29 19:49:33

Dubbo SPI机制简介

SPI (service Provider Interface,是一种面向接口的编程方式。一个接口经常有多个实现类,通过SPI机制发现接口的实现服务。当服务的提供者,需要在META-INF/services下创建接口对应的文件,之后通过java提供的serviceLoader加载对应的实现,并装载实例化。SPI demo:package org.dubbo.demo.spi

2017-11-29 15:46:47

百度NLP架构与应用

深度| 百度副总裁王海峰:百度在NLP领域都做了什么?雷锋网 02-09 17:05雷锋网按:2017年美国加州当地时间2月5日,人工智能顶级会议AAAI大会召开,AAAI今年首次设置了AI in Practice (应用人工智能)环节,百度副总裁王海峰应邀做了名为“百度的自然语言处理”(Natural Language Processing at Baidu)的主题演讲。雷锋

2017-11-24 16:11:22

阿里NLP架构与应用

NLP技术的应用及思考背景介绍阿里巴巴的生态系统下面有很多的计算平台,上面有各种各样的业务层,最中间是买家和卖家之间包括销售、支付等等之间的关系,外面建了一圈从娱乐到广告到金融到购物到物流等等各方面这样一个生态,中间有非常多的数据能够关联起来,所以对于阿里巴巴而言,这个图可以非常简练的概括我们在做什么,中间是最重要的数据,下面数据包含了最核心的也是阿里巴巴最早起家的来自于电商的

2017-11-24 15:42:01

kafka对比RocketMQ

淘宝内部的交易系统使用了淘宝自主研发的Notify消息中间件,使用Mysql作为消息存储媒介,可完全水平扩容,为了进一步降低成本,我们认为存储部分可以进一步优化,2011年初,Linkin开源了Kafka这个优秀的消息中间件,淘宝中间件团队在对Kafka做过充分Review之后,Kafka无限消息堆积,高效的持久化速度吸引了我们,但是同时发现这个消息系统主要定位于日志传输,对于使用在淘宝交易、订单

2017-11-23 16:18:13

一个轻量级的分布式RPC框架

在互联网中,随着访问需求的不断扩大,单一的MVC架构已经不能满足用户的访问需求,这个时候就需要RPC分布式架构。常见的RPC分布式框架:RPC server(生产者)提供RPC服务,通过向Zookeeper中注入服务。zookeeper管理分布式服务,负责服务节点选取、Master节点选择、分布式一致性、注册功能。RPC client 作为消费者订阅RPC server服务

2017-11-23 09:38:24

RPC基本原理

背景:在互联网中,随着访问需求的不断扩大,单一的MVC架构已经不能满足用户的访问需求,这个时候就需要RPC分布式或者微服务架构。所以在大型互联网公司中,公司的系统由大量的服务组成,怎样调用服务和怎样为别人提供服务?RPC请求服务过程:标注要发布的服务,即服务器提供的服务。import java.lang.annotation.ElementType;import java

2017-11-22 15:59:58

Paxos理论介绍(三): Master选举

分布式系统中通过paxos(必须为强一致性算法)选举时,在同一时刻选举一个节点作为Master , 读、写数据都通过Master节点进行,所以Master的数据时最新的。Master选举与Paxos解耦合,Master 选举使用Paxos的API。Master选举租赁算法:

2017-11-21 15:07:02

Paxos理论介绍(二):Multi-Paxos

朴素Paxos通过多轮proposer、acceptor选举的方式选举一个提议,这个过程为一个Instance。Multi-Paxos通过算法来确定很多Instance的值,这些Instance的值在多个节点的顺序保持一致,在朴素Paxos中,通过计算找到编号为i的Instance,之后再计算编号为i+1的Instance,这样形成顺序的Instance,这样形成的latency(延迟)很高。而M

2017-11-20 17:02:18

朴素Paxos理论介绍(一致性算法)

Paxos算法主要通过定义约束保证一致性,即只要算法满足一定的约束,就能保证一致性。约束一:提案编号唯一。约束二:多数派提案才成功。约束三:当需要提案B时,如果提案多数派中有人已经提议了B*(提案编号B* 约束四: 保证提案编号的顺序,即如果提案B,并且之前已经有B* > B , 则抛弃编号为B的提案。位了保证编号的顺序性,所以需要强化约束,当不再接受编号小于当

2017-11-20 11:33:44

分布式服务框架(dubbo)

分布式服务框架原理(dubbo)设计和实现1.分布式服务框架设计分布式服务框架一般可以分为以下几个部分,(1)RPC基础层:包括底层通信框架,如NIO框架、通信协议,序列化和反序列化协议,以及在这几部分上的封装,屏蔽底层通信细节和序列化方式差异(2)服务发布/消费:服务提供者根据消费者请求消息中的接口名,方法名,参数列表等信息,通过Java反射,调用本地的接口实现类

2017-11-19 17:36:57

秒杀系统设计

秒杀系统架构分析与实战目录1 秒杀业务分析2 秒杀技术挑战3 秒杀架构原则4 秒杀架构设计5 大并发带来的挑战6 作弊的手段:进攻与防守7 高并发下的数据安全8 总结转载: 秒杀系统架构分析与实战1 秒杀业务分析正常电子商务流程(1)查询商品;(2)创建订单;(3)扣减库存;(4)更新订单;(5)付款;(6

2017-11-19 17:31:54

消息队列的使用场景

一、消息队列概述消息队列中间件是分布式系统中重要的组件,主要解决应用耦合,异步消息,流量削锋等问题。实现高性能,高可用,可伸缩和最终一致性架构。是大型分布式系统不可缺少的中间件。目前在生产环境,使用较多的消息队列有ActiveMQ,RabbitMQ,ZeroMQ,Kafka,MetaMQ,RocketMQ等。二、消息队列应用场景以下介绍消息队列在实际应用中常用的使用场景。异步处理,

2017-11-19 17:27:54

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!