5 zakexu

尚未进行身份认证

硕士毕业于华南理工大学,现任腾讯云AI算法工程师,负责腾讯云NLP的公有云产品架构以及标准化产品交付,欢迎交流合作! 个人博客:https://zakexu.blog.csdn.net/; 知乎ID:zakexu

等级
TA的排名 1w+

腾讯云自然语言处理的技术架构与应用

9月7号在上海参加的《AI技术原理与实践》沙龙ppt

2019-09-15 18:44:57

从语言模型到XLNet的知识点笔记

文章目录前言一、LM二、RNN vs LSTM(一)RNN(二)LSTM(三)GRU(四)RNN网络的基本应用三、Attention Mechanism四、Transformer五、TransformerXL六、Pretrain + Finetune Pipeline(一)ELMo(二)GPT(三)BERT(四)GPT2.0(五)XLNet总结参考文献前言前段时间一直在忙产品上线的事情,对于N...

2019-08-25 18:16:36

手Q游戏中心的个性化推荐实战

原文由笔者2018年7月份所写,在此做下整理。文章目录一、前言二、背景三、整体推荐框架(一)离线层1、推荐物料的准备2、数据处理3、样本设计4、特征提取5、模型训练6、数据上线(二)近线层(三)在线层四、算法二期的迭代计划五、总结作者简介一、前言自手Q游戏中心V6.0改版以来,产品形态发生了较大的转变,不再是纯粹通过ap...

2019-08-17 20:11:52

腾讯知文自然语言处理平台上云实践

腾讯知文自然语言处理平台上云实践文章目录腾讯知文自然语言处理平台上云实践一、前言二、产品介绍三、系统架构四、算法微服务五、CI持续集成/CD持续部署方案六、总结腾讯知文自然语言处理平台入口一、前言笔者自去年年底开始负责腾讯知文自然语言处理平台的公有云研发以及其标准化产品的私有化交付。依托于团队过往在内部业务的NLP沉淀,深度整合公司内部优秀的NLP技术,通过半年时间的产品打磨,目前腾讯...

2019-08-17 19:52:59

数据挖掘 —— 从入门到求职

前言原文稿子是本人于2016年10月发表于牛客面经讨论区(牛客原文),之后一段时间被各家论坛网站未经本人允许转载,中途可能造成一些信息不齐全导致给一些读者造成困扰,在此统一维护一份,以此为准。 文中所涉及资料准可以从网盘链接获取(网盘链接),包括简历模版。 如果有其他疑问,可以私信笔者。原文如下:最近秋招也已经慢慢接近尾声了,从去年8月底开始,先后参加了datacastle,...

2019-08-17 19:04:20

maven的使用

maven是一种项目对象模型(POM),是可以通过一小段描述信息来管理项目的构建,报告和文档的软件项目管理工具;(一)安装1.官网下载并安装jdk;2.官网下载mvn并直接解压;3.设置环境变量;4.cmd中输入mvn -version验证是否成功;(二)概念介绍1.settings文件(1)解压后的mvn目录下的conf文件下有一个settings.xml文件;

2016-06-24 10:54:39

scala笔记

(一)简介1.编程模式:(1)交互式;(2)脚本式;2.脚本以.scala结尾命名;运行脚本过程如下(先编译后执行):scalac test.scalascala test3.一个简单的例子:HelloWorld.scalaobject HelloWorld { /* This is my first scala program. * This wil

2016-06-16 16:24:55

计算广告

(一)简介1.广告主+变现平台+受众2.广告分类:(1)品牌广告、直接效果广告;(2)横幅广告(banner)、文字链广告;(3)合约广告、搜索广告、竞价广告、程序化交易广告、原生广告;3.计费方式术语:(1)CPM(cost per mille):按千次展示付费(2)CPT(cost per time):按时长付费(3)CPC(cost per click):

2016-05-11 15:47:42

word2vec模型

(一)简介1、传统的词向量一般用one-hot表示,通常面临两个问题:(1)高维稀疏的向量带来计算成本;(2)不同的词向量彼此正交,无法衡量词之间的相似度。而distributed representation通过训练,可以得到每个词的低维稠密向量,不仅计算成本低,而且可以通过向量的距离计算来表示词与词之间的相似度。word2vector就是一个将词进行低维稠密向量化的工具。2、wor...

2016-05-10 11:06:55

统计语言模型

(一)简介1.词向量传统表示:(1)One-hot Representation;(2)存在稀疏以及维度灾难的问题;(3)根据词向量无法判断词之间的相关性;2.词向量近期表示:(1)Distributed representation;Word Representation;Word Embedding;(2)低维实数向量;(3)词义相似可以用空间距离来表示;3

2016-05-09 10:56:50

XGBoost模型

1.模型(1)整体模型函数如下:其中 k 表示树的数量,f 表示每棵树的预测函数;(2)截取到第 t 棵树的模型函数表示如下:2.训练(1)每次训练一棵树,目标函数如下:   其中第一项是损失函数,第二项是防止过拟合;N表示样本数,T表示所有树的叶子数目,t 表示训练第 t 棵树,w 表示叶子的输出值;(2)泰勒展开(二阶展开):

2016-04-28 20:33:37

正则表达式

(一)简介1.正则表达式描述了一种字符串匹配的模式,可以用来检查一个串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等;2.正则表达式是由普通字符(例如字符 a 到 z)以及特殊字符(称为"元字符")组成的文字模式;模式描述在搜索文本时要匹配的一个或多个字符串。正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配;(二)常见字符定义:1.非打印字

2016-04-27 10:53:16

基于Python的网络爬虫入门

1.网页抓取入门(1)简单的抓取:直接从url抓网页数据(2)传递数据:post或者get方式post:3456789importurllibimporturllib2 values={"username":"1

2016-04-21 12:57:13

awk笔记

(一)简介1.awk是一种处理文本文件的语言,是一个强大的文本分析工具。2.常见用法log.txt2 this is a test3 Are you like awkThis's a test10 There are orange,apple,mongo(1)用法一:awk '{[pattern] action}' {filenames} # '' 只能用单引

2016-04-20 20:28:51

shell笔记

(一)简介1.Shell有两种执行命令的方式:交互式(Interactive):解释执行用户的命令,用户输入一条命令,Shell就解释执行一条。批处理(Batch):用户事先写一个Shell脚本(Script),其中有很多条命令,让Shell一次把这些命令执行完,而不必一条一条地敲命令。2.一个简单的例子#!/bin/bashecho "What is your name?"

2016-04-20 17:43:59

FM模型

(一)简介1.FM(factorizationmachine)模型是一种基于矩阵分解的机器学习模型,对于稀疏数据具有很好的学习能力;2.FM模型与LR模型的区别在于引进了特征组合;(二)算法1.线性回归模型:没有考虑特征分量之间的关系;2.考虑特征分量之间关系的线性回归模型:若样本特征为高度稀疏,那么不能对wij参数进行估计,绝大部分为0;3.FM模型:引入辅

2016-03-10 11:42:30

主题模型

(一)概念1.LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构;所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语这样一个过程得到;文档到主题服从多项式分布,主题到词服从多项式分布;2.LDA是一种非监督机器学习技术,可以用

2016-03-06 11:13:59

HOG

1、HOG特征:       方向梯度直方图(Histogram of Oriented Gradient, HOG)特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。它通过计算和统计图像局部区域的梯度方向直方图来构成特征。Hog特征结合SVM分类器已经被广泛应用于图像识别中,尤其在行人检测中获得了极大的成功。需要提醒的是,HOG+SVM进行行人检测的方法是法国研究人员Dalal

2016-03-06 09:43:44

海量数据处理

在处理海量数据时,遇到的主要问题有两个:(1)时间问题:如何在短时间内高效地处理数据,一般是采用巧妙的算法搭配合适的数据结构;(2)空间问题:如何在有限的内存中处理海量数据,一般是采用分而治之的思想,将海量数据划分为小份的数据;(一)分而治之+统计+排序1.分而治之(1)一般是采用hash映射的方法,将海量数据划分为若干小份量的数据;(2)常见做法:hash(X)%N;其中

2016-02-26 17:41:34

推荐系统

(一)概念1.协同过滤(Collaborative Filtering,CF)是现今推荐系统中应用最为成熟的一个推荐算法,它利用兴趣相投、拥有共同经验之群体的喜好来推荐使用者感兴趣的资讯,个人透过合作的机制给予资讯相当程度的回应(如评分)并记录下来以达到过滤的目的进而帮助别人筛选资讯;2.常见的协同过滤算法(CF):(1)基于用户的协同过滤(user-based CF)(2)基

2016-02-24 20:58:56

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。