2 adam-liu

尚未进行身份认证

paaaaaper

等级
TA的排名 3w+

如何构建一个图书推荐系统

首先展示一下项目:前言本项目会指导大家从零开始开始构建一个针对于图书的推荐系统。首先我们明确一下我们的目标和所需要做的工作:目标:打造一个图书推荐系统功能: 热门书籍 将评分排名最高的几本书推荐给用户 猜你喜欢 通过数据库SQL语句实现 ”看了这本书的人也看了XX书“ 主要逻辑是...

2019-06-05 15:03:40

如何构建一个新闻搜索引擎

首先展示一下项目效果图:前言:本项目会指导大家从零开始开始构建一个针对于新浪新闻的搜索引擎.首先我们明确一下我们的目标和所需要做的工作:目标:构建一个搜索引擎所需工作:准备数据 一个搜索引擎的查询算法 一个为每个新闻的推荐其他相似新闻的算法所以下面我会分这三个部分来介绍这个项目,目前这个项目已经开源.开源的地址:https://github.com/ls...

2019-06-05 12:02:46

各种问答机器人平台调研

市场上的机器人平台国外 wit.aiWeb支持Story模式来设置对话,所谓一个Story就是一个一句话无法完成的,可能多条对话组成的一个“故事”。例如,买电影票:Q:我要买电影票?A:好的,你要买哪部电影?Q:南方公园A:好的,您希望在哪个电影院?这样多条对话可能才能完成一个Story,而不是简单的QA pair。wit.ai有丰富的实体抽取类型,应该也可以根据抽取类型进行语义...

2019-03-29 13:48:32

关于搭建问答系统的流程细节

用户输入来源可以是web、微信、微博、等等一切类似平台用户输入类型应该以文字为主文字语音语音可以通过API识别为文字。在不同平台可能有不同的语音识别解决方案,例如在微信中可以考虑使用腾讯的服务。或者使用其他第三方服务,下面列出的可能服务来自于UberiCMU SphinxGoogle Speech RecognitionWit.aiMicrosoft Bing Voice R...

2019-03-29 13:47:56

聊天机器人:神经对话模型的实现与技巧

Sequence-to-Sequence 模型模型流程input_text =>encoder =>decoder =>target_textSeq2Seq模型流程伪代码(python)训练时:# 这两条是训练数据input_text = ['A', 'B', 'C']output_text = ['D', 'E', 'F']# 计算encoder的状态...

2019-03-29 13:47:04

对话机器人技术简介:问答系统、对话系统与聊天机器人

文章问题一些地方论文格式写的是(作者, 论文标题, 年份)部分地方的说法和示例可能还有待推敲对话机器人技术简介自从iPhone 4S开始内置Siri,到现在各种智能音箱,或者扎克伯格说自己做的智能管家,我认为都算是对话机器人的一类。以苹果的Siri和亚马逊的Echo为例,它实际上是一套非常复杂的智能系统,而对话机器人是其中一个界面。有些文献或者商业机构把这部分称为Conversa...

2019-03-29 13:46:19

导论:什么是 Conversational Robot

包括 Dialogue System, QA System, Chatbot 简述。Conversational Robot 的来历主要是为了避免dialogue和chat这两个词。Dialogue System 和 Chatbot 都有其比较特定的含义,这里避开他们。然后使用了 Conversational 这个词。简单的来说Conversational Robot = Dialog...

2019-03-29 13:44:01

算法必备基础知识攻关

1)回归算法:* 最小二乘法(OrdinaryLeast Square) * 逻辑回归(Logistic Regression) * 逐步式回归(Stepwise Regression) (缩减方法) * 多元自适应回归样条(MultivariateAdaptive Regression Splines) * 本地散点平滑估计(Locally Estimated Scatterplo...

2019-03-19 20:28:31

如何使上下文信息更有用? 关于上下文感知的神经对话模型的实证研究

论文标题:How to Make Context More Useful?An Empirical Study on Context-Aware Neural Conversational Models论文地址:http://www.aclweb.org/anthology/P/P17/P17-2036.pdf摘要     生成式会话系统在自然语言处理(NLP)领域中日益受到关注。...

2018-12-24 10:24:37

图解Transformer

原文标题:TheIllustratedTransformer原文链接:https://jalammar.github.io/illustrated-transformer/论文地址:https://arxiv.org/abs/1706.03762前言Transformer在Goole的一篇论文AttentionisAllYouNeed被提出,为了方便实现调...

2018-12-12 17:04:46

BERT

原文链接:TheIllustratedBERT,ELMo,andco.(HowNLPCrackedTransferLearning)作者:JayAlammarBERT论文地址:BERT:Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstanding前言...

2018-12-04 15:09:20

关于自然语言处理(NLP)的个人学习资料

个人研究的各种乱七八糟无聊资料~:深入看过的论文:链接:https://pan.baidu.com/s/19mlS8eSY8vbzr96FPYfOvw提取码:vy3o 期待深入看的论文链接:https://pan.baidu.com/s/1-OT3c-xdKvxQGe_n8pMT7A提取码:kc1n BERT官方demo数据:链接:https://pan.b...

2018-11-27 13:15:45

非计算机专业本科毕业如何迅速成长为一名算法工程师

  首先先offer镇楼  我想介绍一下我的学习经历,希望对一些还处于迷茫时期的人,提供一些帮助。我不否认我现在还处于算法很初级入门的阶段,但是总算凭借自己的努力以本科生的学历从遥遥算法求职部队中杀出了一条路。  17年的时候,到了大四找实习的阶段了,因为本专业是通信工程(学得很不好,一直比较沉迷打游戏),求职的时候,无意找到网络优化工程师的工作。后来我一直和人吹嘘这项工作是多么简单轻...

2018-11-27 10:11:13

基于深度self-attention的字符集语言模型(transformer)论文笔记

论文题目:Character-Level Language Modeling with Deeper Self-Attention论文地址:https://arxiv.org/abs/1808.04444v1摘要      LSTM和其他RNN的变体在字符级别的语言建模方面取得了很好的成功。这些模型一般情况下都会使用反向传播来进行训练,并通常把这些模型的成功归结与RNN结构的长时记忆能...

2018-11-23 14:15:26

什么是文本的词嵌入?

前言  词嵌入是单词的一种数值化表示方式,一般情况下会将一个单词映射到一个高维的向量中(词向量)来代表这个单词。例如我们将:   ‘机器学习’表示为 [1,2,3]    ‘深度学习‘表示为[2,3,3]    ‘英雄联盟‘表示为[9,1,3]  对于词向量,我们可以使用余弦相似度在计算机中来判断单词之间的距离: ‘机器学习’与‘深度学习‘的距离:‘机器学习’与‘英雄...

2018-11-21 11:30:52

基于Attention的机器翻译模型,论文笔记

论文题目:NeuralMachineTranslationbyJointlyLearningtoAlignandTranslate论文地址:http://pdfs.semanticscholar.org/071b/16f25117fb6133480c6259227d54fc2a5ea0.pdfGIF来源:https://jalammar.github.io/visuali...

2018-11-19 13:51:33

【Language model】使用RNN LSTM训练语言模型 写出45°角仰望星空的文章

开篇这篇文章主要是实战内容,不涉及一些原理介绍,原理介绍为大家提供一些比较好的链接: 1. Understanding LSTM Networks :RNN与LSTM最为著名的文章,贴图和内容都恰到好处,为研究人员提供很好的参考价值。中文汉化版:(译)理解 LSTM 网络 (Understanding LSTM Networks by colah) 2.Recurren...

2018-11-16 22:03:54

TensorFLow的GPU实现与CUDA,cuDNN的关系

TensorFLow的GPU只采用CPU在大规模数据集中训练卷积神经网络的速度很慢,因此可以结合图处理单元(Graphic Processing Unit,GPU)进行加速。GPU具有单指令多数据流结构,非常适合用一个程序处理各种大规模并行数据的计算问题。最常用的GPU是英伟达(nvidia)生产的。编写GPU代码可在CUDA环境下进行。CUDACUDA(Compute Unified...

2018-10-29 11:02:02

Python编程实现对2个字符串最长的公共子串的多种求解方式,性能测试及优化

解法1-暴力求解法:def LongestCommonSubstring(FirstString,SecondString): ''' 求最长子串解法1: 以字符串1的每个汉字作为起始位置 去字符串2中找到能与之匹配的最长长度 将这个长度和记录的最长长度比较,从而找到最长的子串长度 然后通过字符串2的起始位置和最长长度,找到这个子串 ...

2018-10-24 17:45:47

以解数学题的方式来理解word2vec

1 one-word context假设:词汇表里面有3个单词 ‘今天’,‘天气’,‘不错’;  即V=3隐藏层具有2个节点;即N=2目的是当输入一个单词,我们来预测其下一个单词?则在input layer由one-hot编码:  今天······[1,0,0] 天气······[0,1,0] 不错······[0,0,1]接着我们需要初始化一下输入矩阵...

2018-10-17 15:15:03

查看更多

勋章 我的勋章
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。