自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

夏目的博客

戒骄戒躁

  • 博客(41)
  • 收藏
  • 关注

原创 图解Transformer

原文标题:The Illustrated Transformer原文链接:https://jalammar.github.io/illustrated-transformer/论文地址:https://arxiv.org/abs/1706.03762前言 Transformer在Goole的一篇论文Attention is All You Need被提出,为了方便实现调...

2018-12-12 17:04:46 71583 59

原创 【论文阅读】Whisper

Whisper证明了通过足够大规模的弱监督学习,就可以实现一个非常有强的语音识别模型。

2022-11-15 15:54:19 4389 2

原创 Triton部署Torch和Onnx模型,集成数据预处理

使用Triton Inference Server对torch模型和onnx模型进行简单部署,并将数据预处理集成在triton中

2022-06-29 21:09:30 7130 8

原创 Wandb:深度神经网络可视化工具介绍及本地部署方式

Wandb的使用手册

2022-06-09 14:58:32 5244 5

原创 数据不平衡问题及解决方案

自然语言处理中,关于类别不平衡的解决思路。

2022-06-09 14:52:05 389

原创 如何构建一个图书推荐系统

首先展示一下项目:前言 本项目会指导大家从零开始开始构建一个针对于图书的推荐系统。首先我们明确一下我们的目标和所需要做的工作:目标:打造一个图书推荐系统功能: 热门书籍 将评分排名最高的几本书推荐给用户 猜你喜欢 通过数据库SQL语句实现 ”看了这本书的人也看了XX书“ 主要逻辑是...

2019-06-05 15:03:40 9521 6

原创 如何构建一个新闻搜索引擎

首先展示一下项目效果图:前言:本项目会指导大家从零开始开始构建一个针对于新浪新闻的搜索引擎.首先我们明确一下我们的目标和所需要做的工作:目标:构建一个搜索引擎所需工作:准备数据 一个搜索引擎的查询算法 一个为每个新闻的推荐其他相似新闻的算法所以下面我会分这三个部分来介绍这个项目,目前这个项目已经开源.开源的地址:https://github.com/ls...

2019-06-05 12:02:46 4543

转载 各种问答机器人平台调研

市场上的机器人平台国外 wit.aiWeb支持Story模式来设置对话,所谓一个Story就是一个一句话无法完成的,可能多条对话组成的一个“故事”。例如,买电影票:Q:我要买电影票?A:好的,你要买哪部电影?Q:南方公园A:好的,您希望在哪个电影院?这样多条对话可能才能完成一个Story,而不是简单的QA pair。wit.ai有丰富的实体抽取类型,应该也可以根据抽取类型进行语义...

2019-03-29 13:48:32 1199

转载 关于搭建问答系统的流程细节

用户输入来源可以是web、微信、微博、等等一切类似平台用户输入类型应该以文字为主文字语音语音可以通过API识别为文字。在不同平台可能有不同的语音识别解决方案,例如在微信中可以考虑使用腾讯的服务。或者使用其他第三方服务,下面列出的可能服务来自于UberiCMU SphinxGoogle Speech RecognitionWit.aiMicrosoft Bing Voice R...

2019-03-29 13:47:56 2537

转载 聊天机器人:神经对话模型的实现与技巧

Sequence-to-Sequence 模型模型流程input_text =>encoder =>decoder =>target_textSeq2Seq模型流程伪代码(python)训练时:# 这两条是训练数据input_text = ['A', 'B', 'C']output_text = ['D', 'E', 'F']# 计算encoder的状态...

2019-03-29 13:47:04 3006 3

转载 对话机器人技术简介:问答系统、对话系统与聊天机器人

文章问题一些地方论文格式写的是(作者, 论文标题, 年份)部分地方的说法和示例可能还有待推敲对话机器人技术简介自从iPhone 4S开始内置Siri,到现在各种智能音箱,或者扎克伯格说自己做的智能管家,我认为都算是对话机器人的一类。以苹果的Siri和亚马逊的Echo为例,它实际上是一套非常复杂的智能系统,而对话机器人是其中一个界面。有些文献或者商业机构把这部分称为Conversa...

2019-03-29 13:46:19 4217

转载 导论:什么是 Conversational Robot

包括 Dialogue System, QA System, Chatbot 简述。Conversational Robot 的来历主要是为了避免dialogue和chat这两个词。Dialogue System 和 Chatbot 都有其比较特定的含义,这里避开他们。然后使用了 Conversational 这个词。简单的来说Conversational Robot = Dialog...

2019-03-29 13:44:01 586

原创 算法必备基础知识攻关

1)回归算法:* 最小二乘法(OrdinaryLeast Square) * 逻辑回归(Logistic Regression) * 逐步式回归(Stepwise Regression) (缩减方法) * 多元自适应回归样条(MultivariateAdaptive Regression Splines) * 本地散点平滑估计(Locally Estimated Scatterplo...

2019-03-19 20:28:31 413 1

原创 如何使上下文信息更有用? 关于上下文感知的神经对话模型的实证研究

论文标题:How to Make Context More Useful?An Empirical Study on Context-Aware Neural Conversational Models论文地址:http://www.aclweb.org/anthology/P/P17/P17-2036.pdf摘要     生成式会话系统在自然语言处理(NLP)领域中日益受到关注。...

2018-12-24 10:24:37 8850

原创 BERT

原文链接:The Illustrated BERT, ELMo, and co. (How NLP Cracked Transfer Learning)作者:Jay AlammarBERT论文地址:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding前言 ...

2018-12-04 15:09:20 20449 17

原创 关于自然语言处理(NLP)的个人学习资料

个人研究的各种乱七八糟无聊资料~:深入看过的论文:链接:https://pan.baidu.com/s/19mlS8eSY8vbzr96FPYfOvw提取码:vy3o 期待深入看的论文链接:https://pan.baidu.com/s/1-OT3c-xdKvxQGe_n8pMT7A提取码:kc1n BERT官方demo数据:链接:https://pan.b...

2018-11-27 13:15:45 2809

原创 基于深度self-attention的字符集语言模型(transformer)论文笔记

论文题目:Character-Level Language Modeling with Deeper Self-Attention论文地址:https://arxiv.org/abs/1808.04444v1摘要      LSTM和其他RNN的变体在字符级别的语言建模方面取得了很好的成功。这些模型一般情况下都会使用反向传播来进行训练,并通常把这些模型的成功归结与RNN结构的长时记忆能...

2018-11-23 14:15:26 3563

原创 什么是文本的词嵌入?

前言    词嵌入是单词的一种数值化表示方式,一般情况下会将一个单词映射到一个高维的向量中(词向量)来代表这个单词。例如我们将:   ‘机器学习’表示为 [1,2,3]     ‘深度学习‘表示为[2,3,3]    ‘英雄联盟‘表示为[9,1,3]   对于词向量,我们可以使用余弦相似度在计算机中来判断单词之间的距离: ‘机器学习’与‘深度学习‘的距离:‘机器学习’与‘英雄...

2018-11-21 11:30:52 22223 2

原创 基于Attention的机器翻译模型,论文笔记

论文题目:Neural Machine Translation by Jointly Learning to Align and Translate论文地址:http://pdfs.semanticscholar.org/071b/16f25117fb6133480c6259227d54fc2a5ea0.pdfGIF来源:https://jalammar.github.io/visuali...

2018-11-19 13:51:33 17593 4

原创 【Language model】使用RNN LSTM训练语言模型 写出45°角仰望星空的文章

开篇这篇文章主要是实战内容,不涉及一些原理介绍,原理介绍为大家提供一些比较好的链接: 1. Understanding LSTM Networks :RNN与LSTM最为著名的文章,贴图和内容都恰到好处,为研究人员提供很好的参考价值。中文汉化版:(译)理解 LSTM 网络 (Understanding LSTM Networks by colah) 2.Recurren...

2018-11-16 22:03:54 1902 2

原创 TensorFLow的GPU实现与CUDA,cuDNN的关系

TensorFLow的GPU只采用CPU在大规模数据集中训练卷积神经网络的速度很慢,因此可以结合图处理单元(Graphic Processing Unit,GPU)进行加速。GPU具有单指令多数据流结构,非常适合用一个程序处理各种大规模并行数据的计算问题。最常用的GPU是英伟达(nvidia)生产的。编写GPU代码可在CUDA环境下进行。CUDACUDA(Compute Unified...

2018-10-29 11:02:02 5124 4

原创 Python编程实现对2个字符串最长的公共子串的多种求解方式,性能测试及优化

解法1-暴力求解法:def LongestCommonSubstring(FirstString,SecondString): ''' 求最长子串解法1: 以字符串1的每个汉字作为起始位置 去字符串2中找到能与之匹配的最长长度 将这个长度和记录的最长长度比较,从而找到最长的子串长度 然后通过字符串2的起始位置和最长长度,找到这个子串 ...

2018-10-24 17:45:47 2930

原创 以解数学题的方式来理解word2vec

1 one-word context假设:词汇表里面有3个单词 ‘今天’,‘天气’,‘不错’;  即V=3隐藏层具有2个节点;即N=2目的是当输入一个单词,我们来预测其下一个单词?则在input layer由one-hot编码:  今天······[1,0,0] 天气······[0,1,0] 不错······[0,0,1]接着我们需要初始化一下输入矩阵...

2018-10-17 15:15:03 1255 3

原创 【word2vec】算法原理 公式推导

前言 近两年来由Mikolov等人提出的word2vec模型和应用引起了社会的极大的关注。使用word2vec模型学习的单词的向量表示已经被证明能够携带语义信息,且在各种NLP任务中都是有用的。越来越多的研究人员希望尝试使用word2vec,但我注意到对于word2vec参数学习过程目前还缺乏一个全面解释的资料,因此限制了许多神经网络方面了解不深的人去理解word2vec的工作原理。...

2018-10-10 09:17:24 13914 4

原创 【TextRank】关键词提取 算法原理 公式推导 源码分析

1.前言    在介绍TextRank前,我想先给大家介绍下PageRank,实质上个人认为可以把TextRank当做PageRank2.0。    谷歌的两位创始人的佩奇和布林,借鉴了学术界评判学术论文重要性的通用方法,“那就是看论文的引用次数”。由此想到网页的重要性也可以根据这种方法来评价。于是PageRank的核心思想就诞生了:如果一个网页被很多其他网页链接到的话说明这个网页比...

2018-09-27 18:33:22 40204 29

原创 【支持向量机SVM】 算法原理 公式推导 python编程实现

1.前言 学习笔记,即TensorFlow实现源码地址:https://github.com/lsq960124/DeepLearning/blob/master/TensorFlow%20notes/TensorFlow%20basis04%20SVM.ipynb    如图,对于一个给定的数据集,通过直线A或直线B(多维坐标系中为平面A或平面B)可以较好的将红点与蓝点分类。那么线A...

2018-09-21 09:15:34 1960

原创 【神经网络DNN】算法原理 公式推导 python编程实现

 1.前言如图是一个神经网络的简化结构,隐藏层每一个节点都是一个神经元,比如下图的a1,a2,a3。机器学习中的神经网络是模拟生物神经网络结构,每个神经元与其他神经元相连,当神经元的电位超过了一个‘阈值’,那么它就会被激活,即‘兴奋’起来。   机器学习的神经网络是怎么模拟大脑神经元‘兴奋’这个概念的?结合a1这个神经元做简要的分析:首先对于a1的定义,我们给出如下的公式....

2018-09-17 09:49:50 9626 6

原创 【决策树DT】 算法原理 公式推导 python编程实现

1.信息增益 1.1 信息熵        在信息论中,信息熵度量样本集合纯度是最常用的一种指标,信息熵用来描述信源的不确定度。例如:A=太阳从东方升起 B=太阳从西方升起      对于句子A,确定度很高,基本为必然事件。其信息熵较低,所含的信息量很小。      对于句子B,不确定性特别高,基本不可能发生,所以其信息熵很高,所含信息量很大。      ...

2018-09-03 19:05:24 2644 1

原创 【逻辑回归LR】算法原理 公式推导 python编程实现

学习笔记,TensorFlow实现源码地址:https://github.com/lsq960124/DeepLearning/blob/master/TensorFlow%20notes/TensorFlow%20basis03.ipynb1.在二分类问题中,对于每个观察样本:                             这个公式很好理解,拆分开来可以这样表示: ...

2018-08-28 13:15:16 1482

原创 使用nginx+Gunicorn+Flask将Flask应用部署到服务器上

前言: 在本地开发了一个flask项目,如何将其部署到互联网上?目前有2种比较常见的方法:Ningx+uwsgi Ningx+Gunicorn对于第一种,因为服务器上对应uwsgi版本的不同,或者环境的差异,作者花了很长时间都没调试成功。使用第一种,可能会遇到的坑使用python3但是安装了python2版本的uwsgi uwsgi默认链接服务器上的python2.7  u...

2018-08-04 11:48:19 7531

翻译 【炮灰模型】 让数学建模来控制你的爱情,测测你是否是那个炮灰

引言:上周我的一个朋友第 N   次向女生表白遭到拒绝,作为好朋友的我除了同情之外觉得应该做点什么。之前一次聊天受到   菠菜   的启发,加上出于对数学的兴趣,我对女生 " 选择与拒绝 " 的策略试着做了一个简单的建模,并得出比较有意义的结论。摘要每一个女生都渴望找到自己心中的白马王子,找到自己一生的幸福。但是面对追求者们,女生应该是选择还是拒绝,怎样才能以最大的可能找到自己的 Mr. Righ...

2018-06-25 11:33:36 1784 1

原创 将数据导入Hive数据库中,使用python链接Hive读取数据库,转化成pandas的dataframe

     做互联网应用开发过程中,时常需要面对海量的数据存储及计算,传统的服务器已经很难再满足一些运算需求,基于hadoop/spark的大数据处理平台得到广泛的应用。本文提供一个导入数据到hive,用python读取hive数据库的例子。这实际是个比较简单的操作,但是还是存在很多坑。 1.首先第一步需要将Mysql或者其他数据库的文件导出成CSV文件格式。当然如果你做爬虫,可以直...

2018-06-22 16:46:06 20113 2

原创 【数据库】oracle 多表拼接,Left join将SELECT出的所有结果拼接成一张表。

  项目中遇到这样的问题,需要按指定的时间区间从10个数据库表中查询到关于10个司法局的业务数量,案件数量等11列信息。再对这些结果排序。   那么我们怎么通过一个SQL语句来解决呢?  下面介绍下SQL方法:select a.*, a.id, b.id, c.price from author a left join book b on a.id=b.id ...

2018-06-21 17:13:17 28143 3

原创 【实战】TF-IDF,WORD2VEC,机器学习算法,深度学习算法在新浪新闻分类表现。

 新闻分类系统的实现1 系统开发工具和平台  本文选择Python作为主要开发语言,作为一个简洁而又强大的脚步语言,Python整合了大量的第三方数据分析,算法处理框架,为开发带来极大的便利。系统完整开发工具如图所示: 图1 分类系统开发工具汇总在数据库方面,选择Mongodb来存储爬取到的新闻信息。Mongodb作为一个非关系型数据库,只需将爬取到的新闻信息转...

2018-06-11 14:33:14 8914 21

原创 【Flask-Ajax-Echarts】 python实现新浪微博数据分析并实时展示在Flask服务器上

 需要工具: python3.6      pandas Flask  china.json echarts.js element.js jQuery.js,map.js,vue.js 需要数据集: 新浪微博用户数据集.csv 数据集一览:用pandas读入数据集放在内存中,Flask接收到Ajax传入的请求,将数据整理分析打包成json返回前端,前端通过echarts做可视化。后端flask模块...

2018-05-25 17:27:02 3264 2

原创 【NLP】词频统计的3中方法,时间复杂度,空间复杂度对比。

#第一种办法import re from collections import Counterdef get_max_value_vl(text): text = text.lower() result = re.findall('[a-zA-Z0-9]',text) #去掉列表中的符号 count = Counter(result) #词频统计 c...

2018-04-24 09:37:13 1283

转载 panda DataFrame 数据合并,连接(merge,join,concat)

merge  通过键拼接列pandas提供了一个类似于关系数据库的连接(join)操作的方法<Strong>merage</Strong>,可以根据一个或多个键将不同DataFrame中的行连接起来语法如下[python] view plain copymerge(left, right, how='inner', on=None, left_on=None, right_...

2018-04-23 10:33:05 13577

原创 逻辑回归,决策树,随机森林,KNN,高斯贝叶斯模型在智联招聘招聘信息的机器学习表现

1.算法讲解:决策树(Decision Tree)             决策树很通俗直观哈。我们在一次次按条件将训练数据分割的过程,就是一个训练的过程。就像我们不停地问问题,不停地用排除法,最后得出结果。            如图所示,工作年龄小于2是第一个分割节点。把所有招聘信息工作年龄小于2年的放到图的左边分支,大于等于2年的放到右边。一个点产生两个分支(我们也可以设置多个分支)。然后对...

2018-04-16 17:49:50 3287 2

原创 关于智联招聘招聘信息的机器学习模型

之前发布了一个对求职信息的网页爬虫,这之后做了一些机器学习的探索,这段时间项目基本介绍了,整理一下发布出来,供大家交流。3基于逻辑回归的岗位分类器设计 3.1 ;逻辑回归算法简介假设数据集有n个独立的特征,x1到xn为样本的n个特征。常规的回归算法的目标是拟合出一个多项式函数,使得预测值与真实值的误差最小:而我们希望这样的f(x)能够具有很好的逻辑判断性质,最好是能够直接表达具有特征x的样本被分到...

2018-04-16 09:18:37 2277 3

原创 【python】多进程+多线程 制作智联招聘爬虫 写入CSV+mongodb

前期准备:这次爬虫用的都是python自带的包,所以只用准备一个pymongo用于mongodb数据库连接就可以了pip install pymongo第一步:目标站点分析url = ‘http://sou.zhaopin.com/jobs/searchresult.ashx?p=0&jl=%E5%85%A8%E5%9B%BD&kw=%E5%A4%A7%E6%95%B0%E

2018-02-04 22:38:40 2745

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除