自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

hustqb的博客

机器学习、深度学习、Python等方面的学习笔记

  • 博客(108)
  • 资源 (2)
  • 收藏
  • 关注

翻译 Attention入门及其在Tensorflow中实现

翻译自Tensorflow官方教程Neural machine translation with attention声明:本文将实现一个将西班牙语翻译成英语的seq2seq模型;需要读者对seq2seq模型有了解;需要读者对nlp中一些数据处理方式有了解;翻译并非直译,会比原文更直白和丰富。有些不重要的代码已通过(不重要)标记我们准备训练一个seq2seq模型,将西班牙语翻译成英...

2020-02-16 18:38:49 11335 1

原创 了解一下Sklearn中的文本特征提取

文本特征提取基于词袋的向量化要知道,原始文本是不能直接被机器学习到的,因为机器通常需要以数值型的、定长的数据作为输入。原始文本是字符串或字符串集合。数值型、定长的数据是浮点型或整型的向量。为了让原始为本转化成数值型地、定长的向量,sklearn提供了三种常用的工具:令牌化字符串基于词频的向量化进行正则化或加权,使向量化的文本能包含一定的上下文信息。以上三种工具存在一种递...

2019-11-16 17:39:29 2992

翻译 不同版本Inception Network介绍

声明参考A simple Guide to the Versions of the Inception Network,同时有一定的原创性。现在网上有很多有关Inception的文章,但是都不如这篇英文文章介绍得好。本文希望读者提前对神经网络、CNN有所了解。Inception网络是卷积神经网络发展史上重要的里程碑,在Inception提出之前,卷积神经网络的发展仅仅是在不断的堆叠、加...

2018-12-28 16:04:34 4375 1

原创 Tensorflow实现Embedding Layer

def embedding_layer(x, vocab_size, embedding_size): """ :param x: 输入tensor :param vocab_size: 需要embedding的value的总量 :param embedding_size: embdding后tensor的axis=-1的维度 :return: embedding后的tensor """ # 创建一个n * k的默认值矩阵 embedding_w = tf.get_variable('emb

2021-06-03 15:19:40 1782

原创 给模型热身——深度学习中的warm up

Warm up是BERT中一项重要的trick,它是什么,它究竟能带给我们什么,以及如何实现。它是什么Warm up是一种学习率的设置方法,其学习率的变化如下图所示。假设我们使用随训练衰减的学习率设置方法,学习率的最大值是ppp。在模型训练的前nnn步进行warm up,第iii步的学习率为in⋅p\frac {i}{n} \cdot pni​⋅p它能带给我们什么有时候,在我们...

2020-04-24 22:52:27 4872

原创 Tensorflow中的masking和padding

声明:需要读者对tensorflow和深度学习有一定了解tf.boolean_mask实现类似numpy数组的mask操作Python的numpy array可以使用boolean类型的数组作为索引,获得numpy array中对应boolean值为True的项。示例如下:# numpy array中的boolean maskimport numpy as nptarget_ar...

2020-02-23 18:35:26 3674

原创 【论文阅读】对CNN进行序列分类的理解或者说是使用指南

论文:A Sensitivity Analysis of (and Practitioners’ Guide to) ConvolutionalNeural Networks for Sentence Classification2016年的论文,中国人的论文,作者写得很认真,每次实验的都非常详细(如交叉验证,实验多次等),这篇博客略去了对实验细节的介绍,只阐述结果。Abstract近年来...

2020-02-09 11:10:12 2984

原创 reuse tf.keras.layers

本文介绍如何重用tf.keras.layers中的层。在tensorflow中,我们可以通过variable_scope和reuse参数控制变量的初始化和重用。但当我们在tensorflow中使用tf.keras.layers时,这种参数重用的方式就失效了。不幸的是,tensorflow文档不全,而且总是诱导我们升级版本,扶正keras。那么,应该如何在tensorflow的代码中使用tf.k...

2020-01-28 10:25:49 1944

原创 自然语言处理中的Word Embedding简介

本文参考自What Are Word Embeddings for Text简介Word Embedding可以将word转化为数值型词向量,便于后续机器学习和深度学习模型的训练。并且,word之间的相似性越大,词向量之间的距离越小。Word Embedding有两大优势:原本离散的word被转化为连续的数值型向量,便于计算。包含更多的信息:因为相似word的词向量在数值上是相近的。...

2019-11-02 20:09:25 2247

翻译 IDEA版本控制——同步本地和远程仓库

同步远程仓库到本地当我们在本地对代码做了改动并准备上传到远程仓库前,需要先同步远程仓库,check一下远程仓库有没有改变。有三种方法:fetch changespull changesupdate your projectFetch changes等同于git fetch,从远程仓库copy代码到本地到远程仓库缓存区(Remote/origin Responsitory)。这种方...

2019-10-27 15:27:29 3943

原创 SQL创建表

SQL创建表的代码很简单,就是CREATE TABLE语句,但是在敲键盘之前,我们应该花更多的时间和经历来设计表的结构,想想一下几个方面:表里会包含什么数据(即字段的名称),它们都是什么类型的数据(即字段的数据类型)?表的名称是什么?通常需要有一个命名规范,一方面便于其他人能顾名思义,容易想到该表的作用;另一方面,随着表的数量越来越多,具有共同点的表应该在表名上有所重合,方便后期整理。应该...

2019-10-26 23:16:44 2048

原创 NLP之词袋模型二

在NLP之词袋模型一中介绍了最基本利用词袋模型(Bag of Words)进行词向量表达对方法,本文介绍几种提升词袋模型性能的方法。提升词袋模型性能的方法主要在以下几个方面:词袋的管理词向量表达方法的选择词袋的管理管理词袋包括:词袋的创建、词袋的维护。为了更好的管理词袋,我们首先考虑以下几个方面:词袋可能会很大,特别是当我们处理较多文本的时候。词袋很大的话,容易导致词向量比较...

2019-08-18 21:58:25 1956

原创 NLP之词袋模型一

声明:参考A Gentle Introduction to the Bag-of-Words Model词袋模型目的:将不定长的文本型数据转化为定长的数值型数据,以便用作机器学习模型的输入。用处:常用于文本建模和分类。优点:简单,易实现。缺点:不能考虑文本的结构和顺序。基本流程1. 获取全部文本以《双城记》中的一段话为例:It was the best of times,it...

2019-08-16 21:41:26 1499

原创 Python中的时间显示(time模块相关)

  Python提供了time模块来帮助我们处理时间,但是刚刚接触这个模块时,会发现time模块中的时间类型有很多,也有各种转换函数,难以让人把握住重点。下面本文将介绍time模块中最常用的部分,有了它,在处理大多是python时间问题上都不用愁了。Python中的时间格式Python中有三种时间格式:float格式,即时间戳,每个时间戳都以自从1970年1月1日午夜(历元)经过了多长时间...

2019-08-03 12:37:24 1731

翻译 数据建模(Data Modeling)是什么?

声明:译自博客《What is Data Modelling? Conceptual, Logical, & Physical Data Models》什么是数据建模?数据建模(Data modeling)是为要存储在数据库中的数据创建数据模型的过程。数据建模在概念上包括以下3个部分:数据对象(Data objects)不同数据对象之间的关联(The associations b...

2019-05-23 21:33:05 41271

原创 马氏距离(Mahalanobis Distance)介绍与实例

temp

2019-05-20 09:27:26 32691

原创 超全面的协方差矩阵介绍

阅读本文需要具备一定的线性代数基础,通过本文,你将对协方差矩阵有全面的理解。## 定义**n个随机向量:**$$\mathbf{X}=(X_1,X_2,...,X_n)^T$$两个随机向量的协方差:cov[Xi,Xj]=E[(Xi−E[Xi])(Xj−E[Xj])]cov[X_i,X_j]=E[(X_i-E[X_i])(X_j-E[X_j])]cov[Xi​,Xj​]=E[(Xi​−...

2019-05-16 15:20:45 60863 10

翻译 4个帮你编写完美Python脚本的技巧

声明:译自How to Write Perfect Python Command-line Interfaces --Learn by Examples本文会基于例程介绍4个完善Python脚本的技巧四个技巧命令行参数解析中设置默认值异常处理帮助/说明文档进度条控件从一个例程开始Python脚本何为Python脚本?我们有一个.py文件,即python程序。这个程序...

2019-03-06 10:56:55 2409

原创 从二项分布推导泊松分布

参考:可汗学院从二项分布推导泊松分布  二项分布:P(X=k)=Cnk⋅pk⋅(1−p)n−kP(X=k) = C_n^k\cdot p^k\cdot (1-p)^{n-k}P(X=k)=Cnk​⋅pk⋅(1−p)n−k抛硬币  以抛硬币为例,ppp可以表示抛一次硬币,朝上的概率,P(X=k)P(X=k)P(X=k)表示抛nnn次硬币后,kkk个硬币朝上的概率。车流量估计  将抛硬币的...

2018-12-22 19:56:39 14670 10

翻译 Alexnet论文介绍(ImageNet Classification with Deep Convolutional Neural Networks)

摘要  本文训练了一个深度卷积神经网络进行ImageNet LSVRC-2010图片分类比赛(1000各类别,共120万高质量标注的图片),在top1测试场景下错误率37.5%,在top-5测试场景下错误率17.0%,远小于之前最好的结果。  网络的大体结构:6000万个参数、65万个神经节点、5个卷积层、几个最大值池化层(max-pooling layers)、3个全连接层、最后还有一个10...

2018-12-14 11:45:33 2388

原创 HeadFirst设计模式——如何实现自己的鸭鸣器不继承Duck类?

声明:《Head First设计模式》23页提问,如何实现自己的鸭鸣器不继承Duck类?本文解答这个问题。正如该书前面所说,通常【有一个】比【是一个】更好。MallardDuck, RedheadDuck, ModelDuck都是鸭子,所以它们继承了父类Duck,也就继承了父类的属性flyBehavior, quackBehavior和父类的方法display()。鸭鸣器不是鸭子,不继...

2018-12-08 20:03:29 1015 1

翻译 5分钟了解受限玻尔兹曼机(RBM)

声明:译自A Beginner’s Guide to Restricted Boltzmann Machines (RBMs)Definition & Structure玻尔兹曼机(RBM)由深度学习先驱Geoffrey Hinton提出,可用于降维、分类、回归、协同过滤、特征提取和主题建模(topic modeling)。RBM是一个浅层网络,包括输入层(input layer/v...

2018-12-06 10:38:47 4894 2

翻译 Sampling Matters in Deep Embdding Learning论文研究

声明:论文链接Sampling Matters in Deep Embdding LearningSampling Matters in Deep Embdding Learning  这是基于one-shot learning中的metric learning范畴做的研究。metric learning通过将样本对映射到嵌入空间,在嵌入空间中比较样本之间的相似性来进行分类。主要创新点...

2018-11-13 22:01:20 699

翻译 Matching Networks for One Shot Learning论文分析

Matching Networks for One Shot LearningAbstract研究领域: One Shot Learning(小样本学习)从少量样本中快速学习,是传统监督学习和Deep Learning无法解决的问题,该研究领域被称为小样本学习。创新:以下两种方法结合:metric learning目前,小样本学习的主流方法external memories以前小样本...

2018-11-08 14:49:18 13358 11

翻译 tf.control_dependencies()

声明:翻译tensorflow官方文档并进行了总结参考博客tensorflow学习笔记(四十一):control dependenciestf.control_dependecies()tf.control_dependencies是tensorflow中的一个flow顺序控制机制,作用有二:插入依赖(dependencies)和清空依赖(依赖是op或tensor)。常见的tf.con...

2018-10-30 17:15:32 8219

转载 最大似然估计、贝叶斯估计和最大后验估计

声明:转载自参数估计:最大似然、贝叶斯与最大后验前言中国有句话叫“马后炮”,大体上用在中国象棋和讽刺人两个地方,第一个很厉害,使对方将帅不得动弹,但这个跟我们今天说的基本没关系;第二个用途源于第一个,说事情都发生了再采取措施,太迟了。但不可否认,我们的认知就是从错误中不断进步,虽然已经做错的不可能变得正确,但“来者尤可追”,我们可以根据既往的经验(数据),来判断以后应该采取什么样的...

2018-08-25 11:51:52 670

原创 TensorFlow SavedModel保存和加载模型

声明:参考TensorFlow官方文档SavedModel如果你想保存或恢复模型,我们推荐使用SaveModel. SaveModel是一种与语言无关,可恢复的密封式序列化格式。TensorFlow提供了多种与SavedModel交互的机制,如tf.saved_model API、Estimator API和CLI。 PS: 本文只介绍tf.saved_model API...

2018-06-23 11:30:03 25571

原创 TensorFlow保存和恢复变量——tf.train.Saver()

声明:参考Tensorflow官方文档tf.train.Saver()保存变量import tensorflow as tf# Create some variables.v1 = tf.get_variable("v1_name", shape=[3], initializer = tf.zeros_initializer)v2 = tf.get_variable(...

2018-06-22 17:11:49 10135 1

翻译 7天微课程——用Python进行时间序列预测

声明:本文是系列课程的开始本文是对机器学习网站课程的翻译尊重原作者,尊重知识分享者课程列表时间序列与监督学习下载时间序列数据集数据可视化persistence模型自回归模型ARIMA模型“Hello World”项目每个课程将占用1-30min,加油干吧! Hang in there, don’t give up!...

2018-06-20 09:22:45 853

翻译 7天微课程day7——完整项目:用Python预测法国香槟的月销量

声明: 终于到最后一天了,开不开心,激不激动?来瓶香槟奖励一下自己。 然后今天的任务很艰巨….毕竟最后一天了,笔者也有点小激动,可能行文风格有点飘,哈哈不要见怪。另外,再安利一波,加入这个机器学习社区跟着大神Jason一起学习吧。用Python预测法国香槟的月销量要做好时间序列预测,唯一的方法就是实践。practice, practice, practice.在本教程中,你...

2018-06-19 22:16:42 3758 1

原创 Python lag_plot()源码

能找到本文说明您也是想用lag_plot()函数却找不到它的参数说明文档,花2分钟阅读本文,然后problem solved!lag_plotlag_plot()用于时间序列的自相关性分析,可以描绘pandas对象series中当前值和滞后值之间的散点图。其源码在~/pandas/plotting/_misc.py中,如下:def lag_plot(series, lag=1, ax=...

2018-06-19 11:59:11 2445

翻译 7天微课程day6——用ARIMA模型进行时间序列预测

声明:本文是系列课程的第6课本文是对机器学习网站课程的翻译尊重原作者,尊重知识分享用ARIMA模型进行时间序列预测ARIMA(AutoRegressive Intergrated Moving Average)是一个非常非常流行的时间序列预测模型。通过本文,你将了解:ARIMA模型及其参数ARIMA的使用ARIMA的调优ARIMA该模型可以看做几个模型的...

2018-06-18 22:41:09 7423 5

翻译 7天微课程day5——用于时间序列的自相关模型AM

声明:本文是系列课程的第5课本文是对机器学习网站课程的翻译尊重原作者,尊重知识分享用于时间序列的自相关模型AMAM简单高效,它以t-1时刻的值为输入,经过回归方程获取预测值。在本文中,你讲学到:如何研究时间序列的自相关性如何定义一个自相关模型如何使用自相关模型进行预测Autoregression线性回归y^=b0+b1⋅X1y^=b0+b1⋅X1\h...

2018-06-18 11:36:42 3177 3

翻译 7天微课程day4——时间序列预测的baseline

声明:本文是系列课程的第4课本文是对机器学习网站课程的翻译尊重原作者,尊重知识分享时间序列预测的baseline创建一个baseline总是时间序列预测的关键一步。一个baseline可以帮助我们了解模型的好坏。本文将会创建一个基本的时间序列预测模型——persistence模型,该模型的预测可以作为一个baseline。通过本文,你将学到:baseline的重要性。...

2018-06-18 10:19:11 3391

翻译 7天微课程day3——用Python进行时间序列可视化

声明:本文是系列课程的第三课本文是对机器学习网站课程的翻译尊重原作者,尊重知识分享用Python进行时间序列可视化Python中有6中可视化时间序列的方法 时间序列本身的特性决定了它很容易被可视化,特别适用于折线图。然而,还有一些其他方法可以可视化时间序列,而且会展现时间序列其他方面的信息。我们对要分析的时间序列了解的越多,建立的预测模型就会越好,所以要好好学习这节课~...

2018-06-17 11:15:57 4905 1

翻译 7天微课程day2——下载序列数据集

声明:本文是系列课程的第二课本文是对机器学习网站课程的翻译尊重原作者,尊重知识分享下载序列数据集要使用的Python第三方库:Pandas通过本文,你可以学到:如何使用pandas读取一个csv文件。如何查看加载的数据,如何计算数据的统计量。如何可视化时间序列Daily Female Births Dataset数据集:Daily Female Birt...

2018-06-16 14:53:13 1397 2

翻译 7天微课程day1——时间序列与监督学习

声明:本文是系列课程的第一课本文是对机器学习网站课程的翻译尊重原作者,尊重知识分享者时间序列预测与监督学习时间序列预测可以被构建成监督学习问题,进而可以应用各种常见的机器学习算法。通过本文你将学会:什么是监督学习?机器学习中的预测算法是如何工作的。滑动窗口方法及其在时间序列中的应用。如何使用滑动窗口处理多变量(multivariate)时间序列和时间序列的多步(m...

2018-06-14 21:48:33 1642

原创 全面解读循环神经网络

声明:适用于对深度学习有一定了解,并想进一步了解RNN以及LSTM的朋友。本文包括原理和应用,特别长,可以先收藏再慢慢看。框架:TensorFlowRNN的发展、意义什么的都不讲了,全是硬知识。参考文献: Understanding LSTM NetworksTensorFlow官方文档《安娜卡列尼娜》文本生成——利用TensorFlow构建LSTM模型The Unreaso...

2018-06-13 10:55:49 1265

翻译 t-SNE实践——sklearn教程

声明:参考sklearn官方文档t-SNEt-SNE是一种集降维与可视化于一体的技术,它是基于SNE可视化的改进,解决了SNE在可视化后样本分布拥挤、边界不明显的特点,是目前最好的降维可视化手段。 关于t-SNE的历史和原理详见从SNE到t-SNE再到LargeVis。 代码见下面例一t-distributed Stochastic Neighbor Embedding...

2018-06-09 21:14:36 78132 16

翻译 Python-Matplotlib绘图教程之Annotations

声明:翻译自官方文档并非直译在一些官方代码中去掉了不重要的部分AnnotationsAnnotation,意为“注释”。本文将依照matplotlib官方文档,摘取Annotation章节中的常用部分,结合实例予以介绍。Annotation基础matplotlib中的text()函数可以在坐标轴(Axes)中的指定位置添加文字。文字一般是用来解释图形的,在matplot...

2018-05-29 21:22:21 3437

Deep Learning Tutorial 李宏毅

深度学习入门PPT,帮助理解深度学习的几个重要概念和主要流程

2017-07-02

基于爬取的天气数据体验一下大数据

天气爬取的代码,数据清洗和可视化的代码,PPT

2017-05-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除