蜡笔大龙猫-CSDN博客

原创 Google Colab使用教程

简介Google Colaboratory是谷歌开放的云服务平台，提供免费的CPU、GPU和TPU服务器。目前深度学习在图像和文本上的应用越来越多，不断有新的模型、新的算法获得更好的效果，然而，一方面对资源的要求越来越高，另一方面很多开源的模型在国内无法使用。例如，前段时间研究的图片风格快速转换中用到的模型训练，在GPU上运行需要4个多小时，在CPU上无法想象。再者，tensorflow-hu...

2019-02-01 15:48:50 18436 7

原创图片风格快速转换的简单web实现

图片风格快速转换的简单web实现图片风格转换，是指利用深度学习算法学习某种风格图片的特征，将其应用到另一张图片中，合成新风格的图片，目前技术较为成熟，github上有很多有趣的项目与应用。本项目核心代码基于fast-neural-style-tensorflow，在此基础上，添加了简单的flask框架，实现了页面上传图片，选择转换风格，生成转换图片并展示的流程。项目的介绍、配置与部署见Git...

2019-01-29 10:57:02 1438 2

原创 CS224D 课程学习笔记 L06

Lecture 6. Neural Tips and TricksLecture 6主要介绍了深度学习应用的一些小技巧，例如多任务训练、梯度检测、正则化、多种激活函数、参数初始化、学习速率等。文章目录Lecture 6. Neural Tips and Tricks多任务学习（也叫权重共享）梯度检测正则化非线性神经元SigmoidTanhHard TanhSoft signReLuLeaky...

2019-01-12 22:42:03 353

原创 CS224D 课程学习笔记 L05

Lecture 5. Neural Networks这节课我们将要学习神经网络。教授本节课slides是按照单层神经网络的前向计算、损失函数、后向计算，两层神经网络的前向计算，损失函数，后向计算两个方面来讲解以及推导梯度公式。notes III是按照神经元、单层神经网络、最大间隔目标函数、元素级别的后向传播训练、向量级别的后向传播训练这些神经网络的基础来讲解。因为本章的Back Propagat...

2019-01-06 17:52:49 482 2

原创 CS224D 课程学习笔记 L04

Lecture 4. Word Window Classification我们在上节课快结束的时候提到了窗口分类，Lecture 3这节课更详细的介绍了常用分类的背景、窗口分类、更新词向量以实现分类，交叉熵推导经验等，课程的最后5分钟教授简单的介绍了单层神经网络，这部分笔记放在第五节课中。文章目录Lecture 4. Word Window Classification分类背景知识词向量用于窗...

2018-12-24 19:51:18 445

原创 BERT文本分类使用指南

本文档介绍了如何使用BERT实现多类别文本分类任务，适合稍微了解BERT和文本分类的同学参考。（一）下载首先，在github上clone谷歌的BERT项目，或者直接下载。项目地址然后，下载中文预训练模型，地址（二）环境准备tensorflow >= 1.11.0注意：在GPU上运行Tensorflow，需要CUDA版本和Tensorflow版本的对应。比如Tensorfl...

2018-12-21 16:19:27 23238 49

原创 CS224D 课程学习笔记 L03

Lecture 3. More Word VectorsLecture 3 这节课首先复习了上节课学到的word2vec模型，以及使用梯度下降和SGD优化参数，然后介绍了词向量的内部评测和外部评测，参数对于类比评测任务的影响，处理词义的模糊性和窗口分类等。文章目录Lecture 3. More Word Vectors梯度的更新词向量的评测内部评测 vs 外部评测内部评测示例：词向量的类比内部...

2018-12-16 18:42:14 285

原创 CS224D 课程学习笔记 L02

Lecture 2 主要介绍了传统的共现矩阵生成词向量方法和迭代生成词向量的方法，例如word2vec和Glove。文章目录Word Vectorsone-hot vector共现矩阵共现矩阵存在的问题SVDSVD存在的问题word2vec*word2vec的神奇之处*Glove几种得到词向量方法的对比Iteration Based Method一元、二元语言模型CBOWSkip-gramNeg...

2018-12-09 19:49:42 849 2

原创 CS224D 课程学习笔记 L01

Stanford CS224D 课程学习笔记 L01Lecture 1. Intro to NLP and Deep Learning教学大纲知识背景NLP是什么？NLP LevelsNLP应用为什么NLP困难？Deep Learning是什么？探索DL的原因NLP的典型应用Lecture 1. Intro to NLP and Deep Learning邮箱：houlisha1987@12...

2018-12-02 22:14:33 744

原创《知识图谱的系统工程观》笔记

最近也学习知识图谱的一些知识，看到这篇文章讲的很详细，做了一篇学习笔记，分享出来！附件是这篇笔记的思维导图，仅供参考！附：链接：https://pan.baidu.com/s/1NJnT8vW6JbAtP16S31QccA 提取码：pysi ...

2018-11-26 13:48:26 491

原创我从远方带着诗回来，回归眼前的苟且

时隔一年半，再一次回到曾经天天打开的CSDN，发现新页面改版很大，有点不习惯了。看到自己曾经写的文章，不管是原创的，转载的还是收藏的，回想起来坐在电脑前认真的编辑markdown的自己，居然有一丝丝的感动，感谢自己曾经那么努力，感谢自己之前的付出。最后一篇博客还是去年2月份写的，其实去年上半年我也写了一些文章，还没有来得及分享到这里。下半年换了新领导，工作内容也骤然变多，加上怀孕了精力有限...

2018-11-19 10:17:20 270 2

原创文本分类算法--朴素贝叶斯

贝叶斯定理贝叶斯定理用公式表示：p(Y|X)=P(X|Y)P(Y)p(X)p(Y|X) = \frac{P(X|Y)P(Y)}{p(X)}其中，p(Y)p(Y)是先验概率，P(Y|X)P(Y|X)是后验概率，也就是要求的概率。朴素贝叶斯算法原理朴素贝叶斯分类算法是一种生成模型。训练的过程是学习联合概率分布p(x,y)p(x, y)，预测的时候使用贝叶斯法则计算条件概率p(y|x)p(y|x)，选择条

2017-02-21 11:33:30 1393

原创开源项目kcws代码分析--基于深度学习的分词技术

分词原理本小节内容参考待字闺中的两篇博文：97.5%准确率的深度学习中文分词（字嵌入+Bi-LSTM+CRF）如何深度理解Koth的深度分词？简单的说，kcws的分词原理就是：对语料进行处理，使用word2vec对语料的字进行嵌入，每个字特征为50维。得到字嵌入后，用字嵌入特征喂给双向LSTM，对输出的隐层加一个线性层，然后加一个CRF就得到本文实现的模型。于最优化方法，文本语言模型类

2016-12-01 18:01:09 11815 3

原创关键词提取综述

关键词提取综述本文资料来自于一篇2014年的论文Automatic Keyphrase Extraction：A Survey of the State of the Art主要选取提取关键词算法的部分，不涉及评价以及数据集等。关键词提取一般有两个阶段，第一阶段是生成关键词候选集，第二阶段是采用监督学习或者非监督学习算法来选择关键词。1. 生成关键词候选集(1). 去除停用词 (2). 只提取指定

2016-11-18 17:33:31 6779

原创 word2vec算法分析

占坑

2016-11-18 17:32:16 843

原创学习笔记：Deep Learning（四）循环神经网络

循环神经网络RNN（Recurrent Network）深度学习面临的两个问题： 1. 补偿出现的词通常更有代表意义，更有利于分类，例如“视网膜病变”，这类词很少很少出现。 2. 用不同的词表达相同的意思，例如“cat”和“kitty”，词具有模糊语义。监督学习需要大量带标注的训练数据，现实中带标注数据不多，所以我们考虑非监督学习。深度学习一个重要的理念是：相似的文本往往出现在相似的环境中根据在

2016-11-18 17:30:41 3489 1

原创学习笔记：Deep Learning（三）卷积神经网络

卷积神经网络CNN（Convlutional Network）平移不变形*translate invariance，位置不同内容不变。权重共享*可以实现平移不变性，当两种输入可以获得同样的信息的时候，则应该共享权重，并利用这些输入共同训练权重。评议不变形和权重共享的思想，使得我们可以用卷积神经网络研究图片，循环神经网络研究文本和序列。概念CNN是一种在空间上共享参数的神经网络，它对图片处理过程如下图

2016-11-16 15:57:40 5756 1

原创学习笔记：Deep Learning（二）深度神经网络以及正则化

深度神经网络以及正则化前面我们介绍了简单的线性模型，但是它仍有局限性，接下来介绍非线性模型。首先介绍，偷懒的工程师最喜欢的非线性模型ReLU（Rectified Linear Units）ReLUReLU的函数形式为： f(x)=max(0,x)f(x) = max(0, x)它的导数也非常简单，小于0的时候，导数为0，大于0的时候，导数为1。用ReLU在前面的逻辑分类器的基础上构建简单的非线性模

2016-11-01 17:29:52 7183

原创学习笔记：Deep Learning（一）入门

学习笔记：Deep Learning学习资料：优达学院课程《Deep Learning》，Google首席科学家Vincent Vanhoucke讲解视频。下文的大部分内容，我会按照课程分享，也会加上自己的理解。学习笔记Deep Learning从机器学习到深度学习softmax functionone-hot编码cross entropy交叉熵multinomial logistic分类

2016-10-31 15:56:04 1377

原创 mac OS安装postgreSQL和psycopg的坑

最近参加baojie老师的知识图谱学习小组，需要安装PostgreSQL实践一下，因此在mac上安装PostgreSQL数据库和python的psycopg2包，踩了很多坑，特此记录一下。版本python 2.7 （假设已经安装）mac OS 10.9PostgresSQL 9.4.8psycopg2 2.6.2其他需要安装的工具下文再讲。步骤1、安装PostgreSQL之所以先安装Pos

2016-06-27 22:08:48 4229

翻译【正则表达式】pyahocorasick介绍

pyahocorasick是个python模块，由两种数据结构实现：trie和Aho-Corasick自动机。Trie是一个字符串索引的词典，检索相关项时时间和字符串长度成正比。AC自动机能够在一次运行中找到给定集合所有字符串。AC自动机其实就是在Trie树上实现KMP，可以完成多模式串的匹配。（推荐学习资料：http://blog.csdn.net/niushuai666/article/de

2016-06-13 13:50:47 10482

原创 LDA理解以及源码分析（二）

LDA系列的讲解分多个博文给出，主要大纲如下：LDA相关的基础知识什么是共轭multinomial分布Dirichlet分布LDA in text LAD的概率图模型LDA的参数推导伪代码GibbsLDA++-0.2源码分析Python实现GibbsLDA参考资料GibbsLDA++-0.2源码分析GibbsLDA++-0.2工具包下载地址为：下载工具包里docs文件夹里有

2015-12-09 17:31:13 6732 1

原创 LDA理解以及源码分析（一）

LDA系列的讲解分多个博文给出，主要大纲如下：LDA相关的基础知识什么是共轭multinomial分布Dirichlet分布LDA in text LAD的概率图模型LDA的参数推导伪代码GibbsLDA++-0.2源码分析Python实现GibbsLDA参考资料LDA相关的基础知识LDA是Blei于2002年发表的概率语言模型，被广泛应用于主题建模中，通过对文本进行潜语义

2015-12-09 17:27:15 17181 1

原创 Spark LDA

关于LDA的理论部分，参考其他博客（链接待定），本文主要记录spark中LDA的实现。spark1.4版本的LDA原文比较简单，下面主要是以翻译官网为主。理论部分LDA是一个主题模型，它能够推理出一个文本文档集合的主题。LDA可以认为是一个聚类算法，原因如下：主题对应聚类中心，文档对应数据集中的样本（数据行）主题和文档都在一个特征空间中，其特征向量是词频向量跟使用传统的距离来评估聚类不一样的是

2015-12-08 16:59:33 9723

原创 Intellij搭建spark开发环境

spark怎么学习呢？在一无所知的前提下，首先去官网快速了解一下spark是干什么的，官网在此。然后，安装开发环境，从wordcount开始学习。第三，上手以后可以学习其他算法了。最后，不要放弃，继续深入学习。那么，首先解决的就是如何搭建开发环境的问题。1、确保你的电脑安装了JDK，以及配置了JAVA_HOME环境变量。2、安装Intellij IDEA，下载地址。目前15.0版本对Scala的支持

2015-12-08 11:18:42 19608 1

原创学习使用Git

熟悉了SVN之后，忽然想研究一下Git。1、安装Git在windows下的客户端以及Git bash。首先去官网（ https://github-windows.s3.amazonaws.com/GitHubSetup.exe ）下载最新版本的Git客户端（目前最新版本是1.8.5.2），这个版本只有Git客户端，没有Git bash或者shell，所以还需要

2014-01-22 16:30:20 6143

原创【Lenskit】eclipse创建lenskit的maven项目

感谢雪峰同学帮我搞定这个东东！首先安装maven、maven插件、配置环境变量，maven配置文件等等，下文默认已经配置好了。1、在eclipse中选择File、New、Maven project、Next，在Filter中输入”lenskit“，理论上会出现maven中关于lenskit的各种包，但是实际上一般出不来。那么我们就自己添加吧。选择“Ad

2013-12-31 16:34:35 3565

原创【self-taught learning】学习论文以及代用代码

【self-taught learning】快速稀疏编码算法 Self-taught learning是Honglak Lee等开发的一个matlab框架，能够实现他们在论文Self-taught Learning Transfer Learningfrom Unlabeled Data和Efficient sparse coding algorithms中提出的快速实现图像稀疏编码的算法

2013-12-26 16:40:24 7556 2

原创【Caffe】训练ImageNet模型

Caffe训练ImageNet使用的是NIPS 2012 paper论文的算法。 1、准备数据。假设已经下载好数据集和验证集，存储路径为：/path/to/imagenet/train/n01440764/n01440764_10026.JPEG/path/to/imagenet/val/ILSVRC2012_val_00000001.JPEG首选需要创建一个txt文件，列

2013-12-25 13:41:36 70105 17

原创【Caffe】训练MNIST数据集模型

1、准备数据。可以从MNIST官网上下载数据，或者执行data文件夹里get_mnist.sh文件（需要安装wget或者gunzip），下载成功会有如下两个数据集：/data/mnist-train-leveldb和/data/mnist-test-leveldb. 2、训练和测试模型。我们使用LeNet网络来训练模型，该算法是数字识别的最好方法。LeNet网络中间层定义在

2013-12-25 13:38:27 22590 6

原创【Caffe】下载与安装

如果在GPU下安装caffe，需要先安装CUDA5.0或者CUDA5.5。安装之前，还需要安装的工具有：intel MKL（30天试用版或者学术版），python，numpy，boost_python... 其他python package，可以使用下面的命令安装：sudo apt-get install libprotobuf-dev libleveldb-dev li

2013-12-25 13:36:14 16282 7

原创【Caffe】简单介绍

Caffe是一个计算CNN相关算法的框架，由Yangqing Jia老师编写和维护的，代替了之前的decaf工具。暂时还没有demo。（decaf有demo）。 Caffe的优势：1、所要实现的网络结构可以在配置文件中指定，不需要编码。2、目前在GPU上实现CNN最快，在单个Tesla K20机器上，每天处理20million图片。3、GPU和CPU之间无缝切换。著作

2013-12-25 13:33:09 10767

转载 Topic Model的分类总结（LDA变种）

转自：http://hi.baidu.com/ouyanggaoyan/item/5b5c01d4c518871cd78ed0d7#713670-tsina-1-29064-128ff9f28d958dae738be418601ffbcdTopic models主要可以分为四大类：1.无监督无层次结构, 主要有： (1)PLSA(Hofmann

2013-07-29 08:33:10 10050 1

转载个性化推荐的十大挑战

http://blog.sciencenet.cn/home.php?mod=space&uid=636598&do=blog&view=me挑战一：数据稀疏性问题。现在待处理的推荐系统规模越来越大，用户和商品（也包括其他物品，譬如音乐、网页、文献……）数目动辄百千万计，两个用户之间选择的重叠非常少。如果以用户和商品之间已有的选择关系占所有可能存在的选择关系的比例来衡

2013-07-10 09:08:01 2090

原创《Head First设计模式》策略模式

上一节介绍了对于鸭子类，如何抽取出变化的行为，定义为接口，用具体行为类来实现不同的行为。那么，如果想要动态的改变鸭子的行为，应该怎么做呢？① 在Duck中，加入两个新方法public void setFlyBehavior(FlyBehavior bf){ flyBehavior = fb}public void setQuackBehavior(QuackBehav

2013-07-09 22:30:21 835

转载文本特征提取方法研究

http://blog.csdn.net/tvetve/article/details/2292111一、课题背景概述文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统

2013-05-13 12:51:53 2825 1

转载 malloc/free与new/delete的区别

转自：http://blog.csdn.net/hackbuteer1/article/details/6789164#comments相同点：都可用于申请动态内存和释放内存不同点：（1）操作对象有所不同。malloc与free是C++/C 语言的标准库函数，new/delete 是C++的运算符。对于非内部数据类的对象而言，光用maloc/free 无法满足动态对象的要求

2012-08-29 23:00:41 625

原创《编程珠玑》读书笔记（三）

《编程珠玑》的第二部分讲的是性能，第三部分讲的是应用，所以我暂时跳过第二部分，直接看应用。第十一章排序排序问题一直是面试的热点！本章首先介绍了插入排序，然后介绍了快速排序，并提出了快速排序的几种改进方法，例如双向划分、随机数划分、以及小范围结合插入排序，三种的性能递增。排序免不了交换，书中特别指出将swap()函数写入循环中会加速。插入排序：稳定

2012-05-26 17:14:25 943

原创微软暑期实习面试总结

微软一天有四场面试，我是第二场，上午十点半签到，十一点面到一点，两个面试官，提前告诉了是技术面。微软大厦真是很气派，环境超级好。刚到门口就有HRMM接我们进去等待，跟我一起下车的都是坐304的BYR，有个MM貌似很牛的样子，今天百度笔试的时候又看到她了，看上去就像狮子座女生。签到的时候看了一下名单，突然发现了菲菲也在，太巧了。签到之后就是在一楼的会议室等待，一共ABCDE1E2F1

2012-05-06 16:14:01 8044 6

原创 2012腾讯暑期实习笔试

虽然签署了保密协议，我还是无耻的记录下来了。虽然被企鹅笔试了，该写的还要写。一、选择题1、循环队列，判断头尾的条件。2、磁盘数据处理，磁盘分十道，求数据处理时间。3、顺序表O(1)的操作。4、进程设备利用率5、虚拟分页存储6、哈弗曼树的带权路径和7、关系数据表8、但循环链表到

2012-04-21 20:42:33 1242

俄罗斯方块VB源代码

空空如也