黄鑫huangxin-CSDN博客

原创数据处理工具简单了解

一、Redis字典结构的数据存储服务器Redis是一个字典结构的存储服务器，而实际上一个Redis实例提供了多个用来存储数据的字典，客户端可以指定将数据存储在哪个字典中。二、kafka消息队列发布-订阅消息传递模式在发布-订阅消息系统中，消息被持久化到一个topic中。消费者可以订阅一个或多个topic，消费者可以消费该topic中所有的数据，同一条数据可以被多个消费者消费，数据被...

2019-10-29 14:24:13 493

原创文本相似度算法总结

文本匹配算法主要用于搜索引擎，问答系统等，是为了找到与目标文本最相关的文本。例如信息检索可以归结成查询项和文档的匹配，问答系统可以归结为问题和候选答案的匹配，对话系统可以归结为对话和回复的匹配。一、传统模型基于字面匹配字面距离：字符串有字符构成，只要比较两个字符串中每一个字符是否相等便知道两个字符串是否相等，或者更简单一点将每一个字符串通过哈希函数映射为一个哈希值，然后进行比较。...

2019-06-04 20:12:06 28413 1

原创 ICMR 19：Temporal Activity Localization by Language

介绍一下我之前在校，独立完成的一项工作，已被ACM ICMR 2019 接收为oral paper论文：《Cross-Modal Video Moment Retrieval with Spatial and Language-Temporal Attention》代码：https://github.com/BonnieHuangxin/SLTA一、论文任务Examples:...

2019-06-04 19:56:46 1634 3

原创 TextRank算法提取文本关键词

TextRank算法是由 Google 搜索的核心网页排序算法 PageRank 改编而来，利用图模型来提取文章中的关键词，首先介绍一下 PageRank 排序算法一、PageRank 算法PageRank通过网页之间的超链接来确定页面的重要性，它将整个互联网可以看作是一张有向图，网页是图中的节点，网页之间的链接就是图中的边。根据重要性传递的思想，如果一个大型网站A含有一个超...

2019-06-04 19:38:02 7794

原创自然语言预训练模型总结（PPT版）

这是我个人的总结，参考了张俊林这篇很好的文章，请感兴趣看以下链接~张俊林：放弃幻想，全面拥抱Transformer：自然语言处理三大特征抽取器（CNN/RNN/TF）比较一、简介自然语言处理中的预训练技术发展历程——从Word Embedding到Bert Neural language models Word Embedding Pretrained l...

2019-06-04 19:33:00 1976

原创中文分词综述

一、中文分词根据实现原理和特点，主要分为以下2个类别：1、基于词典分词算法（字符串匹配分词算法）按照一定的策略将待匹配的字符串和一个已建立好的“充分大的”词典中的词进行匹配，若找到某个词条，则说明匹配成功，识别该词。常见的基于词典的分词算法分为以下几种：正向最大匹配法、逆向最大匹配法和双向匹配分词法等。 2、基于统计的分词方法基于统计的分词方法是在给定大量已经分...

2019-06-04 19:22:59 2161

原创 Letcode刷题（python）

题目出自《程序员代码面试指南》1.1 最小栈设计一个支持 push，pop，top 操作，并能在常数时间内检索到最小元素的栈。 push(x) -- 将元素 x 推入栈中。 pop() -- 删除栈顶的元素。 top() -- 获取栈顶元素。 getMin() -- 检索栈中的最小元素。 python内的list来实现栈class MinS...

2019-04-26 11:19:48 800 3

原创 AAAI 2018: 基于强化学习的文本分类

看这篇论文前，建议先了解一下policy gradient RL，就更很容易理解论文思想了。论文：《Learning Structured Representation for Text Classification via Reinforcement Learning》代码：http://coai.cs.tsinghua.edu.cn/publications/一、论文原理这...

2019-04-26 11:10:55 1982 5

原创【NLP】OpenAI GPT算法理解

论文《Improving Language Understanding by Generative Pre-Training》Pytorch代码实现：huggingface/pytorch-openai-transformer-lm一、论文原理GPT的核心思想是先通过无标签的文本去训练生成语言模型，再根据具体的NLP任务（如文本蕴涵、QA、文本分类等），来通过有标签的数据对模型进行...

2019-04-23 19:18:08 6138 1

原创 Pytorch的模型结构可视化（tensorboard）

在pytorch中，可以导入tensorboard模块，可视化网络结构及训练流程。下面通过“CNN训练MNIST手写数字分类”的小例子来学习一些可视化工具的用法，只需要加少量代码。一、tensorboardX的安装pip install tensorboardpip install tensorflowpip install tensorboardX二、导入tensorboa...

2019-03-12 00:19:50 11683 1

原创计算机类学术论文写作中提高效率的小工具

作为一个学术论文写作新手，分享在论文写作过程中发现的提高效率的小工具。1. 在线写作工具——Overleaf在线latex写作，自动保存。在写的过程中可以随时编译，并且下载为pdf格式。网址：https://www.overleaf.com2. 检查语法错误以及单词拼写——Grammarly粘贴论文中的句子，检测句子是否有语法错误或者单词拼写错误。总的来说，可以标注出简单的小错...

2019-03-10 23:12:38 1021 1

原创 Flask入门

最近接触到python web中的Flask，需要学习一下基本用法，这里做一个记录。安装Flaskpip install flask一、Hello World接下来实现一个简单的‘Hello,World!',代码如下：from flask import Flaskapp = Flask(__name__) @app.route('/')def index(): ...

2019-03-10 22:41:33 168

原创 Pytorch在NLP中的简单应用

因为之前在项目中一直使用Tensorflow，最近需要处理NLP问题，对Pytorch框架还比较陌生，所以特地再学习一下pytorch在自然语言处理问题中的简单使用，这里做一个记录。一、Pytorch基础首先，第一步是导入pytorch的一系列包import torchimport torch.autograd as autograd #Autograd为Tensor...

2019-03-07 12:22:43 2223

原创 CoNLL 2018：基于人类注意力的序列分类

论文《Sequence classification with human attention》代码：https://github.com/coastalcph/Sequence_classification_with_human_attention这篇论文提出利用视觉跟踪语料库中的人类注意力，作为训练注意力模型时的一个归纳偏置（Inductive bias），也就是用human atte...

2019-03-06 19:51:32 1197

原创 map()函数报错解决

1. 在python3中执行下列代码map(lambda x: x*2, range(1,10))报错：<map at 0x248ea822550>2. 原因在python3里面，map()的返回值已经不是list,而是iterators, 所以想要使用map()函数，需要将iterator 转换成list 即可，即list(map())list(map(...

2019-03-06 13:36:49 3481

原创基于Pytorch的MLP模块实现

MLP分类效果一般好于线性分类器，即将特征输入MLP中再经过softmax来进行分类。具体实现为将原先线性分类模块：self.classifier = nn.Linear(config.hidden_size, num_labels)替换为：self.classifier = MLP(config.hidden_size, num_labels)并且添加MLP模块： ...

2019-03-04 12:06:06 13939 3

原创 Python实现Excel改为txt格式

将excel存储的数据改为txt格式的数据集import xlrdfileName = "9类情感-筛选语料2.28.xlsx"fileHandler = xlrd.open_workbook(fileName) sheet_name1=u'Sheet1'page = fileHandler.sheet_by_name(sheet_name1) col1 = page.co...

2019-03-01 23:51:24 892

原创《Rethinking ImageNet Pre-training》理解

论文：何恺明《Rethinking ImageNet Pre-training》在许多计算机视觉任务中，包括目标检测、图像分割、行为检测等，一般使用在ImageNet上预训练再进行微调。而在这篇论文中，作者任务在ImageNet上预训练是并不必要的，随机初始化也可以达到同样的效果，只需要：1）使用合适的正则化优化方法2）足够长的训练时间，即多次迭代训练论文中的走势图，我们可以观察到...

2018-12-18 14:20:39 342

原创 Google BERT理解

论文：《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》一、模型介绍BERT采用了双向Transformer Encoder来作为语言模型（《Attention is all you need》论文中的transformer结构），采用了两种预训练方法：1）Masked L...

2018-12-18 14:02:54 1149

原创 ELMo模型的理解与实践（2）

预训练好的词向量已经released，这里介绍一下，如何直接获取ELMo词向量。在pytorch里可以通过AlenNLP包使用ELMo。一、环境配置1) 在conda中创建allennlp环境：conda create -n allennlp python=3.62) 安装allennlppip install allennlp二、下载训练好的参数和模型参数下载：...

2018-12-18 13:59:56 2000 3

原创 ELMo模型的理解与实践（1）

论文：2018 NAACL 《Deep Contextualized Word Representations》一、优点1.学习单词的复杂特征，包括语法、语义2.学习在不同上下文下的一词多义二、模型1.Bidirectional language models（BLM）首先给定N个单词的序列， 1）前向语言模型，已知前k-1个单词，预测第k个单词的概率：2...

2018-12-18 13:56:43 3803

原创 Ubuntu 16.04 下查看gpu的运行情况

1.查看gpu使用情况nvidia-smi2.每秒显示异常watch -n 1 nvidia-smihndx532@hndx532-PowerEdge-T630:~$ nvidia-smiMon Nov 12 20:13:17 2018+--------------------------------------------------------------------...

2018-11-12 20:16:05 3428

原创 Skip-Thought词向量模型实现Sent2Vec

一、原理skip-thought模型结构借助了skip-gram的思想。在skip-gram中，是以中心词来预测上下文的词；在skip-thought同样是利用中心句子来预测上下文的句子，其数据的结构可以用一个三元组表示(st−1,st,st+1) ，输入值st，输出值(st−1,st+1)，具体模型结构如下图：　　　　二、实践使用预训练好的Skip-Thought提取文本特...

2018-11-10 12:19:38 3720 1

原创 ubuntu16.04更改CUDNN 6.0 版本

在 ubuntu16.04 上安装tensorflow-gpu发现没有对应版本。查看之后，我的电脑是cuda 8.0,cudnn 7版本所以需要更换cudnn版本为6.0,才可以安装tensorflow-gpu一、下载linux版的CUDNN 6.0官网下载：https://developer.nvidia.com/cuDNN，需要邮箱注册。二、安装1）解压到下载的目录下：...

2018-11-08 18:17:18 472

原创 python2与python3保存的pickle文件不兼容问题

1.python3 读取 python2保存的pickle文件import pickleinf=pickle.load(open('f:\\a.pkl',"rb"),encoding='latin1')print(inf)f.close()2.python2 读取 python3保存的pickle文件报错为：ValueError: unsupported pickle p...

2018-11-08 15:46:59 6044

原创 Stanford CoreNLP 提取句子名词

一、环境配置Stanford CoreNLP 工具包的使用我的另一篇博客：https://zhuanlan.zhihu.com/p/44180488二、实例1.导入已经下载的工具包from stanfordcorenlp import StanfordCoreNLPimport nltkfrom nltk.tree import Tree as nltkTreenlp...

2018-11-06 20:24:14 4065 2

原创 Tensorflow 低版本代码自动升级为1.0版本

TensorFlow 1.0 中的 API 有所变化，参数位置发现变化，造成在 TensorFlow 0.n 上运行的 TensorFlow 程序无法在 TensorFlow 1.0 上运行。自动将代码移植到 1.0，有一个转换工具。GitHub工具包地址：https://github.com/tensorflow/tensorflow/tree/master/tensorflow/too...

2018-11-06 17:17:36 639

原创 tf.reshape()的Tensorflow 1.0 版本问题报错

tf.reverse tf.reverse之前会用一维 bool 张量控制要颠倒哪些维度。现在我们使用轴索引张量。例如，tf.reverse(a, [True, False, True]) 现在必须是 tf.reverse(a, [0, 2]) tf.reverse_sequence 关键字参数 batch_dim 应重命名为 batch_...

2018-11-04 19:24:27 283

原创 FFmpeg+python实现批量视频分帧

使用FFmpeg工具对短视频批量分帧，以下是一段很简单的代码：import PIL.Image as Imageimport pylabimport imageio#注释的代码执行一次就好，以后都会默认下载完成#imageio.plugins.ffmpeg.download() #第一次运行是删除注释，下载ffmpeg工具import skimageimport numpy a...

2018-11-04 10:21:23 7500 1

原创 TensorFlow之入门基础知识

一、Session会话控制定义两个常量矩阵a，b(tf.constant)a = tf.constant([[1.0,2.0]],name = 'a')b = tf.constant([[2.0], [3.0]],name = 'a')product = tf.matmul(a,b)要输出相加得到的结果，不能直接输出result,需要先生成一个会...

2018-11-03 10:41:50 358

原创 TensorFlow之MNIST 分类以及Dropout的使用

一、简单的一层神经网络import tensorflow as tf#下载MNIST数据集（28*28，输入维度为784）from tensorflow.examples.tutorials.mnist import input_datamnist = input_data.read_data_sets('MNIST_data', one_hot=True)#构建简单的一层神...

2018-11-03 10:36:39 727

原创 TensorFlow之CNN卷积神经网络的实现

下载MNIST数据集（28*28，输入维度为784）import tensorflow as tf#下载MNIST数据集（28*28，输入维度为784）from tensorflow.examples.tutorials.mnist import input_datamnist = input_data.read_data_sets('MNIST_data', one_hot=Tr...

2018-11-03 10:28:30 394 2

原创 Tensorflow之模型参数的Saver保存读取

一、Saver保存import tensorflow as tfimport numpy as np#定义W和bW = tf.Variable([[1,2,3],[3,5,6]],dtype = tf.float32,name = 'weight')b = tf.Variable([1,2,3],dtype = tf.float32,name = 'biases')#注：初始化变...

2018-11-03 10:23:32 440

原创 Stanford-corenlp 英文词性标注

一、环境配置1.下载官网的NLP相关包将下载下来的stanford-corenlp-full-2018-02-27解压并将下载英文的jar文件stanford-english-corenlp-2018-02-27-models.jar放到该目录下。网址：https://stanfordnlp.github.io/CoreNLP/index.html2.确保电脑里要已经安装j...

2018-11-03 10:19:22 4082 3

原创 GloVe模型的理解及实践（2）

一、运行环境Ubuntu16.04 + python 3.5二、安装gensim两种安装方式1）打开终端sudo easy_install --upgrade gensim2）打开终端pip install gensim三、Git官方GitHub代码https://github.com/stanfordnlp/GloVe四、生成词向量1.在gl...

2018-11-03 10:11:35 3947 1

原创 GloVe模型的理解及实践（1）

一、GloVe模型的理解1）原理功能：基于语料库构建词的共现矩阵，然后基于共现矩阵和GloVe模型对词汇进行向量化表示输入：语料库　　输出：词向量2）与Skip-Gram、CBOW模型比较例如：句子为"dog barked at the mailman" ，目标单词为'at'Skip-gram模型：Skip-gram模型只关注单个输入/输出元组中的目标词和上下文中的单个单...

2018-11-03 10:03:42 4549

原创 python修改txt文件中的某一项

在做task中，需要将TXT文本中的某一项注释修改，但是python对txt文本只有写入和读取两种操作。我采用的方法是：1.读取txt文件，将每一行数据，加入新建立的list中。2.在list中修改数据3.再新建一个txt文件，按行存入数据。记得添加 ‘/n’ 分行实例：这里修改里面的数字，修改为： from __future__ import divis...

2018-10-23 16:52:12 15408 3

原创 python读取.caffemodel文件

想读取预训练好的.caffemodel文件的信息，了解模型参数和结构import caffe.proto.caffe_pb2 as caffe_pb2caffemodel_filename = 'resnet101_faster_rcnn_final.caffemodel'model = caffe_pb2.NetParameter() f=open(caffemodel_filen...

2018-10-19 22:15:40 2970

原创 Jupyter notebook 服务器远程配置(Ubuntu16.04)

Jupyter notebook 简单易用，远程连接之后可以在线写代码，管理文件，运行终端。网上的远程配置教程已经有很多，但是都相似且不够全面，在我配置的时候仍然出现了一些问题，这里做一个记录。一、步骤1编辑配置文件， Linux在：/home/.jupyter/jupyter_notebook_config.py若没有，则在命令行重新生成配置文件：jupyter noteb...

2018-10-18 19:08:50 323

原创根据索引文件划分数据集

索引文件.txt:根据索引文件中的视频编号划分训练集，测试集，验证集g = open('./ACRN/TACoS/TACoS_val_videos.txt','r')label=g.readlines()print(label)len(label) path = r'.\videos\video'x = path+"\\"+label[0].strip('\n'...

2018-10-18 16:02:46 801

空空如也

空空如也