自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(41)
  • 资源 (5)
  • 收藏
  • 关注

原创 sentencebert 文本匹配训练

文本匹配,孪生网络,文本相似度

2023-04-11 16:47:41 282

原创 Python 实现Jaccard 相似度 计算排序

基本原理Jaccard 的核心就是。交集/并集。公式为 Jaccard(a,b) =. | F(a) ^ F(b)| / |F(a) U F(b)||如何理解这个 指标呢 ? 比如说 我和 我朋友都喜欢 听歌, 我们在 网易云音乐听歌,我听过的歌 和 他听过的歌 类似,那么我们这两个 用户就 非常相似。 可以 通过 jaccard 来根据我们的听歌的记录的交集和并集来计算相似度。如果我和 我的朋友 听过的歌完全一样 ,那么 fa = fb , jaccard 为1。如果我们之间没有共同的播放

2022-04-11 15:57:37 3646

原创 小红书笔记主题分析

如何快速学习小红书博主的选题,你需要kmeans算法

2022-03-31 19:13:04 967

原创 判断numpy 中 infinite 和NAN的问题

在numpy中由于numpy太强大了,经常会计算出一些不合法的结果,若不注意放入model中训练。就会报错今天教大家一个测试数据是否合法的函数np.isnan(y)上面的y是一个数 ,return返回值为TrueFalsenp.isnan(vec).any()np.isnan(vec).all()上面的vec是一个nparray,可以判断数组中的任意元素是否合法,特...

2020-02-17 20:33:42 3234

原创 pytorch从glove词向量源文件中生成embedding并载入

首先是下载glove文件格式为txt,每一行开头是单词,后面是100个float类型数,空格隔开,因此我们载入这个文件,并取出每一行def get_numpy_word_embed(word2ix): row = 0 file = 'zhs_wiki_glove.vectors.100d.txt' path = '/home/socialbird/platform...

2019-11-19 20:12:35 5470 2

原创 中文词性标注part of speech tagging数据汇总序列标注数据语料

2014人民日报1998人民日报国家语委treebankmsra微软亚洲研究院

2019-10-28 00:29:22 774

原创 【最新试验】用预训练模型xlnet做序列标注_自然语言处理_使用XlnetForTokenClassification做命名实体识别pytorch版

ner,命名实体识别是关系抽取中非常重要的一个任务。通常命名实体指的是时间,地点,人名,组织名等等。而中文命名实体识别由要比英文更加复杂。这里我用xlnet来做ner。首先第一步是处理数据我们首先在github上找到一个数据汇总的repo,下载下来或者git clone下来都可以。https://github.com/InsaneLife/ChineseNLPCorpus/tre...

2019-10-12 19:09:22 2194 3

原创 【最新试验】用预训练模型Roberta做序列标注_自然语言处理_使用RobertaForTokenClassification做命名实体识别pytorch版

有了bert,roberta还会远吗,目前pytorch transformer上已经放出了bertForTokenClassification然而,在工业界前进的我们,不能忍受如此慢速的更新于是我们自己写好了robertaForTokenClassicification类,准备使用了!以下是代码class RobertaForTokenClassification(Be...

2019-09-17 21:06:18 3903

原创 【最新试验】使用BertForTokenClassification做命名实体识别序列标注pytorch版

阅读这篇文章你需要知道什么是bert?bert几乎时最新最强的预训练模型之一。使用方法很简单,只需要一块gpu,大概8g显存,再取github上找到pytorch transformer这个repo,最后运行里面的run glue.py恭喜你!成功打开新世界大门但是,如何用bert做ner呢?我们现在的run glue只能解决句子分类,而ner相当于词级分类,所以只能自己想怎么搭建模...

2019-09-16 20:31:04 10894 2

原创 【对话系统】rasa源代码阅读-探索memoization policy是如何实现的

很久没更新这个博客了,今天工作中需要实现rasa的story流程功能,所以先看看rasa的源代码找一些灵感。首先我们先train一个对话模型,rasa -core是用来训练和使用对话管理模型的。下面是train部分的代码。from rasa_core.agent import Agentfrom rasa_core import configimport uuiddef a...

2019-07-09 14:45:59 2881

原创 Keras 中加入lambda层无法正常载入模型问题

刚刚解决了这个问题,现在记录下来问题描述当使用lambda层加入自定义的函数后,训练没有bug,载入保存模型则显示Nonetype has no attribute 'get'问题解决方法:这个问题是由于缺少config信息导致的。lambda层在载入的时候需要一个函数,当使用自定义函数时,模型无法找到这个函数,也就构建不了。m = load_mode...

2019-05-30 15:14:22 2787 9

原创 如何从头开始用rasa根据自己的任务设计一个任务型对话机器人

以订电影票为例子。我们首先要列出所有intent的名称,rasa的intent的粒度较细,任何用户输入都可以被看做一个intent。因此我们需要枚举出在一个场景下所有可能的用户输入的意图。如我要订电影票的intent是订电影票,我要看钢铁侠的intent是报告电影名,我要两张票的intent是报告票数用户输入 ...

2019-04-19 19:35:58 1767

原创 CNN句子分类TensorFlow网络解析

概要:这篇博客主要分析了如何用TensorFlow对句子建模,模型为CNN,涉及到常用函数的参数及解释。首先放入 序列,进入embedding层,得到维度为 [none,句子长度,词向量维度,1]的张量,多的维度是用来做卷积的。[None,sentence_length,embed_size]self.embedded_words_q = tf.nn.embedding_loo...

2019-04-01 18:54:35 315

原创 keras 问答匹配孪生网络文本匹配 RNN 带有数据

用途:这篇博客解释了如何搭建一个简单的匹配网络。并且使用了keras的lambda层。在建立网络之前需要对数据进行预处理。处理过后,文本转变为id字符序列。将一对question,answer分别编码可以得到两个向量,在匹配层中比较两个向量,计算相似度。网络图示:数据准备:数据基于网上的淘宝客服对话数据,我也会放在我的下载页面中。原数据是对话,我筛选了其中label为1的...

2019-04-01 14:23:49 1637

原创 Tensorflow卷积神经网络 CNN文本匹配 问答匹配 (accuracy 78%)附带数据

花了一点时间将之前的文本分类改成现在的QA匹配,实际上思路还是很简单的,原来的x 输入换成xq,xa,label不变。匹配层我用的是difference+ absolute value的操作。它计算两个句子,q,a相似程度。非常简单。代码一步步给。定义: 模型所需数据个数,qa的对数模型考虑的词汇表大小每个句子的长度词向量维度批次大小学习率# d...

2019-03-29 17:57:38 2040

原创 TensorFlow 情感分析句子分类CNN代码(附带数据)

原代码来自GitHub https://github.com/Delphine0379/text_classification/blob/master/a02_TextCNN/p7_TextCNN_predict.py加入数据 ,数据可以从我的下载页面找到。格式为 [sentence,label],sentence是id的list,label是1或0测试# -*- cod...

2019-03-29 14:46:08 2025 2

原创 Tensorflow 循环神经网络 RNN文本匹配 问答匹配 (accuracy 74%)(3)

这篇博客是记录我做文本匹配的一些尝试,现在依然用之前的淘宝数据,准确度74%。之前的博客已经讲解了句子序列是怎么回事了,现在我们把文本分类问题改写成问答匹配问题。那么显然现在我们的输入变成了两个句子,输出依然是分类标签。那么两个句子经过同样的RNN获得最后的sentence vector,如何匹配sentence vector呢?我这里用的是dot product,两个vector对应位置相乘...

2019-03-24 13:30:08 565

原创 TensorFlow 情感分析句子分类RNN循环神经网络代码(附带数据)

import tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_dataimport nltkimport pandas as pdfrom collections import Counterimport numpy as npMAX_FEATURES = 150MAX_SENTENCE_L...

2019-03-21 16:07:58 1021 3

原创 TensorFlow RNN循环神经网络代码nlp句子分类例子(非图像识别)

关键词:非图像识别,RNN,TensorFlow,代码,句子分类,NLP、【注意】这是一个测试数据没有实际意义,所以需要实际数据的请看我的其他博客里有说明有问题的留言问我就好。最近在看RNN的句子分类,发现网上的代码各种讲解不清楚,于是花了点时间试了试改了改网上的代码,总算对TensorFlow下的RNN有一个了解。机器学习三大关键点,数据格式,loss定义,网络结构。我们在...

2019-03-21 13:17:24 682 4

原创 【监督学习】第六课习得理论(learning theory)

这里是监督学习第六课,需要看其他课的请点击我的文章列表! 统计学习模型:如何学习一个模型呢?通过定义联立分布P(X,y),我们可以用积分得到模型函数的期望误差expected error。其中V函数为loss function,损失函数,参数为观测y和预测y。而让这个期望误差最小的时候,我们就得到了在给定数据下的最优解,可惜的是,分布是固定但未知的,所以我们无法得到最优...

2018-08-14 22:06:51 805

item2vec论文翻译

这里是item2vec 论文翻译 很多协同过滤算法都是基于item的,因为这些算法分析出item之间的关系来算出item相似度,最近NLP领域有了些新动向,这些东西建议用神经网络嵌入算法来学习单词的潜在表示。其中SGNS 也就是Word2Vec最厉害,在各种语言类任务中表现完美。在这片论文中,我们证明了基于item的协同滤波也能转成一样的嵌入框架中。受SGNS启发,我们讲述了一个item2...

2018-07-23 18:17:30 716

原创 使用tensorflow导入已经下载好的mnist数据集()

import tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_datamnist_data_folder="/home/socialbird/Downloads/MNIST_data"mnist=input_data.read_data_sets(mnist_data_folder,one_hot...

2018-07-16 17:24:57 7272

原创 【监督学习】第八课 树型学习方法与集成方法(Adaboost,回归树,分类树,bagging)

这节课讲的是各种树相关的学习算法或模型,以及它们是如何集成的。树方法试图将空间分割成长方形集合,然后在这些长方形上拟合一个模型。其中Rn表示一个 区域,region。也就是一个长方形。这些长方形彼此没有交集,共同构成整个空间。I函数则表示对或错。如果x属于Rn,那么I的值为1,否则为0.而cn代表自然选择。也就是在Rn区域中所有y的平均值。利用单阈值,我们可以对某个属性值进行切割,将一个平面分成两...

2018-07-15 17:52:29 1171 1

原创 网络多媒体 - 邀请协议

这里是internetworking multimedia读书笔记。还是一样放链接http://www.cl.cam.ac.uk/~jac22/books/mm/book/node176.html然后开始读(翻译)对于多道通信来说,我们不需要什么正式的建立机制。发送端发送信息到一组地址上,然后接收端订阅这组地址就能保证通信的进行了。不过实际上,我们还需要一个方法让程序员知道用哪个通信地址,什么传输...

2018-07-09 16:23:31 330

原创 【监督学习】第五课高斯过程(gussian process,最大后验,岭回归)(上)

这一课基本上就回忆了一下前面的各种regression ,然后和传统统计与贝叶斯思想联系起来。还是线性回归对于一个线性系统Xw = y假设y为观测值,那么观测值 为 真实值和噪音的和。y = Real + noise加入正则化那么现在对w求解,使用最小二乘法,满足预测值与观测值得平方差最小。也就是他们的差的向量(y - Xw)的dot product 点积。对偶写法求出w和α的关系,把W用α表示。...

2018-07-01 17:50:10 2329

原创 Java面试题(真实总结)2018.6

最近在找java实习,这些是面试官问我的题。我的专业是计算机科学。Q:Java的数据结构有哪些?Q:项目中用了哪些数据结构?Q:collection集合有哪些?Q:ArrayList如何实现?Q:HashMap用过吗?为什么用?Q:用过什么集合?Q:  网络有多少层?Q:tcp,ip,http在哪一层?Q:http原理Q:  http结构Q:object类有什么方法Q: java 网站开发的架构?...

2018-06-29 11:42:48 192

原创 最简洁推导求解最小二乘法(线性回归,监督学习)

我们知道当X 为m*n的矩阵 输入,Y为m*1的输出。那么为了求出wXw = Y,我们可以用线性回归并让 预测值和真实值的差的平方最小,那么w证明过程:矩阵结构为:我们发现yTy是一个常数,也就是说在最小化loss的时候,我们可以不管yTy。我们对loss函数进行偏微分,这里用到了一个矩阵微分公式,在matrix cookbook里有.第10页。aTw 就微分为a了 。第11页wTBw就微分为 (...

2018-06-29 11:09:12 1122

原创 【监督学习】第四课(分类算法,svm理论)

监督学习第四,五周:因为有一周是lab课所以第四课实际上是第五周的内容。 本课件26页,典型的高压课件!所有复杂的理论就在这26页中全部展示。我会尽量让大家跟随教授的思路并享受到直观的算法思想。 1,具有分离数据功能的超平面前面的课程说过,所谓的分类问题的解就是一个函数,这个函数能够接受数据输入,产生分类结果的输出。而在一个空间中,我们则是要找到一个界限,这个界限可以将...

2018-06-25 16:42:47 1744

原创 【监督学习】第三课(机器学习,折半算法,专家算法,感知机perceptron,Winnow,在线学习)

这里是监督学习第三课,长期更新,求关注! 前两课分别讲了监督学习最简单(普遍)的算法,线性回归,以及knn和常见的问题以及解决方式。对于线性回归的计算复杂度优化由mn两个参数决定。根据他们的相对大小选择更好的求解公式(预测) 这一课跟前面不一样,前面我们是给出X 输入,求Y,通过预先计算X和Y的关系,这一课我们没有X,只有Y。由Y预测Y。 这就是在线学习。下面详细展...

2018-06-21 04:15:41 2524 5

原创 EL表達式錯誤:javax.el.PropertyNotFoundException: Property 'name' not found on type java.lang.String

<c:forEach items="${allQuestion} " var="question"> <div class="List-item"> <div class="ContentItem" data-za-detail-view-path-module="

2018-06-20 06:37:20 176 1

原创 spring mvc spring mybatis整合(简单快速),附上代码,和eclipse导入过程

最近在学ssm ,这其实是三个框架,springmvc和spring是一起的,但是mybatis是dao层的框架。mybatis可以用java 代码创建 session也可以用xml创建。如果加入了spring之后创建过程就由spring管理了,xml也要重新配置。这样就有点复杂。网上有很多代码和视频教程,但往往看视频的时候我们找不到对应的代码。为了解决这个问题,我在b站上认识了一个前辈,他看完了...

2018-06-20 00:55:23 377

原创 【监督学习】第二课(机器学习,核函数,正则)

这里是监督学习第二课!参考书目,chapter 2 and 3 of kernel methods for Pattern analysisOverview 概述我们会展示线性方法是如何被拉到一个更高的维度空间,然后提供非线性回归。特征映射就是一个把输入映射到新空间的映射这样我们就可以让这个方法相对于原输入非线性,对于映射后的特征线性。直接的特征映射也叫 基底函数方法隐性的特征映射也叫核映射。我上...

2018-06-18 03:48:14 583 1

原创 Java springmvc 项目复刻知乎

如果想要复刻知乎怎么做呢?第一步当然是使用知乎。第二步应该仔细查看url然后建立我们的url映射关系。点击个人主页我们发现url变成了这样https://www.zhihu.com/people/xxx/activitiesactivity在这里表示动态,其他的页面包括文章,回答,提问等等。这些url的格式都一样,除了url的末尾名词会改变。所以我们可以很简单的匹配这些名词和用户id。packag...

2018-06-16 01:48:36 460

原创 【监督学习】第一课(机器学习,人工智能,线性回归)

为了梳理在大学学到的知识,我把slide重新看一遍并附上自己实现的python代码,各位同学同行请多多指教。课件来自某英国G5大学课程Supervised learning 一共9个课件。监督学习问题:什么是监督学习呢?课件上的定义:Given a set of input /output pair we wish to compute the functional relationship be...

2018-06-14 00:01:50 591

原创 数据挖掘/分析 技术栈

本人是一个半桶水的待业者。最近在看数据挖掘或分析岗位,写篇文章记录一下相关必备技能。技术栈:excel 函数,公式,透视表,图表?Python 爬虫R 或 Python数据分析各种cluster ,regression,classification算法大数据框架spark大概就是这样了,以后想到再加...

2018-06-02 07:15:10 1535

原创 找工作的感悟

工作只是一个手段,一般是用来获取金钱的手段。近年来,经验主义的萌发使得越来越多的人歌颂所谓的平台“大公司”,工作经验。诚然,一个大公司往往意味着高工资,高福利。然而,在互联网行业或者是开发相关职位上,大公司也不一定能提供足够的工作环境和对应的工资水平。那么,第二个值得关注的就是经验了。支持者往往说道,大公司的工作经历让你跳槽更有底气,小公司的工作经历然你创业更有信心。各种言论层出不穷,作为只有过某...

2018-06-02 06:59:24 2109

原创 leetcode日记

今天刷(看)了一些leetcode的题目,于是记录一下。(一)栈和队列栈和队列有两道经典的算法题:用栈模拟队列和用队列模拟栈。首先我们分析栈和队列的异同。栈是后进先出,队列是先进先出。当然,这样的分析还不够本质,更简单的说法是如果栈和队列都从同一端(a)出,队列会从另一端(b)入,栈会从a入。如何用队列实现栈呢。栈的出pop和peek和队列一样,push则要修改。若现在的栈喂1,2,3,4,5,5...

2018-06-01 08:15:28 130

原创 Unity 3D 音乐播放器www异步加载外部资源

最近在做final year project,我有一个服务器,上面的文件下载下来之后会存放在c盘的默认路径里。然后我要把里面的音频文件读取出来,每个mp3文件做一个button ,用来控制播放。//This script allows you to toggle music to play and stop.//Assign an AudioSource to a GameObject an

2018-02-04 07:30:51 1164

原创 eclipse 构建web 项目

首先要有eclipse(废话)jar然后又jdbc驱动servlet(用来运行jsp)然后设置build path ,好像build class就行然后新建server ,这个不好找,但是新建了之后可以省去一些配置然后配置server http://blog.csdn.net/lucklq/article/details/7621807然后右键整个项目 ,run on

2017-11-27 10:51:48 187

原创 unity_在canvas中修改text和text到底是什么

打开unity 的界面create game objectcreate component 都可以找到text这是咋回事??其实text 就是Text类型。一个Text example,它的内容属性就是textexample。text = “hello”;这个操作才是正确的。至于ui界面的gameobject是啥??应该只是一个包含这个compone

2017-11-16 05:31:13 5690

weiboNer.zip

中文命名实体识别ner数据_weiboNer微博_bio格式 已经清理干净 tag为 per.nam per.nom,loc.name等等

2019-10-25

中文命名实体识别ner数据_resume_bio格式

中文命名实体识别ner数据_resume_bio格式 已经清理干净,放心下载,直接可以用各种ner模型训练

2019-10-25

情感分析数据

5000条数据,格式为label,sentence的csv。 可以用来做句子分类,CNN和RNN都可以问题不大。

2019-03-21

Java 数据结构 练习来自国外教育平台lynda

java数据结构练习代码 ,希望对你们有用。来自lynda 网站

2018-06-15

Java Springmvc 练习来自国外教育平台lynda

Java Springmvc 练习来自国外教育平台lynda。这个是练习

2018-06-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除