自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(68)
  • 资源 (2)
  • 问答 (1)
  • 收藏
  • 关注

原创 2022/1/22记录网页

(65条消息) 102、bert词向量进行文本分类和命名实体识别_u012416045的博客-CSDN博客_bert文本识别https://blog.csdn.net/u012416045/article/details/88373965 Bert词向量进行文本分类和命名实体识别github地址:Viserion-nlper/rasa_nlu: Combine Tecent's bert as service model and rasa_nlu for text classification (..

2022-01-25 14:19:59 548

原创 宾州汉语句法依存指南 树库(3.0) 中文整理版

## 前言### 中文树库的设计问题1. 语言的复杂性。所需的语言复杂程度对于像汉语树库这样的带注释的文本语料库,与语料库的使用目的密切相关。由于这个Treebank的目的是提供一个工具来训练信息处理工具,如POS标记器和解析器,我们力求为我们所选文本提供坚实的语言学分析,基于当前的汉语句法研究和语言学专家参与了这个项目。然而,这是不切实际的提供高度复杂的树是目前语言学文献中常见的,也不是汽车我们声称我们可以为每一个句子提供“正确的”分析在语料库。结果是语言上的correctnéss和工程上的便利之间的

2021-09-26 13:35:53 1577

原创 2021/5/23笔记文档整理

IDEA类和方法注释模板设置设置类的注释模板File–>settings–>Editor–>File and Code Templates–>Files设置方法注释模板IDEA还没有智能到自动为我们创建方法注释,这就是要我们手动为方法添加注释,使用Eclipse时我们生成注释的习惯是/**+Enter,这里我们也按照这种习惯来设置IDEA的方法注释File–>Settings–>Editor–>Live Templates(1)新建组:命名为u

2021-05-23 20:23:28 826 4

原创 Redis学习笔记

Nodql概述大数据时代;一般的数据库无法进行分析处理了,2006年Hadoop发布 spring2004年spingBoot springCloud为什么要用Nosql?1.单机mysql的时代90年代,一个基本的网站访问量一般不会太大,单个数据库完全足够。那个时候更多的是使用静态网页Html,服务器根本没有太大的压力。思考一下,这种情况下:整个网站的瓶颈是什么?1.数据量如果太大、一个机器放不下2.数据的索引(B+ Tree)一个机器内存页放不下3.访问量(读写混合),一个服务

2021-01-31 20:15:04 254 2

原创 fastDFS笔记

FastDFS的整体架构: 1. 客户端: 客户端通常指的是我们的java程序,去连接FastDFS,操作FastDFS,那我们的java程序就是一个客户端, 2. 服务端 主要由两部分组成,一部分是 跟踪器 Tracker 跟踪器主要作调度工作,在内存中记录集群中存储节点storage的状态信息,是前端Client和后端storage的枢纽。相关信息都存储在内存中了,所以Tracker Server的性能非常高,...

2021-01-12 19:04:06 1374 1

原创 springboot笔记整理

在搭建简单的demo程序时 出现如上报错问题, 经查询得出 关于idea 中使用mybastis报出 Invalid bound statement (not found)的错误解决方案mapper.xml没有按照传统的maven架构进行放置 在pom.xml文件中配置build扫描目录就可以...

2020-12-07 13:53:58 1775 1

原创 linux操作记录

https://www.cnblogs.com/luihengk/p/6690224.html 关于忘记linux mysql中忘记初始的root密码 怎么回复到原始的随机密码

2020-11-23 20:27:57 118

原创 spring Cloud与Docker微服务架构实战笔记

Linux修改主机名方法: vi /etc/hosts然后修改 127.0.0.1 localhost localhost.localdomain可替换为 127.0.0.1 localhost peer1 peer2这样就吧主机名字替换为 peer1 peer2 了。然后使用 /etc/init.d/network restart 重启接口便可以生效。...

2020-11-18 19:56:13 127

原创 技术改变生活——用HanLP来协助处理现实中问题

此例是我之前在学习nlp过程中的一个例子,需求如下: 平时收集了一下客户对于餐馆的评价,目标是将这些评价数据进行分类,比如分成满意或者不满意,这一类简单的客户评价情感极性分析,来策划餐馆满意菜品的推荐、用倾向性分析来改善餐馆的服务质量,以及提高创收利润。1 .首先来查看一下收集到的评价数据。评价数据的抽样:可以看到数据集中有餐馆的id编号,以及对餐馆的评价分数(总体评分、环境、口味、服务)2. 数据清洗: 在语料库中找到我们感兴趣的东西,把不感兴趣...

2020-11-13 20:20:42 1251

原创 大小写模型测评报告书

大小写模型测评报告书大小写测评是将原始文本和预测文本进行对比评测,最终结果以准确率、召回率、f1-score标准来展示测评效果。测评分为1.对大写和小写进行测评 2.仅对大写单词进行测评大写和小写转换单词评测1.1 文件位置: /home/post/punc/src/precess_truecase/test_truecase.sh1.2 脚本命令: ./test_truecase.sh其中参数1为target_path 参数2为predicted_path测评包含大写和小写的准确率

2020-10-15 16:16:09 185

原创 大小写模型训练说明书

大小写模型训练说明书需要训练一个truecase模型。注意:只能使用训练集训练truecase模型。truecase则会学习训练数据,判断句子中的名字、地点等需要大写的内容并将其保留,其余则小写,提升模型转换时候的准确性。训练大小写模型1.1 文件位置: /home/post/punc/src/caps_look/mosesdecoder-master/scripts/recaser/1.2 脚本命令: train-truecaser.perl -corpus data/train.txt

2020-10-15 15:40:11 256

原创 标点符号测评报告书

Model测评:模型训练完毕进行test预测输出。THEANO_FLAGS='floatX=float32,device=cuda0,lib.cnmem=1' python punctuator.py Model_en_oral_64_0.02_h64_lr0.02.pcl data_test/test.label.en es.oral.out其中Model_en_oral_64_0.02_h64_lr0.02.pcl为上文中训练完毕的模型名字, 输入test.label.en为预留的test数据,

2020-10-14 11:01:16 130

原创 标点符号训练说明书

标点符号训练说明书拼接文件法西俄德生数据文件位置:/home/post/share/mono_text,其中数据都是分类别下载的小样本数据,利用 paste -d '\n' -s test1.txt test2.txt >> test_sum.txt按行将所有文件拼接到test_sum文件中(基本生数据大小在15G以上)。拼接文件进行preprocess处理运行脚本/home/post/punc/src/punctuator/data_todo/preprocess.sh其中文件中

2020-10-14 10:14:39 195

原创 神经网络中网络优化和正则化

任何数学技巧都不能弥补信息的缺失从大量的实践中总结一些经验方法,从网络优化和正则化两个方面来介绍这些。常用的优化方法:参数初始化,数据预处理方法,逐层归一化,超参数优化方法。常用的网络正则化:L1,L2正则化,权重衰减,提前停止,丢弃法,数据增强和标签平滑。网络优化:包括了模型选择和参数优化,神经网络优化的改善方法,分为以下几个方面。使用更有效的优化算法来提高梯度下降优化方法的效率和稳定性。如动态学习率调整,梯度估计修正等。 使用更好的参数初始化方法,数据预处理方法来提...

2020-08-10 12:27:54 608

原创 CRF的概率预测问题, 结合词性标注场景应用

看过<统计机器学习>中的有关条件随机场CRF的公式推导说明,确实看到有点云里雾里,感觉有点点抽象,有些点光看公司也一时无法想明白原理,因此借鉴了国外的一片有关CRF的介绍性说明,结合词性标注场景应用,通过对线性条件随机场的特征函数推导,一下子明白了许多,同时放上两个中文翻译的博客链接,一定程度上也帮助我理解CRF与词性标注的应用介绍:国外论文:http://blog.echen.me/2012/01/03/introduction-to-conditional-random-fiel..

2020-08-07 15:05:40 324

原创 公司里做NLP任务的开发流程

如项目阶段,数据集怎么得到,模型的训练,怎么部署、项目人员周期、以及开发中会出现哪些棘手的问题如文本分类就fasttext、词典,序列标注就最大逆向匹配和CRF之类的,如果是改造、升级,那就做出针对性的策略,天花板明显就是模型的时候,再考虑改进模型方案有了就开始执行其实80%的时间都在数据上,初版项目是没数据,新版本要处理现在的数据,新增特征工程之类的,要是上新模型,更复杂了。 开始弄模型,训练也好,规则也好,都得评价一下效果,分析现在能不能上线,不能上线哪里还有提升点。数据来源:用户日

2020-08-07 15:04:23 631

原创 Adam优化算法(Adam optimization algorithm)

Adam优化算法(Adam optimization algorithm)Adam优化算法基本上就是将Momentum和RMSprop结合在一起。初始化2.在第t次迭代中,用mini-batch梯度下降法计算出dw和db3.计算Momentum指数加权平均数4.用RMSprop进行更新5.计算Momentum和RMSprop的修正偏差6更新权重其中Adam参数配置有:α 学习率/β1 一阶矩估计的指数衰减率如0.9β2 二阶矩估计的指数衰减率如0.999 该超.

2020-08-07 15:03:44 17078

原创 指数加权平均数

1.什么是指数加权平均?指数加权平均也叫指数加权移动平均,是一种常见的序列数据处理方式。计算公式如下:其中,θ_t:为第 t 天的实际观察值, V_t: 是要代替 θ_t 的估计值,也就是第 t 天的指数加权平均值, β: 为 V_{t-1} 的权重,是可调节的超参。( 0 < β < 1 )我们有这样一组气温数据,图中横轴为一年中的第几天,纵轴为气温:其中观察该图发现有许多不规则的噪声,这时我们可以用指数加权平均来提取这组数据的相关趋势,按照上面公式可以列如下:

2020-08-07 15:02:57 1950 1

原创 循环神经网络总结整理(RNN、LSTM、GRU)

在经过了一个周期迭代之后,猛地发现不记录一些东西是真的不行的,只有将知识娓娓道来,把自己当作一个教师的身份整理这些思路,才算真正的掌握了。故,将这一章的知识点整理记录下来,以供自己学习理解,查阅运用。在前馈神经网络中,信息的传递是单向的,即网络的输出只依赖于当前的输入。但是在很多现实的任务中,网络的输出不仅和当前的输入有关还和之前的输入(当前的状态),甚至是以后的输入有关, 另外前馈神经网络难以处理时序数据,如视频、语音、文本,这类都是一些不固定长度的数据, 而前馈神经网络输入输出都是固定长度的..

2020-08-07 11:24:51 10639 2

原创 对人民的名字进行近义词分析

step 300w次之后初始化 一轮迭代之后查看近义词

2020-08-02 12:03:47 193

原创 Word2Vec的落地应用以及一些项目思路

其他序列的数据也是可以这样做的,记得去年KDD上有一篇DeepWalk的文章,在社交网络上进行随机游走生成一组组节点的序列,然后通过word2vec训练每个节点对应的向量。但是我用这个方法在qq的社交网络上面做了一些实验,发现效果非常不理想,可能和qq社交网络的复杂性有关。我非常满意的一个应用是把word2vec应用在用户app下载序列上,根据用户下载app的顺序,把app看做单词,也是可以形成这样的序列数据,进而训练处每个app对应的向量。利用这个向量计算app之间的相似度,效果非常好,能够把真正内容

2020-07-31 21:00:44 1117

原创 Word2Vector笔记

tensorflow中 tf.reduce_mean函数https://blog.csdn.net/dcrmg/article/details/79797826word2Vectorhttp://mccormickml.com/2016/04/19/word2vec-tutorial-the-skip-gram-model/nce_loss中compute_sampled_logits返回值。再进行样本的损失交叉熵损失函数。sampled_losses维度为(128, 65.

2020-07-31 11:40:06 379

翻译 自然语言处理业务中的示例

以下是在业务中如何使用NLP的一些示例:快速排序客户反馈文本分类模型非常适合对质量反馈进行分类,例如产品评论,社交媒体对话以及在线调查中的开放式响应。以Retently为例,这是一个在线调查的SaaS平台,该平台使用MonkeyLearn对NPS响应进行分类并获得可行的见解。文本分类模型非常适合对定性反馈进行分类,例如在线调查中对开放式问题的回答。以Retently为例,这是一个用于在线调查的SaaS平台,该平台使用MonkeyLearn对NPS响应进行分类并从客户那里获得可行的见解。Ret

2020-07-27 09:55:03 340

转载 语言模型困惑度的两种形式及python实现

转语言模型困惑度的两种形式及python实现 - 海晨威的文章 - 知乎 https://zhuanlan.zhihu.com/p/57852713在自然语言处理中,对于一个语言模型,一般用困惑度来衡量它的好坏,困惑度越低,说明语言模型面对一句话感到困惑的程度越低,语言模型就越好。在网上关于语言模型困惑度的介绍文章中,一般会看到以下两种形式: ...

2020-07-26 12:38:02 2516

原创 标点预测

shell上:0表示标准输入1表示标准输出2表示标准错误输出> 默认为标准输出重定向,与 1> 相同2>&1 意思是把 标准错误输出 重定向到 标准输出.&>file 意思是把 标准输出 和 标准错误输出 都重定向到文件file中punctuation_vocabulary = data.iterable_to_dict(data.PUNCTUATION_VOCABULARY)data.PUNCTUATION_VOCABULARY...

2020-07-22 20:55:42 619

原创 fasttext文本分类知识点总结

fasttext模型 训练THUCNews在此目录下 进行了THUCNews的练习import fasttextimport jiebafrom pandas import npfrom sklearn import metricsimport randomdef read_file(filename): i=0; sentences =[] out = open('../data/fast_train.txt','a+', encoding='utf-8')

2020-06-10 21:24:58 898

原创 自然语言处理入门第一章笔记

《自然语言处理入门》--何晗1级标题2级标题3级标题四级标题五级标题六级标题1级标题2级标题3级标题四级标题五级标题六级标题

2020-03-11 14:24:22 717

原创 德州园林系统的tips

关于如何看懂log4日志 从中调试程序关于未找到了托管xxx 设置easyui-checkbox选择框选取的值 :1.document.getElementbyId("xxx").value =set_value 对通过Id为各个选择框赋值 .2.checkBox =document.getElementbyName("xxx"); 获取到同一name...

2020-03-09 20:27:00 129

原创 EasyUI Tabs 布局

&lt;div id="tt" class="easyui-tabs" style="width:500px;height:250px; border: false; " &gt; &lt;div title="Tab1" style="padding:20px;display:none;"&gt; tab1 &lt;/div&gt;

2019-03-14 11:44:29 292

原创 EasyUI Panel 布局

$('#panel').panel('move',{ position:'absolute', left:200, top:100 }); panel move的问题 没有反应 悬而未决panel的方法 resize 或者move在右上角添加按钮功能、$('#panel').panel({ wid...

2019-03-13 16:28:50 745

原创 EasyUI Layout 布局

记录整理笔记 2019/3/13在设置布局的时候 要概括一个div进去 div(class="easyui-layout")然后才可以布置north south 等 另外在data-options中设置属性 region:' north' 要加单引号 不然汇报错误split:true 设置各个布局之间的间隙差距 同样可以在data-options中设置 title样式 s...

2019-03-13 14:44:52 348

转载 关于eval加括号

个人觉得在 Java数据处理过程中 虽然用一些 工具类也是可以实现字符串 与 json 对象互相转换,但是 还是觉得用下 js 来做处理的话 会显得更好,有时候 Java 处理一些排序、大小比较之类的操作换做是后端的话会显得比较麻烦点 ,此时用下前端的 js 处理会使2者配合更好;更加突显各自的优势。如果data是字符串,使用eval("("+data+")")可以将其转换为jso...

2019-03-11 17:22:57 874

原创 关于德州园林中 工程项目管理的记录笔记

easyui的使用:<div class="easyui-layout" data-options="fit : true"> <div data-options= "region: 'north' " style="height: 50px;"> <div class="easui-panel" title="项目管理"> ...

2019-02-28 16:02:28 245

原创 java基础的使用技巧吧整理

查看java源代码 :JDK里提供的类,比如String,Integer,System都是开源的,免费提供其源代码可以很简便的通过eclipse就查看源码1. 先选中想要查看的方法,比如System.out.println()的 println2. 敲键F3代码格式化ctrl+shift+f 格式化代码 注意: 这个快捷键和搜狗输入法的切换简繁冲突。 所以最好把搜狗的切换简繁...

2019-02-13 19:27:43 172

原创 HTML DOM笔记整理

节点的属性:关键字 简介 示例代码 nodeName 节点名称 示例代码 nodeValue 节点值 示例代码 nodeType 节点类型 示例代码 innerHTML 元素的文本内容 示例代码 id value className ...

2019-02-13 13:40:23 191

原创 JavaScript笔记整理

date :2019/1/29hello , javaScript.javascript用于网页和用户之间的交互,  比如提交的时候,用户验证用户名是否为空的判断.javascript和DOM结合的实例:一图胜千言,千言不敌一实例&lt;button onclick="document.getElementById('text').style.display='none'"&g...

2019-01-29 17:10:25 696

原创 CSS笔记整理

时间:2019/1/27&lt;style&gt; td{ background-color: palevioletred; }&lt;/style&gt;单独使用css样式 在style中添加统一属性 使用了分层设计的思想 css把颜色大小位置等信息都剥离到style中 而html只需要提供什么样的内容就可以了。语法:selector{property:val...

2019-01-28 19:46:58 225 1

原创 HTML笔记整理

时间:2018/12/27其效果如下图所示:总结用到的技术点:  标题标签:&lt;h&gt;粗体标签:   &lt;strong&gt;斜体标签:  &lt;i&gt;下划线标签: &lt;u&gt;   &lt;ins&gt;删除线标签:&lt;s&gt;    &lt;del&gt;同样可以实现该功能 段落标签&lt;p&gt;

2019-01-27 23:11:49 198

原创 第三课php+mysql注入下的文件读取及文件导出

php+mysql注入下(文件读取及文件导出) 注意:mysql数据库默认最高权限用户为root 查询参数:数据库名 database() fanke 数据库版本 version() 5.1.28-rc-community 数据库用户 user()  root@localhost 操作系统 version_compile_os Win32 4.1.Windows...

2019-01-20 23:07:20 279

原创 第三课php+mysql注入 phpstudy软件搭建 PHP脚本编程

总结:问题1.access注入一定能猜解到表名或列名吗?Access偏移注入,看后台登陆源码表单值,社工,网站地址信息等问题2.access注入表名或列名猜解作业不到怎么办? 搭建php+mysql环境 apmserv phpstudy xamp wamp等软件php脚本编程补习手写php+mysql注入测试页面  Mysql分层结构:MysqlFa...

2019-01-20 23:03:36 416

spring学习笔记

SPRING的讲义 详细认真 而且是传智播客老师讲解记录下来的

2018-09-27

CSS学习手册

CSs学习的手册 是我本人自己征整理写下的 详细详尽 更加仔细

2018-09-25

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除