4 最想要的生活就在现在

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 1w+

tensorflow基于BERT训练文本分类模型保存为PB(saved model)并部署

背景基于BERT构建了文本分类任务,由于需要将模型部署至服务器,所以将模型保存为pb形式。模型架构:BERT+softmax模型保存策略:先将模型保存为ckpt形式然后转换为pb形式。转换为pb形式时需要指定模型的输入节点,代码如下:def serving_input_fn(): # 保存模型为SaveModel格式 # 采用最原始的feature方式,输入是feature Tensors。 # 如果采用build_parsing_serving_input_receiv.

2020-10-07 16:36:02

中文文本转换为bert输入的input_ids、input_mask、segment_ids

关注公众号“编程ABC”,茫茫世界不迷路~背景:最近在一家小公司搞了一个基于BERT的文本分类的项目,该项目训练好之后需要将模型保存为saved model形式,最终部署在阿里云机器学习平台上。客户端发送测试请求之前需要先把文本数据转换为BERT要求的形式,即input_ids、input_mask、segment_ids。目前全网好像没有找到类似的工具(有的话就当我年少无知【手动狗头~】),所以把这部分内容摘了出来贡献给各位,觉得有用的话欢迎点赞,讨论。源码#!/usr/bin/python#.

2020-10-07 15:49:05

找出一个字符串中所有大于1的回文串数量

找出一个字符串中所有大于1的回文串数量,2021网易算法岗笔试class Solution(): ''' 找出一个字符串中所有大于1的回文串数量 ''' def subString(self, s): cnt = 0 for x in range(len(s)): for i in range(len(s) - x): if s[i:i+x+1] == s[i:i+x+1][::-1]

2020-09-12 16:42:59

求满足条件的最长字符串的长度

**题目:**给定一个字符串,青返回满足以下条件下最长字符串的长度:‘a’,‘b’,‘c’,‘x’,‘y’,'z’都恰好出现了偶数次(0也是偶数)。输入:一个长度大于1的字符串输出:一个整数,满足条件的最长字符串长度'''给定一个字符串,青返回满足以下条件下最长字符串的长度:'a','b','c','x','y','z'都恰好出现了偶数次(0也是偶数)输入:一个长度大于1的字符串输出:一个整数,满足条件的最长字符串长度'''class Solution(): def sol

2020-09-12 16:37:18

Python正则表达式过滤文本

记录一下def delete_tag(s): s = re.sub('\{IMG:.?.?.?\}', '', s) # 图片 s = re.sub(re.compile(r'[a-zA-Z]+://[^\s]+'), '', s) # 网址 s = re.sub(re.compile('<.*?>'), '', s) # 网页标签 s = re.sub(re.compile('&[a-zA-Z]+;?'), ' ', s) # 网页标签 s =

2020-09-11 11:00:56

给定一个序列求指定位数的排列组合数

题目:求1到p(p<10)个数中取k(1<k<p)个全部可能的排列。样例输入:3 2样例输出:[1,2],[1,3],[2,1],[2,3],[3,1],[3,2],方法:回溯+深度优先搜索class Solution: def numofSum3(self,candidates, target)->int: #回溯组合 result=[] tmp=[] candidates.sort()

2020-08-27 15:55:52

2021NLP算法岗面试笔试总结-持续更新

1.word2vec介绍2.word2vec负采样与层次化softmax原理负采样:单词出现频率的越高,它被采样保留的概率越来越小参考:理解word2vec、负采样、层次化softmax3.CNN中池化层的作用1、特征不变性,空间不变性,池化操作使模型更加关注是否存在某些特征而不是特征具体的位置,可以看做是一种很强的先验,是特征学习包含某种程度自由度,能容忍一些特征微小的位移。2、特征降维。类似于做了维度约减,使模型可以抽取更广泛围的特征,减小了下一层输入大小,进而减小计算量和参数个数。3、在

2020-08-26 12:22:08

根据二叉树的前序和后续遍历求二叉树的叶子节点数

题目描述:根据二叉树的前序和后续遍历求二叉树的叶子节点数输入:前序[‘A’,‘B’,‘C’,‘D’,‘E’,‘F’,‘G’]后续[‘C’,‘B’,‘D’,‘A’,‘E’,‘G’,‘F’]输出:4首先根据前序和后续遍历恢复二叉树,然后再统计叶子结点数量。Python实现:#!/usr/bin/python# -*- coding: UTF-8 -*-class TreeNode(): def __init__(self,val,left=None,right=None):

2020-08-16 14:02:11

在字符串尾部/头部加入最少字符使字符串成为回文字符串

2021某易笔试题:给定一个字符串,判断其是否为回文串,若不是回文串的话在该串头部添加任意字符使其成为回文串。本文参考了[1]并实现了两种方式,一种为在字符串头部添加任意字符,另一种为在字符串尾部添加任意字符。1.在字符串头部添加任意字符,使其成为回文串。package com.cd.utils;import java.util.Scanner; public class Demo { public static void main(String[] args) { Scanner

2020-08-13 15:21:56

机器学习算法面试笔试整理

1.逻辑回归逻辑回归面试总结

2020-07-27 18:53:48

python向json文件中追加内容

我们常常会遇到这样的json文件:[{"id": 4, "text": "LOC", "background_color": "#7c20e0", "text_color": "#ffffff"}, {"id": 5, "text": "MISC", "background_color": "#fbb028", "text_color": "#000000"}, {"id": 6, "text": "ORG", "background_color": "#e6d176", "text_colo

2020-07-01 15:30:18

TensorBoard案例

本文构建了Tensorflow中tensorbord的使用案例,通过手写数字识别(MNIST)数据集创建了一个简单的神经网络,本文仅示例tensorbord在构建网络时的应用,具体的可视化过程网上已有不错的讲解,如tensorboard使用讲解专注于机器学习、深度学习、自然语言处理的公众号,欢迎来撩~以下是本文的案例:关键的地方代码中已注释,不再赘述~# coding: utf-8# In[1]:import tensorflow as tffrom tensorflow.exampl

2020-06-27 15:47:51

Latex排版公式时编号右对齐

Latex排版公式时让该公式对应的编号右对齐,如下例:直接使用**\begin{equation} \end{equation}**就好,公式里面不用手动写编号,编译后会自动生成。\begin{equation}y=\dfrac{1}{1+e^{-H_{ed}}}\end{equation}效果:...

2020-06-14 15:47:45

selenium爬取数据打开浏览器新的标签页

如何利用webdriver打开多个标签页和链接呢?经实践,网上流传的传入“ctrl+t的按键事件”方法针对谷歌浏览器并不适用。实践证明以下方式可以正常打开谷歌浏览器新的标签页。browser.execute_script("window.open('" + url + "');")完整例子:import timefrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium import webdriver'''爬取

2020-06-12 23:18:11

什么是语言模型?如何判断模型是不是语言模型

本文假定读者了解word2vec、emlo、BERT等模型。那么什么是语言模型呢?或者说如何判断一个模型是不是语言模型呢?首先我们来看一下语言模型(LM)的两个目标:(1)LM的目的是为一个句子或词序列赋予一个概率。(2)LM预测下一个词的概率,也就是说它预测下面最有可能出现的一个词。任何一个具有上面任务的模型称为语言模型。如word2vec通过当前词预测上下文词,或通过上下文词曲预测当前的目标词。其他语言模型不再追述,有兴趣的可以自行查阅资料。参考:python自然语言处理...

2020-06-01 17:14:07

对BERT分词之后的文本序列进行BIO标注

先记录一下,有时间再写具体过程。关注“编程ABC”,每天进步一点点~待标注文本(text.txt):河南宏光正商置业有限公司2019年非公开发行公司债券(第一期)(品种二)定于2019年12月3日起在本所综合协议交易平台进行转让,现将有关事项通知如下:河南宏光正商置业有限公司2019年非公开发行公司债券(第一期)(品种二)证券代码“114613”,证券简称“19正商02”,发行总额7.5亿元,票面利率7.2%,债券期限3年,附第1年末和第2年末发行人调整票面利率选择权及投资者回售选择权。深圳证券交易

2020-05-08 17:55:22

深度学习与自然语言处理(NLP)学习

笔者是NLP方向研二在读,本博是记录自己深度学习和自然语言处理学习的点滴(主要是资料汇总),不定期更新,希望能帮到你~11.百闻不如一码!手把手教你用Python搭一个Transformer2.从ReLU到GELU,一文概览神经网络的激活函数...

2020-04-14 15:43:52

找出一段文本中所有长度大于5的回文串

今儿朋友阿里三面,有这么一道题。题目描述:打印出一段文本中的所有长度大于5的回文串,请用你熟悉的语言编码。先给出Java语言的,后面又时间会给出python的版本。Java实现:package com.cd.utils;import java.util.ArrayList;import java.util.List;public class Test { public ...

2020-04-12 16:36:36

BERT预训练模型字向量提取工具--使用BERT编码句子

本文将介绍两个使用BERT编码句子(从BERT中提取向量)的例子。(1)BERT预训练模型字向量提取工具本工具直接读取BERT预训练模型,从中提取样本文件中所有使用到字向量,保存成向量文件,为后续模型提供embdding。本工具直接读取预训练模型,不需要其它的依赖,同时把样本中所有 出现的字符对应的字向量全部提取,后续的模型可以非常快速进行embddinggithub完整源码#!/usr...

2020-04-12 10:41:15

bert分词工具-使用Bert自带的WordPiece分词工具将文本分割成单字

笔者不久前发布过一个[中文分字工具](本文称之为version1.0)(https://blog.csdn.net/broccoli2/article/details/104952639),该工具是将所有的字符单独分离出来,并以空格隔开。笔者使用该工具分字之后在实体分类任务上的效果很差。原因可能有下.时间数据经version1.0处理之后如下:原数据:2020年4月2日version1.0处...

2020-04-02 10:16:21

查看更多

勋章 我的勋章
  • 新人勋章
    新人勋章
    用户发布第一条blink获赞超过3个即可获得
  • 阅读者勋章Lv2
    阅读者勋章Lv2
    授予在CSDN APP累计阅读博文达到7天的你,是你的坚持与努力,使你超越了昨天的自己。
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 分享王者
    分享王者
    成功上传51个资源即可获取