7 JieFeiLau

尚未进行身份认证

我要认证

术极,近乎道也。

等级
TA的排名 2w+

tensorflow.python.framework.errors_impl.InvalidArgumentError: Restoring from checkpoint failed. This

背景:今天使用bert finetuning的方式进行文本多分类任务时候,遇到一个报错,记录一下tensorflow.python.framework.errors_impl.InvalidArgumentError: Restoring from checkpoint failed. This is most likely due to a mismatch between the current graph and the graph from the checkpoint. Please en

2020-09-17 14:29:17

强化学习建立股票预测模型

https://aistudio.baidu.com/aistudio/projectdetail/599711?shared=1

2020-07-14 16:11:18

PaddlePaddle 计算机视觉实战记录

本次抗疫相关的paddlepaddle的cv特训还是有了很大的收获,特此记录一下。首先第一课是cv介绍以及绘图相关学习,工作中一直用matplot画图,统计图画的比较少,前端时间看到疫情相关微博上有一些很好的玫瑰图还很好奇是怎么画的,pychart库的学习很有帮助,至少学会了玫瑰图的画法,打开了一扇大门的感觉,以后就不用matplot了,全面拥抱pychart了,另一方面关于cv的介绍帮助很好...

2020-04-08 21:04:22

飞桨深度学习集训营学习心得

从去年年底参加百度飞桨集训营以来,目前学习进度已经完成了一小部分,感觉有很大的成长,弥补了自己很多不足,特写篇心得记录一下。先介绍一下背景,我原来做的是机器学习相关,数据降维中流形学习的相关研究,毕业后现在从事的是自然语言处理的工作。当时面试的时候也面试了比较多的计算机视觉的岗位,当时虽然在书本上以及视频网课学习了一些基本概念,但是一方面没有深入了解算法,代码框架等原理,另一方面也没有具体实践...

2020-02-21 19:44:32

中文文本标注工具调研以及BRAT安装使用

背景:最近的工作需要对文本先进行标注,然后才可以做接下来的文本分类工作。原来文本数量少的时候可以手工标注,随着文本数量的增多,需要借助标注工具,调研了目前常用的几种:更多详细信息请联系https://www.jianshu.com/u/50ba27f06c3d1,BRAThttps://github.com/nlplab/brat首先是BRAT,http://brat.nlpl...

2019-04-16 16:54:51

最大熵模型

熵熵H(X)又称自信息,是描述一个随机变量不确定性大小的量,熵越大则不确定性越大,则需要用更多的信息量来消除这种不确定性。前面《浅谈机器学习基础》中讲决策树的时候就提到了香农熵。在只掌握关于未知分布的部分知识的情况下,符合已知知识的概率分布可能有多个,但使熵值最大的概率分布真实的反映了事件的分布情况。以此为依据构建的模型叫做最大熵模型,后面会详细讲,这里只做简单介绍。然后是联合熵H(X...

2019-04-02 10:11:16

tensorflow 报错:Key Variable_4 not found in checkpoint

遇到一个问题,在实际中需要连续导入两个不同的模型,会发现有一个报错,解决方法如下 index = getModel1(q1,q2) ... func() ... index2 = getModel2(q3,q4)NotFoundError (see above for traceback): Restoring from checkpoint f...

2019-03-21 10:55:55

Tensorflow一些常用基本概念与函数

1、tensorflow的基本运作为了快速的熟悉TensorFlow编程,下面从一段简单的代码开始:import tensorflow as tf #定义‘符号’变量,也称为占位符 a = tf.placeholder("float") b = tf.placeholder("float") y = tf.mul(a, b) #构造一个op节点 sess = tf.Sess...

2019-03-15 18:08:51

bert-serving-start: command not found...解决过程

最近在做一个问答系统,大概思路是先将问题encode为一个向量,然后在问题库中进行比较,选取最接近的问题,将其答案返回给客户端模型中主要的部分在于基于BERT模型,需要将问题先embedding,用到了xiaohan博士的bert as service项目,这个项目目前可以直接pip install bert-serving-service 安装,在win10上可以正常使用,在结合aiohtt...

2019-03-04 17:42:17

aiohttp异步框架之服务端用法

配置环境首先检查你的python版本:$ python3 -VPython 3.6.3安装aiohttp:$ pip3installaiohttp查看aiohttp版本号:$ python3 -c 'import aiohttp; print(aiohttp.__version__)'3.0.7项目结构与其他基于python的web项目非常相似:....

2019-02-28 10:36:18

Linux命令之curl

curl 是一种命令行工具,作用是发出网络请求,然后获取数据,显示在"标准输出"(stdout)上面。它支持多种协议,下面列举其常用功能。一、查看网页源码直接在 curl 命令后加上网址,就可以看到网页源码。以网址www.sina.com为例(选择该网址,主要因为它的网页代码较短)。$ curl www.sina.com<html><head><t...

2019-02-28 10:25:11

python中dict操作集合

字典是Python是字典中唯一的键-值类型,是Python中非常重要的数据结构,因其用哈希的方式存储数据,其复杂度为O(1),速度非常快。下面列出字典的常用的用途.一、字典中常见方法列表复制代码代码如下:#方法                                  #描述  --------------------------------------------------...

2019-01-23 16:58:16

python读写excel表格(xlrd/xlwt)

最近需要做文本分类,原始数据存放在excel表格中,首先需要将数据预处理,读取出来,然后对特征列中对缺失值置0,有值的为1作为label训练分类器,作为主要记录使用过程的常见问题及解决。  python操作excel主要用到xlrd和xlwt这两个库,即xlrd是读excel,xlwt是写excel的库。可从这里下载https://pypi.python.org/pypi。下面分别记录pyth...

2018-12-29 10:44:21

详解 Word2vec 之 Skip-Gram 模型

2013年,Google开源了一款用于词向量计算的工具——word2vec,引起了工业界和学术界的关注。首先,word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练;其次,该工具得到的训练结果——词向量(word embedding),可以很好地度量词与词之间的相似性。随着深度学习(Deep Learning)在自然语言处理中应用的普及,很多人误以为word2vec是一种深度学习算法...

2018-12-27 15:20:55

利用TensorFlow进行电影评论的正负判断(文本分类)及分析

这次是利用TensorFlow进行文本分类,判断电影评价是正面还是负面的.IMDB数据集包含5万个评论,其中2.5万作为训练集,2.5万作为测试集.训练集和数据集相当意味着正负样本数一样.一.下载IMDB数据集IMDB数据集经过处理,将单词序列转成数字序列,每一个数字在字典中代表中一个特定的单词.下载的代码如下,下载在文件夹/root/.keras/datasets下面,文件名是imdb.n...

2018-12-25 16:37:27

结巴分词原理及使用

目前常用的分词工具很多,包括盘古分词、Yaha分词、Jieba分词、清华THULAC等,现在项目使用的分词方法是结巴分词,本次来介绍一下。安装就不说了可以直接pip install jieba或者pycharm的setting中添加即可。通过 import jieba 来引用如下为jieba代码结构及子目录与相应功能的对应;.├── analyse # 短语抽取模块│   ├──...

2018-12-25 10:49:04

Tensorflow入门踩坑实录1

背景:18年底互联网寒冬,12月本小白换工作了,不再做游戏相关了,新入职了然后开始做NLP相关的,接下来会不断更新工作中遇到的一些问题第一天需要先熟悉一下tensorflow,以前学校自己只是用caffe框架做过简单的图像分类相关所以对于tf也是开始入门。第一天对一个新的空白电脑,先安装我们需要的环境,1,git(github是宝库这个记得)2,XShell(windows对c...

2018-12-21 10:33:03

最近公共祖先LCA求解

1. 树上倍增对于求 LCA, 最朴素的方法是"让两个点一起往上爬, 直到相遇", "如果一开始不在同一深度, 先爬到同一深度". 树上倍增求 LCA 的方法同样基于这个道理, 只不过利用了倍增思想从而加速了"向上爬"的操作. 也就是说, 每次向上爬的高度不是 1, 而是 2 的幂.我们用 f(i,j)f(i,j) 表示从节点 ii 向上爬 2j2j 的高度所到达的节点, 则 f(i,0)...

2018-11-26 14:03:50

shortURL短地址压缩算法

我们在QQ微博上发布网址的时候,微博会自动判别网址,并将其转换,例如:http://url.cn/2hytQx现在让你来设计TinyURL的实现,以下问题要怎么设计:(1):域名后面的编码如何实现? (2):对于已经映射过的一个URL,怎么查找已存在的TinyUrl? (3):有10亿个url,一个服务上存不下,需要多台服务器,怎么设计实现(4):让你来设计这样一个服务,最大的问题是什...

2018-11-22 14:47:12

海量数据处理总结

当数据量变大的时候,一些适用较小量数据的算法可能不适用了,需要重新考虑具体处理措施何谓海量数据处理?   所谓海量数据处理,无非就是基于海量数据上的存储、处理、操作。何谓海量,就是数据量太大,所以导致要么是无法在较短时间内迅速解决,要么是数据太大,导致无法一次性装入内存。    那解决办法呢?针对时间,我们可以采用巧妙的算法搭配合适的数据结构,如Bloom filter/Hash/b...

2018-11-22 11:42:52

查看更多

勋章 我的勋章
  • 新人勋章
    新人勋章
    用户发布第一条blink获赞超过3个即可获得
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。