6 jingyi130705008

尚未进行身份认证

我要认证

你已经很好了,只是你还不够好。

等级
TA的排名 1w+

python高效读写文件

1. 读文件with open("./input.txt") as fp: for line in fp: line = line.strip() if line: print(line)2. 保存文件对于频繁写入文件的模块,可以采用以下方式:先将数据暂存到一个result数组中,等数组满了再一次性写入文件。output_file = "./result.txt"result = []def save(line,.

2020-09-23 14:31:35

python 常用代码块

本文梳理在学习、工作中经常使用的一些代码。1. 读写文件2. 时间转换

2020-09-23 14:21:29

PySpark将dataframe写入本地文件,只生成文件夹含有SUCCESS

1. 代码results = res.rdd\ .map(lambda word: (word[0].replace(u"(", u"(").replace(u")", u")"), word[1], word[2]))\ .filter(lambda word: word[0] in companys_list)\ .map(lambda word: (companys_dic.get(word[0], word[0]),word[1],

2020-08-26 11:16:52

TextCnn 模型固化后预测时报 The operation, ‘drop_prob‘, does not exist in the graph.“

对于这一问题,由于模型设计中采用tf.layers.dropou函数,而该函数在预测时不起作用,因此固化模型时无需传drop_prob这一参数,因此如果想获取,就会报这个错。

2020-08-06 15:47:00

BiLSTM + CRF 命名实体识别实践(下)

0. 前言上一篇博客简单讨论了理论知识,这篇博客主要是实践部分,主要针对上一篇博客中提到的代码的优化。优化点主要包含以下几个方面:(1)max_seq_len如何取值?(2)sequence_len不固定会给模型带来多大的提升?(3)batch_size不固定,方便预测(4)词向量的预训练能给模型带来哪些好处?(5)特定业务场景下,如何迁移?...

2020-07-21 12:43:57

Python之队列queue模块使用 常见问题与用法

https://blog.csdn.net/yangzhenzhen/article/details/53536335

2020-07-16 21:46:30

BILSTM+CRF 的命名实体识别(上)

1. CRF介绍参考资料最通俗易懂的BiLSTM-CRF模型中的CRF层介绍条件随机场(CRF)和隐马尔科夫模型(HMM)最大区别在哪里?CRF的全局最优体现在哪里?

2020-07-16 15:45:17

TensorBoard可视化

1. 运行TensorBoardtensorboard --logdir=/path/log注:默认端口为6006,可通过参数--port=8090来设置。2. 浏览器输入http:host:6006即可访问模型网络结构可查看GRAPHS部分 图 fasttext网络结构监控指标信息可查看SCALAR...

2020-07-15 16:10:45

BiLSTM + attention 文本分类实践

BiLSTM + attention 以BiLSTM 的输出output_fw+output_bw作为输入,先计算每个词在句子中的贡献,然后以加权的方式对embedding进行融合。计算词对句子的贡献时,以BiLSTM的输出经过一个manual操作,之后进行softmax即可得到,具体可以看代码实现部分。有几个问题,需要思考一下:(1)BiLSTM 的输出output_fw+output_bw如果以concat的方式效果如何?基于tensorflow的实现代码#!/usr/bin/p.

2020-07-11 20:33:23

BiLSTM文本分类实践

BiLstm将前向和后向输出拼接起来,然后recuce_mean连个softmax即可实现文本分类(中间也可以过渡个全连接)。基于tensorflow的实现代码#!/usr/bin/python# coding=utf8import osimport numpy as npfrom datetime import datetimeimport tensorflow as tffrom sklearn import metricsfrom nlp_utils import *.

2020-07-10 19:09:29

浅谈fasttext、textcnn、dpcnn

最近工作做了个短文本分类,基于fasttext的实现可见这里,基于textcnn的实现可见这里,基于dpcnn的实现可见这里。简单说说自己的一些实验结果:1. fasttext的输入一般是word+n-gram,但是仅仅用unigram即基于字,其表现也不错;2. 对于textcnn、dpcnn也可以尝试用基于word,其表现没有基于字的好;3. 其性能表现fasttext <textcnn <dpcnn, 但是差别并不是很大。各模型均在94.5%+, 差距不到一个百分点。..

2020-07-10 15:41:32

tf.layers.dropout 和 tf.nn.dropout的区别

1.tf.nn.dropout函数tf.nn.dropout( x, keep_prob, noise_shape=None, seed=None, name=None)x:指输入,输入tensorkeep_prob: float类型,每个元素被保留下来的概率,设置神经元被选中的概率,在初始化时keep_prob是一个占位符, keep_prob=tf.placeholder(tf.float32)。tensorflow在run时设置keep_...

2020-07-10 12:08:50

DpCNN的实践小结

DpCNN 的理论可见:https://www.jiqizhixin.com/articles/2018-06-22-4这里简单说下自己的理解:模型中卷积层的作用是扩大视野范围,池化层的作用是提取有效特征,两者结合就是可以从比较长的句子中提取有效特征。...

2020-07-09 20:35:52

TextCNN实践小结

TextCNN模型结构如下图所示:(1)从模型结构中可以看出,多个过滤器提取的特征拼接后接个softmax层即可预测类别,通过实验尝试softmax层之前再接个全连接层进行过滤,其模型效果更好。

2020-07-09 16:14:13

FastText的实践小结

代码如下:# -*- coding:utf-8 -*-import osimport numpy as npimport tensorflow as tffrom tensorflow.contrib import slimfrom nlp_utils import *class FastText(): def __init__(self, num_classes, seq_length,

2020-07-08 21:29:48

TensorFlow 加载模型进行预测

1. 保存模型model_path = "./saves/"model_name = "fasttext"saver = tf.train.Saver(max_to_keep=10)saver.save(sess, model_path + model_name, global_step=train_steps)保存模型时会在model_path路径下得到3个名为model_name的文件和一个checkpoint文件,如下所示:.data-00000-of-00001和.index

2020-07-08 14:05:36

EXCEL 中数据分析常用统计方法介绍(二)

0. 前言EXCEL 中数据分析常用统计方法介绍(一)介绍数据处理技巧部分,本文主要介绍几种分析方法。1. 分析方法描述统计、相关系数、协方差、回归、方差分析:单因素方差分析方差分析:可重复双因素分析方差分析:无重复双因素分析T-检验:平均值的成对二样本分析T-检验:双样本等方差假设T-检验:双样本异方差假设Z-检验:双样本平均差检验F-检验 双样本方差...

2020-06-07 11:25:21

EXCEL 中数据分析常用统计方法介绍(一)

0. 前言Excel 数据中的数据分析功能提供了常用的一些统计方法和数据处理技巧,如下:本文尝试从实践的角度去结合理论对这些统计方法一一介绍,不对的地方烦请指出,欢迎评论区一起交流讨论。1. 处理技巧处理技巧:指数平滑、移动平均、直方图、随机数发生器、排位与百分比排位...

2020-06-07 11:19:00

《白话统计》学习笔记之相关分析与一致性检验

1. 从协方差到线性相关系数对于变量x,y,其协方差计算公式为将x,y进行标准化,计算得到的协方差即为相关系数。2. 线性相关系数及其置信区间3. 如何比较两个线性相关系数有无差异4. 分类资料的相关系数5. 基于秩次的相关系数6. 相关分析中的几个陷阱7....

2020-04-06 20:54:52

《白话统计》学习笔记之卡方检验

1. 卡方检验卡方检验是用途非常广的一种假设检验方法,它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理...

2020-04-06 11:41:48

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv3
    勤写标兵Lv3
    授予每个自然周发布7篇到8篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 分享精英
    分享精英
    成功上传11个资源即可获取