拙小拙-CSDN博客

**pandas报错：np.nan is an invalid document, expected byte or unicode string.**原始部分代码：tr_ = TfidfVectorizer(max_features=self.max_features)data_train_t = tr_.fit_transform(self.train_data.values.astype('U')).toarray()data_test_t = tr_.transform(self.tes

2021-07-08 17:24:11 4257

原创 04. python 将一个文件夹下的内容写入一个word（word追加写入内容）

Python的一些应用 jupyter notebook源码总体思想：扫描文件夹的文件，逐个读取追加入word中。代码：from docx import Documentfrom docx.enum.text import WD_BREAKimport osfrom docx.oxml.ns import qn# 主要用于读取文件的内容def getContent(file_path): f = open(file_path, 'r', encoding='UTF-8')

2021-03-22 12:07:59 1160

转载 python保存训练的模型

使用keras模型from keras.models import load_model model.save('modelxxx.h5')my_model = load_model('modelxxx.h5')pickle包import pickle# 数据处理# 模型训练modelxxx.fit(X,y)f = open('modelxxx.pickle','wb')pickle.dump(modelxxx,f)f.close()#load modelf = o.

2021-03-20 22:35:58 458

转载 python 导入自定义模块失败（No module named xxx）

问题原因：运行的py文件未配置好路径解决办法：在该py文件下加入下列代码import sys# 将导入模块的路径写入sys.path.append(r"G:/Pycharm/nlg-yongzhuo-master/nlg-yongzhuo-master/")导入图上的sys.path.append()路径下nlg_yongzhuo...

2021-01-31 20:07:35 1331 2

转载 keras 输出网络结构

安装相应的包：一是pip install pydot ，二是在graphviz官网下载相应的版本并安装，安装是选择路径添加，如下图：

2021-01-30 21:44:36 366

转载 torchsnooper输出torch中的变量类型/维度

输出函数中的内容import [email protected]()def func(x,y): ... return 在函数前加@torchsnooper.snoop()输出语句中的内容import torchsnooperwith torchsnooper.snoop(): 语句1 语句2 ··· 在语句前使用with torchsnooper.snoop():下图是一张结果图。...

2021-01-27 20:24:58 417

原创 03. python读取文件

Python的一些应用 jupyter notebook源码总体思想：将内容转为dataframe，使用to_csv()函数进行存储，使用read_csv()或read_excel()进行读取代码：import pandas as pd# 假设有文本texttext = ['这是一个文本内容','dsds']# 转为DataFrame格式text = pd.DataFrame(text) '''存储文件'''# 利用dataframe的to_csv存为不同形式的文件 index表

2021-01-21 17:02:20 102

原创 02. python将list存入csv中的一列

Python的一些应用 jupyter notebook源码总体思想：将列表变为dataframe再进行转存。代码：import pandas as pd# 假设有列表aa = ['An attemped build of gfortran from a fresh', 'With a new download of gfortran the build now fails', 'While bootstrapping I noticed.checking for compiler with P

2021-01-21 15:56:44 6822

转载日常报错问题

1. could not determine the shape of object type ‘Series’解：X_test = torch.Tensor(X_test.to_numpy())

2021-01-18 09:28:19 3979 1

原创 01. pyhton 统计句子的长度

Python的一些应用 jupyter notebook源码统计一句英文句子的长度：(包括是否去除重复单词)# 假设英文句子为tt ='After updating from 2.0.40 to 2.0.42, all POST-request to the cgi-bin are \ broken, and return the script source-code! GET-request to the same scripts \ function normal.\

2021-01-17 12:29:22 653 4

原创 BERT简单理解

BERT是论文 Pre-training of Deep Bidirectional Transformers for Language Understanding 所提出的模型，在11个NLP任务中取得好的结果。现在研究，对于BERT的使用，一般是微调，微调时根据自己的数据，梯度下降loss(loss = 分类器的loss + Mask的loss)，得到BERT模型当作词典使用或直接使用BERT的[CLS]进行预测。BERT的输入为 token embedding（包含词的信息） + positio.

2021-01-13 15:36:20 281

转载 Word2019建立自己的模板

打开word新建你的模板文档。另存为，选择保存类型为xxx模板，这时保存位置会发生变化，不要修改，直接保存。新建，点击自定义进入文件夹便可找到。

2021-01-12 18:05:42 2112

转载 ImportError: DLL load failed: 找不到指定的模块。

解决步骤：卸载找不到的模块，pip重新安装。若是版本不兼容问题。卸载重装时应会提示。如下图：

2021-01-04 13:16:18 183

转载 git bash下进入/退出虚拟环境

任意目录，source activate xxx 进入虚拟环境，任意目录，source deactivate 退出虚拟环境转载链接：https://blog.csdn.net/songbaiyiran/article/details/78233078

2021-01-04 08:12:02 731 1

转载 BERT模型在win10的下载位置

使用如下方式调用BERT模型时，from transformers import BertTokenizer, BertModeltokenizer = BertTokenizer.from_pretrained('bert-base-uncased')model = BertModel.from_pretrained('bert-base-uncased')出现Exception has occurred: OSError Unable to load weights from pytorch

2020-12-17 17:48:37 1268

原创 python 实现词向量的表示包括词袋模型/TF-IDF/Word2Vec

词袋模型from sklearn.feature_extraction.text import CountVectorizer#语料库train_x= ['build fails due publication-tests.xml build target','due to sb']test_x =['build one to ']#将文本中的词语转换为词频矩阵cv_ = CountVectorizer()#计算个词语出现的次数X = cv_.fit_transform(train_x).

2020-12-13 20:29:06 2329 2

转载合并DataFrame的方式

声明2个DataFrameimport pandas as pda = pd.DataFrame([[1,2,3]],columns=['a1','a2','a3'])b = pd.DataFrame([[4,5,3]],columns=['b1','b2','b3'])c = pd.DataFrame([[4,5,3]],columns=['a1','a2','a3'])pd.merge(a,c,on='a3') #a3相同的合并为一行，其余不进行合并相当于交集a.append(b

2020-12-13 20:24:44 162

转载 python dataframe与list互相转换并进行合并

import pandas as pdlist_a = [1,2,4] # 创建Llistdataframe_b = pd.DataFrame({'a':[1,2,3], 'b':[3,4,5]}) # 创建DataFramedataframe_a = pd.DataFrame(list_a) # list转为DataFramelist_b = list(dataframe_b['a']) # DataFrame转为list# 将

2020-12-07 19:02:33 4461

转载 github 访问失败

点击链接查找可以访问github网址的ip打开本地hosts文件，路径C:\Windows\System32\drivers\etc下将ip github.com加入文件最后，如下图收工

2020-11-04 11:06:01 190

转载输出支持向量机的一些参数

# 训练支持向量机使用sklearnfrom sklearn import svmx=[[1,2,3],[22,3,4],[2,3,4]] #训练数据y=[1,0,0] #训练数据对应的标签（现在用0和1表示两类）model= svm.SVC(kernel='linear')model.fit(x,y)# 输出 SVC(C=1.0, break_ties=False, cache_size=200, class_weight=None, coef0=0.0, decis

2020-10-09 14:31:28 1267

转载 python 实现 FastText 包括gensim和fasttext库

A. FastText2种方式：windows10系统安装gensim即可 pip install gensim1. gensim(1) 可用于训练词向量(2) 可找出相似的词向量from gensim.models import FastText# data_token为分词可运用自己的语料库data_token =[['update', 'orion', '9'], ['import', 'file', "n't", 'work', 'anymore', 'orion.eclipse.

2020-10-06 13:12:57 1780 3

转载自然语言处理相关的博客链接

如何用 word2vec 计算两个句子之间的相似度？

2020-09-06 15:13:09 108

原创 2020-08-16

Bugzilla文档

2020-08-16 11:36:37 74

转载 Word统一为中文符号或英文符号

Word必备工具箱下载链接：https://www.cr173.com/soft/29795.html

2020-07-31 17:24:58 678

转载 Word一栏两栏

标题摘要为一栏，正文为两栏a.原始文件为两栏文件(1)光标在正文最开始，插入连续的分节符（布局-分隔符-分节符-连续）（2）光标移至标题摘要部分，选择栏为一栏b. 原始文件为一栏文件（1）同a(1)在标题摘要和正文间插入连续分节符（2）光标移至正文部分，选择栏为两栏正文中的某一部分为一栏，其余还是两栏(1)在某一部分开始，结束地方分别加入连续分节符（2）光标移至某一部分内，选择栏为一栏...

2020-07-21 15:02:21 842

转载贪心学院—自然语言处理—词向量的总结

词向量的总结个人整理笔记，方便复习，若侵权，请联系。附贪心学院课程链接： https://www.greedyai.com/courseinfor/105

2020-07-03 10:00:50 268

转载贪心学院—自然语言处理—字符向量

字符向量字符向量理解适用情况字符向量理解字符向量的出现是为了解决在NLP中未登录词（out of vocabulary）。subword主要思想是将已有的分词自定义的字符大小将一个分词再细分为几个字符，将一个词向量转换为该分词字符向量的表示。深入理解NLP Subword算法：BPE、WordPiece、ULM上图设置的字符大小为4（词向量中4个字符表示一行），而一个词的词向量是由它所分的字符向量表示。再通过skip-gram模型求其概率。适用情况具有某些形态特征的语言（如英语的ing/

2020-07-03 09:59:24 670

转载贪心学院—自然语言处理—评估词向量

使用上述方法替代目标函数后Negative Sampling：正样本（文本中出现的组合）是一定的，负样本（文本中为出现的组合）较多，该方法的思想在于：计算时不使用全部的负样本而是随机采样，采样个数可自己设置。下图为采样个数设为2的情况:在确定好样本后，进行梯度下降更新。Skip-Gram model with SGD （skip-gram模型使用梯度下降的大致过程）评估词向量：TSNE对训练得到的词向量降维到二维空间进行观察；与已有的数据进行相似度对比；类比（analogy）：wom

2020-07-02 23:58:45 752

转载贪心学院—自然语言处理—分布式向量表示

分布式向量分布式Word2Vec分布式相当于不同分词对结果的贡献程度。Word2Vec[NLP] 秒懂词向量Word2vec的本质重点：当模型训练完后，最后得到的、是神经网络的权重，比如现在输入一个 x 的 one-hot encoder: [1,0,0,…,0]，对应输入的某个分词，则在输入层到隐含层的权重里，只有对应 1 这个位置的权重被激活，这些权重的个数，跟隐含层节点数是一致的，从而这些权重组成一个向量 V 来表示x，而因为每个分词的 one-hot encoder 里面 1 的位置是不同

2020-07-02 23:56:22 842

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

软件著作权申请文档.zip

python读取csv文件并转为list的每步结果图.html

大数据资源链接.txt

2015浙工大考研.pdf

c语言练习题

2018.09csp真题

csp2013-2017真题

Android内容讲解

数据结构算法

Linux基本命令

空空如也