我对算法一无所知-CSDN博客

原创 rasa 中文 UnsupportedLanguageError: component ‘LanguageModelTokenizer‘ does not support language ‘zh‘.

LanguageModelTokenizer组件已被弃用，部分原因是它无法处理非空白标记化的语言，如中文。可以使用JiebaTokenizer代替。# Configuration for Rasa NLU.# https://rasa.com/docs/rasa/nlu/components/language: zhpipeline:# # No configuration for the NLU pipeline was provided. The following default pi

2021-05-21 15:54:30 1408 2

原创 pandas.errors.ParserError: Error tokenizing data. C error: EOF inside string starting at line xxx

import pandas as pddata = pd.read_csv('data.txt', sep='\t')报错：pandas.errors.ParserError: Error tokenizing data. C error: EOF inside string starting at line xxx改为：import pandas as pdimport csvdata = pd.read_csv('data.txt', sep='\t', error_bad_l.

2021-03-16 10:22:11 745

原创 AttributeError: ‘_IncompatibleKeys‘ object has no attribute ‘cuda‘

完整报错信息如下：Traceback (most recent call last): File "bert.py", line 172, in <module> output = predict('../../../data/end2end/title_content5.csv', model_path='../../../data/end2end/bert.pth') File "bert.py", line 149, in predict model = mo

2021-03-05 11:07:27 1995 4

原创 pytorch 存取模型（待补充）

# 直接保存模型# 保存模型torch.save(model, 'model.pth')# 加载模型model = torch.load('model.pth')# 保存模型参数和结构# 保存模型参数torch.save(model.state_dict(), 'model.pth')# 加载模型参数model.load_state_dict(torch.load('model.pth')# cpu模型加载gpu模型参数model.load_state_dict(torch.load

2021-02-25 10:01:47 264

原创 AttributeError: ‘torch.return_types.max‘ object has no attribute ‘dim‘

out1 = torch.max(out1, 1) # (batch, embedding_size)out1 = self.linear(out1) # (batch, linear_hidden_size)抛出错误 File "/diske/Anaconda3/envs/pytorch1.4/lib/python3.7/site-packages/torch/nn/modules/module.py", line 722, in _call_impl result = self..

2021-01-22 10:30:28 4999

原创 Macbook安装brew

/bin/zsh -c "$(curl -fsSL https://gitee.com/cunkai/HomebrewCN/raw/master/Homebrew.sh)"亲测可用

2021-01-12 20:04:36 204

原创 SyntaxError: Non-ASCII character ‘\xe4‘ in file baseline.py on line 18, but no encoding declared；

出现错误：SyntaxError: Non-ASCII character '\xe4' in file baseline.py on line 18, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details解决办法：在文件开头加入 #-*-coding:utf-8 -*-# 出现错误File "baseline.py", line 18SyntaxError: Non-ASCII c

2021-01-07 10:34:34 206

原创 ValueError: expected sequence of length 791 at dim 1 (got 185)

File "baseline.py", line 25, in <module> input_id = torch.tensor(tokens2ids)ValueError: expected sequence of length 791 at dim 1 (got 185)list维度不一样，检查一下维度应该是input_id = torch.tensor(padded_ids)

2021-01-06 19:58:56 3925

原创 pytorch LSTM的股价预测

股价预测一直以来都是幻想能够被解决的问题，本文中主要使用了lstm模型去对股价做一个大致的预测，数据来源是tushare，非常感谢tushare的数据！！为什么要用LSTM？LSTM是一种序列模型，是RNN中最典型的一个网络结构，对RNN做了一些改进同时具有RNN的特性，可以更好的处理时序数据。如果可以实现对股价的预测，作为一个股民，可以更好的掌握买卖点，以及辅助自己做决策等等，以此提高自己的收益率。你可以合理地决定什么时候买股票，什么时候卖股票来获利。这就是时间序列建模的用武之地。你需要一个好

2021-01-04 11:40:49 16398 22

原创有的时候print函数不会立即打印的解决办法（flush=True）

最近在跑模型，数据文件太大读取时间很长，于是就是print一个标志，但是发现print不会立刻输出，总是在文件都加载完才输出，那我要你何用。。。在网上查了一下，说是print会先输出到缓冲区，所以print不能立刻打印出来，写了这么久python我也是刚知道还有这个东西，，，需要刷新一下缓冲区就可以了，python3提供了这个参数print(xxx, flush=True)加上之后就好了...

2020-12-08 10:51:52 1107

原创 linux 查看文件开头几行、末尾几行、中间几行

查看整个文件cat [filename]例如：查看/home/user/test.txtcat /home/user/test.txt查看开头几行head -n [rows] [filename]例如：查看/home/user/test.txt的前20行head -n 20 /home/user/test.txt查看末尾几行tail -n [rows] [filename]例如：查看/home/user/test.txt的最后10行tail -n 10

2020-10-28 16:37:02 13973 2

原创 putty 使用perm密钥文件登陆堡垒机

xshell收费了，所以，，，就还是用putty吧，，，

2020-10-28 13:54:40 641

原创为什么交叉熵损失函数可以用作逻辑回归的损失函数？

什么是熵？什么是KL散度？什么是交叉熵？

2020-10-27 21:04:15 964

原创深度学习中的batch，iteration，epoch复习总结

这三个概念是在深度学习的优化中提到的，也就是BP。batch的概念就是一次训练所用到的数据，当batchsize=1，就类似于梯度下降中的SGD，称为online learning；当batchsize小于整体训练集的数量时成为mini-batch learning；当batchsize等于整体训练集的数量时，称为batch learning。online learning的优点是下降很快，缺点是很难在最优点处收敛，通常会在接近最优点处来回震荡。batch learning的缺点是下降太慢。mini-b

2020-10-27 20:36:35 530

原创 Python读取文件时出现UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0x80 in position ...

with open(self.path, 'r') as test: for line in test: pass代码如上，出现错误：UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position ...UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 9: ...或者是UnicodeDecodeErr..

2020-10-17 09:38:49 62881 14

原创自然语言处理中的Attention机制

Attention机制的理解Attention机制也就是注意力机制，在自然语言处理中，就是对于一个语言序列的不同的部分给予不同的注意力，在数学上一般表现为权重，也就是对一个语言序列的各个元素加权。对Attention机制给一个通用的定义：给定一组向量集合values，以及一个向量query，attention机制是一种根据该query计算values的加权求和的机制。这个定义来源于cs224n。所谓attention就是这个value集和中的每个向量的权值的大小，attention机制就是用一种

2020-10-15 22:15:24 606

原创 CNN卷积神经网络总结

1 DNN和CNNDNN（Deep Neural Networks，深度神经网络）DNN是一个全连接的深度神经网络，也可以用作图像识别，在mnist上的表现也很不错，可以参考这篇文章。鉴于为了介绍CNN和DNN的区别，在这篇文章中都叫做全连接神经网络。全连接神经网络中，每相邻的两层网络之间的节点都是相互有边相连。上一层的每个神经元均要链接下一层的每个神经元，于是一般将每一层的神经元排成一排，如图所示：而对于卷积神经网络，相邻的两个网络层之间只有部分节点相连，为了方便展示神经元的维度，一般会展

2020-09-23 15:45:47 5937

原创 Grid Search 网格搜索介绍

什么是Grid Search 网格搜索？网格搜素是一种常用的调参手段，是一种穷举方法。给定一系列超参，然后再所有超参组合中穷举遍历，从所有组合中选出最优的一组超参数，其实就是暴力方法在全部解中找最优解。为什么叫网格搜索，因为假设有两个超参，每个超参都有一组候选参数。这两组候选参数可以两两组合，把所有组合列出来就是一个二维的网格（多个超参两两组合可以看作是岗高维空间的网格），遍历网格中的所有节点，选出最优解。所以叫网格搜索。...

2020-09-16 10:03:52 5725

原创安装nodejs出现Invalid drive: f:\的解决办法

我电脑装了linux双系统，大概是这个原因造成的解决办法：win+r，输入subst F: %TEMP%然后win+r，输入 subst F:/F自己是哪个盘就写哪个盘然后重新执行node安装程序就可以了

2020-09-02 23:50:33 2257

原创反向传播算法（backpropagation）

算法简介百度百科：BP算法(即反向传播算法)适合于多层神经元网络的一种学习算法，它建立在梯度下降法的基础上。BP网络的输入输出关系实质上是一种映射关系：一个n输入m输出的BP神经网络所完成的功能是从n维欧氏空间向m维欧氏空间中一有限域的连续映射，这一映射具有高度非线性。它的信息处理能力来源于简单非线性函数的多次复合，因此具有很强的函数复现能力。这是BP算法得以应用的基础。...

2020-09-02 23:21:54 14004

原创 python调整照片

最近学校让上传照片，对照片尺寸要求比较多，学校给的照片调整程序又用不了，所以自己三行写了一个，，，

2020-09-01 12:47:22 171

原创 Bagging与Boosting的区别与联系

1 Bagging与Boosting的区别与联系Baggging 和Boosting都是模型融合的方法，可以将弱分类器融合之后形成一个强分类器，而且融合之后的效果会比最好的弱分类器更好。1.1 Bagging介绍用抽样的方式从原始样本中进行有放回的多次抽样（或者是抽特征），这种方法叫做Bootstraping，抽取k次每次抽取n个样本，这样就生成了k个样本容量为n的数据集。原始数据集中的样本可能是多次被抽到也可能是没有被抽到。每次使用一个数据即选练得到一个模型，这样k个数据集就可以得到k个模

2020-08-30 21:55:09 24022 3

原创决策树：ID3和C4.5

1 决策树简介决策树是一种分类算法，是通过对数据的处理，利用归纳算法，生成一些列规则，类似于if-else，然后根据这些规则对新的数据做决策。本质上就是学习规则，在利用规则做分类的过程。具体来说，就是首先根据数据的特征，决定每个树的节点使用哪一个特征做为分类依据，以及使用这个特征的哪个指作为分类界限，这就是一棵树的构造过程。决策树的优点：推理过程容易理解，决策过程可以表示成if-else 推理过程完全依赖于属性变量的取值特点可自动忽略目标变量没有贡献的属性变量，也为判断属性变量的重要性、

2020-08-30 14:54:28 560

原创 word2vec（一）——skip-gram原理理解

1 什么是word2vecword2vec顾名思义，就是将词（word）映射到（to）实向量（vector），用一一实数向量表示一个词，也被叫做词嵌入（word embedding），也可以认为词向量是词的特征向量。通过这种词嵌入的方式可以将词语映射为可以计算的数学形式，使计算机对自然的语言的计算变得更加可行，同时也赋予了它一定的数学性质，例如可以用向量的相似度来表示两个词的相似度等等。word2vec可以参考这篇文章中有提到https://blog.csdn.net/qq_31267769/artic

2020-08-28 23:47:57 5324 3

java处理word，excel，所需最全poi包

空空如也