Ian_Wonder-CSDN博客

1、什么是集成学习算法？2、集成学习主要有哪几种框架，并简述他们的工作过程？3、Boosting算法有哪两类，他们之间的区别是什么？4、什么是偏差和方差？5、如何从减少方差和偏差的角度解释Boosting和Bagging的康？6、随机森林的工作原理是什么？7、随机森林的随机性主要体现在哪些方面？8、随机森林算法有哪些优缺点？9、为什么随机森林不能用全部训练样本去训练m颗随机树？10、简述随机森林和GBDT的区别...

2021-08-18 09:45:41 160

原创算法题记录三

1、机器学习中的逻辑回归与线性回归有哪些异同点？2、回归问题常用的性能度量指标有哪些？3、分类问题常用的性能度量指标有哪些？4、逻辑回归的损失函数是什么？如何推导？5、处理多标签分类问题，逻辑回归一般怎么做？6、全概率公式&贝叶斯公式分别是什么？7、朴素贝叶斯（Naive Bayes），“Naive”在何处？8、朴素贝叶斯有没有超参数可调？9、简述朴素贝叶斯的工作流程？10、朴素贝叶斯对异常值是否敏感？...

2021-08-18 09:40:35 153

原创算法题记录二

1、为什么要经常对数据特征做归一化？2、为什么需要特征组合？如何处理高维组合特征？3、欧式距离和曼哈顿距离的区别？4、哪些场景使用余弦相似度？哪些使用欧式距离？5、什么是独热编码？相较于直接使用数字作为表示的优点是什么？6、简述过拟合和欠拟合的具体表现？7、缓解过拟合和欠拟合的方法有哪些？8、L1和L2正则先验分别服从什么分别？9、为什么树形结构不需要进行特征归一化？10、数据不平衡是什么？如何解决数据不平衡问题？...

2021-08-18 09:35:29 111

原创算法题记录一

1、RNN中发生梯度消失的原因是什么？2、RNN中使用Relu可以解决梯度消失的问题吗？3、LSTM为什么可以解决梯度消失/爆炸的问题？4、GRU和LSTM的区别？5、LSTM算法有哪些不足之处？6、写出Attention的公式Attention机制，里面的q,k,v分别代表什么？7、Transformer中使用多头注意力的好处是什么？8、Attention中self-attention的时间复杂度9、Transformer中encoder和decoder的异同点？10、 Bert和GPT

2021-08-18 09:23:21 83

原创今天编译insightface中出错，关于setup

python setup.py build_ext --inplace这行命令可能会帮你解决很多问题，我就是这样解决的

2021-07-18 21:57:33 378

原创 error: Microsoft Visual C++ 14.0 is required. Get it with “Microsoft Visual C++ Build Tools“，以及安装包缺失

第二次遇到这个问题了，之前没做记录，又不记得了，所以这次一定要做个记录：error: Microsoft Visual C++ 14.0 is required. Get it with “Microsoft Visual C++ Build Tools”: https://visualstudio.microsoft.com/downloads/从链接：https://pan.baidu.com/s/169Jdn-9Zh93bS37WjiGfsg提取码：g6t3 下载vs包，进行安装，这时若出现安.

2021-07-17 10:13:29 1286 1

原创上采样下采样过采样欠采样

一、上采样和下采样的对比上采样：放大图片下采样：缩小图片二、过采样和欠采样的对比针对于正负样本不均衡，例如当正负样本比例达到1：99，分类器将所有的样本都判为负样本能达到99%的正确率，显然结果不是我们想要的。又例如，有一组数据，其中标签为1的样本数有2000，标签为0的数为400。过采样：从少数类样本中（这里标签为0的样本就是少数样本）重复抽取样本，对少数类样本进行多次复制，扩大数据规模欠采样：从多数类样本中（这里标签为1的样本就是多数样本）丢弃部分样本，可能会损失部分有用的东西，造成模

2021-07-06 14:04:52 643

原创 pytorch的学习

torch.save(net1, 'net.pkl') #保存entire net整个网络torch.save(net1.state_dict(), 'net_params.pkl') #保存参数```

2021-05-10 09:57:53 70

原创 python 删除两个文件中没有一一对应的名称

删除两个文件中没有一一对应的名称，针对于.jpg文件和xml文件没有对齐#!/usr/bin/python3# -*- coding:UTF-8 -*-import osimport shutilfile_name_1 = "JPEGImages" #图片文件存放地址file_name_2 = "Annotations" #标记文件存放地址#file_name_1#count = 10415#图片起始编号image = []annotation =[]for file in os.l

2021-04-14 17:18:21 369 3

原创百度爬取图片，亲测可用

# -*- coding: utf-8 -*-"""根据搜索词下载百度图片"""import reimport sysimport urllibimport requestsdef get_onepage_urls(onepageurl): """获取单个翻页的所有图片的urls+当前翻页的下一翻页的url""" if not onepageurl: print('已到最后一页, 结束') return [], '' try:

2021-04-12 14:43:16 231 1

原创 ubuntu卸载cuda

cuda 10.0及以下版本卸载cd /usr/local/cuda-xx.x/bin/sudo ./uninstall_cuda_xx.x.plsudo rm -rf /usr/local/cuda-xx.xcuda 10.1及以上卸载cd /usr/local/cuda-xx.x/bin/sudo ./cuda-uninstallersudo rm -rf /usr/local/cuda-xx.x其中xx.x代表你自己的cuda版本号...

2021-04-08 10:14:34 280

原创使用python将视频切分为图片

# -*- coding:UTF-8 -*-import cv2import numpy as npimport random import os# 定义保存图片函数# image:要保存的图片名字# addr；图片地址与相片名字的前部分# num: 相片，名字的后缀。int 类型def save_image(image,addr,num): address = addr + str(num)+ '.jpg' cv2.imwrite(address,image) # 读取

2021-03-15 09:14:49 1430

原创使用python进行文件夹重命名

import osfile_name = "JPEGImages/" #文件存放地址count = 0for file in os.listdir(file_name): os.rename(os.path.join(file_name,file),os.path.join(file_name,str(count)+".jpg")) count+=1

2021-03-15 09:12:39 255

原创机器学习之Adaboost笔记

一、Adaboost的特性Adaboost对每一个样本分配权重，对每一轮的弱分类器也分配一个权重。Adaboost通过分类误差率来更新下一轮的样本权重，即提高被误分类的样本权重，并降低被正确分类的样本权重，使得没有被正确分类的样本在后一轮训练时获得更多的关注。对基分类器分配权重，加大误差率较小的弱分类器权重，使其在表决中起较大的作用。二、Adaboost算法输入：训练数据集T = {(x1, y1), (x2, y2), (x3,y3),…(xn，yn)},其中xi ∈ X ⊆ Rn,

2021-01-06 21:28:33 199

原创判断一个数是否为素数之费马测试

费马测试被称为概率性素性测试，它判断的是“某个数是素数的概率大不大”。如果P为素数，那么所有比P小的数Q都满足公式 QP mod P = Q ，即例素数5的性质，比素数5小的数有4、3、2、1，那么:45 (45=1024)mod 5 = 435 (35=243)mod 5 = 325 (25=32)mod 5 = 215 (15=1)mod 5 = 1满足公式 QP mod P = Q 。实际使用中不需要对所有的Q进行计算，只需要随机选取几组即可。但反过来，如果所有Q都满足条件，

2020-12-06 18:06:41 1114

原创 ubuntu下监督显存使用情况

watch [options] command例：每隔5秒监视一次watch -n 5 nvidia-smi

2020-11-10 09:47:22 170

原创 visual studio code 2019远程连接服务器

一、安装sftp:二、配置sftp:按住ctrl+ship+p键，得到以下画面，选择SFTP:Config当右下角出现：意思时需要一个文件夹，点击open folder后，选择或者创建一个文件夹，再回来就会看到一个类似于这样的：上面是你需要修改或添加的地方。再ctrl+s保存，完毕。连接成功，是不是超级简单。...

2020-11-06 21:46:41 4086

原创 argmax与max的区别

y = max f(x) ##表示y是函数f(x)的最大值y = argmax(f(x)) ##表示y为函数f(x)取得最大值时，参数x的值例：f(x) = x3，x的取值范围是{0,1,2,3}y = max(f(x)) = 27y = argmax(f(x)) = 3

2020-11-05 14:57:08 1059

原创 Stepwise Extractive Summarization and Planning with Structured Transformers

论文链接Stepwise Extractive Summarization and Planning with Structured TransformersAbstract1. Introduction2.Related work3. Problem: Stepwise Content Extraction4 Stepwise HiBERTAbstract本文提出了一个使用结构化的 transformer—HiBERT和Extended transformer来做摘要抽取的分布式方法。通过将之前生.

2020-11-05 10:57:06 265 1

原创如何生成requirements.txt

1、生成该文件的命令：pip freeze > requirements.txt2、安装文件中所包含的所有模块的命令：pip install -r requirements.txt -i HTTPS://mirrors.aliyun.com/pypi/simple/

2020-11-02 10:24:45 1163

原创使用xshell时，ssh远程到主机指定端口

命令：ssh 用户名@主机ip 端口号如果要远程到的主机ip为192.166.19.12，端口号为：6000，用户名为:ian输入ssh [email protected] 6000即：ssh 用户名@主机ip 端口号

2020-10-29 22:47:26 4431

原创 n-gram和Rouge-l

参考：【1】自动文摘评测方法：Rouge-1、Rouge-2、Rouge-L、Rouge-S【2】自然语言处理NLP中的N-gram模型

2020-10-16 11:35:13 221

原创论文：Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

论文：Retrieval-Augmented Generation for Knowledge-Intensive NLP Taskscode:https://github.com/huggingface/transformers

2020-10-16 08:36:57 2550

原创 nltk安装

step 1:pip install -U nltk -i HTTPS://mirrors.aliyun.com/pypi/simple/step 2:进入python环境被卡了。手动下载nltk_data包，网盘地址：地址step 3:在python下输入：from nltk.book import *当出现：需要把下载的数据放到以下之一的文件夹下：再输入：from nltk.book import *就完成了。...

2020-10-14 10:53:32 1194 2

转载 python中os.path.join的用法

os.path.join()函数：连接两个或更多的路径名组件1.如果各组件名首字母不包含’/’，则函数会自动加上2.如果有一个组件是一个绝对路径，则在它之前的所有组件均会被舍弃3.如果最后一个组件为空，则生成的路径以一个’/’分隔符结尾例1：import osPath1 = 'home'Path2 = 'develop'Path3 = 'code'Path10 = Path1 + Path2 + Path3Path20 = os.path.join(Path1,Path2,Path

2020-09-29 10:19:15 11176

原创 ERNIE: Enhanced Language Representation with Informative Entities

待定

2020-09-27 14:50:38 306

转载 pytorch下使用多GPU进行训练

链接

2020-09-24 10:58:49 80

原创 keras的earlystopping

keras.callbacks.EarlyStopping(monitor=‘val_loss’, min_delta=0, patience=0, verbose=0, mode=‘auto’, baseline=None, restore_best_weights=False)

2020-09-04 09:10:44 294

原创 ACE2005数据集介绍

ACE2005数据集介绍

2020-08-28 15:04:50 1747

原创 keras指定输入数据的shape

下面3个指定输入shape的方法是严格等价的：model = Sequential()model.add(Dense(32, input_shape=(784, )))model = Sequential()model.add(Dense(32, batch_input_shape=(None, 784)))model = Sequential()model.add(Dense(32, input_dim = 784))下面三种方法也是严格等价的：model = Sequ

2020-08-26 20:23:33 875

原创 SparseCategoricalCrossentropy()与CategoricalCrossentropy()的区别

tf.keras.losses.SparseCategricalCrossentropy()与CategricalCrossentropy()的区别：（1）如果labels是one-hot编码，比如目标是 one-hot 编码：　　[[0, 1, 0],　　 [1, 0, 0],　　 [0, 0, 1]]每条每一行就是label的编码，使用CategricalCrossentropy()（2）如果目标是数字编码，比如[1,3,4]每个数字即是label，使用SparseCategrical

2020-08-26 19:21:23 2070

原创华为刷题机试7-明明的随机数

明明想在学校中请一些同学一起做一项问卷调查，为了实验的客观性，他先用计算机生成了N个1到1000之间的随机整数（N≤1000），对于其中重复的数字，只保留一个，把其余相同的数去掉，不同的数对应着不同的学生的学号。然后再把这些数从小到大排序，按照排好的顺序去找同学做调查。请你协助明明完成“去重”与“排序”的工作(同一个测试用例里可能会有多组数据，希望大家能正确处理)。Input Paramn 输入随机数的个数inputArray n个随机整数组成的数组Return ValueOu

2020-08-08 21:38:09 289

原创 ModuleNotFoundError: No module named ‘ahocorasick‘

使用pip install pyahocorasick安装pip install pyahocorasick -i HTTPS://mirrors.aliyun.com/pypi/simple/

2020-08-05 14:03:21 1556 1

原创 leetcode-26删除重复数组

if not nums: return 0i = 0for j in range(1, len(nums)):if nums[i] != nums[j]:i += 1nums[i] = nums[j]return i + 1链接：leetcode-26class Solution: def removeDuplicates(self, nums: List[int]) -> int: if not nums: return 0

2020-08-03 22:04:46 72

原创华为机试刷题6：字符串分割

题目描述连续输入字符串(输出次数为N,字符串长度小于100)，请按长度为8拆分每个字符串后输出到新的字符串数组，长度不是8整数倍的字符串请在后面补数字0，空字符串不处理。首先输入一个整数，为要输入的字符串个数。例如：输入：2abc12345789输出：abc000001234567890000000接口函数设计如下:/*****************************************************************************功能:存储输

2020-07-24 07:41:04 489

原创华为机试刷题5：字符逆序

题目描述将一个字符串str的内容颠倒过来，并输出。str的长度不超过100个字符。如：输入“I am a student”，输出“tneduts a ma I”。输入参数：inputString：输入的字符串返回值：输出转换好的逆序字符串输入描述:输入一个字符串，可以有空格输出描述:输出逆序的字符串示例1输入I am a student输出tneduts a ma Iwhile True: try: print(input()[::-1]) e

2020-07-18 18:08:29 190

原创华为机试刷题4：求解立方根

输入描述:待求解参数 double类型输出描述:输入参数的立方根也是double类型示例1输入216输出6.0方法一：while True: try: n = int(input()) print(round(n**(1/3),1)) except: break

2020-07-18 16:34:39 193

原创华为机试刷题3：记负均正二

题目描述从输入任意个整型数，统计其中的负数个数并求所有非负数的平均值，结果保留一位小数，如果没有非负数，则平均值为0本题有多组输入数据，输入到文件末尾，请使用while(cin>>)读入输入描述:输入任意个整数输出描述:输出负数个数以及所有非负数的平均值示例1输入复制-13-4-7输出复制30.0方法1：while True: try: s = list(map(int, input().split())) count

2020-07-18 10:00:19 182

原创 relation extraction 关系抽取论文

[1]Adversarial training formulti-context jointentity and relation extraction[2]Joint entity recognition and relation extraction as a multi-head selection problemcode[3]Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme

2020-07-16 16:23:47 956

空空如也

空空如也