自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(114)
  • 收藏
  • 关注

原创 1、为什么要经常对数据做特征归一化

特征归一化

2023-02-11 12:34:42 1084 1

原创 算法记录题四

1、什么是集成学习算法?2、集成学习主要有哪几种框架,并简述他们的工作过程?3、Boosting算法有哪两类,他们之间的区别是什么?4、什么是偏差和方差?5、如何从减少方差和偏差的角度解释Boosting和Bagging的康?6、随机森林的工作原理是什么?7、随机森林的随机性主要体现在哪些方面?8、随机森林算法有哪些优缺点?9、为什么随机森林不能用全部训练样本去训练m颗随机树?10、简述随机森林和GBDT的区别...

2021-08-18 09:45:41 160

原创 算法题记录三

1、机器学习中的逻辑回归与线性回归有哪些异同点?2、回归问题常用的性能度量指标有哪些?3、分类问题常用的性能度量指标有哪些?4、逻辑回归的损失函数是什么?如何推导?5、处理多标签分类问题,逻辑回归一般怎么做?6、全概率公式&贝叶斯公式分别是什么?7、朴素贝叶斯(Naive Bayes),“Naive”在何处?8、朴素贝叶斯有没有超参数可调?9、简述朴素贝叶斯的工作流程?10、朴素贝叶斯对异常值是否敏感?...

2021-08-18 09:40:35 153

原创 算法题记录二

1、为什么要经常对数据特征做归一化?2、为什么需要特征组合?如何处理高维组合特征?3、欧式距离和曼哈顿距离的区别?4、 哪些场景使用余弦相似度?哪些使用欧式距离?5、什么是独热编码?相较于直接使用数字作为表示的优点是什么?6、简述过拟合和欠拟合的具体表现?7、缓解过拟合和欠拟合的方法有哪些?8、L1和L2正则先验分别服从什么分别?9、为什么树形结构不需要进行特征归一化?10、数据不平衡是什么?如何解决数据不平衡问题?...

2021-08-18 09:35:29 111

原创 算法题记录一

1、RNN中发生梯度消失的原因是什么?2、RNN中使用Relu可以解决梯度消失的问题吗?3、LSTM为什么可以解决梯度消失/爆炸的问题?4、GRU和LSTM的区别?5、LSTM算法有哪些不足之处?6、写出Attention的公式Attention机制,里面的q,k,v分别代表什么?7、Transformer中使用多头注意力的好处是什么?8、Attention中self-attention的时间复杂度9、Transformer中encoder和decoder的异同点?10、 Bert和GPT

2021-08-18 09:23:21 83

原创 今天编译insightface中出错,关于setup

python setup.py build_ext --inplace这行命令可能会帮你解决很多问题,我就是这样解决的

2021-07-18 21:57:33 378

原创 error: Microsoft Visual C++ 14.0 is required. Get it with “Microsoft Visual C++ Build Tools“,以及安装包缺失

第二次遇到这个问题了,之前没做记录,又不记得了,所以这次一定要做个记录:error: Microsoft Visual C++ 14.0 is required. Get it with “Microsoft Visual C++ Build Tools”: https://visualstudio.microsoft.com/downloads/从链接:https://pan.baidu.com/s/169Jdn-9Zh93bS37WjiGfsg提取码:g6t3 下载vs包,进行安装,这时若出现安.

2021-07-17 10:13:29 1286 1

原创 上采样下采样 过采样 欠采样

一、上采样和下采样的对比上采样:放大图片下采样:缩小图片二、过采样和欠采样的对比针对于正负样本不均衡,例如当正负样本比例达到1:99,分类器将所有的样本都判为负样本能达到99%的正确率,显然结果不是我们想要的。又例如,有一组数据,其中标签为1的样本数有2000,标签为0的数为400。过采样:从少数类样本中(这里标签为0的样本就是少数样本)重复抽取样本,对少数类样本进行多次复制,扩大数据规模欠采样:从多数类样本中(这里标签为1的样本就是多数样本)丢弃部分样本,可能会损失部分有用的东西,造成模

2021-07-06 14:04:52 643

原创 pytorch的学习

torch.save(net1, 'net.pkl') #保存entire net整个网络torch.save(net1.state_dict(), 'net_params.pkl') #保存参数```

2021-05-10 09:57:53 70

原创 python 删除两个文件中没有一一对应的名称

删除两个文件中没有一一对应的名称,针对于.jpg文件和xml文件没有对齐#!/usr/bin/python3# -*- coding:UTF-8 -*-import osimport shutilfile_name_1 = "JPEGImages" #图片文件存放地址file_name_2 = "Annotations" #标记文件存放地址#file_name_1#count = 10415#图片起始编号image = []annotation =[]for file in os.l

2021-04-14 17:18:21 369 3

原创 百度爬取图片,亲测可用

# -*- coding: utf-8 -*-"""根据搜索词下载百度图片"""import reimport sysimport urllibimport requestsdef get_onepage_urls(onepageurl): """获取单个翻页的所有图片的urls+当前翻页的下一翻页的url""" if not onepageurl: print('已到最后一页, 结束') return [], '' try:

2021-04-12 14:43:16 231 1

原创 ubuntu卸载cuda

cuda 10.0及以下版本卸载cd /usr/local/cuda-xx.x/bin/sudo ./uninstall_cuda_xx.x.plsudo rm -rf /usr/local/cuda-xx.xcuda 10.1及以上卸载cd /usr/local/cuda-xx.x/bin/sudo ./cuda-uninstallersudo rm -rf /usr/local/cuda-xx.x其中xx.x代表你自己的cuda版本号...

2021-04-08 10:14:34 280

原创 使用python将视频切分为图片

# -*- coding:UTF-8 -*-import cv2import numpy as npimport random import os# 定义保存图片函数# image:要保存的图片名字# addr;图片地址与相片名字的前部分# num: 相片,名字的后缀。int 类型def save_image(image,addr,num): address = addr + str(num)+ '.jpg' cv2.imwrite(address,image) # 读取

2021-03-15 09:14:49 1430

原创 使用python进行文件夹重命名

import osfile_name = "JPEGImages/" #文件存放地址count = 0for file in os.listdir(file_name): os.rename(os.path.join(file_name,file),os.path.join(file_name,str(count)+".jpg")) count+=1

2021-03-15 09:12:39 255

原创 机器学习之Adaboost笔记

一、Adaboost的特性Adaboost对每一个样本分配权重,对每一轮的弱分类器也分配一个权重。Adaboost通过分类误差率来更新下一轮的样本权重,即提高被误分类的样本权重,并降低被正确分类的样本权重,使得没有被正确分类的样本在后一轮训练时获得更多的关注。对基分类器分配权重,加大误差率较小的弱分类器权重,使其在表决中起较大的作用。二、Adaboost算法输入:训练数据集T = {(x1, y1), (x2, y2), (x3,y3),…(xn,yn)},其中xi ∈ X ⊆ Rn,

2021-01-06 21:28:33 199

原创 判断一个数是否为素数之费马测试

费马测试被称为概率性素性测试,它判断的是“某个数是素数的概率大不大”。如果P为素数,那么所有比P小的数Q都满足公式 QP mod P = Q ,即例素数5的性质,比素数5小的数有4、3、2、1,那么:45 (45=1024)mod 5 = 435 (35=243)mod 5 = 325 (25=32)mod 5 = 215 (15=1)mod 5 = 1满足公式 QP mod P = Q 。实际使用中不需要对所有的Q进行计算,只需要随机选取几组即可。但反过来,如果所有Q都满足条件,

2020-12-06 18:06:41 1114

原创 ubuntu下监督显存使用情况

watch [options] command例:每隔5秒监视一次watch -n 5 nvidia-smi

2020-11-10 09:47:22 170

原创 visual studio code 2019远程连接服务器

一、安装sftp:二、配置sftp:按住ctrl+ship+p键,得到以下画面,选择SFTP:Config当右下角出现:意思时需要一个文件夹,点击open folder后,选择或者创建一个文件夹,再回来就会看到一个类似于这样的:上面是你需要修改或添加的地方。再ctrl+s保存,完毕。连接成功,是不是超级简单。...

2020-11-06 21:46:41 4086

原创 argmax与max的区别

y = max f(x) ##表示y是函数f(x)的最大值y = argmax(f(x)) ##表示y为函数f(x)取得最大值时,参数x的值例:f(x) = x3,x的取值范围是{0,1,2,3}y = max(f(x)) = 27y = argmax(f(x)) = 3

2020-11-05 14:57:08 1059

原创 Stepwise Extractive Summarization and Planning with Structured Transformers

论文链接Stepwise Extractive Summarization and Planning with Structured TransformersAbstract1. Introduction2.Related work3. Problem: Stepwise Content Extraction4 Stepwise HiBERTAbstract本文提出了一个使用结构化的 transformer—HiBERT和Extended transformer来做摘要抽取的分布式方法。通过将之前生.

2020-11-05 10:57:06 265 1

原创 如何生成requirements.txt

1、生成该文件的命令:pip freeze > requirements.txt2、安装文件中所包含的所有模块的命令:pip install -r requirements.txt -i HTTPS://mirrors.aliyun.com/pypi/simple/

2020-11-02 10:24:45 1163

原创 使用xshell时,ssh远程到主机指定端口

命令:ssh 用户名@主机ip 端口号如果要远程到的主机ip为192.166.19.12,端口号为:6000,用户名为:ian输入ssh [email protected] 6000即:ssh 用户名@主机ip 端口号

2020-10-29 22:47:26 4431

原创 n-gram和Rouge-l

参考:【1】自动文摘评测方法:Rouge-1、Rouge-2、Rouge-L、Rouge-S【2】自然语言处理NLP中的N-gram模型

2020-10-16 11:35:13 221

原创 论文:Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

论文:Retrieval-Augmented Generation for Knowledge-Intensive NLP Taskscode:https://github.com/huggingface/transformers

2020-10-16 08:36:57 2550

原创 nltk安装

step 1:pip install -U nltk -i HTTPS://mirrors.aliyun.com/pypi/simple/step 2:进入python环境被卡了。手动下载nltk_data包,网盘地址:地址step 3:在python下输入:from nltk.book import *当出现:需要把下载的数据放到以下之一的文件夹下:再输入:from nltk.book import *就完成了。...

2020-10-14 10:53:32 1194 2

转载 python中os.path.join的用法

os.path.join()函数:连接两个或更多的路径名组件1.如果各组件名首字母不包含’/’,则函数会自动加上2.如果有一个组件是一个绝对路径,则在它之前的所有组件均会被舍弃3.如果最后一个组件为空,则生成的路径以一个’/’分隔符结尾例1:import osPath1 = 'home'Path2 = 'develop'Path3 = 'code'Path10 = Path1 + Path2 + Path3Path20 = os.path.join(Path1,Path2,Path

2020-09-29 10:19:15 11176

原创 ERNIE: Enhanced Language Representation with Informative Entities

待定

2020-09-27 14:50:38 306

转载 pytorch下使用多GPU进行训练

链接

2020-09-24 10:58:49 80

原创 keras的earlystopping

keras.callbacks.EarlyStopping(monitor=‘val_loss’, min_delta=0, patience=0, verbose=0, mode=‘auto’, baseline=None, restore_best_weights=False)

2020-09-04 09:10:44 294

原创 ACE2005数据集介绍

ACE2005数据集介绍

2020-08-28 15:04:50 1747

原创 keras指定输入数据的shape

下面3个指定输入shape的方法是严格等价的:model = Sequential()model.add(Dense(32, input_shape=(784, )))model = Sequential()model.add(Dense(32, batch_input_shape=(None, 784)))model = Sequential()model.add(Dense(32, input_dim = 784))下面三种方法也是严格等价的:model = Sequ

2020-08-26 20:23:33 875

原创 SparseCategoricalCrossentropy()与CategoricalCrossentropy()的区别

tf.keras.losses.SparseCategricalCrossentropy()与CategricalCrossentropy()的区别:(1)如果labels是one-hot编码,比如目标是 one-hot 编码:  [[0, 1, 0],   [1, 0, 0],   [0, 0, 1]]每条每一行就是label的编码,使用CategricalCrossentropy()(2)如果目标是数字编码,比如[1,3,4]每个数字即是label,使用SparseCategrical

2020-08-26 19:21:23 2070

原创 华为刷题机试7-明明的随机数

明明想在学校中请一些同学一起做一项问卷调查,为了实验的客观性,他先用计算机生成了N个1到1000之间的随机整数(N≤1000),对于其中重复的数字,只保留一个,把其余相同的数去掉,不同的数对应着不同的学生的学号。然后再把这些数从小到大排序,按照排好的顺序去找同学做调查。请你协助明明完成“去重”与“排序”的工作(同一个测试用例里可能会有多组数据,希望大家能正确处理)。Input Paramn 输入随机数的个数inputArray n个随机整数组成的数组Return ValueOu

2020-08-08 21:38:09 289

原创 ModuleNotFoundError: No module named ‘ahocorasick‘

使用pip install pyahocorasick安装pip install pyahocorasick -i HTTPS://mirrors.aliyun.com/pypi/simple/

2020-08-05 14:03:21 1556 1

原创 leetcode-26删除重复数组

if not nums: return 0i = 0for j in range(1, len(nums)):if nums[i] != nums[j]:i += 1nums[i] = nums[j]return i + 1链接:leetcode-26class Solution: def removeDuplicates(self, nums: List[int]) -> int: if not nums: return 0

2020-08-03 22:04:46 72

原创 华为机试刷题6:字符串分割

题目描述连续输入字符串(输出次数为N,字符串长度小于100),请按长度为8拆分每个字符串后输出到新的字符串数组,长度不是8整数倍的字符串请在后面补数字0,空字符串不处理。首先输入一个整数,为要输入的字符串个数。例如:输入:2abc12345789输出:abc000001234567890000000接口函数设计如下:/*****************************************************************************功能:存储输

2020-07-24 07:41:04 489

原创 华为机试刷题5:字符逆序

题目描述将一个字符串str的内容颠倒过来,并输出。str的长度不超过100个字符。 如:输入“I am a student”,输出“tneduts a ma I”。输入参数:inputString:输入的字符串返回值:输出转换好的逆序字符串输入描述:输入一个字符串,可以有空格输出描述:输出逆序的字符串示例1输入I am a student输出tneduts a ma Iwhile True: try: print(input()[::-1]) e

2020-07-18 18:08:29 190

原创 华为机试刷题4:求解立方根

输入描述:待求解参数 double类型输出描述:输入参数的立方根 也是double类型示例1输入216输出6.0方法一:while True: try: n = int(input()) print(round(n**(1/3),1)) except: break

2020-07-18 16:34:39 193

原创 华为机试刷题3:记负均正二

题目描述从输入任意个整型数,统计其中的负数个数并求所有非负数的平均值,结果保留一位小数,如果没有非负数,则平均值为0本题有多组输入数据,输入到文件末尾,请使用while(cin>>)读入输入描述:输入任意个整数输出描述:输出负数个数以及所有非负数的平均值示例1输入复制-13-4-7输出复制30.0方法1:while True: try: s = list(map(int, input().split())) count

2020-07-18 10:00:19 182

原创 relation extraction 关系抽取论文

[1]Adversarial training formulti-context jointentity and relation extraction[2]Joint entity recognition and relation extraction as a multi-head selection problemcode[3]Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme

2020-07-16 16:23:47 956

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除