自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(71)
  • 收藏
  • 关注

原创 shell sort中文坑

https://blog.csdn.net/weixin_36600691/article/details/106744188

2023-04-07 17:56:43 104 1

原创 pycharm打包exe程序

安装依赖包pip install pyinstaller打包指令# 到指定文件,终端输入,不带控制台的打包Pyinstaller -F -w main.py不能显示print信息# 到指定文件,终端输入Pyinstaller -F main.py去除-w可以显示print信息针对弹出的控制台闪退import osos.system("pause")...

2022-05-11 11:45:10 366

原创 numpy.pad对数据进行填充和截断

def pad_and_cut(data, length): """填充或截断一维numpy到固定的长度""" # 将2维ndarray填充和截断到固定长度 n = len(data) for i in range(n): if len(data[i]) < length: # 进行填充 data[i] = np.pad(data[i], pad_width=(0,length-len(data[i])))

2022-05-09 00:37:08 779

原创 matplotlib画基础图形

import numpy as npimport matplotlib.pyplot as pltfig,ax = plt.subplots()# 设置图像大小fig.set_size_inches(12,6)# plt.rcParams('figure.figsize')=(12,8)# 统计不同数据n = len(df)res_num = len(e_sort)print(list(e_sort.keys()))key_num = dict()# 初始化为0for k,v in

2022-04-16 11:34:16 118

原创 wps中mathtype批量修改word公式大小

确定字体保存eqp模板参考:https://www.mathtype.cn/jiqiao/piliang-tiaozheng.html插入MathType选项卡参考:https://zhuanlan.zhihu.com/p/343798753下载wps.vba.exe参考:https://blog.csdn.net/zp357252539/article/details/98737401...

2022-03-30 01:36:00 4864

原创 jetbrains全家桶专业版学生申请+续期

专业版学生申请:https://www.bilibili.com/video/BV1Xx411g7fK?from=search&seid=15408114193234323875&spm_id_from=333.337.0.0一年到期续期:https://blog.csdn.net/qq_45895576/article/details/114519355

2022-02-14 10:15:30 900

原创 常见算法总结

排序

2021-05-31 22:19:39 97

转载 序列标注_NER(序列标注任务)样本不均衡处理

问题描述:NER中样本不均衡,作者从以下两个角度描述这个问题。实体类别不均衡。 以实体类别地点、人物、时间三类实体为例,训练集中人物出现100000个、地点1000个、时间400个。单个样本中实体过少, 导致"O"标签与实体标签(“B”、“I”)分布不均衡。知乎上有一个相关问题:nlp序列标注任务如何处理类别极度不平衡问题? - 知乎 https://www.zhihu.com/question/340333687解决方案:数据增强常规的欠采样和过采样方法在序列标注任务上,稍微思考一下就是

2021-05-29 23:39:00 884

原创 概率论相关总结

1. 概率分布与随机变量1.1 机器学习为什么要使⽤概率事件的概率是衡量该事件发⽣的可能性的量度。虽然在⼀次随机试验中某个事件的发⽣是带有偶然性的,但那些可在相同条件下⼤量重复的随机试验却往往呈现出明显的数量规律。机器学习除了处理不确定量,也需处理随机量。不确定性和随机性可能来⾃多个⽅⾯,使⽤概率论来量化不确定性。概率论在机器学习中扮演着⼀个核⼼⾓⾊,因为机器学习算法的设计通常依赖于对数据的概率假设。例如:在机器学习中,朴素贝叶斯假设就是条件独⽴的⼀个例⼦。该学习算法对内容做出假设,⽤来分辨电⼦邮

2021-05-27 17:23:27 807 5

原创 NLP中的n-gram模型

NLP中的n-gram模型1. 什么是语言模型2. n-gram模型2.1 什么是n-gram模型2.2 n-gram评价语句是否合理2.3 n-gram模型小结参考:1. 什么是语言模型什么是语言模型?简单地说,语言模型就是用来计算一个句子的概率的模型,也就是判断一句话是否合理的概率。标准定义:对于语言序列,语言模型就是计算该序列的概率,即从机器学习的角度来看:语言模型是对语句的概率分布的建模。通俗解释:判断一个语言序列是否是正常语句,即是否是人话,例如:2. n-gram模型2.1 什

2021-05-25 20:14:32 709 1

原创 STL库的用法及对比

STL标准库总结及对比unordered_setunordered_set定义一个无序集合,比字典好用unordered_set<char> occ;删除某一个元素occ.erase();插入某一个元素occ.insert();判断某一元素是不是存在occ.count();与unordered_map的区别:它就是在哈希表插入value,而这个value就是它自己的key,而不是像之unordered_map那样有键-值对,这里单纯就是为了方便查询这些值。用法:需要比较无

2021-05-25 10:19:16 821

原创 NER相关论文阅读记录

acl2020:利用字典信息的命名实体识别:Simplify the Usage of Lexicon in Chinese NER使用字词信息的lattice结合transformer的命名实体识别:FLAT: Chinese NER Using Flat-Lattice Transformer待更新…

2021-05-09 21:40:05 143

原创 集成学习打卡学习记录(Datawhale)

一、了解机器学习1.1 什么是机器学习?感觉文章学习文档总结的很精炼也特别容易理解:机器学习的一个重要的目标就是利用数学模型来理解数据,发现数据中的规律,用作数据的分析和预测。数据通常是由向量组成。我们用xix_ixi​来表示一个样本,其中i=1,2,3,...,Ni=1,2,3,...,Ni=1,2,3,...,N,共N个样本,每个样本xi=(xi1,xi2,...,xip,yi)x_i=(x_{i1},x_{i2},...,x_{ip},y_i)xi​=(xi1​,xi2​,...,xip​,y

2021-03-15 21:56:39 161 1

原创 ubuntu环境变量配置

一、查看环境变量我们可以使用三个命令来查看当前环境变量的设置,以确定我们有没有把路径加载到环境变量中去。分别是: env 、 export、echo $path通过这三个指令可以查看当前环境变量的值二、路径配置2.1 我们可以通过添加export配置路径export PATH=$PATH:/要添加的路径或export PATH=/要添加的路径$PATH此时环境变量被直接加载。2.2 修改/etc/profilesudo vim /etc/profile直接在后面添加expo

2021-02-26 11:09:39 1514

原创 天池-全球人工智能技术创新大赛【热身赛二】

day 1:配置pytorch-gpu环境Driver Version: 440.64、ubuntu1804 、cuda 10.2torch==1.6.0 torchvision==0.7.0安装指令:# 创建环境conda create --name pytorch-1.6.0 python=3.6# 下载pytorch-gpuconda install pip install torch==1.6.0 torchvision==0.7.0...

2021-02-17 23:10:01 234

原创 参数解析argparse与logging用法

1、什么是argparse?argparse 是 Python 内置的一个用于命令项选项与参数解析的模块,通过在程序中定义好我们需要的参数,argparse 将会从 sys.argv 中解析出这些参数,并自动生成帮助和使用信息。简单说就是一个存储参数的类,通过调用就可以把自己预先定义好的参数提取出来。2、主要有以下3个步骤使用基本的argparse方法创建 ArgumentParser() 对象调用 add_argument() 方法添加参数使用 parse_args() 解析添加的参数i

2021-02-06 21:03:58 346

原创 常用Linux指令

查看gpu运行状态nvidia-smi将程序运行的输出在训练的过程中保存到日志test.py是要运行的程序名称, test.log是保存输出的文件名nohup python -u test.py > test.log 2>&1 &查看训练中的日志tail -f test.log查看进程状态ps -ef|grep python待更新…......

2021-02-06 20:14:16 172

原创 ubuntu1804配置anaconda+tensorflow-gpu-1.15.0

一、安装anacondaanaconda直接在官网下载ubuntu最新版即可anaconda下载地址此处选择最新版,python版本可以后期修改因为我是配置服务器端,所以将anaconda文件通过xftp上传到服务器,在服务器上有anconda目录下输入sh ./Anaconda3-2020.11-Linux-x86_64.sh后面是我软件安装包的名字,接着如果有提示,直接enter或者yes即可,此时anaconda完成安装,这里是参考B站视频二、安装cuda地址:cuda10地址

2021-02-06 19:40:55 326 1

原创 04_二维数组中查找

题目描述在一个 n * m 的二维数组中,每一行都按照从左到右递增的顺序排序,每一列都按照从上到下递增的顺序排序。请完成一个高效的函数,输入这样的一个二维数组和一个整数,判断数组中是否含有该整数。示例:[[1, 4, 7, 11, 15],[2, 5, 8, 12, 19],[3, 6, 9, 16, 22],[10, 13, 14, 17, 24],[18, 21, 23, 26, 30]]给定 target = 5,返回 true。给定 target = 2

2020-12-28 22:08:21 72

原创 01_09字符串旋转

题目描述字符串轮转。给定两个字符串s1和s2,请编写代码检查s2是否为s1旋转而成(比如,waterbottle是erbottlewat旋转后的字符串)。示例一:输入:s1 = “waterbottle”, s2 = “erbottlewat”输出:True示例二:输入:s1 = “aa”, s2 = “aba”输出:False解题思路:others这题没有做出来,测试样例过了,内部样例没过,报告0x500000000错误,应该是自己定义变量内存有问题。一、做法很简单,但是很难想

2020-12-27 23:04:03 81

原创 01_08零矩阵

题目描述编写一种算法,若M × N矩阵中某个元素为0,则将其所在的行与列清零。示例一:输入:[[1,1,1],[1,0,1],[1,1,1]]输出:[[1,0,1],[0,0,0],[1,0,1]]示例二:输入:[[0,1,2,0],[3,4,5,2],[1,3,1,5]]输出:[[0,0,0,0],[0,4,5,0],[0,3,1,0]]解题思路:My分别记录行和列,出现0的下标,然后分别遍历相关行和列,将出现的数值赋值为0.#inclu

2020-12-27 20:40:17 141 1

原创 01_07旋转矩阵

题目描述给你一幅由 N × N 矩阵表示的图像,其中每个像素的大小为 4 字节。请你设计一种算法,将图像旋转 90 度。不占用额外内存空间能否做到?示例一:给定 matrix =[[1,2,3],[4,5,6],[7,8,9]],原地旋转输入矩阵,使其变为:[[7,4,1],[8,5,2],[9,6,3]]示例二:给定 matrix =[[ 5, 1, 9,11],[ 2, 4, 8,10],[13, 3, 6, 7],[15,14,12,16]],原地

2020-12-27 20:26:39 100

原创 01_06字符串压缩

题目描述字符串压缩。利用字符重复出现的次数,编写一种方法,实现基本的字符串压缩功能。比如,字符串aabcccccaaa会变为a2b1c5a3。若“压缩”后的字符串没有变短,则返回原先的字符串。你可以假设字符串中只包含大小写英文字母(a至z)。示例一:输入:“aabcccccaaa”输出:“a2b1c5a3”示例二:输入:“abbccd”输出:“abbccd”解释:“abbccd"压缩后为"a1b2c2d1”,比原字符串长度更长。提示:字符串长度在[0, 50000]范围内。解题思

2020-12-27 20:03:54 208 1

原创 01_05一次编辑

题目描述字符串有三种编辑操作:插入一个字符、删除一个字符或者替换一个字符。 给定两个字符串,编写一个函数判定它们是否只需要一次(或者零次)编辑。示例一:输入:first = “pale”second = “ple”输出: True示例二:输入:first = “pales”second = “pal”输出: False解题思路:MY首先判断两个字符串长度是不是相同,如果不相同(只有“删除一个字符”满足条件,分s1>s2和s1<s2),分别用两个指针指向两个字符串

2020-12-27 19:57:01 94

原创 01_04回文排列

题目描述给定一个字符串,编写一个函数判定其是否为某个回文串的排列之一。回文串是指正反两个方向都一样的单词或短语。排列是指字母的重新排列。回文串不一定是字典当中的单词。示例一:输入:“tactcoa”输出:true(排列有"tacocat"、“atcocta”,等等)解题思路:MY是否能是回文串,有一个前提,字符串中出现个数为奇数的字符只能为1个或0个。创建一个数组长度为(128),这里包含了出现字符的ASCII值,直接用数组记录每个字符出现的次数,如果最后奇数次字符出现大于1,则可判定

2020-12-27 19:41:58 87

原创 01_03URL化

题目描述URL化。编写一种方法,将字符串中的空格全部替换为%20。假定该字符串尾部有足够的空间存放新增字符,并且知道字符串的“真实”长度。(注:用Java实现的话,请使用字符数组实现,以便直接在数组上操作。)示例一:输入:"Mr John Smith ", 13输出:“Mr%20John%20Smith”示例二:输入:" “, 5输出:”%20%20%20%20%20"提示:字符串长度在 [0, 500000] 范围内解题思路:My先定义一

2020-12-25 14:09:44 84 1

原创 01_02 判定字符串是否重排列

题目描述给定两个字符串 s1 和 s2,请编写一个程序,确定其中一个字符串的字符重新排列后,能否变成另一个字符串。示例 1:输入: s1 = “abc”, s2 = “bca”输出: true示例 2:输入: s1 = “abc”, s2 = “bad”输出: false说明:0 <= len(s1) <= 1000 <= len(s2) <= 100题目大意:求两个字符串经过变化后是否能相同解题思路:MY思路一: 首先比较字符串长度,如果长度

2020-12-15 21:55:27 157

原创 01_01判断字符串是否唯一

实现一个算法,确定一个字符串 s 的所有字符是否全都不同。示例 1:输入: s = “leetcode”输出: false示例 2:输入: s = “abc”输出: true限制:0 <= len(s) <= 100如果你不使用额外的数据结构,会很加分#include<iostream>// #include<stdio.h>using namespace std;int main(){ //char s[120]; string

2020-12-15 17:19:48 288

原创 pandas处理excel数据

pandas去除重复数据import pandas as pdf = pd.read_excel('name.xlsx', 'sheet_name')# 查看有重复的行re_row = f.duplicated()# 去除重复行数据no_re_row = f.drop_duplicates()# 可以指定删除哪一列重复数据no_re_row = f.drop_duplicates(['c_content'])# 保存文件f.to_excel('name.xlsx')# 保存文件,无in

2020-12-11 18:46:05 455

原创 keras模型复用+遇坑小结

keras模型复用keras模型复用模型复用的一些坑model.save()与model.load_model()model.save_weights()与model.load_weights()keras模型复用模型复用的一些坑keras模型复用,其实还是挺方便的,但是在保存模型和加载模型过程中很容易遇到一些小坑。如果自己在定义网络层的时候,中间有Lamba层,那么如果在保存模型时使用model.save()。会出现如下错误:TypeError: can’t pickle _thread.lo

2020-12-06 15:33:26 902

原创 pickle序列化存储方式

pickle序列化存储于加载import pickle# 序列化词典with open('vocab_cn.pk', 'wb') as fr:pickle.dump(vocab, fr)# 加载词表fr = open('vocab_cn.pk', 'rb+')x = pickle.load(fr)print(x)

2020-11-29 19:44:49 126

原创 中英文停用词表

英文停用词表'd'll'm're's't'veZTZZaa’sableaboutaboveabstaccordanceaccordingaccordinglyacrossactactuallyaddedadjadoptedaffectedaffectingaffectsafterafterwardsagainagainstahain’tallallowallowsalmostalonealongalreadyalsoalt

2020-11-29 19:30:48 1024

原创 jieba中文分词

引言和拉丁语系不一样,中文是不用空格分开每个有意义的词的。而当我们进行自然语言处理的时候,大部分情况下,词汇是我们对句子和文章理解的基础,因此需要一个工具去把完整的文本中分解成粒度更细的词。jieba就是这样一个非常好用的中文工具,是以分词起家的,但是功能却不仅限于分词。...

2020-11-29 18:52:17 416

原创 tensor排序

目录tensor排序tf.sort()元素排序得到排序结果tf.argsort()元素排序得到索引两次tf.argsort()得到当前元素排第几tensor排序Tensorflow有两个排序功能,一个是元素排序,一个是元素排序索引。tf.sort()元素排序得到排序结果功能是默认输出tensor从小到大排序后的结果tf.sort(values, axis=-1, direction=‘ASCENDING’, name=None)direction='DESCENDING’为降序排序tf.a

2020-11-21 09:40:16 2534

原创 keras求两向量间的余弦值

keras求两向量间的余弦值具体要自己定义一个layer,余弦相似度计算公式如下:步骤:计算两个向量L2范数,计算两个向量的点乘点乘结果除以L2范数乘积,分母不能为0import keras.backend as Kfrom keras.layers import Lambdaimport numpy as npimport kerasclass CosineLayer(): def __call__(self, x1, x2): def _cosine(x)

2020-11-19 23:15:20 1618

原创 正则表达式的简单使用

常用匹配规则匹配字符import redata = 'aaaa1'# .的使用# 匹配一个任意字符除了换行符\npattern = '.'res = re.match(pattern, data)print(res.group()) # apattern = '..'res = re.match(pattern, data)print(res.group()) # aanames = ['李大', '王二', '李三']pattern = '李.'for name in name

2020-11-19 20:01:33 1883

原创 keras常见函数使用concatenate等

concatenateconcatnate用于拼接两个tensor,最后得到的是一个tensorflow版的tensor。官方api文档如下:tf.keras.backend.concatenate( tensors, axis=-1)a = tf.constant([[1, 2, 3], [4, 5, 6], [7, 8, 9]])b = tf.constant([[10, 20, 30], [40, 50, 60], [70, 80, 90]])tf.keras.backend.

2020-11-18 22:12:07 3614

原创 tensorflow常用数据函数总结(tf.tile()、tf.expand_dims())

tf.tile()tensorflow中的tile()函数是用来对张量(Tensor)进行扩展的,其特点是对当前张量内的数据进行一定规则的复制。最终的输出张量维度不变。也就是说tile可以某一维度的tensor复制n份。(下面举几个例子)x = tf.Variable([1, 2, 3]) # shape = (3,)y = tf.Variable([[2, 2, 2], [1, 1, 1]]) # shape = (2,3)z = tf.Variable([[[2, 2, 2]]]) # s

2020-11-18 21:37:24 915

原创 keras模拟model.fit()操作

metric的使用metric是指标的意思,如果使用均方差作为指标,那么metric的使用可以如下:# metric使用metric = keras.metrics.MeanSquaredError()print(metric([5.], [2.]))print(metric([0.], [1.]))print(metric.result())metric.reset_states()metric([1.], [3.])print(metric.result())注:metric是可以

2020-11-15 22:21:08 1153

原创 tensorflow使用tf.GradientTape()求导

tensorflow求导操作自定义求导求只含一个未知数的导数求含有两个未知数函数的偏导使用tf.GradientTape()求导求只含一个变量的倒数用两个目标函数对一个变量求倒数求x1,x2的二阶倒数用GradientTape执行梯度下降的过程使用keras和GradientTape结合完成梯度下降过程自定义求导求只含一个未知数的导数利用初高中的求导方法,用函数在某范围内左边的值减去右边的值,然后除以x坐标之差距离。例如求:y = 3x^2+2x-1 的倒数def f(x): return

2020-11-15 21:56:38 1082

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除