spider_fu-CSDN博客

原创 python将word文档指定内容标红以及设置文字突出显示，即高亮

使用docx的包，这里包名为：python-docxfrom docx.shared import RGBColor,Ptdef set_run(run,font_size,bold,color): run.font.size =font_size run.bold=bold run.font.color.rgb=color定义一个方法，获取文本的stylefil...

2020-01-25 10:50:29 7382 2

原创定时爬虫

设置主函数，import osimport timewhile True： os.system("scrapy crawl spider") time.sleep(86400) #每隔1天运行一次 24*60*60=86400s这种方式可以实现每隔一天爬取一次，但每次都会偏移爬取所用的时间。如果避免这种偏移，可使用crontab在linux系统中，写一个脚本corn.sh#!...

2020-01-02 16:43:16 637

原创教室预约系统

目录前言需求思路需求分析，以及对应功能的实现封装优化用户名密码的实现展示各个时段是否被占用的表格打包成exe后记前言上个月，朋友的学校需要做实验，实验器材是固定的，因此为了避免做实验冲突，需要提前预约，他们是采用人工用Excel表格的方式，我看了一下需求，做了一个简单的教室预约软件，实现了需求。需求提出的需求，大概有以下几点：每天从8点开始，23点结束，每两个小时为一个时间段，最后一...

2019-12-17 16:01:57 7759 6

原创 python实现网站中文件批量下载，实现在excel中超链接跳转打开下载的指定文件

网站中文件批量下载，实现在excel中超链接跳转打开下载的指定文件前言文件的批量下载数据库的保存与导出生成超链接存在的问题（未完待续）前言我们有的时候需要批量下载一个网站下的很多个页面的文件（例如附件等），并在excel中保存其相对路径，实现超链接单击打开。这篇文章阐述了如何实现该过程，以及可能遇到的一些问题。文件的批量下载在这里，采用模拟浏览器的方式进行下载。如何模拟浏览器，就不再赘述...

2019-11-17 12:34:44 4167

原创简书图片不显示

简书查看多次后就会被屏蔽ip导致图片不显示f12打开开发者界面到console输入下列代码：回车即可解决。如果不行可以刷新一下页面。

2022-06-17 20:10:31 598 1

格式简介libsvm和libfm格式相同。在推荐系统中由于离散特征过于稀疏，为了减小存储负担，只保存索引值，即值为0的不存储。样例格式如下：<label> <index1>:<value1> <index2>:<value2> ... ... ...通过全数字的方式节省存储空间。其中，index表示第几个特征（事先记录号对应关系），value表示对应值。如果不在乎特征名称所占用的存储，可以直接存储名称，如下：<label>

2022-05-04 21:49:41 912

原创内存直接打满，GPU利用率低

内存是存储数据的，GPU用来计算如果像尽量榨干算力，就尽量把无用的内存释放掉检查代码，找到一些无用的内存占用，比如哈希桶是不是太大了，减小或者去掉一些没有用的，又很大的特征让内存的数据尽量多的都是有用的（用来计算的），就可以加大利用率...

2022-01-29 15:50:57 1554

原创 loss震荡

训练集loss震荡：原因一：如果是step的时候震荡是正常的，因为这是不同的数据，要观测每个epoch的loss原因二：学习率过大，导致来回跳原因三：选择的优化器不是很适合验证集loss震荡：原因一：训练集的loss就在震荡原因二：loss上升，过拟合（正则，dropout）...

2022-01-29 11:05:16 4851

原创 tensorflow训练方式切换

tensorflow新版本支持直接调用gpu，不需要专门安装tensorflow的GPU版本安装以后，默认有GPU会直接调用GPU，当显卡不够时，有其他不是很吃速度的任务想要训练，就需要切换CPU训练方式os.environ["CUDA_VISIBLE_DEVICES"] = ""多个显卡，指定特定GPU训练os.environ['CUDA_VISIBLE_DEVICES']='2'...

2022-01-27 11:01:07 1482

原创利用匿名函数实现字典任意排序

利用匿名函数实现字典任意排序dict_test = { '3': 1, '2': 2, '1': '0'}tmp = sorted(dict_test.items(), key=lambda b: int(b[1]), reverse=True)print(tmp)tmp2 = sorted(dict_test.items(), key=lambda b: int(b[0]), reverse=True)print(tmp2)结果[('2', 2), ('3', 1), ('1',

2021-10-29 21:37:48 304

原创 pd.get_dummies与pd.factorize

都是将同一属性不同值进行转换pd.get_dummies转换为one-hot编码pd.factorize转换为对应的index去重之后按序编号，可以实现id表示，避免one-hot的稀疏矩阵

2021-07-17 12:51:51 104

原创 tf.data.dataset使用

参考https://tensorflow.google.cn/api_docs/python/tf/data/Datasetfrom_tensor_slices：将内存中的数据构建为数据集dataset = tf.data.Dataset.from_tensor_slices([1, 2, 3])repeat，batchrepeat设置遍历多少遍->epochbatch设置每次sample多少数据->batchsizedataset.repeat(3).batch(2)结果就

2021-06-25 14:39:10 355

原创 tf.io.decode_csv读取csv

参考https://tensorflow.google.cn/api_docs/python/tf/io/decode_csvtf.io.decode_csv( records, record_defaults, field_delim=',', use_quote_delim=True, na_value='', select_cols=None, name=None)records= '1,2,3,4,5'record_defaults = [ tf.constant(

2021-06-25 12:27:41 258

原创 tf.keras.activation.selu()

tf.keras.activation.selu(X)减缓梯度消失selu=scale * elu（x，alpha），其中alpha和scale是预定义的常量。选择alpha和scale的值，以便在两个连续层之间保留输入的平均值和方差，只要正确初始化权重并且输入的数量“足够大”。elu：融合relu和sigmoid，其他方法：添加批归一化...

2021-06-23 15:04:16 234

转载 train_test_split划分数据集

>>> import numpy as np>>> from sklearn.model_selection import train_test_split>>> X, y = np.arange(10).reshape((5, 2)), range(5)>>> Xarray([[0, 1], [2, 3], [4, 5], [6, 7], [8, 9]])>&gt

2021-06-23 12:02:53 209

原创利用tensorboard查看整个过程

切换到callbacks目录下，使用命令tensorboard --logdir=callbacks启动后，浏览器输入http://localhost:6006/就可以查看整体图示

2021-06-23 11:21:15 223

原创 tf.keras学习之sequential

参考tensorflow中文社区做什么的？在官方文档中这样说：“list of layers to add to the model.”其实就是将一系列的层次堆叠起来。继承于model强调文本强调文本加粗文本加粗文本标记文本删除文本引用文本H2O is是液体。210 运算结果是 1024.插入链接与图片链接: link.图片: 带尺寸的图片: 居中的图片: 居中并且带尺寸的图片: 当然，我们为了让用户更加便捷，我们增加了图片拖拽功能。如何插入一段漂亮的代码

2021-06-22 17:08:34 525

原创 StandardScaler数据标准化

from sklearn.preprocessing import StandardScalerscaler = StandardScaler()scaler_train = scaler.fit_transform(train)scaler_test = scaler.transform(test)标准化方程fit_transform：通过数据获得均值和方差并应用到数据上transform：将前面获得均值和方差应用的数据上...

2021-06-22 15:50:03 637

原创 tf.keras学习之Flatten()

参考网址https://tensorflow.google.cn/api_docs/python/tf/keras/layers/Flattentf.keras.layers.Flatten( data_format=None, **kwargs)作用：展平矩阵，将多维矩阵展平为一维矩阵使用：import tensorflow as tfmodel = tf.keras.Sequential()model.add(tf.keras.Flatten())# 展平矩阵...

2021-06-22 15:21:43 1866

原创解决tensorflow.python.framework.errors_impl.UnknownError

环境tensorflow-gpu=1.13.1主文件添加import tensorflow as tffrom keras import backend as Kconfig = tf.ConfigProto()config.gpu_options.allow_growth = Truesess = tf.Session(config=config)K.set_session(sess)

2021-06-21 14:22:04 593

原创 textcnn学习笔记

论文笔记，文末有论文引用1、通过word2vec中的CBOW模式训练词向量2、将词向量输入如下模型设置不同窗口的卷积核将词向量降维后，做最大池化，这里有一些细节：图中词向量为双通道的，这里是指在实验中采用了基于word2vec的词向量只修改模型参数，和同时修改词向量，以及用双通道同时保留两个词向量这样的三种实验方法卷积核为2*6的形状（以红色为例）在倒数第二层做dropout，利用伯努利分布随机得到p，w->pw，p为0时的权重就被舍弃了梯度下降时用l2规范w，当||w||

2021-06-18 14:30:13 154

原创 tf求解梯度下降

自动求导记录器在with上下文间的所有计算都会被记录下来，通过调用gradient()进行求导import tensorflow as tfx = tf.Variable(initial_value=4.)with tf.GradientTape() as tape: y = tf.square(x)y_grad = tape.gradient(y, x) print(y, y_grad)y=x²，当x=4时，y=16y关于x的导数y’=2x，当x=4时，

2021-06-15 16:13:28 236

原创 SVM一些简单概念

支持向量机：采用最大间隔分割样本，离分割超平面最近的两个点称为支持向量。线性可分支持向量机，线性不可分支持向量机线性可分支持向量机：完全线性可分支持向量机和不完全线性可分支持向量机完全线性可分支持向量机：可以用直线完全分割，硬间隔最大化求解（拉格朗日对偶）不完全线性可分支持向量机：不是所有的样本都能本完美分割，软间隔最大化求解（加入一个和松弛变量）线性不可分支持向量机：不能用直线分割样本，采用将样本变换维度变成线性可分的情况（核技巧）序列最小最优化：样本较大，算法效率低，采用SMO算法优

2021-06-07 08:46:04 93

原创偏差和方差判断

下图为吴恩达老师的视频课中截图，两条线分别为训练误差和验证误差随着d（特征复杂度，模型复杂度）的变化。训练误差随着模型的复杂化会拟合的越来越好，误差会逐渐趋于0验证误差开始的变化和训练时比较相近，但一般会误差略高于训练，单当模型复杂度到达阈值时，模型再次增加复杂度就会大致泛化能力变弱，对于样本外的验证集来说，误差就会不断升高。高偏差（欠拟合）：从图中可见，当模型复杂度较低时，训练误差和验证误差都比较高，且两者比较接近，这时就是模型欠拟合高方差（过拟合）：从图中可见，当模型过于复杂时，训练误差很

2021-06-05 17:58:24 452

原创为什么除了训练集要划分测试集和验证集

假设有1000条已经标注好的数据，取其中600条作为训练集，200条作为验证集，200条作为测试集。3：1：1的比例可以自行调整，三个集合互相不存在交集训练集作用：设计好的模型通过训练集最优化后的一个集合验证集作用：通过验证集去选择上一个集合中的最优模型测试集作用：通过测试集评估选出来的模型的性能原因：如果测试集和验证集是同一个集合，或者说同时用一个集合去做模型的选择和模型的评估是没有意义的，因为同一个数据集上选择出来的模型在同一个数据集上表现一定是和先前一样最优的。而我们想要的是模型的泛化能力

2021-06-05 17:35:27 988

原创正规方程求最优解

正规方程是除了梯度下降以外求最小值的其他方法公式如下：其中X为n*m维的矩阵，n为数据的维度，m为特征向量，y为最后的目标向量。下面为吴恩达老师的一个例子当n<m时，需要减少特征，或者加入正则化项。在数据量较少时，正规方程求解速度较快，以为只计算一次，不需要迭代；当数据量较大时，虽然只进行一次计算，但由于计算复杂度较高，O（n³），速度就会不如梯度下降。...

2021-06-05 13:23:17 661 2

原创正则化解决overfitting

是什么减小相关性较弱的特征参与度从而避免overfitting如何实现添加惩罚项，当我们要实现一个target，会使得损失函数最小化，而在损失函数中添加一项，这一项包括相关性较弱的特征的系数和一个较大的数相乘（实际并不是这样，这样解释比较好懂）。这样在使损失函数最小化时就不得不将相关性较弱的特征系数减小，不然和其相乘的较大数值就会使得损失函数很大。例子以及真实含义：下面是logistic回归的损失函数，这一项就是正则项可以看到，实际上，正则是将所有的特征系数都进行了惩罚，那么这样如何判断哪

2021-06-04 17:48:33 84

原创特征较多而数据量较少导致的overfitting

原因：目标函数为了尽可能的拟合较少的数据，不断复杂多个特征（从系数和次数多个角度），从而拟合一个比较好（非常好）的函数，在数据内可以很好的预测（几乎百分百）。过多的参数（特征复杂度）导致函数很复杂，当新数据到来时很难通过该函数得到正确的结果，即在样本外表现不佳，导致过拟合。相关性比较弱的特征没必要加入进来，在数据量较少的情况下很难学到这些特征与数据的相关关系。这也就是为什么天猫的推荐系统用了上亿维的特征也可以呈现很好的效果（数据量很大）。因此，当出现过拟合时如果考虑是特征太多导致的，除了减少相关性较

2021-06-04 17:18:15 1514

教室预约系统.zip

空空如也