小时不识月123-CSDN博客

原创机器学习模型总结

自变量：连续型数据，因变量：连续型数据选自：周志华老师《机器学习》P53-55思想：残差平方和达到最小时的关系式子即为所求，残差平方和：实际值和估计值之间差的平方和。后续补充：求解方式1：手动推导，求解方式2：梯度下降。手动推到时矩阵不可逆如何加归纳偏好。残差平方和达到最小：以下选自：王汉生《应用商务统计分析》第四章（1）变量：连续型数据，因变量：离散型数据（2）思想：假设了一个式子，计算事件发生的可能性。令事件发生的可能性用Z表示：设定一个阈值c,使得：无论对F(t)的具体

2024-03-03 22:55:43 723

原创我对隐含狄利克雷分布（Latent Dirichlet Allocation，LDA）的理解

LDA应用场景可以做文本内容提取，比如提取“穆斯林的葬礼”的主题，可能会提取出爱情主题，社会悲剧主题，比如提取“大圣归来影评”的主题，可能提取出怀旧主题，制作精良主题。而每个主题是用一些词语表示的，并非用一句完整的话阐述主题内容。你若想知道每个主题具体代表什么含义，可以通过主题词语自己主观猜测，或者把主题词语溯源到文本，自己读读文本总结。名词介绍在贝叶斯概率理论中，如果后验概率p(θ│x) 和先验概率p(θ) 满足同样的分布律，那么先验分布和后验分布被叫做共轭分布，同时先验分布p(θ)叫做似然函

2022-02-22 00:59:24 780 2

原创我对word2vec的理解

目录知识点1. sigmoid函数2. 逻辑回归3. 统计语言模型条件概率的计算4. 考虑总体语料库的语言模型总结5. 词向量的理解word2vec数学原理1. CBOW模型的网络结构示意图2. 基于HS的CBOW目标函数及求解总结举例子：3. skip-gram模型的网络结构示意图4. 基于HS的skip-gram目标函数及求解知识点1. sigmoid函数2. 逻辑回归3. 统计语言模型统计语言模型是用来计算一个句子的概率的概率模型。条件概率的计算4. 考虑总体语料库的语言模型综

2021-07-07 00:03:15 287 4

原创 soc估计：DESIGN AND DEVELOPMENT OF SoC ESTIMATION MODEL USING MACHINE LEARNING

特征选用速度、电流、电压、温度、平均电压、平均电流、平均速度，模型用cnn+lstm+lr+lr。平均特征计算方式：近50个时刻的取值求平均。

2023-11-16 19:31:19 638

原创 soh估计：Data-driven prediction of battery cycle life before capacity degradation

充电时：采用 "C1(Q1)-C2"的策略，C1和C2分别是第一和第二恒定电流步骤，Q1是电流切换时的充电状态（SOC，%），第二个电流步骤在80%的SOC时结束，此后电池以1C CC-CV充电到3.6V 及C/50的电流截止点。124块商用LFP/石墨电池，A123 Systems，型号APR18650M1A，标称容量1.1Ah，额定电压为3.3V，制造商推荐的快充协议是3.6C恒定电流-恒定电压 (CC-CV)。放电时：4C到2.0V，其中1C为1.1A，先恒流再恒压。评测指标：MAPE和RMSE。

2023-11-16 19:30:36 543 4

原创电池不一致性：A correlation based fault detection method for short circuits in battery packs

鉴于相关系数衡量的是两条曲线的趋势是否匹配，趋势的相似性。关系数提取电压下降的非趋势性信息来检测短路的初始阶段，并将变化反映在相关系数的下降上。理想情况下，两个串联电池电压的相关系数在正常运行时应接近1，当发生短路时，异常的电压降。图3(b)：三种不同窗口大小的计算结果之间的比较表明，较小的窗口大小会导致对异常电压变。移动窗口大小：太大，由短路导致的异常电压变化对相关系数的影响可以忽略不计，太小，噪。应用移动平均窗口来保持电池的最新电压趋势，保持对短路故障的检测灵敏度。史时间窗口中的数据的相关系数。

2023-11-15 20:15:32 138

原创电池故障估计：Realistic fault detection of li-ion battery via dynamical deep learning

文章发布了从清华大学EV数据平台收集的三个大规模数据集，这些数据集包括来自347辆电动汽车的69万多个LiB充电片段，包括55辆异常车辆(LiB故障车辆)和292辆正常车辆(LiB无故障车辆)，为相同品牌的车辆。车级故障标签由驾驶员报告生成，工程师根据镀锂、续航里程过低、温度过高或电压异常变化(过低、电池间不一致等)的识别进行确认。这些标签是逐案创建的，不能用基于规则的数据表达式来描述。电池故障时或故障附近的异常数据被删除。

2023-11-14 18:03:36 964 7

原创 cuda11.2安装对应版本的pytorch

配置paddle环境时用的cuda11.2，现在又要配置torch环境，查看torch官网后发现没有cuda11.2对应的torch版本。

2023-05-05 14:23:47 1469 1

原创 soc估计：“State-of-charge sequence estimation of lithium-ion battery based on bidirectional long short”

文献阅读记录

2022-09-23 15:28:34 211

原创机器学习性能评估指标

预测为正的样本中有多少是真正的正样本（你认为的该类样本，有多少被你猜对了）。FalseNegative(假负,FN)将正类预测为负类数→→。FalsePositive(假正,FP)将负类预测为正类数→→。TrueNegative(真负,TN)将负类预测为负类数.TruePositive(真正,TP)将正类预测为正类数.样本中的正例有多少被预测正确了（该类样本有多少被找出来了）。查准率＝检索出的相关信息量/检索出的信息总量。.........

2022-08-02 14:26:14 547

原创机器学习实践中的细节经验

以下是个人的一些想法，后面有时间还会持续更新（但是总是木有时间啊）。大多数预测值都比实测值成倍数的缩小或者扩大原由：迭代不充分，算法不收敛。归一化会缩小训练时长一个极端案例：预测未来16个点，5k 数据量，transformer，归一化500迭代次数即可，不归一化，迭代3000次才收敛。评测指标mape的弊端对于实测值较小时不友好：需要对目标值划分区间，分开测评。随机森林回归、决策树回归和线性回归、神经网络的区别：训练集的分布不能完全代表总体分布时，用线性回归和神经网络前者基于对特征划最优区间，

2022-05-25 19:40:02 490

原创 cnn-卷积层维数示例

2021-12-28 00:00:39 239

原创 torch.nn.Conv1d使用详解

pytorch卷积层的介绍：torch.nn.Conv1d介绍：torch.nn.Conv1d(in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups=1, bias=True)in_channels(int) – 通道，在文本分类中，即为词向量的维度out_channels(int) – 卷积产生的通道。有多少个out_channels，就需要多少个1维卷积kernel_size(int o.

2021-12-28 00:00:14 4262

原创 nn.MaxPool1d

nn.MaxPool1dnn.MaxPool1d(kernel_size, stride=None, padding=0, dilation=1, return_indices=False, ceil_mode=False)kernel_size(int or tuple) - max pooling的窗口大小stride(int or tuple, optional) - max pooling的窗口移动的步长。默认值是kernel_sizepadding(int or tuple, optio.

2021-12-27 23:59:48 4279

原创 nn.Linear

'''nn.Linear(in_features,out_features,bias=True) 用于设置网络中的全连接层，需要注意的是全连接层的输入与输出都是二维张量输入：[batch_size, in_features]输出：[batch_size，output_size]'''import torch as tfrom torch import nn# in_features由输入张量的形状决定，out_features则决定了输出张量的形状connected_la

2021-12-27 23:59:23 402

原创 cnn-第l层网络符号表示，维度计算

2021-09-11 22:11:39 300

原创 cnn-池化层理解

2021-09-11 22:11:31 162

原创 cnn-padding含义及原矩阵经padding、卷积后维数计算

2021-09-11 22:11:24 181

原创 cnn-卷积计算过程演示

输入为二维矩阵，一个过滤器（卷积核），无padding，滑动步数为1时的简单演示：

2021-09-11 22:11:17 301

原创 torch.nn.GRU使用详解

torch.nn.GRU输入：(input_dim ,hidden_dim ,num_layers ，…)– input_dim 表示输入的特征维度– hidden_dim 表示输出的特征维度，如果没有特殊变化，相当于out– num_layers 表示网络的层数– nonlinearity 表示选用的非线性**函数，默认是 ‘tanh’– bias 表示是否使用偏置，默认使用– batch_first 表示输入数据的形式，默认是 False，[即(序列长度seq,批大小batch,特征维.

2021-09-11 22:11:10 16248 7

原创 torch.nn.Embedding使用详解

torch.nn.Embedding：随机初始化词向量，词向量值在正态分布N(0,1)中随机取值。输入：torch.nn.Embedding(num_embeddings, – 词典的大小尺寸，比如总共出现5000个词，那就输入5000。此时index为（0-4999）embedding_dim,– 嵌入向量的维度，即用多少维来表示一个符号。padding_idx=None,– 填充id，比如，输入长度为100，但是每次的句子长度并不一样，后面就需要用统一的数字填充，而这里就是指定这个数字，这.

2021-09-11 22:11:02 30576 19

原创 LSTM的本质理解-正向传播

Long Short Term 网络（LSTM，由Hochreiter & Schmidhuber (1997)提出）是 RNN的一种特殊的类型，可以记住长期信息，学习长期依赖信息。网络结构符号解释[,]：向量拼接*：对应元素相乘+：对应元素相加上面框：一个框就是一个细胞(cell)数学公式公式含义每个细胞内部有三个阶段：1. 忘记阶段（1）对上一个节点传进来的输入c(t-1) 进行选择性忘记。“忘记不重要的，记住重要的”。2. 选择记忆阶段（2）和（3）

2021-08-25 21:54:14 459

原创 python源代码文件加密

方法： Cpython优点：生成的.so或.pyd文件难以破解。缺点：兼容性差，不同的操作系统，脚本可能要重新编译；部分函数不支持加密，这个时候想解决措施就比较艰难了。实现：将.py/.pyx编译成.c文件，再将.c文件编译成.so(UNIX)或.pyd（Windows）。案例：1）编写文件 test.py，随后对这个文件加密:def f(a,b): c=a+b print(c)2）编写 setup.py：from distutils.core import se

2021-08-12 20:11:04 697

原创全网页截图教程，如何截图截全屏

系统自身的截屏快捷键台式键盘的电脑：全屏：Ctrl + Print Screen当前窗口：Alt + Print Screen笔记本截图快捷键：FN+Prt sc浏览器自带的，非常好用在浏览器打开要截取全网页为图片的那个网页打开那个网页后，点击浏览器菜单选项按钮点击菜单选项后下方的列表中找到“网页另存为”这个选项，保存返回电脑找到该网页保存的位置找到并打开它，即可看到该全网页截图。......

2021-07-06 22:42:16 14824

原创学习笔记-南方科大张宇：神经网络可解释性综述

学习笔记-青源 LIVE 第 1 期 | 南方科大张宇：神经网络可解释性综述为什么要可解释性视频中举了一个例子：不了解模型背后的逻辑，是个黑盒子，对于要求高可靠性的系统来说没有安全感。如：图像识别领域，由于数据采集的原因，某一类的图片里面都有水印，神经网络投机取巧学到了水印代表某个特定的类，最后预测还好，但本质上模型分类靠的是水印这么个特征，若预测的图片没有水印，或者其他类别的图片有水印，就判别不出来了。如果能发现这个逻辑是不可靠的，就能提前知道这个模型是不可靠的。获取解释性的方法我只大概

2021-07-06 22:34:47 342

原创 Python多线程阐述

目录应用场景名次解释:线程多线程案例多线程冲突参考资料：应用场景写了一个python脚本的接口，线上需要对这个接口做高并发调用，所以线下需要模拟高并发场景，测试接口性能。缩短运行时间有并发需求的时候需要用到，比如页面同时点击。名次解释:线程线程是操作系统能够进行运算调度的最小单位。线程被包含在进程中，是进程中实际处理单位。一条线程就是一堆指令集合，一条线程是指进程中一个单一顺序的控制流。一个进程中可以并发多个线程，每条线程并行执行不同的任务。一个进程只能运行在一个核中，所以如果多线

2021-03-20 15:21:36 109

原创 Windows下安装MySQL详细教程

想在自己window笔记本安装一个mysql数据库，供自己用，安装步骤如下：安装包下载下载地址：https://dev.mysql.com/downloads/mysql/点击下载之后，可以选择注册Oracle账号，也可以跳过直接下载。下载完成后，选择一个磁盘内放置并解压。安装教程（1）配置环境变量(系统变量里配置)win10如何配置环境变量？变量名：MYSQL_HOME变量值：D:\mysql-8.0.22-winx64\mysql-8.0.22-winx64（2）生成dat

2020-11-30 08:16:52 407

原创 Embedding理解及keras中Embedding参数详解，代码案例说明

Embedding理解嵌入层将正整数（下标）转换为具有固定大小的向量 ------官网词嵌入是一种语义空间到向量空间的映射，简单说就是把每个词语都转换为固定维数的向量，并且保证语义接近的两个词转化为向量后，这两个向量的相似度也高。举例说明embedding过程：“Could have done better”通过索引对该句子进行编码，每个单词分配一个索引，上面的句子就会变成这样：122 8 114 12创建嵌入矩阵，即每一个索引需要分配多少维向量，也就是说每个词需要转化为多少维

2020-09-11 18:12:25 15001 4

原创我对先验概率和后验概率的理解

先验概率先验概率是指根据以往经验和分析得到的概率,如全概率公式,它往往作为"由因求果"问题中的"因"出现。比如抛硬币，我们都认为正面朝上的概率是0.5，这就是一种先验概率，是常识得出的概率，正面朝上的全概率公式为（假如造成正面朝上只有两种独立的原因）：p(正面朝上)=p(正面朝上/造成正面朝上的原因1)+p(正面朝上/硬造成正面朝上的原因2)假如事件A发生有B1,B2,…,Bm一共m种独立原因(正式说法是完备事件组)，那么全概率公式就是：p(A)=p(A,B1)+p(A,B2)+…+p(

2020-09-11 18:12:10 459

原创 Linux下anaconda3、tensorflow-cpu、tensorflow-gpu安装配置

Linux下anaconda3配置安装软件包下载：Anaconda3-5.0.1-Linux-x86_64.sh通过xftp 把安装包上传到服务器文件夹下在安装包所在路径下，输入命令：bash Anaconda3-5.0.1-Linux-x86_64.sh安装过程中，不断按回车或者yes默认，然后出现下面界面：默认安装到XXX目录下，安装好后你可以在该文件夹下看到安装文件，用默认的路径直接点击Enter，如果安装到其他的位置，在此输入路径，我换了新路径（/home/XXX/XXX/anaco

2020-09-08 19:09:28 1302

原创 “西游记之大圣归来”关键词提取-textrank

功能输出文本关键词以及热度值工具python2 spark2.0.2数据集两个字段（评论人，评论内容），480条短评；结果脚本主函数#!/usr/bin/python# -*- coding: utf-8 -*-"""@author:@contact:@file:@time:"""from __future__ import print_functionimport sys,os,time,jiebareload(sys)sys.setdefaultencodi

2020-05-27 15:51:45 1062

原创 hdfs常用命令

查看hadoop fs -ls /创建文件夹hadoop fs -mkdir <file路径>删除文件夹hadoop fs -rm -r -skipTrash /User/model_testhadoop fs -rm -r /User/model移动，原本路径下的文件移走便不存在了hadoop fs -mv <被复制文件地址> <目的路径>复制，原本路径下的文件仍然存在hadoop fs -cp <被复制文件地址> &l

2020-05-27 11:37:24 237

原创 “西游记之大圣归来”短评主题分析-Latent Dirichlet Allocation

功能：1.输出影评主题 2.输出每份评论在各个主题上的权重分布工具：python2 spark2.0.2etl#!/usr/bin/python# -*- coding: utf-8 -*-"""@author:@contact:@time:"""from __future__ import print_functionfrom pyspark.sql import SparkSessionimport os,ConfigParser,sysreload(sys)sys.se

2020-05-25 17:12:59 623

原创 doc2vec方法判断文本相似度

功能：输出两段文本的语义相似度工具：python2 gensim:version = '3.4.0’清洗、分词词典构造、去数字、去停用词清洗，输入.txt，一条文本占一行，分词、加载分词词典去数字、停用词#!/usr/bin/python# -*- coding: utf-8 -*-"""@author:@contact:@time:@content:预处理"""import sys,jieba,time,re,codecsreload(sys)sys.setd

2020-05-25 14:26:20 4958 6

原创我对支持向量机（SVM）的理解

这篇最初也是发在公众号上的，所以图片水印部分会由于马赛克看不清。名词解释支持向量机中的机：在机器学习领域，常把一些算法看做一个机器，如分类机（也叫作分类器）问题描述空间中有很多已知类别的点，现在想用一个面分开他们，并能对未知类别的点很好的识别类别。算法思想由问题描述可知，现在算法要解决两个问题：找到一个平面，可以很好的区分不同类别的点，即使分类器的训练误差小，线性可分时要求训练误差...

2019-06-21 15:40:34 348

原创我对“用箱形图寻找异常值”的理解

异常值检验有很多种方法，这里主要说箱形图。所谓的异常就是和大众不一样呗，就是指样本中出现的明显偏离大多数观测值的个别值。箱线图(boxplot)知识原理（我手画了下，因为最开始是发在公众号上的，现在移图想去水印，图上有些可能看不清）适用不要求数据服从正态分布；判断异常条件数据小于Q1-QR1.5或者数据大于Q3+1.5QR为异常值；实例数据来自：http://www.uni-......

2019-03-20 19:45:28 29141 7

原创我对数学期望的理解

期望是针对随机变量而言的，是随机变量的均值。s:样本方差，分母是n-1μ:总体均值D(X)：总体方差Xˉ：样本均值总体的均值又叫做总体期望，比如总体X的期望，即E(X)=μ；比如样本均值从某种意义上来说也是一个随机变量，因为在抽取样本的时候你不知道会抽取什么样子的样本，则对样本均值求期望，就是E(Xˉ)=μ，但是一旦样本抽出来了，那么样本均值就是一个固定的值了，就不能说均值的期望了；...

2019-03-20 19:19:17 12181

原创 spark dataframe笔记 -- 对两个df实现行的拼接

df=spark.read.json("E:/**/people.json")df1=df.select(df['age'],df['name'])df2=df.select(df['age'],df['weigh'])df1.unionAll(df2).show()

2019-03-20 19:07:37 17199 2

原创如何在pyspark里引用上传到hdfs上的文件

stopwords= sc.textFile("hdfs://xx.x.xxx.xx:9000/an/stopwords.txt")

2019-03-20 18:58:07 2065

原创吴恩达深度学习工程师 - 02改善深层神经网络：超参数调试、正则化以及优化（第二周：优化算法）

这是吴恩达深度学习第二模块第二周的内容，刚开始学习，文章里应该会有些理解错误的部分，多谢告知，qq: 2690382987目录Mini-batch 梯度下降指数加权平均数（在统计上被称作指数加权移动平均值）指数加权平均的偏差修正动量梯度下降法RMSpropAdam 优化算法学习率衰减局部最优的问题蓝色字体是我自己的理解,红色字体是疑问待补充的，其他内容为对课程知识点的梳理。为了加快训练速...

2019-01-28 15:37:07 418 1