望百川归海-CSDN博客

原创神经网络调参的一些补充

1、激活函数与损失函数选择输出层的激活函数：神经网络需要根据情况改变输出层的激活函数。一般而言，回归问题用恒等函数，分类问题用softmax函数。机器学习大致可以分为分类问题和回归问题。分类问题是数据属于哪一个类别的问题。比如，区分图像中的人是男性还是女性的问题就是分类问题。而回归问题是根据某个输入预测一个（连续的）数值问题。比如，根据一个人的图像预测这个人的体重的问题就是回归问题激活函数和初始化方法对应： ReLu. 当使用ReLu激活函数时，需要使用正态分布的初始化方法，给参数加一点噪

2021-11-07 21:56:04 906

原创提高深度学习(和机器学习)性能的思路

文章目录1. 通过数据提升性能2、通过算法提升性能3. 通过算法调参提升性能4、通过嵌套模型提升性能总结提升思路分为以下4部分，通常来讲，随着列表自上而下，性能的提升也将变小。部分思路只适用于人工神经网络，但是大部分是通用的。足够用来配合其他技术来碰撞出提升模型性能的方法。 (1)通过数据提升性能 (2)通过算法提升性能 (3)通过算法调参提升性能 (4)通过嵌套模型提升性能1. 通过数据提升性能对训练数据和问题定义进行适当改变，能得到很大的性能提升。或许是最大的性能提升。以下是

2021-10-25 11:21:04 880

原创线性判别分析LDA的思想

1、分类原理：分类思想：训练时，设法将训练样本投影到一条直线上，这条直线上，同类样本的投影点尽可能接近，异类样本点的类别中心尽可能远离。预测时，将样本投影到学得的直线上，根据投影点的位置判断其类别。分类过程：一个常见的LDA分类基本思想是假设各个类别的样本数据符合高斯分布，这样利用LDA进行投影后，可以利用极大似然估计计算各个类别投影数据的均值和方差，进而得到该类别高斯分布的概率密度函数。当一个新的样本到来后，我们可以将它投影，然后将投影后的样本特征分别带入各个类别的高斯分布概率密度函数，计算它

2021-10-24 15:23:29 1091

原创机器学习的一些数学诠释

涉及到：线性回归、logistic回归和一般回归；支持向量机SVM；K-means聚类算法；神经网络；深度学习LSTM；决策树，集成学习（XGBoost，随机森林）；主成分分析；线性判别分析；典型关联分析；规则化和模型选择；...

2021-10-23 20:34:34 809

原创常见的运筹优化类问题及常用的优化算法

之前的研究的是有关多目标优化的方向，期间涉及到二次规划问题最优求解，以及kkt条件相关的知识。在研究启发式方法的同时也涉及到与传统优化方法的比较。因此在这里总结一些运筹向常见的问题，TSP、VRP、设施选址问题、网络优化、物流调度、路径规划问题等的建模，了解各模型的使用场景与运算效率...

2021-10-22 22:32:33 14640

原创最优化问题理论体系概述

1 简介最优化问题旨在寻找全局最优值。问题本身一般可以分为两个部分：目标函数与约束条件，进一步细分也是根据这两部分的差异来进行的。最优化问题分类：（1）按变量取值范围：可以划分为一般规划与整数规划。一般规划与整数规划都可以是线性或非线性的，只不过非线性规划问题针对一般规划十分复。（2）根据函数式类型：可分为线性规划与非线性规划。线性规划的要求是目标函数与约束条件全部都是一次函数。非线性规划是指目标函数与约束条件中存在高阶变量。都允许多变量。非线性规划应用极其广泛，因为现实生活中的目

2021-10-22 16:08:34 1613

原创城市智慧能源系统顶层设计研究

文章目录1 简介2 城市智慧能源系统顶层设计2.1 总体图景描述2.2 关键要素顶层设计2.2.1 从支撑城市治理角度选取能源系统关键要素2.2.2 建设条件分析2.2.3 城市级综合能源规划要点2.2.4 综合服务平台顶层设计2.3 政策机制3 城市智慧能源系统发展路径4 结语参考文献1 简介结合国际经验和中国发展实际，推进城市能源变革应当从八方面着手。一是加强能源、生态环境与城市协同发展。将能源规划、生态环境规划充分纳入城市发展规划当中，以统一发展视角确立城市发展的

2021-10-22 12:12:52 1105

原创绿色能源合理开发与利用研究

能源绿色开发利用是贯彻落实能源安全新战略和加快新时代生态文明建设的重要任务。随着生活水平的提高，人们的环保意识也在不断增强，如何合理开发与利用绿色能源成了人们关注的焦点问题。本文分析当前能源利用的总体形势，确定了能源的发展方向，并阐述了绿色能源开发和利用中存在的主要问题以及发展现状。1 能源利用的总体形势全球经济飞速发展，对能源的需求也越来越大，常规能源已经无法满足经济发展的需要，西方一些发达国家开始研发新能源，以此填补常规能源的短缺。可见，全球性的能源危机已经出现，它不仅制约着各国经济的

2021-10-22 10:49:38 2852

原创投资分析研究：天然气分布式能源项目

文章目录1 研究内容2 研究方法3 研究应用4 结论参考文献根据中国天然气分布式能源目发展的投资模式和运维模式，运用风险管理研究方法，识别风险因素，建立天然气分布式能源项目投资风险规范性评价指标模型。针对天然气分布式能源投资存在的风险因素，提出投资风险防范措施及相关建议，实现风险控制，为项目投资决策研究提供参考。1 研究内容案例研究法是一种解释社会现象的社会科学研究方法，通过对案例的研究得出归纳性应用的具体结论，利用案例研究法对中国天然气分布式能源项目投资案例进行选取，经过信息收集与项目调研

2021-10-22 09:07:42 965

原创碳排放下的电力投资与技术改造探析

从投资和技术改造两方面分析碳减排对电力产业的影响，提出相应的对策和建议。1 碳减排背景下的电力投资针对当前我国发电结构以火电为主的现状，碳减排对电力投资的影响如下: ( 一) 风电和光伏等新能源产业投资加大由于新能源产业具有超低碳排放的优势，未来新能源投资会受到越来越多发电企业的青睐。同时部分传统发电企业为完成碳减排目标，也将开始投资于新能源发电产业。 ( 二) 火电等传统发电投资增速放缓受到我国当前电力投资增速过快和环境压力的双重影响，未来火电等传统能源的增速或将会减缓。近

2021-10-22 08:28:42 256

原创综合能源系统及其应用

文章目录1、综合能源系统2、电-气-热综合能源系统多目标优化调度2.1 电-气-热综合能源系统基本构架2.2 多目标优化调度模型2.2.1 目标函数2.2.2 约束条件2.3 求解方法2.4 解决方案参考文献1、综合能源系统定义：综合能源系统指的是在规划、建设和运行等过程中，通过对能源的产生、传输与分配( 能源网络) 、转换、存储、消费等环节进行有机协调与优化后，形成的能源产供销一体化系统。它主要由供能网络( 如供电、供气、供冷/热等网络) 、能源交换环节(如CCHP机组、发电机组、锅炉、空调、热

2021-10-21 23:39:22 7648 1

原创使用Tensorflow实现MLP进行入侵检测分类

基于KDDCUP99数据集，使用Tensorflow构建MLP，进行入侵检测分类。1、tensorflow理解在Tensorflow中，用计算图来构建网络，用会话来具体执行网络。深入理解了这两点，我想，对于Tensorflow的设计思路，以及运行机制，也就略知一二了。图（tf.Graph）：计算图，主要用于构建网络，本身不进行任何实际的计算。计算图的设计启发是高等数学里面的链式求导法则的图。我们可以将计算图理解为是一个计算模板或者计划书。会话（tf.session）：会话，主

2021-10-18 23:40:55 693

原创基于kaggle欧洲国家太阳能发电数据集的太阳能站点效率预测

我们将只保留一个站点，使用 scikit-learn 的基本 ML 模型进行一个月的预测，使用深度学习和tensorflow预测一到两天。性能指标：均方根误差，探索性分析可见，数据集是干净的：没有异常值，没有重复行，也没有缺失值。1、基线模型基线模型得到的结果，将会是其他模型结果的比较基准。import numpy as npimport pandas as pdfrom sklearn.metrics import mean_squared_errorfrom datapre

2021-10-17 16:54:57 1182 4

原创优化算法详解

对于几乎所有机器学习算法，无论是有监督学习、无监督学习，还是强化学习，最后一般都归结为求解最优化问题。因此，最优化方法在机器学习算法的推导与实现中占据中心地位。在这篇文章中，SIGAI将对机器学习中所使用的优化算法做一个全面的总结，并理清它们直接的脉络关系，帮你从全局的高度来理解这一部分知识。...

2021-10-17 10:58:15 12142

原创基于kaggle欧洲国家太阳能发电数据集进行聚类分析

数据集初探凤凰股份如果第一个图上没有任何真正的肘部，那么最好的簇 nb k 似乎是 7。肘方法，站点inertias值站点轮廓系数法如果第一个图上没有任何真正的肘部，那么最好的簇 nb k 似乎是 6。肘方法，国家inertias值国家轮廓系数大幅撒2、分析每个集群，每个集群都用一个国家来代表24小时内每个国家太阳能发电站的效率特定某天各国太阳能发电站的效率非空值的站点效率分布（即白天）法国1985到2015的效率分布各国月效率各国周效率各国年效率各国平均效

2021-10-17 10:53:45 1675

原创基于PSO_FLNN预测股票周收益

1、简介背景：针对均值-方差模型的局限性，利用启发式函数链神经网络预测得到的收益率替代历史数据。工作原理：构建PSO_FLNN预测模型，PSO算法用来优化FLNN中个体的权重参数，FLNN用来对输入的个体预测其对应的周收益值。具体代码详见我的GitHub地址：https://github.com/allrivertosea/Stock_return_forecast_based_on_Pso_flnn_2、具体预测过程（1）FLNN函数链神经网络它是单层神经网络，

2021-10-15 22:17:16 363

原创 python连接数据库进行各种操作

很多时候，机器学习的数据集文件不是很大，一般使用csv文件进行读取和写入，mysql是一种很常用的数据存储的工具, 当你需要使用这些训练数据时, 只需要通过python的mysql的包连接到数据库, 执行查询sql,将数据导入到python的变量就可以拿来用, 十分方便....

2021-10-15 20:23:02 303

原创用户登录行为聚类分析

文章目录一、项目说明1、背景2、概述二、登录行为聚类过程1、数据读取：2、数据预处理和参数确定：（1）数据形式（2）初步业务特征选择（3）缺失值处理、标准化（4）聚类簇数选择（5）二次特征选择3、模型训练(2) 训练模型(3) 模型结果输出(4) 迭代聚类(5) 对多次聚类结果进行分析4、模型测试一、项目说明1、背景EDR通常会收集到大量的有关用户登录行为的告警日志，但并不是所有登录行为都是异常的，因此需更准确地辨别哪些登录行为异常行为。2、概述登录行为聚类分析，主要是以EDR所采集的公司内各终端

2021-10-15 19:40:41 998 1

原创基于逻辑回归的入侵检测

1、简介基于KDDCUP99数据集，利用逻辑回归方法进行入侵检测学习。具体代码参见我的githubhttps://github.com/allrivertosea/KDDCUP99_IDS_LR2、主要步骤第一步，数据预处理：对KDDCUP99原始数据集进行处理，使其成为适合进行学习的形式。进行特征选择，降低维度。第二步，调参：网格搜索最优参数组合。第三步，模型训练与测试：利用训练集进行模型训练，利用测试集进行测试，计算各种评价指标，绘制ROC曲线等。3、具体执行3.1、数据预处理

2021-10-15 19:30:14 379

原创使用Cplex求解均值方差模型

在进行多目标进化算法求解投资组合问题时，由于多目标进化算法求得的是一组近似最优解，对于最大化收益和最小化风险的两目标M-V模型，需要找到一个基准，方便作为参考。这里利用Cplex工具求解均值-方差模型。1、模型构建马科维茨的均值-方差模型，实质上是一个非线性的双目标的最优化问题，为的是达到最大化收益和最小化风险双目标的均衡状态。模型的数学描述如式所示：其中，其中V为投资组合的风险，希望其尽可能小。R为投资组合的收益，希望其尽可能大。X为投资到各个证券上的资产比例组成的权重向量

2021-10-15 18:00:09 1305

原创通过机器学习预测电网平均总负荷

文章目录0 概述1 研究动机2 相关工作3 统计学处理3.1 数据预处理3.2 季节性分析4 算法4.1 支持向量回归SVR4.2 聚类Clustering4.3 神经网络Neural Networks4.4 高斯过程回归 Gaussian Process Regression5 实施6 实验结果7 未来方向8 结论参考文献0 概述该研究基于比利时Elia 电网公司的公开数据，该数据给出了过去几年以 15 分钟为间隔测量的 Elia 电网的总负荷。此处将使用机器学习方法提前一天预测平均总负荷。

2021-10-15 09:09:34 1994 1

原创能源互联网理论与及其实际应用初探

能源互联网理论与及其实际应用初探一、能源互连网的基础理论1、能源互联网的基本定义能源互联网定义：杰里米《第三次工业革命》中提出——以可再生能源+互联网为技术核心，实现电网中可再生清洁能源、电动汽车的广泛接入，实现能源的公平交易和高效综合利用。具体解释：能源互联网以大电网为“主干网”，以微网、分布式能源等能量自治单元为“局域网”，通过开放对等的信息，能源一体化架构实现能源(电能) 的双向按需传输和动态平衡使用，它是一个信息与能源相融合的“广域网”。优点：借鉴了互联网理

2021-10-15 00:07:47 1380

原创关联规则（购物篮分析）

关联规则也称为购物篮分析，最早是为了发现超市销售数据库中不同商品之间的关联关系。常用的关联规则算法：一、Apriori算法核心思想：通过连接，产生候选项与其支持度，通过剪枝生成频繁项集。1、关联规则和频繁项集（1）项集：是项的集合，包含k个项的项集称为k项集，如集合{牛奶，麦片，糖}是一个3项集。项集出现的频率是所有包含项集的事务计数（又称为绝对支持度或支持度计数）。（2）频繁项集：...

2019-12-03 11:52:37 3056

原创什么是EDR！

一、端点检测与响应端点：台式机、服务器、移动设备和嵌人式设备等。攻击者往往首先利用目标网络中的脆弱端点建立桥头堡，再通过进一步的漏洞利用来构筑长期驻留条件，最终迈向既定目标。端点检测与响应（(Endpoint Detection and Response，EDR）：完全不同于以往的端点被动防护思路，而是通过云端威胁情报、机器学习、异常行为分析、攻击指示器等方式，主动发现来自外部或内部的安全威胁...

2019-11-17 22:58:52 97982

原创 python之多进程与多线程

1、基本概念1.1、线程线程：是操作系统能够进行运算调度的最小单位。它被包含在进程之中，是进程中的实际运作单位。一条线程指的是进程中一个单一顺序的控制流，一个进程中可以并发多个线程，每条线程并行执行不同的任务。一个线程是一个cpu执行时所需要的一串指令。线程的工作方式：CPU会给你一个在同一时间能够做多个运算的幻觉，实际上它在每个运算上只花了极少的时间，本质上CPU同一时刻只干了一件事，但是...

2019-09-11 10:50:13 289

原创情感分析之——电商产品评论数据

1、数据挖掘目标对京东平台上的热水器评论进行文本挖掘分析，数据挖掘建模目标如下：（1）、分析某一品牌热水器的用户情感倾向。（2）、从评论文本中挖掘出该品牌热水器的优点与不足。（3）、提炼不同品牌热水器的卖点。2、分析方法及过程本次建模针对京东商城上“美的”品牌热水器的消费者评论数据，在对文本进行基本的机器预处理、中文分词、停用词过滤，然后通过建立包括栈式自编码深度学习、语义网络与LDA...

2019-09-03 10:17:37 12484 5

原创电子商务网站用户行为分析及服务推荐

一、背景介绍1、问题描述本文主要研究对象是某家法律网站，这是家电子商务类大型法律资讯网站，致力为用户提供丰富的法律信息与专业咨询服务，也为律师与律所提供有效的互联网整合营销解决方案，访问量剧增，数据信息量也大幅增长，面对大量信息用户无法及时从中获得自己需要的信息，信息使用效率越来越低；低效的信息供给是无法满足用户需求的，容易流失客户，基于此背景寻求用户行为分析及服务推荐系统开发。问题目标分析...

2019-09-02 16:52:26 5543 1

原创基于矩阵分解的推荐系统

一、基于矩阵分解的推荐算法1、概述基于用户和基于项的协同过滤推荐算法，难以实现大数据量下的实时推荐。这时我们可以使用基于模型的协同过滤算法，矩阵分解（Matrix Factorization,MF）就是其中一种。矩阵分解：将一个矩阵分解为两个或多个矩阵的乘积。mxn—>mxk X kxn非负矩阵分解：一般的矩阵分解，分解的矩阵有正有负。很多实际应用中，负数没有意义，如文本等等。NMF...

2019-09-02 13:08:20 2184 2

原创基于协同过滤的推荐算法

1、推荐系统与推荐问题推荐系统：根据用户的历史行为，挖掘出用户的喜好，为用户推荐与其喜好相符的商品或信息。推荐系统的任务是将信息和用户连接，帮助用户找到感兴趣的信息，让有价值的信息能触达潜在的用户。推荐问题描述：核心问题是为用户推荐与其兴趣相似度比较高的商品。用一函数f(x)计算候选商品与用户之间的相似度。为预测出函数f(x)，可用到的历史数据有：用户的历史行为数据，与该用户有关的其他用户信息...

2019-09-02 10:53:25 4753 1

原创 MySQL语句练习

一、背景数据库名：Academic_affairs（教务）数据库表：4个表，Student，Course，Teacher，SC1、学生表Student(SID,Sname,Sage,Ssex)字段解释：SID 学生编号，Sname 学生姓名，Sage 出生年月，Ssex 学生性别。2、课程表Course(CID,Cname,TID) --CID字段解释：CID 课程编号，Cname...

2019-08-29 18:50:13 145

原创 mysql数据库的基本操作

1、基本常识：表格组成：表头(header): 每一列的名称（第一行）;列(col): 具有相同数据类型的数据的集合;行(row): 每一行用来描述某条记录的具体信息;值(value): 行的具体信息, 每个值必须与该列的数据类型相同;键(key): 键的值在当前列中具有唯一性。主键：主键是唯一的。一个数据表中只能包含一个主键。你可以使用主键来查询数据。外键：外键用于关联两个表。复合键：复...

2019-08-27 16:17:45 1549

原创如何使用git将本地代码上传到github

准备工作：注册github账号和安装git工具https://github.com/https://git-for-windows.github.io/github是什么：GitHub是一个面向开源及私有软件项目的托管平台，因为只支持git 作为唯一的版本库格式进行托管，故名GitHub。git是什么：目前世界上最先进的分布式版本控制系统，廖雪峰git使用教程。1、登录github并新建...

2019-08-22 20:39:35 110

原创 tcpdump抓包结合wireshark进行分析

一、简介如果是在windows环境，可以使用wireshark直接抓包，如果是在linux环境下，可以使用tcpdump命令进行抓包。tcpdump是Linux系统下的一款抓包命令集，工作原理是基于网卡抓取流动在网卡上的数据包。在Linux系统中由于tcpdump命令的简单和强大，我们一般直接使用tcpdump命令来抓取数据包。保存为.pcap文件后，拖下来在wireshark中分析。二、主...

2019-08-17 10:50:42 1547

原创利用Tensorflow实现多层感知器MLP

一、什么是TensorflowTensorFlow 表达了高层次的机器学习计算，大幅简化了第一代系统，并且具备更好的灵活性和可延展性。TensorFlow，简单看就是Tensor和Flow，即意味着Tensor和Flow是TensorFlow最为基础的要素；Tensor意味着data，Flow意味着流动（意味着计算，意味着映射，即数据的流动，数据的计算,数据的映射,同时也体现数据是有向的流动、...

2019-08-12 21:22:09 1267

原创利用keras实现多层感知器MLP模型

一、什么是kerasKeras是一个由Python编写的开源人工神经网络库，可以作为Tensorflow、Microsoft-CNTK和Theano的高阶应用程序接口，进行深度学习模型的设计、调试、评估、应用和可视化。Keras的神经网络API是在封装后与使用者直接进行交互的API组件，在使用时可以调用Keras的其它组件。除数据预处理外，使用者可以通过神经网络API实现机器学习任务中的常见操...

2019-08-12 11:21:51 5084

原创神经网络基础以及BP算法

2、人工神经网络神经网络的定义：它是一种由具有适应性的简单单元（神经元）组成的并行互连的网络，构成的组织能模拟生物神经系统对真实世界物体所做出的的交互反应。在机器学习讨论的神经网络，是一种神经网络学习。有意思的神经元：在生物中，每个神经元会与其他神经元相连，当该神经元兴奋，就会向其他神经元发送化学物质，进而改变这些神经元的电位，当电位超过某个阈值时，就会被激活为行为状态，转而向其他神经元发送化...

2019-08-11 10:05:55 1051

原创 SVM支持向量机与sklearn支持向量机分类

一、SVM的基本概念1、总览：在之前的机器学习基本知识中，总结了支持向量机的相关基础概念。支持向量机（Support Vector Machine, SVM)是定义在特征空间上间隔最大的线性分类器。它是一种二分类模型，当采用核技巧之后，支持向量机可以用于非线性分类。划分超平面：能将训练集在样本空间中将不同类的样本划分开的超平面，划分超平面可以用wTx+b=0表示，w为法向量，b为超平面相对...

2019-08-06 16:20:59 1196

原创机器学习之降维（特征选择与特征提取）

一、降维技术主要分为两大类：特征选择和特征提取。基本概念：特征选择：我们可以选出原始特征的一个子集。特征提取：通过现有信息进行推演，构造出一个新的特征子空间。为什么要降维：（1）数据的多重共线性导致解的空间不稳定，从而导致模型的泛化能力弱；（2）高维空间样本具有稀疏性，导致模型比较难找到数据特征；（3）过多的变量会妨碍模型查找规律；（4）有时特征矩阵过大，导致计算量比较大，训练时间...

2019-08-03 23:11:34 12382 1

原创 CART决策树以及sklearn.tree.DecisionTreeClassifier()使用

注意：scikit-learn 使用 CART 算法的优化版本。2、CART分类树预测预测的过程就是：根据结点指定的属性以及属性值划分，将该样本划分为左右子树，一直到叶结点，找到最终的标签。二、CART树回归基本线性模型中，假设全局的数据之间是线性的，通过拟合所有的样本点，训练得到最终的模型。但是现实中很多问题都是非线性的，处理这类问题时，特征之间的关系不是简单的线性关系，所以不可能用全局...

2019-08-03 21:45:33 2588

原创连续属性离散化与sklearn.preprocessing.KBinsDiscretizer

1、连续属性离散化离散化 (Discretization) (有些时候叫量化(quantization) 或分箱(binning)) ，是将连续特征划分为离散特征值的方法。离散化可以把具有连续属性的数据集变换成只有名义属性(nominal attributes)的数据集。2、K-bins 离散化（分箱）KBinsDiscretizer 类使用k个等宽的bins把特征离散化：默认情况下...

2019-07-29 12:48:52 10671

空空如也

空空如也