Halosec_Wei-CSDN博客

原创市场调查大赛全保姆教程(经验分享)

全国大学生市场调查与分析大赛全保姆经验分享其中个人赛和问卷数据分析教程纯干货，看完保证你拿个省奖还是简简单单，打字不易，大家看完觉得有用记得点赞三连，感激不尽。

2021-11-20 19:17:02 56367 14

ICM——E：林业固碳（一些分析在后面）背景正如我们所知，气候变化对生命构成巨大威胁。减轻气候的影响改变，我们需要采取激烈的行动来减少温室气体的排放量。仅仅减少温室气体排放是不够的。我们需要努力增加我们被生物圈隔离在大气中的二氧化碳储存量，或者通过机械手段，这个过程称为碳封存。生物圈将二氧化碳隔离在植物（尤其是树木等大型植物）、土壤和水环境中的二氧化碳。因此，森林对于任何减缓气候变化的努力都是不可或缺的。森林将二氧化碳封存在活植物和树木制成的产品中包括家具、木材、胶合板、纸张和其他木制品。这些林

2022-02-18 17:01:31 2915

原创 2022年美赛D题思路分享+翻译

MCM——D：数据瘫痪？使用我们的分析！背景许多公司将数据视为战略资产，但承认获取价值的难度很大从这个资产。妥善管理这种宝贵的资源可以带来有竞争力的优势。因此，公司需要建立一个集成的数据和分析（D&A）系统，他们可以保证他们拥有合适的人员、技术和流程管理、操纵、使用和保护该资源。您的咨询团队开发了评估 D&A 系统的模型，以帮助公司高管做出与三个关键组成部分有关的正确决策：人员、技术和过程。在 D&A 方面，您的模型为公司提供了衡量的能力通过对这三个关键组件的检查来

2022-02-18 16:58:25 3683

原创 2022年美赛C题思路分享+翻译

背景市场交易者频繁买卖波动性资产，目标是最大化其总回报。每次买卖通常都会有佣金。两种这样的资产是黄金和比特币。图 1：黄金每日价格，每金衡盎司美元。资料来源：伦敦金银市场协会，2021 年 9 月 11 日图 2：比特币每日价格，每比特币美元。资料来源：纳斯达克，2021 年 9 月 11 日要求一位交易员要求您开发一个模型，该模型仅使用迄今为止的每日价格流来确定交易员每天是否应该购买、持有或出售其投资组合中的资产2016 年 9 月 11 日，您将从 1000 美元

2022-02-18 13:12:16 26091 6

原创用人话讲明白AHP层次分析法（非常详细原理+简单工具实现）

用人话讲明白AHP层次分析法（非常详细原理+简单工具实现）

2021-12-22 11:33:50 91652 30

原创为什么要做自相关分析？精讲解析应用场景和具体操作

1、作用自相关（ACF）是指序列与其自身经过某些阶数滞后形成的序列之间存在某种程度的相关性，而偏自相关函数（PACF）是在其他序列给定情况下的两序列条件相关性的度量函数。一般来说（偏）自相关用于时间序列分析AR、MA的p、q进行定阶。2、输入输出描述输入：１个序列数据定量变量输出：pacf/acf图，用于AR、MA的p、q进行定阶3、学习网站SPSSPRO-免费专业的在线数据分析平台4、案例示例案例：基于5年每月商品的销售量，预测某商品的未来五个月的销售量。5、案例数据

2021-12-08 12:01:35 6950

原创常用的统计建模方法——差分分析

1、作用差分，本质上就是下一个数值减去上一个数值，主要是消除一些波动使数据趋于平稳，非平稳序列可通过差分变换转化为平稳序列。2、输入输出描述输入：１个时间序列数据定量变量输出：经过指定阶数差分后的序列图3、学习网站SPSSPRO-免费专业的在线数据分析平台4、案例示例案例：基于某杂志1995-2019年的印刷量数据，对其分别进行一阶差分和二阶差分。5、案例数据差分分析案例数据6、案例操作Step1：新建分析；Step2：上传数据；Step3：选择对应数

2021-12-08 11:58:58 4749

原创时间序列分析——如何正确使用单位根检验（ADF）？

1、作用在使用很多时间序列模型的时候，如 ARMA、ARIMA，都会要求时间序列是平稳的，所以一般在研究一段时间序列的时候，第一步都需要进行平稳性检验，除了用肉眼检测的方法，另外比较常用的严格的统计检验方法就是ADF检验，也叫做单位根检验。单位根检验是指检验序列中是否存在单位根，因为存在单位根就是非平稳时间序列了。2、输入输出描述输入：１个时间序列数据定量变量输出：序列数据在几阶差分时达到平稳3、学习网站SPSSPRO-免费专业的在线数据分析平台4、案例示例案例：基于某杂志199

2021-12-06 10:57:48 14834

原创【回归分析】一文读懂岭回归，附案例教学

1、作用岭回归是一种专用于共线性数据分析的有偏估计回归方法，实质上是一种改良的最小二乘估计法，通过放弃最小二乘法的无偏性，以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法，对病态数据的拟合要强于最小二乘法。2、输入输出描述输入：自变量X至少一项或以上的定量变量或二分类定类变量，因变量Y要求为定量变量（若为定类变量，请使用逻辑回归）。输出：模型检验优度的结果，自变量对因变量的线性关系等等。3、学习网站SPSSPRO-免费专业的在线数据分析平台4、案例示例案例

2021-12-06 10:54:43 11153 4

原创如何用ARIMA模型做预测？

1、作用ARIMA模型的全称叫做自回归移动平均模型，是统计模型中最常见的一种用来进行时间序列预测的模型。2、输入输出描述输入：特征序列为１个时间序列数据定量变量输出：未来Ｎ天的预测值3、学习网站SPSSPRO-免费专业的在线数据分析平台4、案例示例案例：基于1985-2021年某杂志的销售量，预测某商品的未来五年的销售量。5、案例数据ARIMA案例数据6、案例操作Step1：新建分析；Step2：上传数据；Step3：选择对应数据打开后进行预览，确认无

2021-12-02 14:30:00 24424 2

原创数学建模常用模型之秩和比综合评价法

1、作用秩和比（RSR）指将效益型指标从小到大排序进行排名、成本型指标从大到小排序进行排名，再计算秩和比，最后统计回归、分档排序。通过秩转换，获得无量纲统计量RSR，以RSR值对评价对象的优劣直接排序或分档排序，从而对评价对象做出综合评价。2、输入输出描述输入：至少两项或以上的定量变量。输出：反应考核指标在量化评价中的综合得分与分档3、案例示例案例：对某省10个地区的孕妇保健工作的三个指标进行综合评价4、案例数据秩和比综合评价法(RSR)案例数据5、案例操作Ste

2021-12-01 16:29:29 4736

原创如何用spss做灰色关联度分析？手把手教学快速掌握

1、作用对于两个系统之间的因素，其随时间或不同对象而变化的关联性大小的量度，称为关联度。在系统发展过程中，若两个因素变化的趋势具有一致性，即同步变化程度较高，即可谓二者关联程度较高；反之，则较低。因此，灰色关联分析是指对一个系统发展变化态势的定量描述和比较的方法，其基本思想是通过确定参考数据列和若干个比较数据列的几何形状相似程度来判断其联系是否紧密，它反映了曲线间的关联程度。2、输入输出描述输入：特征序列为至少两项或以上的定量变量，母序列（关联对象）为1项定量变量。输出：反应考核指标与母序列的关

2021-11-30 18:23:27 43353 1

原创大学生数学建模常用模型之线性回归

1、作用线性回归是利用数理统计中回归分析，来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法，在线性回归分析中，只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量，且因变量和自变量之间是线性关系，则称为多元线性回归分析。2、输入输出描述输入：自变量X至少一项或以上的定量变量或二分类定类变量，因变量Y要求为定量变量（若为定类变量，请使用逻辑回归）。输出：模型检验优度的结果，自变量对因变量的线性关

2021-11-26 16:03:13 4825

原创深入浅出详解因子分析，附案例教学（全）

1、作用因子分析是基于降维的思想，在尽可能不损失或者少损失原始数据信息的情况下，将错综复杂的众多变量聚合成少数几个独立的公共因子，这几个公共因子可以反映原来众多变量的主要信息，在减少变量个数的同时，又反映了变量之间的内在联系。通常因子分析有三种作用：一是用于因子降维，二是计算因子权重，三是计算加权计算因子汇总综合得分。2、输入输出描述输入：2个或两个以上的定量变量（假设为N个变量）。输出：最低可降维成1维（一个变量，一般用于综合评价），最多可降维成N个变量（一般用于数据脱敏），同时可以获取降维后

2021-11-25 17:25:35 14323 2

原创什么是主成分分析？经典案例解析变量降维

1、作用主成分分析将多个有一定相关性的指标进行线性组合，以最少的维度解释原数据中尽可能多的信息为目标进行降维，降维后的各变量间彼此线性无关，最终确定的新变量是原始变量的线性组合，且越往后主成分在方差中的比重也小，综合原信息的能力越弱，与因子分析不同的是，因子分析是利用少数几个公共因子去解释较多个要观测变量中存在的关系，它不是对原始变量的重新组合。2、输入输出描述输入：2个或两个以上的定量变量（假设为N个变量）输出：最低可降维成1维（一个变量，一般用于综合评价），最多可降维成N个变量（一般用于数据

2021-11-25 14:03:01 4731 1

原创 MPai数据科学平台随机森林分类\回归参数调整讲解

决策树的个数（n_estimators）：这是森林中树木的数量，即基评估器的数量。这个参数对随机森林模型的精确性影响是单调的，决策树的个数越大，模型的效果往往越好。但是相应的，任何模型都有决策边界决策树的个数达到一定的程度之后，随机森林的精确性往往不在上升或开始波动，并且，决策树的个数越大，需要的计算量和内存也越大，训练的时间也会越来越长。对于这个参数，我们是渴望在训练难度和模型效果之间取得平衡，决策树的个数通常不高于1000。取值：【1，+∞】分裂准则（criterion）：回..

2021-04-25 23:37:45 2842 1

原创 MPai数据科学平台 SVM支持向量机分类\回归参数调整讲解

C: 惩罚系数，用来控制损失函数的惩罚系数，类似于LR中的正则化系数。C越大，相当于惩罚松弛变量，希望松弛变量接近0，即对误分类的惩罚增大，趋向于对训练集全分对的情况，这样会出现训练集测试时准确率很高，但泛化能力弱，容易导致过拟合。 C值小，对误分类的惩罚减小，容错能力增强，泛化能力较强，但也可能欠拟合。取值：【0，1】核函数: 算法中采用的核函数类型，核函数是用来将非线性问题转化为线性问题的一种方法。RBF核：高斯核函数就是在属性空间中找到一些点，这些点可以是也可以不是样本点，把这些点当.

2021-04-15 00:34:39 2334 1

原创超级菜鸟如何快速入门数据分析？

从事数据科学行业差不多快5年了，自行设计开发过两套数据分析平台，对业务数据分析深有体会，本人深恶痛绝那种《5天学会数据分析》的课程或者趴一下甩出来一堆技能列表与书单的回答。我们知道，数据分析的本质就是辅助决策，我们应该尽可能地根据业务问题通过数据分析寻找出解决问题的对策，今天在这里，我将结合数据科学在实际中应用方法，讲解一下真正数据分析技能速成方法与数据分析的业务本质，讲的都是真真在在的干货，有志于真正能掌握业务数据分析技能的小伙伴一定要耐心看完，文中我将无偿分享一套业务数据分析框架，传授的两个小伙伴靠

2021-04-01 10:28:16 495

原创 2021美赛D题思路讲解与预处理程序分享（附预处理数据代码）

2021 ICM问题D:音乐的影响（附预处理数据代码）MPai交流群：715829047（q群文件有程序与视频）【小白快速上手数据分析的神器】MPai微信公众号：万灵数据MPai交流群：715829047（q群文件有程序与视频）MPai数据科学平台官网：www.mpaidata.com自古以来，音乐就是人类社会的一部分，已成为文化遗产的重要组成部分。为了理解乐在人类集体中所扮演的角色，我们被要求开发一种量化音乐发展的方法。在创作新音乐时，有许多因素会影响艺术家，包括其天.

2021-02-06 00:25:01 6534 2

原创 python安装虚拟环境

Python虚拟环境介绍与安装：1. 因为python的框架更新迭代太快了，有时候需要在电脑上存在一个框架的多个版本，这时候虚拟环境就可以解决这个问题。2. 通过以下命令安装虚拟环境：pip install virtualenv3. 开辟新的虚拟环境：virtualenv [virtualenv-name]4. 激活虚拟环境： * [类linux]：source [虚拟环境的目录]/bin/activate * [windows]：直接进入到虚拟环境的目录，然后执行activat...

2020-10-07 00:54:53 266

原创 2020年数学建模国赛C题Demo【准确率只有61%，仅供参考】

2020年数学建模国赛C题Demo【准确率只有61%，仅供参考】MPai下载链接：www.mpaidata.com关注公众号：【万灵数据】可以看很多很多建模资料噢附件数据下载：https://mpaidata.lanzoui.com/iC1kAgk03ba讲解视频：https://www.bilibili.com/video/BV1154y1C7ZC?from=search&seid=8443983732512492584改进策略：1，调整模型参数（效果微小）...

2020-09-12 16:19:29 19155 4

原创 MPai数据科学平台

MPai是什么？目标：从根本上降低数据分析的学习门槛学习数据分析关键在于两点：1. 是掌握各种类型的数学模型的用法与分析流程；2. 是能结合工具熟练实现模型，并灵活应用于业务场景。普通人要学数据，需要学习大量的、各类型的数学模型，需要翻阅需要文献来积累分析模板，也就是分析流程，掌握了理论，还需要把学习工具，一些工具没法实现的模型只能通过matlab、python、R等编程语言来实现，因此造就了数据分析的高门槛。数据分析师或者数据分析人员在实际工作中，通常不需要理解模型算法的原理，只需

2020-08-27 15:47:07 28955 10

原创 1个月拿下7个offer！ 5分钟掌握81个数学模型，小白也能逆袭数据分析师！

随着9月份的到来，疫情之下，21届的秋招也已经进入白热化阶段。“面试了25家，面试时对答如流，但连小公司都不要我，也不知道自己差在哪”“竞争对手都是985211，要不就是各种奖，我真的太菜了”“大学四年都没怎么学习，不知道自己能做啥”那么，在你还不知道自己喜欢什么工作的情况下，有没有什么技能是所有岗位通用，能帮你在求职中先人一步的吗？有，这个技能就是：数据分析。o 如果你还在校园，提前掌握数据分析能力，能让你在今后的求职中更有底气；o 如果你正在求职，学习数据分析，能大大提高自己的求职竞争力；

2020-08-17 14:57:49 1485 1

原创数学建模上分利器，无编程基础小白5分钟内掌握81个数学建模模型!

随着数学建模国赛很快就要来了，很多人还没开始准备学习建模或者组不到强有力的建模、编程队友。然而，让很多朋友困惑的是，我是文科生或者我不会编程，能学会数据分析、数学建模么？数据分析、数学建模该怎么学？该学哪些课程呢？要不要掌握很多数学模型理论？要不要学习Python？R？一看代码就头大怎么办？数学基础很差怎么办？别怕，万灵数据旗下的MPai数据科学平台满足你的需求！ 5分钟掌握主流61个统计类数学模型（几乎涵盖SPSS绝大部分功能），以及23个有监督机器学习（包括随机森林，SVM，XGBoost

2020-08-17 14:57:01 1914

原创调用百度情感分析API做情感标注

import pandas as pdimport requestsimport jsonimport timedata_all = pd.read_excel('144基金贴吧评论.xlsx')host = 'https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=...

2019-12-18 15:53:03 1211

原创处理数据不平衡方法

过采样是补充那些数据量少的样本，使得不同标签的样本量达到均衡。1.随机过采样from imblearn.over_sampling import RandomOverSamplerros = RandomOverSampler(random_state=0)X_resampled, y_resampled = ros.fit_resample(X, y)2. SMOTE过采样...

2019-11-09 21:26:46 1122

原创 dataframe 文本标签标准化与编码化（）

from sklearn.preprocessing import LabelEncoderimport numpy as npimport pandas as pddata=pd.read_excel('clean.xlsx')for i in [ '房屋朝向', '所属小区', '装修程度']: le = LabelEncoder() le.fit(np.uniq...

2019-11-07 16:27:14 1660

原创本科生学习的一些心得

说起学习，这里我其实心得很多，但是一口气想要讲出来，我也很难讲清。首先学习肯定是我们学生的第一要务，不管你现在在多么厉害的社团担任多么厉害的职位，创业方面做的有多么大，你都得学习，我认识有几个学长学姐，他们在学生组织方面花了很多时间，做的确实很厉害，但是等他们上了大四，他们发现，自己好像什么专业知识都不会，甚至连个简单的界面都不会写，然后才后悔莫急，大家也别说我现在才大一，担心什么，大二再说，其实...

2019-11-04 10:20:00 2675 5

原创常用的LSTM时间序列预测（单变量时间序列预测 | 多变量时间序列预测 | 他们的预测未来数据方法）

单变量时间序列预测数据类型：单列import numpyimport matplotlib.pyplot as pltfrom keras.models import Sequentialfrom keras.layers import Densefrom keras.layers import LSTMfrom keras.models import Sequenti...

2019-10-04 21:30:42 9730 4

原创 Pytorch—入门篇

什么是PyTorch?PyTorch是一个基于Python的科学计算库，它有以下特点:类似于NumPy，但是它可以使用GPU 可以用它定义深度学习模型，可以灵活地进行深度学习模型的训练和使用TensorsTensor类似与NumPy的ndarray，唯一的区别是Tensor可以在GPU上加速运算构造一个未初始化的5x3矩阵:import torchx = torc...

2019-10-04 17:31:37 465

原创 Spark-RDD论文《Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster 》有感

动机当前很多分布式计算框架无法实现高效的迭代式计算以及交互式数据挖掘，包括Hadoop！，首先为了解决高效这个问题，RDD提出基于内存的迭代思想，直接鄙视了Hadoop要不断进行磁盘Spill的弊端；其次，为了保证大数据场景下迭代计算的正常运转，RDD自身具有高容错快恢复的特点。背景及意义1、Hadoop？Hadoop为分布式大规模数据的计算而生，但别忘了，Hadoop依托于HDFS...

2019-09-21 22:28:11 659

原创机器学习-隐语义模型

一、前述隐语义模型是近年来推荐系统领域较为热门的话题，它主要是根据隐含特征将用户与物品联系起来。因为用户和物品之间有着隐含的联系。所以把用户转成隐语义，然后物品转成隐语义组合，通过中介隐含因子连接。二、具体1、隐语义模型举例和求解N代表用户，M代表物体第一步：先分解将用户分解成F个因子的矩阵将物品也分解成F个因子的矩阵（F*N）T*(F*M )=N*M 其中T表示转置...

2019-09-21 14:08:07 399

原创分布式-Hbase快速入门

1. 什么是HBASE1.1 概念特性HBASE是一个数据库----可以提供数据的实时随机读写HBASE与mysql、oralce、db2、sqlserver等关系型数据库不同，它是一个NoSQL数据库（非关系型数据库）Hbase的表模型与关系型数据库的表模型不同： Hbase的表没有固定的字段定义； Hbase的表中每行存储的都是一些key-value对 Hba...

2019-08-30 11:26:47 200

原创分布式-zookeeper快速上手

1 zookeeper的基本功能和应用场景2 zookeeper的整体运行机制3 zookeeper的数据存储机制3.1 数据存储形式zookeeper中对用户的数据采用kv形式存储只是zk有点特别：key：是以路径的形式表示的，那就以为着，各key之间有父子关系，比如/ 是顶层key用户建的key只能在/ 下作为子节点，比如建一个key： /a...

2019-08-30 10:21:12 201

原创分布式-一文搞定hive

目录1 什么是hive1.1 hive基本思想1.2 为什么要使用Hive1.3 Hive得特点2 hive的基本架构3 Hive安装3.2. 标准安装：将mysql作为元数据库3.2.1. mysql安装3.2.2 hive的元数据库配置4 hive使用方式4.1 最基本使用方式4.2 启动hive服务使用4.3 脚本化运行5....

2019-08-29 17:03:39 400

原创分布式-单点故障解决方案->zookeeper安装与21问

部分摘至https://www.cnblogs.com/qingyunzong/p/8634335.html 目录 zookeeper集群结构 ZooKeeper21问 ZooKeeper搭建Hadoop的HA集群为什么会有 hadoop HA 机制呢？那如何解决呢？集群规划集群服务器准备集群安装 1、安装 Zookeeper 集群 ...

2019-08-28 10:14:37 312

原创使用spark ,spark sql编写word count程序

Spark 版本val conf=new SparkConf.setAppName("wc").setMaster("local[*]")val sc=SparkConText(conf, 2)val lines sc.textFile("hdfs://wc")val paris=lines.flatMap(_.spilt(" "))val word =paris.map(_,1)...

2019-08-28 09:04:15 745

原创分布式- wordcount程序整体运行流程

map阶段：将每一行文本数据变成<单词,1>这样的kv数据reduce阶段：将相同单词的一组kv数据进行聚合：累加所有的v注意点：mapreduce程序中，map阶段的进、出数据，reduce阶段的进、出数据，类型都应该是实现了HADOOP序列化框架的类型，如：String对应TextInteger对应IntWritableLong对应LongWr...

2019-08-27 16:50:26 305

原创分布式-HADOOP三大组件技术概要

hadoop中有3个核心组件：分布式文件系统：HDFS —— 实现将文件分布式存储在很多的服务器上分布式运算编程框架：MAPREDUCE —— 实现在很多机器上分布式并行运算分布式资源调度平台：YARN —— 帮用户调度大量的mapreduce程序，并合理分配运算资源1，概述：hdfs：分布式文件系统1.1 hdfs有着文件系统共同的特征：有目录结构，顶层目录是： ...

2019-08-27 16:48:35 1364

原创 LINUX-免密登陆配置（解决集群模式下各节点之间如何方便地拷贝文件）

集群模式下，各节点之间如何方便的拷贝文件？命令格式：scp file 远程用户名@远程服务器IP:~/ （注意：冒号和目录之间不能有空格）如果拷贝目录，需要加-r 选项。使用root用户eg: scp /etc/profile root@node2:/etceg: scp -r /usr/jdk1.8 node2:/usr/javaeg:scp h...

2019-08-26 10:02:29 651

北京航空航天大学 北京维特科技有限公司创业计划.pdf

代理ip池（python实现）

空空如也

北京航空航天大学北京维特科技有限公司创业计划.pdf