俱往矣`-CSDN博客

原创北上广深房屋租赁数据分析

房屋租赁信息北上广深房屋租赁数据分析一、数据预处理二、描述性统计2.1 区级租金箱线图2.2 租金分布情况2.3 北京各行政区租金分布2.4 各城市租金分布对比图2.5 北京各行政区租金分布之间对比（豆荚图）2.6 整租房屋中，不同卧室数量租金分布情况对比2.7 不同城市各数据矩阵散点图三、数据探索3.1面积和租金价格分布图3.2 地铁距离和租金价格分布图3.3 经纬度信息挖掘北上广深房屋租赁数据分析北上广深四个一线城市，哪个城市的租房更加友好呢？城市各区域的租金是怎么分布的？离地铁口远近、房子大小、是

2021-05-04 20:12:12 2825 3

原创电力负荷短期预测模型（基于ARIMA）

电力分析与预测根据提供的客户的20天的分时段数据，进行分析：要求1：根据数据对客户进行聚类分析；要求2：根据数据对客户进行负荷预测。一.导入数据# 安装库专用# 通过如下命令设定镜像options(repos = 'http://mirrors.ustc.edu.cn/CRAN/')# 查看镜像是否修改getOption('repos')# 尝试下载R包#若有需要，进行安装#install.packages('forecast')‘http://mirrors.ustc.edu

2021-04-08 15:17:00 5907 5

原创电商平台关联法则模型及推荐系统实现（R语言）

电商平台关联法则模型及推荐系统实现（R语言）关联规则算法在电商行业中的应用Apriori算法应用广泛，可用于消费市场价格分析，猜测顾客的消费习惯，比如较有名的“尿布和啤酒”的故事。其核心思想是通过连接产生候选项及其支持度，然后通过剪枝生成频繁项集，这里的频繁项集是指所有支持度大于等于给定最小支持度的项集。项集：在关联分析中，包含0个或多个项的集合被称为项集（itemset）。如果一个项集包含k个项，则称它为k-项集。空集是指不包含任何项的项集。数据集情况现有数据集如下：说明：数据量：564169

2021-03-28 20:27:55 2032 6

原创利用机器学习算法进行汽车接受程度预测

利用机器学习算法进行汽车接受程度预测分类算法汽车满意度数据集朴素贝叶斯分类导入相应数据，划分训练测试集建立分类器朴素贝叶斯算法优缺点决策树算法建立分类树建立分类树对分类器进行可视化决策树的优缺点预测结果可视化分类算法分类算法是基于有类标号的训练集数据建立分类模型并使用其对新观测值（测试数据集）进行分类的算法，属于有监督学习。对于有监督学习，主要需要建立合适的分类器，对不同类型的数据集进行恰当的分类，达到较高的准确率或召回率或F-score值。同时不同方法，对于不同问题带来的效果是不同的，比如决策树算

2020-11-04 21:46:32 3472 3

原创 teengamb数据集进行回归分析

回归分析在 faraway 包中，包含一个 47 行 5 列的 teengamb 数据集（加载 faraway包后，可通过代码“head(teengamb)”查看数据的前 5 行，通过“?teengamb”查看每个变量的具体意义），该数据是研究关于青少年赌博情况的数据集。针对该数据集，请回答以下问题：

2020-09-26 11:54:40 9740 1

原创 R语言聚类分析案例

R语言聚类分析案例在 mclust 包中包含一个 diabetes 数据集（加载 mclust 包后，可通过代码“head(diabetes)”查看数据的前 5 行，通过“?diabetes”查看每个变量的具体意义），该数据集包含 145 名糖尿病患者的三个指标的测量数据，针对该数据集，请进行如下分析：（1）只考虑 3 个指标数据，使用 k-means 聚类对数据进行聚类分析，找到合适的聚类数目，并对聚类效果进行评估；######################第五题聚类分析############

2020-09-26 10:58:42 14998

原创 R语言数据可视化案例（世界杯球员信息数据可视化）

R语言数据可视化案例（世界杯球员信息数据可视化）世界杯球员案例数据预处理世界杯球员案例在 faraway 包中包含一个名为 worldcup 的数据集（加载 faraway 包后，可通过代码“head(worldcup)”查看数据的前 5 行，该数据集是 2010 年世界杯上球员的信息数据，每个变量所表示的信息如下：Team：国家Position：位置，包括后卫、前锋、守门员、中场Time：上场总时间Shots：射门的次数Passes：传球次数Tackles：铲球次数Saves：救

2020-06-21 17:59:20 17414 20

原创爬取豆瓣电影数据（基于R）

爬取豆瓣电影数据（基于R）爬取豆瓣电影数据了解网页结构自动收集单个网页数据自动收集多个网页数据爬取豆瓣电影数据网络爬虫，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本，它们被广泛用于互联网搜索引擎或其他类似网站，可以自动采集所有其能够访问到的页面内容，以获取或更新这些网站的内容和检索方式。可以利用爬虫获取网页数据信息，便于统计分析。本文便以爬取豆瓣电影数据为例，来描述网络爬虫过程...

2020-04-22 09:39:52 5950 3

原创长短时记忆神经网络(LSTM)——【torch学习笔记】

LSTM中引入了三个门：输入门、遗忘门和输出门。除此之外，我们还引入了记忆单元，其形状与隐藏状态相同。严格来说，这只是隐藏状态的一个花哨版本，是为记录额外信息而定制的。

2022-06-15 14:16:14 2035 1

原创深度递归神经网络 ——【torch学习笔记】

可以在门控机制中增加额外的非线性。也就是说，我们可以不使用单一的感知器，而使用多层。这使得LSTM的机制没有改变。相反，它使其更加复杂。如果我们相信LSTM机制描述了潜伏变量自回归模型工作的某种形式的普遍真理，这将是有意义的。...

2022-06-14 16:22:24 408

原创门控循环单元（GRU）——【torch学习笔记】

普通RNN和GRU之间的关键区别在于，后者支持隐藏状态的门控。这意味着我们有专门的机制来控制隐藏状态何时被更新，何时被重置。

2022-06-11 14:03:11 1444

原创循环神经网络理论——【torch学习笔记】

递归神经网络的理论部分，为后续搭建RNN神经网络奠定理论基础

2022-06-07 21:56:34 342

原创从零开始实现递归神经网络——【torch学习笔记】

根据RNN的定义来实现这个模型，从底层方法从零实现RNN。数据概况如下：一、独热编码独热编码向量提供了一种简单的方法，将单词表达为向量，以便在深度网络中处理它们。简而言之，我们将每个词映射到一个不同的单元向量：假设字典中不同的字符数量为𝑁（len(vocab)），每个字符与0到𝑁-1的连续整数的索引中的一个值有一一对应关系。如果一个字符的索引是整数𝑖，那么我们创建一个长度为𝑁的所有0的向量𝐞𝑖，并将位置𝑖的元素设置为1，......

2022-06-07 21:34:13 409

原创构建词表与抽样——【torch学习笔记】

语言符号（又称词）的数量很大，而且分布很不均匀。因此，预测下一个符号的简单多类分类方法并不总是很有效。此外，我们需要把文本变成我们可以优化的格式，即我们需要把它映射到向量。

2022-06-02 14:30:16 733

原创 n-grams语言模型——【torch学习笔记】

应该如何对一个文件，甚至是一个词的序列进行建模,从应用基本的概率规则开始。为了计算语言模型，我们需要计算单词的概率和给定前几个单词的条件概率，即语言模型参数。

2022-06-01 14:52:53 783

原创 python常用命令集合

python常用命令集合一、pandas常用命令1、重置indexlocation_data = location_data.reset_index(drop=True)2、根据指定列删除重复值data = result_data.drop_duplicates(subset = ['集团客户ID', '集团客户名称', '证件地址'], keep = 'first')3、根据多列进行mergemerge_data = pd.merge(boss_data, data[['ID', '名称

2022-05-24 20:47:42 4267

原创序列模型——【torch学习笔记】

序列模型需要专门的统计工具来进行估计。两个流行的模型是自回归模型和潜在变量自回归模型。

2022-05-24 20:20:17 389

原创平行串联的网络（GoogLeNet）——【torch学习笔记】

平行串联的网络（GoogLeNet）引用翻译：《动手学深度学习》2014年，Szegedy等人在ImageNet挑战赛中获胜，提出了一个结合NiN和重复块范式的优势的结构。该论文的一个重点是解决哪些大小的卷积核是最好的问题。毕竟，以前流行的网络采用了小到1×1，大到11×11的选择。本文的一个见解是，有时采用不同大小的核的组合可能是有利的。在这一节中，我们将介绍GoogLeNet，介绍原始模型的一个略微简化的版本–我们省略了一些特设的功能，这些功能是为了稳定训练而添加的，但现在有了更好的训练算法，这些功

2022-05-06 22:03:44 412

原创网络中的网络(NiN)——【torch学习笔记】

不小心使用密集层可能会完全放弃表征的空间结构，网络中的网络（NiN）块提供了一个替代方案。它们是由Lin, Chen和Yan在2013年提出的，基于一个非常简单的洞察力--在每个像素的通道上分别使用MLP。

2022-04-28 21:28:06 718

原创使用区块的网络（VGG）——【torch学习笔记】

使用区块的网络（VGG-11）引用翻译：《动手学深度学习》虽然AlexNet证明了深度卷积神经网络可以取得良好的效果，但它并没有提供一个通用的模板来指导后续研究人员设计新的网络。这个领域的进展反映了芯片设计中的进展，工程师们从放置晶体管到逻辑元素再到逻辑块。同样，神经网络架构的设计也逐渐变得更加抽象，研究人员从单个神经元到整个层，再到现在的块，层的重复模式。使用块的想法首先出现在牛津大学的视觉几何小组（VGG）。在他们同名的VGG网络中，通过使用循环和子程序，很容易在任何现代深度学习框架的代码中实现

2022-04-27 22:00:14 873

原创 sklearn模型保存与加载

机器学习模型保存与加载id_to_cat是类别编号与名词的映射字典：{0: '出费原因查询', 1: '费用未到账', 2: '账单核实'}X_test是同训练集一样预处理得到的特征一、pickle形式1、保存为pickleimport pickle# 保存Model(注:save文件夹要预先建立，否则会报错)with open('/order_analysis/model/svc.pickle', 'wb') as f:pickle.dump(model, f)2、读取pickle

2022-04-27 16:01:32 635

原创深度卷积神经网络(AlexNet)——【torch学习笔记】

AlexNet于2012年推出，以突破性的ImageNet分类论文130的第一作者Alex Krizhevsky命名。AlexNet采用了8层卷积神经网络，在2012年ImageNet大规模视觉识别挑战赛中以惊人的巨大优势获胜。这个网络首次证明了通过学习获得的特征可以超越人工设计的特征，从而打破了计算机视觉领域的原有模式。

2022-04-26 21:00:24 2758 1

原创卷积神经网络(LeNet)——【torch学习笔记】

卷积神经网络(LeNet)引用翻译：《动手学深度学习》我们现在准备把所有的工具放在一起，部署你的第一个全功能卷积神经网络。在我们第一次接触图像数据时，我们将多层感知器应用于Fashion-MNIST数据集中的服装图片。Fashion-MNIST中的每张图片都由一个28×28的二维矩阵组成。为了使这些数据适用于多层感知器，即把输入作为一维固定长度的向量来接收，我们首先把每张图片扁平化，产生长度为784的向量，然后用一系列全连接的层来处理它们。现在我们已经引入了卷积层，我们可以将图像保持在原来的空间组织网

2022-04-25 21:11:45 2261 1

原创池化——【torch学习笔记】

池化引用翻译：《动手学深度学习》当我们处理图像（或其他数据源）时，我们最终会想降低图像的分辨率。毕竟，我们通常希望输出一个不依赖于原始图像维度的估计值。其次，在检测低级别的特征时，比如边缘检测（我们在卷积层一节中谈到了这一点），我们通常希望对转换有一定程度的不变性。例如，如果我们把黑白分明的图像X，向右移动一个像素，即Z[i,j]=X[i,j+1]，那么新图像Z的输出会有很大的不同。边缘将移位一个像素，所有的激活也随之移位。在现实中，物体几乎不可能完全出现在同一个地方。事实上，即使有一个三脚架和一个静止

2022-04-25 20:31:26 4530

原创多输入、输出通道——【torch学习笔记】

多个输入和输出通道引用翻译：《动手学深度学习》虽然我们已经描述了组成每个图像的多个通道（例如，彩色图像有标准的RGB通道来表示红色、绿色和蓝色的数量），但到目前为止，我们通过只用一个输入和一个输出通道来简化所有的数字例子。这使我们能够把我们的输入、卷积核和输出都视为二维数组。当我们将通道添加到混合中时，我们的输入和隐藏表示都变成了三维数组。例如，每个RGB输入图像的形状为3×ℎ×𝑤。我们把这个大小为3的轴称为通道维。在本节中，我们将深入研究具有多个输入和多个输出通道的卷积核。一、多个输入通道当输入

2022-04-24 23:09:18 2094

原创填充和跨度——【torch学习笔记】

填充和跨度引用翻译：《动手学深度学习》在上一节的例子中，我们用一个高度和宽度为3的输入和一个高度和宽度为2的卷积核来得到一个高度和宽度为2的输出。一般来说，假设输入的形状是nh × nw，卷积核的窗口形状是kh × kw，那么输出的形状将是(nh − kh + 1) × (nw − kw + 1)。因此，卷积层的输出形状是由输入的形状和卷积核窗的形状决定的。在一些情况下，我们可能想改变输出的维度。多层卷积会减少边界上的可用信息，往往比我们想要的要多得多。如果我们从一个240x240像素的图像开始，

2022-04-23 19:53:06 2288

原创图像的卷积——【torch学习笔记】

图像的卷积引用翻译：《动手学深度学习》现在我们已经了解了卷积层在理论上是如何工作的，我们准备看看这在实践中是如何工作的。由于我们通过卷积神经网络对图像数据的适用性来激励它，我们将在我们的例子中坚持使用图像数据，并开始重新审视我们在上一节中介绍的卷积层。我们注意到，严格来说，卷积层是一个轻微的误称，因为操作通常表示为交叉关联。一、交叉相关运算在卷积层中，一个输入数组和一个相关核数组被结合起来，通过交叉相关操作产生一个输出数组。让我们看看这在二维空间是如何工作的。在我们的例子中，输入是一个高度为3，宽度

2022-04-22 08:53:13 2156

原创 torch文件保存与加载——【torch学习笔记】

模型文件保存与加载引用翻译：《动手学深度学习》到目前为止，我们讨论了如何处理数据，如何建立、训练和测试深度学习模型。然而，在某些时候，我们很可能对我们获得的结果感到满意，我们希望保存结果以便以后使用和分发。同样，当运行一个漫长的训练过程时，保存中间结果（检查点）是最好的做法，以确保我们不会在被服务器的电源线绊倒时失去几天的计算量。同时，我们可能想加载一个预训练的模型（例如，我们可能有英语的词嵌入，并将其用于我们花哨的垃圾邮件分类器）。对于所有这些情况，我们都需要加载和存储单个权重向量和整个模型。本节讨论

2022-04-21 09:03:10 3837

原创 torch自定义层——【torch学习笔记】

自定义层引用翻译：《动手学深度学习》深度学习成功的原因之一是可以在深度网络中使用的广泛的层中找到。这允许了巨大程度的定制和适应。例如，科学家们已经发明了图像、文本、集合、循环、动态编程，甚至计算机程序的层。你迟早会遇到一个在Torch中还不存在的层，甚至更好的是，你最终会发明一个新的层，对你手头的问题很有效。这时就需要建立一个自定义层。本节将告诉你如何做。没有参数的图层由于这略显复杂，我们从一个没有任何固有参数的自定义图层（又称模块）开始。我们的第一步与我们之前介绍模块时非常相似。下面的Center

2022-04-20 22:28:24 1265

原创延迟初始化——【torch学习笔记】

延迟初始化引用翻译：《动手学深度学习》Pytorch（或任何其他框架）没有办法预测网络的输入维度。以后，在处理卷积网络和图像时，这个问题会变得更加相关，因为输入维度（即图像的分辨率）会在很远的范围内影响后续层的维度。因此，在编写代码时不需要知道维度是多少就能设置参数，可以大大简化统计建模。在下面的内容中，我们将以初始化为例来讨论这一点。毕竟，我们不能初始化那些我们不知道存在的变量。一、实例化一个网络import torchimport torch.nn as nndef getnet(in_

2022-04-20 15:56:01 2669

原创神经网络参数管理——【torch学习笔记】

参数管理引用翻译：《动手学深度学习》训练深度网络的最终目的是为一个给定的架构找到好的参数值。当一切都很标准时，torch.nn.Sequential类是一个完全好的工具。然而，很少有模型是完全标准的，大多数科学家都想建立一些新颖的东西。本节展示了如何操作参数。特别是我们将涵盖以下几个方面。1、为调试、诊断、使其可视化或保存而访问参数，是了解如何使用自定义模型的第一步。2、其次，我们要以特定的方式设置它们，例如为了初始化目的。我们讨论参数初始化器的结构。3、最后，我们展示了如何通过构建共享一些参数的

2022-04-20 10:19:16 1915

空空如也

空空如也