walking_visitor-CSDN博客

原创 pandas相关系数-DataFrame.corr()参数详解

DataFrame.corr(method='pearson',min_periods=1)参数说明：method：可选值为{‘pearson’, ‘kendall’, ‘spearman’} pearson：Pearson相关系数来衡量两个数据集合是否在一条线上面，即针对线性数据的相关系数计算，针对非线性 ...

2018-12-20 17:51:36 96534 4

原创 TO-B类软件产品差异化

产品差异化，是在市场众多同质化产品中，突出自身产品亮点的重要方式。对于客户来讲其选择是多种多样的，与其花费大量的时间研究每一家产品的特点，还不如直接选择品牌更大、价格更低的产品来的直接，因此显而易见的突出产品差异化特征，是在软件产品规划中非常重要的一项内容。提到差异化特征，自然也就是说市场上有同类型的产品，那么与同类型的产品相比，我们所设计的产品又有什么突出的地方和特点呢？那么软件产品的差异化应该从哪几个方面来考虑呢？

2023-05-29 11:28:50 887

原创数据挖掘分析之数据预处理

目录为什么要进行数据预处理什么是数据预处理如何进行数据预处理min-max规范化在数据挖掘概述章节中，提到了跨行业数据挖掘分析标准化流程CRISP-DW，其中有数据理解、和数据准备环节，数据预处理即是针对这两个环节的处理。为什么要进行数据预处理首先思考一下，为什么要进行数据预处理，不能直接拿来用吗？从数据挖掘命题自身出发，在确定了业务目标后，核心在于建立数据挖掘模型，不同的数据挖掘模型所需要的数据格式及要求均不同，而模型所需要的数据则不会那么标准的直接提供给我们，因此数据

2022-04-08 15:25:38 3729 1

原创数据挖掘分析概述

目录什么是数据挖掘分析数据挖掘能够干什么描述评估预测分类聚类关联数据挖掘的一般流程业务理解阶段数据理解阶段数据准备阶段建模阶段评估阶段部署阶段什么是数据挖掘分析数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程---百度百科从百科的定义中，有几个关键字标签：大量数据、算法、搜索、信息对应到日常工作中，也就是：提出需要解决的问题、圈定数据范围、设计算法模型、找出解决办法数据挖掘能够干什么总得来说，数据挖掘能够解决以

2022-04-06 16:52:29 2095

原创标签的分类

2021-12-24 18:43:34 758

原创 pytorch用法笔记--不定期更新

torch.matmul(a,a.T)矩阵乘以它的转置矩阵，如3*4,4*3，相乘后结果是一个3*3的对称矩阵torch.diag(a, 2)取以对角线为起点的元素，对角线的位置为0，2代表从对角线开始往上的第2条对角线，也可以是负值，也就是对角线往下torch.cat((a, b), dim=0)拼接两个矩阵，按照dim=0的维度，比如3*4,3*5，拼接后就是3*9，dim=0也就是横向拼接，dim=1也就是纵向拼接np.fill_diagonal(a,0)/torch.fill

2021-09-24 09:47:57 327

原创 pytorch问题笔记--不定期更新

loss为nan搭建了基于restnet50的多损失行人重识别程序，通过restnet50提取图片特征，在迭代训练过程中出现了LOSS为NAN的情况，观察日志发现最初的几个bitch_size所有的一切都是正常的，从restnet50提取的特征也都是正常的，但在几轮之后，从restnet50提取的特征变开始变成nan。造成nan的问题有几种可能：图片样本的问题--在本次训练中全都同样规格的样本，故排除这个问题程序的问题，如某些地方的除法或者log运算导致了nan---认真检查程序没有此问题

2021-09-24 09:39:10 118

原创一元线性回归的前因后果

一元线性回归，初次看的这个名词的人，可能会联想到一元一次方程，没错一元线性回归就是一元一次方程，一元一次方程在我们学习的方程组里估计是最简单的一种了，然而就是这最简单的一元线性回归确构成了复杂统计分析的理论基础，真可谓大道至简...

2021-07-08 15:32:51 291

原创白话假设检验

所需基础知识高斯分布、中心极限定理、参数估计什么是假设检验假设检验，从名称上来看有假设、检验两个关键字。顾名思义就是提出一个假设，然后来检验这个假设是否正确。我们知道参数估计是用抽样样本，来估计总体样本的特征，假设检验呢，就是对样本特征提出一个假设，然后来检验这个假设是否正确，怎么检验呢，自然肯定是利用正太分布之类的统计理论了。本质上来说，假设检验就是根据构造的统计量所符合的统计学理论分布，采用小概率理论来推断假设是否正确，如果原假设发生的概率较大则接受原假设，如果原假设发生的概率为小概

2021-07-05 13:55:54 242

原创参数估计统计量总结

一个总体的参数的检验一般性问题有：总体均值的置信区间估计总体比例的置信区间估计总体方差的置信区间估计一个总体的参数检验需要考虑的因素有总体分布是否为正太分布、总体方差是否已知、抽样样本量是大还是小。总结如下：总体均值的置信区间估计总体分布样本量总体标准差已知总体标准差未知正态分布大于30(大样本) 小于30(小样本) 非正态分布大于30(大样本)

2021-07-04 16:06:03 1506

原创 python 方差分析

方差分析代码# -*- coding: utf-8 -*-"""Created on Tue Apr 27 11:24:17 2021 @author: MXX"""#方差分析import pandas as pdimport numpy as npfrom scipy.stats import f def Variance_analysis(data,degree,dfn=1,dfd=4): args = pd.DataFrame(data) jun_zhi

2021-05-07 09:33:03 299

原创白话方差分析

什么是方差分析？我们直接看书里面的例子：现在要解决的问题是：不同行业是否对投诉数量有影响单从这个问题从发，要判断行业对投诉数量的影响，那么就分析一下不同行业的投诉数量情况，我们拿书中给出的散点图来看：图中的连线是同一行业中的投诉均值，从这个图上我们可以直观的看到行业对投诉数量是有影响的，因为明显不同行业的均值不同，在抽样的情况下，均值可以很大程度的反应真实情况，其实问题到这里已经有结论了。但是是否有个指标来直接说明这个事情呢？这个指标又改如何计算呢？这就是方差分析要做的事情。基于

2021-05-06 16:49:06 6078 2

原创白话参数估计

参数估计的基础知识储备什么是参数估计？参数估计有哪些类型？参数估计有哪些方法？参数估计的基础知识储备正太分布(必须)、中心极限定理(非必须)什么是参数估计？参数估计是用抽取部分样本的特征，来推断样本总体的特征，举个例子，比如全国人口平均身高，这是个不可能以全体样本来统计的指标，那么就采用抽样的方式，以抽取样本内的平均身高来推断全国的平均身高，为什么说推断，而不是等于呢？假设我们抽样了多个批次，那么每个批次计算出来的平均身高大体是不会相同的，我们可以知道的是：每个批次所计算

2021-04-21 18:09:10 792 1

原创内部网关协议RIP

RIP(routing information protocol)路由信息协议，是内部网管协议IGP中的一种，RIP协议是基于距离的路由选择协议，其最大优点是简单，基于距离的意思是当选择路由路径时，其参考的标准是里目的地最近的那条路径，而这条路径不一定是网络质量最好的。RIP中的距离是指经过的路由数目，与直接相连的路由器距离为1，与非直接相连的路由器距离是经过的路由器数量+1，RIP允许一条路径最大包含15个路由器，即当距离16时，相当于不可达，这也决定了RIP的应用网络范围必然不能够太大。RI..

2021-03-10 17:52:04 694

原创数据集中趋势度量：众数、平均数、中位数、几何平均数

即一组数据距离数据中心的靠近程度

2021-02-26 18:43:06 11311

原创数据抽样方式：概率抽样、非概率抽样

数据抽样方式可分为概率抽样和非概率抽样，抽样的目的是减少数据量，以小群体样本来进行分析，得出针对全体或某一类的适用结论。抽样样本的好坏需要依据研究的具体问题而定，不同的研究问题，对抽样样本的要求会有所差异，样本的抽样方式也有所不同。概率抽样定义：采用随机的方式，在所有样本中，每个样本都有可能被采样到。这里注意随机与随便的区别，随机是没有主观意识存在的，每个样本都有一定概率被抽中，而随便抽样，则带有人为的主观意识，受人为思想、喜好的影响。适用场景：以小样本抽样来估计整体样本的特征特点：专业

2021-02-04 13:55:07 11542 1

原创浅谈IT项目需求分析

在IT项目建设中，需求分析是最初也是最基础的一个步骤，需求分析师是客户与研发之间沟通的桥梁。客户在建设IT项目时，业务人员为统一的需求出口口径，业务人员熟悉业务，知道业务的要求是什么，了解业务的痛点在哪。但需求背后的本质需求，业务人员多数时候是没有想清楚的，这个时候就需要我们的需求分析人员帮助客户了解他自己到底需要一个什么样的IT系统。比如公司业务迅速发展，业务增长较快，但随之而来的售后服务问题也越来越多，服务运营人员数量有限根本忙不过来。现有IT支撑系统手段较为薄弱，系统与系统之间没有关联，服务人员需

2021-02-03 10:09:31 3391

原创系统对接，数据抽取采集

站在产品角度，看ETL的数据抽取，在日常中的工作内容

2021-01-25 10:42:19 878 2

原创 4G LTE网络空口时延

4G LTE网络时延可分为上行时延、下行时延。日常所说的时延则是上行+下行时延的总和。我们现在讨论的4G LTE网络时延主要是空中接口时延，也就是UE与基站之间的理论时延，当然实际时延肯定比理论时延要大的。时延主要发生在数据传送过程，其诞生自然与数据的交互过程是直接相关的。下面则以UE发起一条数据请求过程为例来说明哪些地方产生了时延。上行时延过程：UE发送请求时，平均排队时间需...

2020-01-14 11:48:29 11555

原创 numpy.astype数据精度导致数据变化的问题

在用numpy.astype强制转换数据类型的时候，由于numpy精度的问题将会对长度超过16位的数据发生不可预见的变化。见以下样例：a=np.random.randint(10000000000000000,100000000000000000,6,dtype=np.int64).reshape(3,-1)aOut[250]: array([[84627891441616237...

2019-07-23 18:43:48 3903 2

原创用numpy高效计算欧氏距离

在各类算法中，距离的计算极其常见，用numpy来计算效率非常的高，其计算方式也有很多。个人认为最直观也非常高效的一种方式如下：首先看二维欧式距离的公式定义d=，三维、四维等等继续扩展即可。那么就依据公式的定义，我们直观的来设置计算公式，废话不多说直接见代码：import numpy as npa=np.arange(16).reshape(4,4)x1=a[0]x2=a[1]...

2019-07-07 10:31:54 10177 2

原创 ORA-01438:值大于为此列允许的精度--解决办法

今天在用pandas插入oracle数据库时，提示“ORA-01438:值大于为此列允许的精度“错误，经网上查找资料后解决了此错误错误说明ORA-01438，发生此错误的原因在于我们插入的数据长度超过了字段指定的字段长度，比如插入的数据为102329204123.33829492，小数点前长度为12，小数点后长度为8，若字段字符类型指定为Number(19,12)，那么在插入时则就会报错。...

2018-11-13 18:44:14 56022 2

原创 pandas +sqlalchemy读写oracle数据库

pandas的DataFrame是常用的数据分析数据格式，Oracle数据库是常用的结构化数据存储方式，通常做数据分析牵涉到大量的数据时，我们必须通过借助一定的工具进行，而不能单单依靠excel，因此通过pandas进行数据分析，以Oracle作为存储数据的媒介便成为了我们最方便或者灵活的选择，同时DataFrame的数据格式样式和oracle的结构化表非常的相似，将DataFrame格式的数据直...

2018-11-13 10:35:13 16078 4

原创数据的离散程度度量：极差、四分位差、平均差、方差、标准差、异众比率、离散系数

数据的离散程度即衡量一组数据的分散程度如何，其衡量的标准和方式有很多，而具体选择哪一种方式则需要依据实际的数据要求进行抉择。首先针对不同的衡量方式的应用场景大体归纳如下：极差：极差为数据样本中的最大值与最小值的差值，是所有方式中最为简单的一种，它反应了数据样本的数值范围，是最基本的衡量数据离散程度的方式，受极值影响较大。如在数学考试中，一个班学生得分的极差为60，放映了学习最好的学生与学习...

2018-10-29 15:36:33 92294 4

转载 Python数据分析常用手册》一、NumPy和Pandas篇

二、常用库1.NumPy　　NumPy是高性能科学计算和数据分析的基础包。部分功能如下： ndarray, 具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。用于对整组数据进行快速运算的标准数学函数（无需编写循环）。用于读写磁盘数据的工具以及用于操作内存映射文件的工具。线性代数、随机数生成以及傅里叶变换功能。用于集成C、C++、Fortran等语言编写...

2018-10-18 14:47:49 226

原创 matplotlib.pyplot.plot详解

plot方法：绘图，简单说就是依据x绘制y的线或点那么以绘制一条线为例进行简单说明首先需要有x值，其次需要有y值其次需要坐标轴然后还有线条宽度、颜色、线条样式等等设置plot方法并不直接对函数表达式进行绘制，而是根据所输入的x值和y值进行绘制，且为了快速简介，plot方法可以不指定x和坐标轴，以及线条的各种样式，只需输入y值即可，那么诸如坐标轴、线条样式并不是不用设置，而是采用了...

2018-10-18 11:38:54 3880

原创 pandas 箱型图(boxplot)详解

首先看一段例子：import pandas as pdfrom pandas import DataFrame,Seriesdf = DataFrame(np.random.randn(10, 2), columns=['Col1', 'Col2'])boxplot=df.boxplot() 通过boxplot方法，我们直接得到了箱型图。boxplot方法官方介绍如下...

2018-10-17 15:35:24 55483 3

原创 python数据处理--鸡尾酒排序

鸡尾酒排序思路：比较相邻的元素，如果前一个比后一个大，就把它们两个调换位置。对每一对相邻元素作同样的工作，从开始第一对到结尾的最后一对。这步做完后，最后的元素会是最大的数。从倒数第二个元素开始与前一个元素相比较，若小于前一个元素则进行位置交换，即倒叙进行比较排序针对所有的元素重复以上的步骤，除了最后一个。持续每次对越来越少的元素重复上面的步骤，直到没有任何一对数字需要比较。实...

2018-10-14 17:59:04 394

原创 python数据处理--冒泡排序

冒泡排序思路：比较相邻的元素，如果前一个比后一个大，就把它们两个调换位置。对每一对相邻元素作同样的工作，从开始第一对到结尾的最后一对。这步做完后，最后的元素会是最大的数。针对所有的元素重复以上的步骤，除了最后一个。持续每次对越来越少的元素重复上面的步骤，直到没有任何一对数字需要比较。实现代码如下：def bubble_sort(args): args_len=len...

2018-10-12 16:42:39 250

原创 python数据处理--归并排序

归并排序思路见百度百科：https://baike.baidu.com/item/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F/1639015?fr=aladdin归并排序的代码实现有递归和循环两种，其中循环的代码思路如下：对于循环思路来讲，只有归并思路的并，没有分。这是因为，在分的过程中，任意元素的位置都没有发生变化，故一个序列可直接看做是已被分解的创建合...

2018-10-12 15:33:50 193

原创 pandas学习笔记6--基本功能之处理缺失数据

数据中不可避免会出现数据的缺失，pandas提供了几种简单的方式进行缺失值的处理。处理方法：dropna方法：默认原始对象不会被修改，dropna后会生成新的对象对Series会丢弃掉NA值。而对于DataFrame则会默认丢弃掉含有NaN的行，如果要丢弃含NaN的列，则指定axis=1若传入how='all'，则会丢弃全是NaN的行，指定axis=1时，则丢弃列fr...

2018-09-27 09:20:27 315

原创 pandas学习笔记5---基本功能之计算与统计

OK，继续学习pandas的基本功能之计算与统计，pandas库的数据结构几乎与excel或数据库的结构完全一样，非常接近我们日常所用的数据形式。同时也是数据分析/挖掘计算的常用基础库，其计算功能的重要性自然不言而喻。本次我们针对pandas的主要数据结构Series/DataFrame的计算统计功能和方式进行学习，主要包括算术的数据对齐、错误值填充、DataFrame和Series运算、统计...

2018-09-21 17:10:28 588

原创 pandas学习笔记4---基本功能之索引、选取、丢弃

前边学习了pandas的基本数据结构Series和DataFrame，以及重要的index。本次在前期学习的基础上继续学习其基本的功能，比如重新索引(reindex)或者说索引取值、向前/后填充、。。。。重新索引重新索引的方法是reindex，有点像np.reshape。不同点在于np.reshape可改变数据结构本身，而reindex则是新产生一个数据结构，原始数据结构并未改变。Se...

2018-09-21 09:07:29 924

原创 python数据处理--类堆排序（堆末尾排序）

类堆排序（堆末尾排序）---不知道起什么名字，原以为是堆排序，后来才发现对堆排序理解有误，但本身也可以实现序列的排序，且思路比堆排序要简单，缺点就是当序列长度较大时，运算量过大，不过整理思路可借鉴。类堆排序思路：构建类似大顶堆（小顶堆）【即整体为二叉树结构，只考虑单独的每次父节点与子节点大小关系，不考虑后续节点的交换产生的影响】--构建完成后最顶端为本次构建序列中的最大值交换堆的首尾元...

2018-09-18 21:22:04 309

原创 python数据处理--堆排序算法

堆排序思路：构建大顶堆（小顶堆）交换堆的首尾元素，堆长度减一交换首尾元素后，验证堆的合规性，若不合规则调整数据位置，直至合规重复2和3步骤，直至长度为0，结束python实现_问题分析：问题1：如何构建初始堆问题2：序列长度与节点数量的关系（node=round(length)）问题3：每个父节点与子左节点、右节点的大小关系（father>left and fa...

2018-09-18 20:58:54 148

原创 python数据处理--快速排序算法

常见的快速排序算法，用python实现起来如何呢，话不多说见代码：def list_sort(args_list): lista=[] listb=[] if len(args_list)<=1: return args_list else: args=args_list[0] for i in range...

2018-09-13 14:25:51 215

原创 python数据处理--按照数据差值大小进行聚类（归类）

近来在做数据处理的工作中，遇到了数据分类的问题，利用python的各种方便库，写了这么个以数据差值大小进行归类的方法。应用场景：有一批数据集，如list=[1,2,3,4,9,10,11,20,20,1,1.1,2.1,100]，将其按照数值大小进行归类，即数值比较接近的归为一类，故需要先设置一个阈值，以进行划分。具体实现如下：其中输入参数Data_set为输入的数据集，可以为列表、数...

2018-09-13 09:55:48 7281 3

原创 python3.X与python2.X list(range)详解

range函数为列表生成的常用函数，在python2.X中，我们经常用range(num)返回一个[0,num)的列表，然而在python3中返回的不再是一个list而是一个range对象，我们看以下例子：list2=range(5)list2Out[95]: range(0, 5)type(list2)Out[96]: range不仅range(num)返回的不是list，...

2018-09-05 09:40:58 15738

原创 color.cpp:11147: error: (-215) scn == 3 || scn == 4 in function cv::cvtColor----opencv错误解决办法

在用cv2.imread读取图像，并用cv2.cvtColor转换为灰度图的时候，出现了如下的错误：load="F:\Program Files (x86)\python/testing\555.png"img = cv2.imread(load) gray = cv2.cvtColor(img,cv2.COLOR_BGR2GRAY)运行报错如下：color.cpp:11147...

2018-08-11 15:42:56 3514

转载 Python 绘图库 Matplotlib 入门教程一

Matplotlib是一个Python语言的2D绘图库，其功能很强大，是许多应用输出效果的必备库。本文是对Python 绘图库 Matplotlib 入门教程，也是本人在网上寻找的非常适用于新人的入门教程。运行环境由于这是一个Python语言的软件包，因此需要你的机器上首先安装好Python语言的环境。关于这一点，请自行在网络上搜索获取方法。关于如何安装Matplotlib请参见这里：...

2018-07-24 16:43:24 446

空空如也

空空如也