自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(116)
  • 资源 (11)
  • 问答 (1)
  • 收藏
  • 关注

原创 MongoDB学习

mongodb----------------------------------------------------------1.安装新建 /etc/yum.repos.d/mongodb.repo,内容为[mongodb-org]name=MongoDB Repositorybaseurl=https://mirrors.tuna.tsinghua.edu.cn/mongodb/yum/el$releasever/gpgcheck=0enabled=1执行sudo yum ma.

2020-05-22 19:17:45 257

原创 机器学习第十周 SVM 支持向量机

机器学习第十周 支持向量机SVN学习目标知识点描述:致敬真神:支持向量机学习目标:SVM算法原理及数学推导​ * SVM算法中的核函数​ * SVM算法解决分类问题及回归问题学习内容入门支持向量机1:图文详解SVM原理与模型数学推导入门支持向量机2:软间隔与sklearn中的SVM入门支持向量机3:巧妙的Kernel Trick入门支持向量机4:多项式核函数与...

2020-05-03 19:47:17 370

原创 机器学习第九周 主成分分析PCA

机器学习 第九周 主成分分析学习目标知识点描述:无监督降维:主成分分析法学习目标:主成分分析法的思想及其原理PCA算法的实现及调用数据降维应用:降噪&人脸识别学习内容数据降维1:主成分分析法思想及原理数据降维2:PCA算法的实现及使用数据降维3:降维映射及PCA的实现与使用数据降维之应用:降噪&人脸识别学习ing主成分分析 PCA principal...

2020-04-26 21:10:52 304

原创 机器学习第八周 白盒模型-决策树

机器学习第八周 白盒模型—决策树学习目标知识点描述:白盒模型——决策树学习目标:决策树相关概念以及模型算法推导ID3、C4.5、CART决策树代码实现学习内容决策树1:初识决策树决策树2: 特征选择中的相关概念决策树3: 特征选择之寻找最优划分决策树4:构建算法之ID3、C4.5决策树5:剪枝与sklearn中的决策树决策树6:分类与回归树CART学习ing...

2020-04-19 22:57:14 858

原创 机器学习第七周 逻辑回归

机器学习第七周 逻辑回归1 学习目标知识点描述:应用广泛的二分类算法——逻辑回归学习目标:逻辑回归本质及其数学推导逻辑回归代码实现与调用逻辑回归中的决策边界、多项式以及正则化2 学习内容《出场率No.1的逻辑回归算法,是怎样“炼成”的?》《逻辑回归的本质及其损失函数的推导、求解》《逻辑回归代码实现与调用》《逻辑回归的决策边界及多项式》《sklearn中的逻辑回归中及正则...

2020-04-12 17:12:26 243

原创 机器学习第六周 机器学习重要概念补充

机器学习第六周 机器学习重要概念补充一、学习目标sklearn中的Pipeline偏差与方差模型正则化之L1正则、L2正则二、学习内容《浅析多项式回归与sklearn中的Pipeline》《ML/DL重要基础概念:偏差和方差》《(理论+代码)模型正则化:L1正则、L2正则》三、开动ing前面已经对简单线性回归和多元线性回归做了学习,如果数据没有线性关系那该如何处理。也就是对...

2020-04-04 16:02:49 334

原创 机器学习第五周 最优化方法:梯度下降

机器学习第五周 最优化方法:梯度下降一、学习目标梯度下降:实现梯度下降、线性回归中的梯度下降随机梯度下降:相关代码即调用二、学习内容《还不了解梯度下降法?看完这篇就懂了!》《手动实现梯度下降(可视化)》《线性回归中的梯度下降》《速度更快的随机梯度下降法》《梯度下降番外:非常有用的调试方式及总结》三、开动概括总结:机器学习于千万里寻找那一个函数f(x),对这个函数进...

2020-03-27 23:07:38 223

原创 numpy 学习

学习自:哔哩哔哩 上 Python3 快速入门数据分析 洺宇吖import numpy as npimport randomt1 = np.arange(12)#t1.shape 一维数组是其个数;二维数组 shape两个值;三维列表则shape是三个值t1array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11])#...

2020-03-21 15:42:07 300

原创 机器学习第四周 线性回归算法

机器学习第四周 线性回归算法一、学习目标:简单线性回归:简单线性回归及最小二乘法的数据推导实践:简单线性回归实现及向量化应用多元线性回归:多选线性回归和正规方程解及实现二、参考资料:1.《模型之母:简单线性回归&最小二乘法》https://mp.weixin.qq.com/s/ESKQKi_1K_WPXNistizDVw2.《模型之母:简单线性回归的代码实现》https:...

2020-03-20 23:07:46 231 1

原创 机器学习第三周 简单的数据预处理和特征工程

机器学习第三周 简单的数据预处理和特征工程一、学习目标????无量纲化:最值归一化、均值方差归一化及sklearn中的Scaler????缺失值处理????处理分类型特征:编码与哑变量????处理连续型特征:二值化与分段二、参考资料关于最值归一化、均值方差归一化及sklearn中的Scaler方面的学习,可以参考:《机器学习的敲门砖:归一化与KD树》及《特征工程系列:特征预处理(上)》)中相关部分。推荐博...

2020-03-14 19:05:23 305

原创 统计学第十七周 时间序列预测实战

统计学第十七周 时间序列预测实战一、目标:预测未来三期传统汽车的销量。二、数据背景:03年到19年第一季度分季度的数据,13年之前只有传统汽车的销量,13年之后是传统汽车+新能源汽车的销量,需要预测未来三期传统汽车的销量~ps:传统汽车的销量会受到新能源汽车的影响噢三、数据四、实战首先对各个季度的传统汽车销售量进行绘图展示,以求能够发现相应趋势。这里时间序列,能够发现一个...

2020-03-07 21:31:22 658

原创 机器学习第二周:如何评价模型的好坏

机器学习第二周:如何评价模型的好坏一、目标数据拆分:训练数据集&测试数据集评价分类结果:精准度、混淆矩阵、精准率、召回率、F1 Score、ROC曲线等评价回归结果:MSE、RMSE、MAE、R Squared二、学习资料《机器学习的敲门砖:kNN算法(中)》(https://mp.weixin.qq.com/s/vvCM0vWH5kmRfrRWxqXT8Q)全文,学习数据...

2020-03-07 17:48:22 836

原创 机器学习第一周KNN k近邻分类

机器学习第一周:机器学习的敲门砖kNN算法一、学习目标kNN算法的思想及其原理使用python手动实现kNN算法,并在sklearn中调用了解监督学习和非监督学习的概念二、kNN算法的思想及其原理​ KNN算法中文名称叫做K近邻算法。它是一个有监督的机器学习算法,其核心思想是未标记的样本的类别,由距离它最近的K个邻居投票来决定。(1)有已经标记的数据,需要判断一个未标记的数...

2020-03-01 23:41:03 198

原创 统计学第十六周 时间序列分析与预测

统计学第十六周 时间序列分析与预测概念:基本概念时间序列:是同一现象在不同时间的相继观察值排列而成的序列。平稳序列:基本上不存在趋势的序列。各观察值基本上在某个固定的水平上波动,虽然在不同的时间段波动的程度不同,单并不存在某种规律,波动可以看成是随机的。非平稳序列:包含趋势、季节性或周期性的序列,它可能只包含其中一种成分,也可能包含几种成分,非平稳序列又分为有趋势的序列、有趋势和季节...

2020-02-29 22:59:45 2870

原创 统计学第十五周 方差分析实践

统计学第15周 方差分析实践题目数据背景:有A、B、C、D四个地区,不同地区的销售量不一样,现抽取了不同时间段内每个地区的销售量,试解决:1、每个地区间的销售量是否相同?2、不同月份的销售量是否相同?3、不同时间与地区的销售量是否相同?数据问题1 每个地区间的销售量是否相同?根据上一节学习内容,可以用单因素方差分析,先假设,再构造统计量,最后进行决策根据上一节学...

2020-02-21 23:39:05 523

原创 统计学第十四周 : 方差分析

统计学第十四周 :方差分析一、知识点因子在方差分析中所要检验的对象称为因子或因素factor。如书中所介绍消协分析不同行业的服务质量,因此行业就可以称为因子。不同行业如零售业、旅游业、航空公司、家电制造业是行业这一因素的具体表现称为水平。每个行业下得到的被投诉次数称为观测值。由于这里只涉及行业一个因素,所以称为单因素4水平的试验。水平因素的不通表现称为水平。同时每个因子水平下得到...

2020-02-16 17:35:34 1143

原创 统计学第十三周 线性分析

统计学第13周-python练习线性回归研究给出数据中车辆销售与各列数据关????代码(参考自引用网站https://blog.csdn.net/qq_43315928/article/details/104150586)# -*- coding: utf-8 -*-import pandas as pdimport numpy as npfrom sklearn.model_...

2020-02-08 14:33:01 343

原创 统计学第十二周:回归分析

统计学第十二周:回归分析一、 概念回归分析主要解决的问题有:(1)从一组样本数据出发,确定变量之间的数学关系式(2)对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出那些变量的影响是显著的,那些事不显著的。(3)利用所求的关系式,根据一个或几个变量的取值来估计或预测另一个特定变量的取值,并给出这种估计或预测的可靠程度。一元线性回归1.1 相关关系⚛️...

2020-01-17 22:42:31 1316

原创 统计学第十一周:利用假设检验分析

统计学第十一周:一 问题:1、人体体温的总体均值是否为98.6华氏度?2、人体的温度是否服从正态分布?3、人体体温中存在的异常数据是哪些?4、男女体温是否存在明显差异?5、体温与心率间的相关性(强?弱?中等?)引申出来的点:你要怎么向运营或者产品的同事展示数据结果?二 根据给出的数据进行验证(假设检验)原假设H0:给出数据,人体体温的总体均值μ0=98.6,备择假设H1:...

2020-01-11 21:56:27 458

原创 统计学第十周 假设检验

统计学第十周 假设检验hypothesis testing参数估计和假设检验,是统计推断的两个组成部分,他们都是利用样本对总体进行某种推断,但推断的角度不同。参数估计讨论的是样本统计量估计总体参数的方法,总体参数在估计前是未知的。而在假设检验中,则是先对均值提出一个假设,然后利用样本信息取检验这个假设是否成立。一. 基本概念原假设统计中用一个等式或不等式表示问题的原假设。H0表示原...

2020-01-05 23:29:53 842

原创 统计学第九周:参数估计python实现

统计学第九周参数估计复习参数估计,根据从总体中随机取样获得样本,根据取样样本来估计总体分布中参数的过程。方法:估计形式上分:点估计与区间估计;估计的方法有矩法估计,最小二乘法估计,似然估计,贝叶斯估计等等问题一般有:????未知参数的估计量????在一定置信度下求解估计量的精度实战2.1#coding=utf-8import pandas as pdimport nu...

2019-12-27 14:29:10 641

原创 数据可视化-第六周

数据可视化 第六周如何提升数据可视化的表现效果影响数据可视化的因素:非数据层面+数据层面????非数据层面:1.1 布局要强调最重要的数据信息,将用户注意力集中再可视化结果的最重要区域,针对重点数据,对可视化结果的重要性和优先级进行排序。通过对可视化空间的合理布局设计,将用户的注意力集中到可视化结果中最重要的一个或几个区域上。在用户关注的重点区域,集中放置,吸引视觉焦点,并通过不同区域强调...

2019-12-23 20:39:33 411

原创 统计学第八周:参数统计

统计学:参数估计概念1.利用总体统计不方便甚至是无法完成的现实状况,采用抽样的方式,利用样本提供的信息来推断总体的特征。2.点估计:point estimate, 用样本统计量的某个取值直接作为总体参数的估值。但一个点估计值的可靠性是由它的抽样标准误差来衡量的,这表明一个具体的点估计值无法给出估计的可靠性的度量。当围绕点估计值构造总体参数的一个区间,这就是区间估计。3.区间估计:in...

2019-12-22 15:32:49 3318

原创 python groupby分组运算

DataFrame groupby使用agg()运算多个分组A.groupby( [“班级”,“性别”]).agg([np.sum, np.mean, np.std])#一次计算了三个时间分组时间序列直接作为index或者有一列是时间序列,如果时间中有"/",需要进行转换:A[“生日”] = pd.to_datetime(A[“生日”],format ="%Y/%m/%d")#...

2019-12-16 21:58:43 800

原创 数据可视化第5周:常用图表对比

数据可视化第五周常用图表对比,当我们需要展示的时候,该如何选择图表?根据学习提供的思路:????可视化目标????数据集格式????图表异同????适用场景一.常用图表的对比柱状图&条形图联系:???? 两者均是两个字段,一个代表分类,另一个代表数值。????当数据的记录数不大于12条,分类字段的字符长度小于5时,两者可以互换。区别:????柱状图:如果分类字段时时间序列,可以优先使用柱状图,能更...

2019-12-15 23:56:24 1856

原创 统计学第七周 python验证正态分布/卡方分布/T

统计学第七周一.知识回顾上周已经学习过正态分布/卡方分布/T分布等知识,前面学习已学过,但是如何选择哪一个的问题?????正态分布????卡方分布????T分布二.实践1.场景:泰坦尼克号数据,主要是age年龄,Fare价格即船票价格,Embark登船的港口,需要验证数据师傅服从正太分布,T分布,卡方分布?具体数据如下:IDAgeFareEmbarked1227.25...

2019-12-13 17:25:55 2077

原创 docker 安装Oracle并创建表空间,用户,赋权限

docker 安装Oracle1、拉取镜像docker pull registry.cn-hangzhou.aliyuncs.com/helowin/oracle_11g镜像详情:https://dev.aliyun.com/detail.html?spm=5176.1972343.2.8.E6Cbr1&repoId=1969由于镜像我已经拉取,所以此处显示已存在,查看镜像信息d...

2019-12-12 16:44:14 3733

原创 Docker容器学习-sqlflow前奏

docker 容器学习容器使用启动容器使用ubuntu镜像启动一个容器,参数以命令行模式进入该容器:$docker run -it ubuntu /bin/bash参数说明:????-i 交互式操作????-t 终端????ubuntu 镜像????/bin/bash 放在镜像名后的是命令,这里我们希望有个交互式shell启动已停止运行的容器#查看所有容器命令docker ps -...

2019-12-09 21:52:59 413

原创 统计学第六周

统计学第六周抽样分布统计量X1,X2,...,Xn,是从总体X中抽取的容量为n的一个样本,如果由此样本构造一个函数T(X1,X2,...,Xn),不依赖于任何未知参数,则称函数T(X1,X2,...,Xn)是一个统计量。X_1,X_2,...,X_n,是从总体X中抽取的容量为n的一个样本,如果由此样本构造一个函数T(X_1,X_2,...,X_n),不依赖于任何未知参数,则称函数T(X...

2019-12-08 22:40:51 273

原创 数据可视化第4周

数据可视化第4周数据可视化数据关系的表示:(本为引自数据科学家联盟公众号,主要是数据可视化小组自己做的笔记,如引用请联系微信公众号:数据科学家联盟)对进度、关系、地理信息进行可视化一、三类数据区间型数据区间型数据一般分为两种:????‍????数据本身就是比例数据,一般以XX率的形式出现,用来指示某项指标的达成情况????‍????数据本身是数值型数据,但是根据业务需要会对数据进行区间段划分,并和一些...

2019-12-08 22:27:38 455

原创 可视化学习第三周-对比型和分布型数据

一.目标了解数据之间的对比关系,可以通过哪些「标记+视觉通道」映射,从而来表现差异;熟练掌握表示数据对比关系的图形类型,以及这些图形的适用场景、异同;熟悉描述性统计的相关内容,掌握分布型数据可视化的常用图表和适用场景;实践:给定2个数据集,选择合适的图表并进行可视化呈现,实现工具不限;二.如何优雅地选择数据图表:对比型和分布型数据图表2.1 对比型和分布型对比型:对比两组或两组...

2019-12-01 22:06:20 598

原创 统计学习第5周

统计学习第5周一、概率第四周复习1、离散变量、随机变量2、期望、方差3、离散概率分布 二项分布、伯努利分布、泊松分布4、连续概率分布 均匀分布、正态分布、指数分布二、Python实现1.在安装python及进行科学计算,建议安装anaconda 3.5.0 ,版本,可以百度搜索清华大学镜像进行下载,安装,该版本对应python3.6;对于python的IDEA ,可以安装p...

2019-11-29 22:47:51 290

原创 数据可视化第二周

数据可视化第二周二、离散场景和连续场景两组数据分析展示2.1离散场景1时序数据数据集1,场景某电商公司2018年销售额整体趋势情况,以及不同品类销售额的发展趋势,可用折线图。(第一次觉得用百分比堆叠图或者普通堆叠图表示较好,并列柱状图可能数据线条比较多,而且折现条数也是,用百分比堆叠图,能利用百分比堆叠图各类趋势变化,还有占比比较清楚。普通的堆叠图应该也可以,不过4个题目全看过后感觉还是用...

2019-11-24 22:32:54 193

原创 python的Numpy练习(python3)

#coding=utf-8import numpy as np'''numpy 数组'''data = np.arange(12).reshape(3,4) #创建一个3行4列的数组#print(data)#print(type(data))#print(data.ndim) #数组维度的个数,2维,3*4#print(data.shape) #数组的行数 列数 ...

2019-11-23 14:13:18 379

原创 统计学习第四周

统计学习第四周一、基本概念1.随机变量概念:在同一组条件下,如果每次试验可能出现的结果,并且所有结果都可以列出来,即X的所有可能值为x1,x2,x3,...,xn都能例举出来,而且X所有的可能值x1,x2,...,xn具有确定的概率P(x1),p(x2),p(x3),...,p(xn),其中P(xi)=p(X=xi),x_1,x_2,x_3,...,x_n都能例举出来,而且X所有的可...

2019-11-21 22:43:08 163

原创 数据可视化小组-第一周 解读数据可视化

数据可视化小组-第一周解读数据可视化对于数据可视化,还是挺有一些感触的,毕竟正在参与公司的可视化的展示。感觉小组推送的文章中4个步骤是很中肯的。> > 可视化4个过程:> >> > > > 1.确定数据可视化的主题> > > >> > > > 2.提炼可视化主题的数据> >...

2019-11-16 23:57:31 296

原创 统计学习第三周:描述性统计

一、python安装python安装,我们常用在windows或者linux中安装。目前经常用到的版本有python2.7,python3.6.X,不过目前python2.7在2020年将会被取消更新。网上建议升级到3.x版本,但是目前仍有些程序运行在python2.7稳定版本上,因此可能会经常安装2个版本的python。可以安装anaconda,其中自带了相关的python科学计算包...

2019-11-13 23:21:20 321

原创 统计学习小组第二周-数据的维度描述

数据的描述维度:数据的维度主要用集中趋势、离散程度、分布形态三块表示。一、集中趋势1.算数平均值2.加权算数平均值注:算数平均值是特殊的加权算数平均值,其每个权重均为1;同时如果数据样本中出现极大值、极小值时,再计算平均值,其实际的意义可能就会打折扣,如我们经常说的被平均了。3.几何平均值xj=x1x2⋯xnx_j=\sqrt{x_1 x_2 \cdots x_n}xj​=...

2019-11-10 00:32:25 1234

原创 统计学学习第一周

一、统计学学习统计学课程一般的我们在分析前都会对数据质量做些简单衡量,以能够确保我们分析结果的有效性。这时我们可以用数理统计知识来衡量我们数据的质量,利用均值、方差、标准差、协方差等衡量数据的集中、离散,更甚者衡量元素之间的相关性。比如说,一年一度都会发布一项我们比较关注的数据,某某行业的平均工资,这时我们就会说:不好意思我们又拉了后腿。其实这里的平均工资,对我们这样的人来说是被平均了。如果...

2019-11-01 23:21:52 346

转载 箱体模型数据分析

数据质量分析,是数据挖掘中数据准备过程中的重要一环,是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础。其主要任务是检测原始数据中是否存在脏数据,脏数据一般包括:缺失值、异常值、不一致值、重复数据及含有特殊符号的数据。其中异常值分析时对样本中个别值的提取,也成为离群点分析。可以采用(1)简单统计量分析(2)3б原则(正态分布)(3)箱型图分析下图为对一组数

2017-12-22 14:27:01 1625

高级数据库技术学习总结

高级数据库技术的学习总结,主要是设计到分布式数据库管理系统的讲解和总结。

2015-10-20

python自学笔记按照

按照《python编程入门经典》学习,过程中所做的笔记和一些程序记录,及其当中遇到的问题和解决方案。

2015-07-02

GridView或者数组形式的元素循环删除错误

关于数组和GridView 或者和java中ArrayList相同的数据结构,其中元素在循环对比删除时,遇到的一些比如数组越界,或者删除一项后,中间隔一项,跳到下下项继续再比较的情况,如何分析,和解决。

2014-09-16

高级数据库的综述论文

自己写的关于分布式数据库的总结,这是我们学期末的报告论文。里面具体内容包括分布式数据库的基本介绍,框架结构、查询和存储优化、事务管理和并发等等。

2014-07-08

eclipse对于jetty的插件

最近jetty在与eclipse中的插件安装无响应,现直接把相应的插件文件jetty上传,解压后,直接放到eclipse的eclipse\plugins\下面即可,这是eclipse-win32的版本,不知道在64bit版本下是否可以运行。

2014-07-08

遗传算法总结

遗传算法MATLAB实现TSP问题,遗传算法相关总结,MATLAB程序代码,结果数据和分析

2014-05-31

MFC绘图映射模式设备坐标问题

Windows 绘图映射模式,对于逻辑坐标系和设备坐标系的转换及其何时设备坐标系的变化,以帮助程序理解的方式说明设备坐标系的在不同模式下不同的情形。

2014-03-07

机器学习PLA、pocket

对于PLA POCKET算法的描述主要是根据学习MOOC上台湾国林大学林轩田老师的机器学习基石课程,可以当做笔记。讲述收敛的可能性,迭代形式,和代码用matlab实现,及其部分测试数据,如果想要完整数据,可以联系我。

2014-01-08

分治法实现赛程安排java

java用分治法实现赛程安排的程序。N个参赛队员,每个队员间比赛一场,要求在N-1天内完成。输出结果第一行(或者第一列)当成队员标号,从第二行开始作为第一天,到第N-1天的比赛对手安排。

2013-11-15

spring的jar包解决:DispatcherServlet

Error loading WebappClassLoader org.springframework.web.servlet.DispatcherServlet java.lang.ClassNotFoundException: org.springframework.web.servlet.DispatcherServlet at org.apache.catalina.loader.WebappClassLoader.loadClass (WebappClassLoader.java:1680) 严重: Servlet /LogMess threw load() exception java.lang.ClassNotFoundException: org.springframework.web.servlet.DispatcherServlet 这个问题应该是spring包所带来的问题,最后还是从新下了一个spring2.5的完整包,从 dist下的modules下的jar包挨个试的,最后确定三个:(dist下)spring.jar,(dist/modules/)spring-webmvc.jar,及从另外找(下的)的 commons-logging.jar包;而且在Eclipse从build path------configure build path里面添加的,也会 出问题,要将其复制到web-inf下面的lib文件夹下,才可以

2012-01-31

java课程设计

1. 建立复数对象,公共方法有加、减、乘、除、求模, 重载toString()输出(重写); 考虑静态方法和动态方法???。如有可能考虑操作符重载。 2. 建立复数有序链表结构的集合 (复数不能重复,按照模的大小排序), 链表的操作有添加,删除,查找。 3. 对上面的复数链表集合, 做一个方法从文本文件读取复数添加到有序链表, 另一个方法把链表导出到文本文件 。注:文本文件的复数可以用逗号分隔。 读取的文本文件的复数是无序的。 4. 考虑多线程的处理,对链表操作的添加和删除加锁, 设置最大集合数量,如果链表为空,不能删除, 如果复数数量达到最大,不能添加。

2011-12-24

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除