自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 收藏
  • 关注

原创 pandas 数据透视

目录数据透视数据透视Excel中数据透视表的使用非常广泛了,其实Pandas也提供了一个类似的功能,名为pivot_table.。使用padas的pivot_table的一个挑战是,需要确保理解你的数据,并清楚的知道想通过透视表解决什么问题,虽然pivot_table看起来只是一个简单的函数,但它能够快速地对数据进行强大的分析。基础形式pd.pivot_table(df,index=['名字']) #根据名字做索引多个索引pd.pivot_table(df,index=['名字','产地']

2020-09-30 15:25:49 313

原创 pandas 数据格式转换

目录数据格式转换查看格式格式转换排序基础统计分析描述性统计分析最值、均值、方差等数据格式转换在做数据分析的时候,原始数据往往会因为各种各样的原因产生各种数据格式的问题。数据格式是我们非常注意的一点,数据格式错误往往会造成严重的后果。并且,很多异常值也是我们经过格式转换之后才会发现,对我们规整数据、清洗数据有者重要的作用。读取数据import pandas as pdimport numpy as npdf=pd.read_excel('C:/Users/HP/Desktop/tf/电影.xls

2020-09-29 15:01:00 1953

原创 pandas 异常值处理

目录缺失值及异常值处理缺失值处理方法判断缺失值填充缺失值缺失值及异常值处理缺失值处理方法判断缺失值df.isnull() #是否是缺失的判断df['名字'].isnull() #确定列进行判断填充缺失值

2020-09-29 13:15:28 1426

原创 pandas 数据处理

目录pandas读取数据及数据处理行操作添加一行删除一行列操作添加一列删除一列通过标签选择数据条件选择pandas读取数据及数据处理这里以电影评分为例:(随机摘取):df=pd.read_excel('C:/Users/HP/Desktop/tf/电影.xlsx') #读取数据df.head() #查看数据前5行行操作df.iloc[0] #查看第一行名字 肖申克的救赎投票人数 692795类型 剧情/犯罪产地 美国上映

2020-09-28 20:40:01 227

原创 pandas数据类型介绍

目录pandas 基本介绍pandas 基本数据结构series 类型Data Frame 类型查看数据pandas 基本介绍pandas是基于Numpy的一种工具,该工具是为了解决数据分析任务而创建的。Pandas纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具,同时也提供大量能使我们快速便捷的处理数据的函数和方法。import pandas as pdpandas 基本数据结构pandas 有两种常用的基本结构:Series一维数组,与Numpy中的一维array类

2020-09-27 22:38:18 3018 1

原创 python Numpy学习(五)

目录多维数组操作数组形状多维数组操作数组形状a=np.array(6)aarray([0, 1, 2, 3, 4, 5])a.shape=2,3 #设置成2行3列的矩阵aarray([[0, 1, 2] [3, 4, 5]])a.shape(2,3)

2020-09-27 19:13:05 426

原创 python Numpy学习(四)

目录类型转换asarray函数astype方法数组操作数组排序sort函数argsort函数求和最大值最小值均值标准差相关系数矩阵类型转换a.nparray([1.5,-3],dtype=float)#转换数字类型为浮点数aarray([ 1.5, -3.])asarray函数np.array([1,2,3])np.asarray(a,dtype=float)array([ 1., 2., 3.])astype方法astype方法是返回一个新数组:a=np.array([1,2,

2020-09-25 18:54:04 135

原创 python Numpy学习(三)

目录python numpy学习(三)花式索引一维花式索引二维花式索引python numpy学习(三)花式索引切片只能支持连续或者等间隔的切片操作,要想实现任意位置的操作,需要使用花式索引fancy slicing.一维花式索引与range函数类似,我们可以使用arange函数来生成等差数列。a=np.arange(0,100,10)aarray([0, 10, 20, 30, 40, 50, 60, 70, 80, 90])花式索引需要指定索引位置:index=[1,2,-3]y

2020-09-25 18:08:42 134

原创 python Numpy学习(二)

目录python Numpy学习索引与切片多维数组及其属性多维数组索引多维数组切片python Numpy学习索引与切片和列表相似,数组也支持索引和切片操作。索引第一个元素:a=np.array([0,1,2,3])a[0]0修改第一个元素的值:a[0]=10aarray([10 ,1, 2, 3])切片,支持负索引:a=np.array([11,12,13,14,15])a[1:3]array([12, 13])a[1:-2]array([12, 13])a[-

2020-09-22 15:53:59 148

原创 python自定义函数

自定义函数函数function,通常接受输入参数,并有返回值。它负责完成某项特定任务,而且相较于其他代码,具备相对的独立性。函数通常有以下特征:使用def关键词来定义函数.def后面是函数的名称,括号中是函数的参数,不同参数用“,”隔开.def func():的形式是必须要有的,参数可以为空.使用缩进来划分函数的内容.return返回特定的值,如果省略,返回None.def add(x,y): #定义函数 a=x+y return aprint(add(2,3))

2020-09-22 14:28:40 272

原创 python Numpy学习(一)

目录python Numpy学习Numpy的数组对象及其索引产生数组数组属性python Numpy学习Numpy是Python的一种开源的数值计算扩展器。这种工具可用来存储和处理大型矩阵,比Python自身的嵌套列表结构要高效的多。 Numpy提供了许多高级的数值编程工具。 Numpy的一个重要特性是它的数组计算。是我们做数据分析必不可少的一个包。导入python库使用关键字import,后面可以自定义库的简称,但是一般都是将 Numpy命名为np,pandas命名为pd.使用前一定要先导入

2020-09-22 14:19:37 124

原创 python数据结构

目录数据类型列表List元组tuple字典dict集合set类型转换可变对象和不可变对象数据类型以上是简单的常用数据类型列表Lista = [1,2,3,4,5]a[1, 2, 3, 4, 5]names=['张楚','蔡会文','郑语','王格斯','李湘','范例']names['张楚', '蔡会文', '郑语', '王格斯', '李湘', '范例']列表里面允许数字类型不一样:b=[1,2,3,'周迅','章子怡']b[1, 2, 3, '周迅', '章子怡']列表生成式

2020-09-18 00:06:28 114

原创 python条件循环语句

目录条件语句if 语句if - else语句if - elif - else 语句循环语句while循环语句while - else 循环语句for 循环语句for - else 循环语句for 循环中的 range 函数条件语句Python 中的 条件控制语句 (Conditional control statement) 是通过一条或者多条语句的执行结果(True 或者 False),来决定执行的代码逻辑 。它包含 if 、elif 、else 关键字, Python 中没有 else if 的

2020-09-16 13:56:39 2429

原创 实参、形参、局部变量和全局变量

目录实参和形参实参数据传递函数调用过程形参实参和形参的关系局部变量和全局变量局部变量局部变量的作用域说明:全局变量全局变量说明:实参和形参实参实际参数简称“实参”。在调用有参函数时,函数名后面括号中的参数称为“实际参数”,实参可以是常量、变量或表达式。在调用有参函数时,主调函数和被调函数之间有数据传递关系。在主调函数中调用一个函数时,函数名后面括号中的参数称为“实际参数”(简称“实参”)。实参可以是常量、变量或表达式, 无论实参是何种类型的量,在进行函数调用时,它们都必须具有确定的值, 以便把这些

2020-09-15 16:53:39 8373

原创 逻辑回归

目录逻辑回归估算概率训练和成本函数决策边界逻辑回归逻辑回归就是被广泛用于估算一个实例属于某个特定类别的概率。如果估算概率超过50%就是属于该类,反之则不是。估算概率逻辑回归模型概率估算:逻辑函数:预测模型:t = np.linspace(-10, 10, 100)sig = 1 / (1 + np.exp(-t))plt.figure(figsize=(9, 3))plt.plot([-10, 10], [0, 0], "k-")plt.plot([-10, 10], [0.5,

2020-09-14 12:23:22 107

原创 正则线性模型

目录正则线性模型岭回归套索回归弹性网络早期停止法正则线性模型减少模型过拟合的一个好办法是对模型正则化。对于多项式模型,简单办法就是降低多项式的阶数,下面将会使用Ridge回归、Lasson回归、Elastic网络三种方法来对权重进行约束。岭回归岭回归是线性回归的正则化版,通过在成本函数中添加一个等于的正则项,需要注意的是,正则项只能在训练的时候添加到损失函数中,一旦训练完成,需要使用未经正则化的性能指标来评估模型性能。执行岭回归前,必须对数据做特征缩放,因为其对于输入特征的大小非常敏感。fr

2020-09-13 14:58:42 331

原创 多项式回归 学习曲线

目录多项式回归学习曲线多项式回归如果数据比简单的线性更加复杂,我们也可以用线性模型来拟合,只需要给每个特征添加一个新特征,然后用扩展后的新特征来训练。import numpy as npimport numpy.random as rndnp.random.seed(42)m = 100X = 6 * np.random.rand(m, 1) - 3y = 0.5 * X**2 + X + 2 + np.random.randn(m, 1)#设置方程plt.plot(X, y, "b.")

2020-09-12 18:46:24 688

原创 机器学习笔记:梯度下降

目录梯度下降批量梯度下降随机梯度下降小批量梯度算法梯度下降梯度下降是非常常用的优化方法,能够为大范围的问题找到最优解,可以类比迷失在浓雾的山上想下山。具体而言,通过测量参数相关的误差函数的局部梯度,并不断沿着降低梯度的方向调整,直到梯度降为0,达到最小值。梯度下降每一个重要参数的每一步的步长,这取决于超参数学习率。并不是所有的成本函数都像碗,有的可能像洞,像其他各种不规则的地形,导致模型难以收敛。梯度下降算法的两个主要挑战,一个是局部最小值,另一个是高原地区需要很长时间才能越过。不过线性回归模型的M

2020-09-11 17:42:06 333

原创 机器学习笔记:线性回归

目录线性回归标准方程代码示例线性回归概括而言,线性模型就是对输入特征加权求和,再加上一个我们称为偏置项(也称为截距项)的常数。线性回归公式:向量化:回归模型的MSE成本函数:标准方程求解成本函数最小的参数的解方法:代码示例import numpy as npX = 2 * np.random.rand(100, 1)y = 4 + 3 * X + np.random.randn(100, 1)# 使用sklearn的函数来获取MNIST数据集from sklearn.da

2020-09-10 18:47:12 190

原创 机器学习的主要挑战

目录机器学习的主要挑战训练数据的数量不足训练数据不具有代表性质量差的数据无关特征训练数据的过度拟合训练数据的拟合不足测试和验证测试集交叉验证没有免费的午餐的定理机器学习的主要挑战训练数据的数量不足目前大部分机器学习算法都需要大量的数据才能正常工作(除非重用现有模型的某些部分)。数据的不合理有效性2001年,微软有研究员表明,截然不同的机器学习算法(包括最简单的算法)在自然语言歧义消除这个复杂问题的表现上,几乎完全一致。这些结果表明,和算法开发上,数据的建设也尤为重要.训练数据不具有代表性就如

2020-09-09 15:31:39 699

原创 机器学习笔记:概览

目录机器学习笔记:概览什么是机器学习为什么要使用机器学习机器学习系统的种类监督式/无监督式/半监督式学习批量学习和在线学习基于实例学习与基于模型的学习机器学习笔记:概览什么是机器学习机器学习是一门能够让编程计算机从数据中学习的计算机科学和艺术。工程化定义:一个计算机程序在完成任务T之后,获得经验E,其表现效果为P,如果任务T 的性能表现,也就是用以衡量的P,随着E的增加而增加,可以称之为学习考虑。垃圾邮件过滤的例子为例。为什么要使用机器学习通过机器学习算法可以简化那些现有解决方案需要大量手

2020-09-08 20:07:34 119

原创 网络优化与超参数选择

目录网络优化与超参数选择网络容量如何选择超参数?代码实现网络优化与超参数选择网络容量可以认为与网络中的可训练参数成正比。其中网络中的神经单元数越多,层数越多,神经网络的拟合能力越强。但是训练速度、难度越大,越容易产生过拟合。增大网络容量的方法:(提高网络的拟合能力)增加神经元的个数增加隐藏层如何选择超参数?所谓超参数,也就是搭建神经网络中,需要我们自己选择(不是通过梯度下降算法取优化)的那些参数。比如,中间层的神经个数、学习速率等。那么如在上述提到的方法中如何提高网络的拟合能力:单纯

2020-09-07 20:09:33 299

原创 优化函数、学习速率与反向传播算法介绍

目录优化函数、学习速率与反向传播算法介绍多层感知器梯度下降算法学习速率反向传播算法常见的优化函数优化函数、学习速率与反向传播算法介绍多层感知器多层感知器架构:输入层输入数据,中间有一层活着多层隐含层,接着是输出层,输出层有个特点,假如说,预测一个连续的值,不对其进行激活,直接输出;那么研究二分类问题(是、否),对输出层进行sigmoid()函数运算;进行多分类输出预测时,可以使用softmax()函数运算,从而输出多个分类的概率分布。多层感知器的优化函数是梯度下降算法。梯度下降算法梯度下降算

2020-09-06 21:42:38 673

原创 笔记:softmax分类

目录softmax分类数据集介绍:代码实现softmax分类对数几率回归解决的是二分类问题,对于多个选项 的问题,我们可以使用softmax函数。它是对数几率回归在 N个可能不同的值上的推广。神经网络的原始输出不是一个概率值,实质上只是输入的数值做了复杂的加权和与非线性处理之后的一个值而已,那么如何将这个输出变为概率分布?这就是Softmax层的作用。Softmax要求每个样本必须属于某个类别,且所有可能的样本均被覆盖,Softmax个样本分量之和为1,当只有两个类别时,与对数几率回归完全相同.

2020-08-30 20:44:42 305

原创 逻辑回归于交叉熵

目录逻辑回归于交叉熵什么是逻辑回归:逻辑回归损失函数:交叉熵损失函数keras交叉熵代码实现逻辑回归于交叉熵什么是逻辑回归:线性回归预测的是一个连续值,逻辑回归给出的“是”和“否”的回答。使用sigmoid()函数来实现逻辑回归的预测,sigmoid()函数是一个概率分布函数,给定某个输入,它将输出为一个概率值。逻辑回归损失函数:平方差所惩罚的是与损失为同一数量级的情形,对于分类问题,我们最好的使用交叉熵损失函数会更有效果。交叉熵会输出一个更大的“损失”交叉熵损失函数交叉熵刻画的是实际输出(

2020-08-24 13:59:20 529

原创 梯度下下降法

目录梯度下降法多层感知器激活函数代码实现梯度下降法梯度下降法是一种致力于找到函数极值点的算法。梯度的输出是由若干偏导数构成的向量,它的每个分量对应于函数对输入向量的相应分量的偏导。梯度的输出向量表明了在每个位置损失函数增长最快的方向,可将它视为表示了在函数的每个位置向哪个方向移动函数值可以增长。多层感知器上节课提到的线性回归模型是单个神经元:计算输入特征的加权和,然后使用一个激活函数(或传递函数计算输出:二分类:多分类:那么,多层感知器可以说是生物的神经元一层一层连接起来,当神经信号达到

2020-08-23 20:36:15 173

原创 tf.keras概述

Tensorflow tf.keras概述Tensorflow特点:1.真正的可移植性引入各种计算机设备的支持包括CPU/GPU/TPU,以及能够很好的运行在移动端,如安卓设备、ios、树莓派等等。2.多语言支持Tensorflow有一个合理的c++使用界面,也有一个易用python使用界面来构建和执行你的graphs,可以直接写python/c++程序。3.高度灵活与效率Tensorflow是一个采用数据流图(data flow graphs),用于数值计算的开源软件库能够灵活

2020-08-22 22:22:11 491

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除