zrx1236-CSDN博客

原创分类算法-朴素贝叶斯算法

朴素贝叶斯：1.概率基础联合概率：包含多个条件，且所有条件同时成立的概率记作：????(????,????)条件概率：就是事件A在另外一个事件B已经发生条件下的发生概率记作：????(????|????)特性：P(A1,A2|B) = P(A1|B)P(A2|B)注意：此条件概率的成立，是由于A1,A2相互独立的结果2.利用朴素贝叶斯划分文档类型朴素：特征独立贝叶斯公式：注：w为给定文档的特征值(频数统计,预测文档提供)，c为文档类别公式可以理解为：其中c可以是不同类别公

2020-11-24 10:37:38 268

原创分类算法-k近邻算法

分类算法的判定依据：目标值为离散型分类算法-k近邻算法（KNN）基本概念：举例：根据特征判断：以上可以通过与未知电影的距离得出一个未知电影的类型。k近邻算法定义：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。来源： KNN算法最早是由Cover和Hart提出的一种分类算法计算距离公式：两个样本的距离可以通过如下公式计算，又叫欧式距离比如说，a(a1,a2,a3),b(b1,b2,b3)k近邻算法需要标准化sk

2020-11-10 15:16:32 598 1

原创转换器与预估器

目录转换器：预估器转换器：数据集–>（fit_transform(x)）–>转换后的数据集fitfit_transform()：输入数据直接转换fit_transformfit():输入数据，但不做事情（计算平均值和标准差）+transform():进行数据的转换（以fit()的标准差和平均值去计算的）预估器在sklearn中，估计器(estimator)是一个重要的角色，分类器和回归器都属于estimator，是一类实现了算法的API。1、用于分类的估计器：skle

2020-11-09 17:18:47 229 1

原创 SKlearn数据集划分，数据集接口，分类数据集和回归数据集分别下两个看看

SKlearn数据集1.数据集的划分如果拿到数据全都用来训练一个模型？所以就需要把数据集划分为训练集和测试集划分比例：训练集（建立模型）测试集（评估模型是否有效）70%30%80%20%75%25%获取数据集返回的类型：load和fetch返回的数据类型datasets.base.Bunch(字典格式)data：特征数据数组，是 [n_samples * n_features] 的二维numpy.ndarray 数组target：标

2020-11-03 11:21:36 806

原创写在机器学习之前、机器学习开发流程、算法分类、机器学习模型

目录一、写在机器学习之前数据类型：二、机器学习开发流程三、机器学习算法分类监督学习分类问题回归问题标注无监督学习四、机器学习模型一、写在机器学习之前1.需要明确的几点问题：（1）算法是核心，数据和计算是基础（2）找准定位：2.大部分复杂的都是工程师在做，我们需要：*分析数据*分析具体的业务*应用常见的算法*特征工程、调参、优化3.我怎么做：（1）学会分析问题，使用机器学习算法的目的，想要算法完成何种任务。（2）掌握算法的基本思想，学会对问题用相应算法解决（3）利用框架和库解决问

2020-11-02 20:51:04 207 1

原创深度学习算法基础----数据特征预处理，数据降维

目录数据特征预处理特征处理的方法sklearn特征处理归一化标准化结合标准化和归一化缺失值处理问题及解决：2.imputer数据特征预处理图片：特征的预处理：对数据进行处理缺失值：预处理的两种方式：数据的特征预处理：特征处理的方法特征预处理是什么：通过特定的统计方法（数学方法）将数据转化成算法要求的数据。数值型数据处理方法：标准缩放：1.归一化2.标准化3.缺失值**类别型数据：**one-hot编码时间类型：时间的切分sklearn特征处理sklearn特征处理API

2020-10-27 17:47:07 1382

原创深度学习算法基础----机器学习介绍、特征工程和文本特征提取

机器学习简介人工智能，机器学习，深度学习出现的时间及关系：（如图）机器学习概述1.机器学习是从数据中自动分析获得规律（模型），并利用规律对未知数据进行预测2.机器学习可以：解放生产力（智能客服）、解决专业问题（ET医疗辅辅助医疗）、提供社会便利（城市大脑）3.价值：让机器学习程序替换手动的步骤，减少企业的成本也提高企业的效率。特征工程和文本特征提取数据集机器学习的数据：文件、csv文件为什么不存在mysql中：1.存在性能瓶颈，读取速度遭到限制2.格式不符合机器学习要求的数据格式pa

2020-10-27 17:11:30 644 1

原创概率论与贝叶斯先验

概率论基础概率与直观如果要比较两个方便画图的时候，画图很好解决，几何概型贝叶斯公式的应用（没学会）先验概率，后验概率常见概率分布两点分布（0-1分布）二项分布泊松分布均匀分布指数分布正态分布总结：一个新的分布： Beta分布Sigmoid/Logistic函数的引入统计量期望方差协方差相关系数独立和不相关大数定律中心极限定理最大似然估计过拟合...

2020-10-22 10:24:38 92

原创机器学习与数学分析

什么是机器学习：机器学习定义：对于某给定任务T，在合理的性能度量方案P的前提下，某计算机程序可以自主学习任务T的经验E；随着提供优质、合适的大量经验E，该程序对于任务T的性能逐步提高即：随着任务的不断执行，经验的积累会带来计算机性能的提升换个表述：机器学习是人工智能的一个分支。我们使用计算机设计一个系统，使它能够根据提供的训练数据，按照一定的方式来学习；随着训练次数的增加，该系统可以在性能上不断学习和改进；通过参数优化的学习模型，能够用于预测相关问题的输出举个例子：1.从无知到掌握知识：语言

2020-10-20 16:16:20 215

原创实例-球员能力图、股票k线图

实例-球员能力图#_*_coding:utf-8 _*_import numpy as npimport matplotlib.pyplot as pltfrom matplotlib.font_manager import FontPropertiesplt.style.use('ggplot')#设置成ggplot的样式，好看font=FontProperties(fname=r'c:windows\fonts\simsun.ttc',size=18)ability_size=6ab

2020-10-13 21:30:11 119

原创实战-函数积分图、散点条形图

实战1）函数积分import numpy as npimport matplotlib.pyplot as pltfrom matplotlib.patches import Polygon#用Polygon需要导入patchesdef func(x): return -(x-2)*(x-8)+40x=np.linspace(0,10)y=func(x)fig, ax=plt.subplots()plt.plot(x,y,'r',linewidth=2)a=2b=9ax

2020-10-12 19:16:53 378 1

原创 python数据可视化分析-matplotlib2

注释示例：import matplotlib.pyplot as pltimport numpy as npx=np.arange(-10,11,1)y=x*xplt.plot(x,y)plt.annotate('this is bottom',xy=(0,1),xytext=(0,20),arrowprops=dict(facecolor='r',frac=1))#xy是箭头尖尖的坐标plt.show()运行结果：文字（在图形中只画纯文字）matplotlib.pyplot

2020-10-12 16:49:16 137

原创 python数据可视化分析-matplotlib

引入import matplotlib.pyplot as pltplt.plot([1,2,3],[3,2,1])plt.show()散点图概念：*散点图显示两组数据的值，每个点的坐标位置由变量的值决定。*由一组不连接的点完成的，用于观察两种变量的相关性。*例如身高-体重、温度-纬度、等等简单的例子：身高-体重import numpy as npimport matplotlib.pyplot as pltheight=[161,171,182,189,165]weight

2020-10-06 13:28:18 485 1

原创时间事件日志

时间事件日志个人时间统计工具。要点：使用 dida365.com 来作为 GTD 工具使用特殊格式记录事件类别和花费的时间，如： “[探索发现] 体验 iMac 开发环境 [3h]”导出数据分析数据1. 读取数据%matplotlib inlineimport pandas as pdimport matplotlib.pyplot as pltfrom matplotlib.pylab import mplmpl.rcParams['font.sans-serif']=['Arial

2020-09-25 22:08:28 335

原创数据可视化

数据可视化pandas的数据可视化使用matplotlib为基础组件，更基础的信息可参阅matplotlib相关内容。导入matplotlib%matplotlib inline#引入matplotlibimport pandas as pd import numpy as np1. 线型图ts=pd.Series(np.random.randn(1000),index=pd.date_range('2000/1/1',periods=1000))ts=ts.cumsum()#累计求和t

2020-09-25 16:50:00 140

原创 pandas时间重采样

时间重采样重采样*高频率->低频率->降采样：五分钟股票交易数据转化为日期交易数据*低频率->高频率->升采样*q其他重采样：每周三（W-WED）转化为每周五（W=FRI）重采样：#先搞个数据表，假装第三列是股票数据ts = pd.Series(np.random.randint(0, 50, 60), index=pd.date_range('2016-04-25 09:30', periods=60, freq='T'))ts#重采样ts2=ts.re

2020-09-20 16:27:03 1245

原创 pandas时间序列

Pandas里的时间序列时间日期时间戳timestamp：固定的时刻->pd.Timestamp固定时期period：比如2016年3月份，再如2015年销售额->pd.Period时间间隔interval:由起始时间和结束时间来表示，固定时期是时间间隔的一个特殊的时间日期在pandas里的作用*分析金融数据，如股票交易数据*分析服务器日志import numpy as npimport pandas as pdfrom datetime import datetime #d

2020-09-18 21:32:04 194

原创 pandas数据的导入导出

载入数据到Pandas1.索引：将一个列或多个列读取出来构成DataFrame，其中涉及是否从文件中读取索引以及列名2.类型推断和数据转换：包括用户自定义的转换以及缺失值标记3.日期解析4.迭代：针对大文件进行逐块迭代。这个是Pandas和Python原生的csv库的最大区别5.不规则数据整理问题：跳过一些行，或注释等等1索引及列名pd.read_csv('D:\python0917\zrx0917.csv')%more D:\python0917\zrx0917.csvpd.read t

2020-09-17 21:49:05 410 1

原创 pandas聚合运算，分组运算

数据聚合分组运算，先根据一定规则拆分后的数据，然后对数据进行聚合运算，如前面见到的 mean(), sum() 等就是聚合的例子。聚合时，拆分后的第一个索引指定的数据都会依次传给聚合函数进行运算。最后再把运算结果合并起来，生成最终结果。内置聚合函数先生成一个dataframedf = pd.DataFrame({'key1': ['a', 'a', 'b', 'b', 'a'], 'key2': ['one', 'two', 'one', 'two', 'one'

2020-09-17 16:06:08 444 1

原创 pandas索引,分组计算

这里写目录标题索引1.行索引2.重复索引3.层次化索引dataframe 多层索引交换索引索引列的转换分组计算1. 对Series进行分组2. 对DataFrame进行分组对分组进行迭代3.通过字典进行分组4.通过函数进行分组5.根据索引级别分组索引1.行索引#看一个一维数组的索引s=pd.Series(np.random.randn(5),index=list('abcde'))ss.index#Series的索引s.index.name='zrx'#给索引赋一个名字#查询pandas里预

2020-08-26 17:34:29 1305 1

原创 pandas核心数据结构

核心数据结构1.SeriesSeries是一维带标签数组，数组里可以放任意的数据（整数，浮点数，字符串，Python Object）.其基本创建函数是：s=pd.Series(data,index=index)其中index是一个列表，用来作为数据标签。data可以是不同的数据类型，如：*Python字典*ndarry对象*一个标量值，如5Series对象性质：类ndarray对象类dict对象标签对齐操作1）从 ndaray 创建：s=pd.Series(np.random.r

2020-08-20 15:06:40 760 1

原创 movielens电影数据分析

电影数据分析下载数据https://grouplens.org/datasets/movielens/之前一直都不太理解绝对路径和相对路径：今天才有点明白，大概就是就说，你写了一段代码你要发给别人，然后你就打了个包，你代码里面那就不能用绝对路径，要不别人打不开。数据读取import pandas as pdunames = ('user_id','gender','age','occupation','zip')users = pd.read_table(r'C:\Users\Admini

2020-08-19 21:49:12 1115

原创 pandas快速入门3

数据整形%matplotlib inline import numpy as npimport pandas as pdimport matplotlib.pyplot as plt 行索引和列索引进行互换 #行索引和列索引进行互换tuples = list(zip(*[['bar', 'bar', 'baz', 'baz','foo', 'foo', 'qux', 'qux'], ['one', 'two', 'one', 'two','one',

2020-08-15 22:21:29 98 1

原创 pandas快速入门2

ipythonnotebook与ipython相比有优势如下：1.一个编辑框可以轻松编写多行程序2.如果画图图片可以直接显示在这个网页上处理丢失数据：预先准备#先导入包%matplotlib inline import numpy as npimport pandas as pdimport matplotlib.pyplot as plt 构造一个二维的DataFrame#构造一个二维的DataFramedates=pd.date_range('20160301',periods

2020-08-14 21:21:32 165 1

原创 pandas快速入门1

pandas能做什么：结构化数据分析、数据挖掘。ipython简介python命令行与ipython命令行的区别：显示数据可读性强,特别是对字典python命令行与ipython命令行的区别：显示数据可读性强,特别是对字典1.命令补全，按Tab，2.shell命令3.魔术命令pandas核心数据结构创建series创建series是一维带标签的数组，数组里可以放任意的数据（整数，浮点数，字符串，Python Object）Series数据结构表示一个行或一个列的数据，有一个默认的

2020-08-13 22:40:03 336 2

原创数据科学包day1

文章目录NumPy（Numerical Python）pandasnumpy基本属性，如何利用numpynumpy的基础运算加减乘除，判断值的大小矩阵计算2索引合并多个合并拆分拷贝Python3中numpy和pandas有什么用基于c语言。应用到矩阵的计算为什么用：效率高NumPy（Numerical Python）NumPy是Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵，比Python自身的嵌套列表（nested list structure)结构要高效的多（该结构

2020-06-26 21:56:18 139 2

原创 DAY8 Python入门

方法没有重载在其他语言中，可以定义多个重名的方法，只要保证方法签名唯一即可。方法签名包含三个部分：方法名、参数数量、参数类型。Python中，方法的参数没有类型（调用时确定参数类型），参数的数量也可以由可变参数控制。因此，Python方法中是没有方法重载的。定义一个方法即可有多种调用方式。相当于实现了其他语言中的方法的重载。如果我们在类体中定义了多个重名的方法，只有最后一个方法有效。建议：不要使用重名的方法，Python中方法没有重载。class Person: def say_hi(s

2020-06-23 23:11:07 232 3

原创 DAY7 Python入门

嵌套函数：在函数内部定义的函数def outer(): print('out running') def inner(): print("inner running") inner()#在内部定义的，只能在outer函数里用。外部不能使用outer()一般在什么情况下使用嵌套函数？1，封装-数据隐藏外部无法访问“嵌套函数2，贯彻DRY（Don’t Repeat Yourself）原则嵌套可以让我们在内部避免重复的代码。3.闭包（还没讲）#普通方法d

2020-06-19 22:41:08 127 1

原创 DAY6 Python入门

目录函数也是对象，内存底层分析变量的作用域（全局变量和局部变量）全局变量局部变量局部变量和全局变量效率测试参数的传递可变对象不可变对象传递可变对象的引用传递不可变对象的引用浅拷贝和深拷贝浅拷贝：深拷贝：传递不可变对象是浅拷贝参数的几种类型位置参数默认值参数命名参数可变参数强制命名参数lambda表达式和匿名函数eval()函数）递归函数函数也是对象，内存底层分析python中一切都是对象。实际上，执行def定义函数后，系统就创建了对应的函数对象。#测试函数也是对象def print_star(n):

2020-06-17 22:49:12 143

sinat_41901394的博客