自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(42)
  • 收藏
  • 关注

原创 【深度学习】CNN

CNNMotivation卷积神经网络(Convolutional Neural Network,CNN或ConvNet)是一种 具有局部连接、权重共享等特性的深层前馈神经网络.全连接前馈网络存在以下两个问题:权重矩阵的参数非常多自然图像中的物体都具有局部不变性特征,即尺度缩放、平移、旋转等操作不影响其语义信息,但全连接前馈网络很难提取这些局部不变特征卷积神经网络是受生物学上感受野(Receptive Field)机制的启发而提出的。感受野(Receptive Field)机制主要是指听觉

2021-11-27 15:42:32 427

原创 【深度学习】数学基础

深度学习的主要应用常用于非结构性数据:文字、音频、图像图像处理领域主要应用图像分类(物体识别):整幅图像的分类或识别物体检测:检测图像中物体的位置进而识别物体图像分割:对图像中的特定物体按边缘进行分割图像回归:预测图像中物体组成部分的坐标语音识别领域主要应用语音识别:将语音识别为文字声纹识别:识别是哪个人的声音语音合成:根据文字合成特定人的语音自然语言处理领域主要应用语言模型:根据之前词预测下一个单词。情感分析:分析文本体现的情感(正负向、正负中或多态度类型)。神经机器

2021-11-17 11:37:34 5765

原创 第二章 序列构成的数组

第二章 序列构成的数组Python 用统一的风格去处理序列数据。不管是哪种数据结构,字符串、列表、字节序列、数组、XML 元素,抑或是数据库查询结果,它们都共用一套丰富的操作:迭代、切片、排序,还有拼接。内置序列类型概览Python 标准库用 C 实现了丰富的序列类型,列举如下。容器序列list、tuple 和 collections.deque 这些序列能存放不同类型的数据。扁平序列str、bytes、bytearray、memoryview 和 array.array,这类序列只能

2021-02-03 00:31:51 209

原创 【FluentPython】2 序列构成的数组

第二章 序列构成的数组Python 用统一的风格去处理序列数据。不管是哪种数据结构,字符串、列表、字节序列、数组、XML 元素,抑或是数据库查询结果,它们都共用一套丰富的操作:迭代、切片、排序,还有拼接。内置序列类型概览Python 标准库用 C 实现了丰富的序列类型,列举如下。容器序列list、tuple 和 collections.deque 这些序列能存放不同类型的数据。扁平序列str、bytes、bytearray、memoryview 和 array.array,这类序列只能

2021-02-02 23:56:33 134 1

原创 【学术前沿分析】5 作者信息关联

任务说明学习主题:作者关联(数据建模任务),对论文作者关系进行建模,统计最常出现的作者关系;学习内容:构建作者关系图,挖掘作者关系学习成果:论文作者知识图谱、图关系挖掘数据处理步骤将作者列表进行处理,并完成统计。具体步骤如下:将论文第一作者与其他作者(论文非第一作者)构建图;使用图算法统计图中作者与其他作者的联系;社交网络分析图是复杂网络研究中的一个重要概念。Graph是用点和线来刻画离散事物集合中的每对事物间以某种方式相联系的数学模型。Graph在现实世界中随处可见,如交通运输图

2021-01-26 00:45:05 279

原创 【异常检测】5 高维异常

1、引言在实际场景中,很多数据集都是多维度的。随着维度的增加,数据空间的大小(体积)会以指数级别增长,使数据变得稀疏,这便是维度诅咒的难题。维度诅咒不止给异常检测带来了挑战,对距离的计算,聚类都带来了难题。例如基于邻近度的方法是在所有维度使用距离函数来定义局部性,但是,在高维空间中,所有点对的距离几乎都是相等的(距离集中),这使得一些基于距离的方法失效。在高维场景下,一个常用的方法是子空间方法。集成是子空间思想中常用的方法之一,可以有效提高数据挖掘算法精度。集成方法将多个算法或多个基检测器的输出结合起来

2021-01-24 23:37:41 213

原创 【学术前沿分析】4 论文种类分类

任务说明论文分类(数据建模任务),利用已有数据建模,对新论文进行类别分类;使用论文标题完成类别分类;学会文本分类的基本方法、TF-IDF等;数据处理步骤在原始arxiv论文中论文都有对应的类别,而论文类别是作者填写的。在本次任务中我们可以借助论文的标题和摘要完成:对论文标题和摘要进行处理;对论文类别进行处理;构建文本分类模型;文本分类思路思路1:TF-IDF+机器学习分类器直接使用TF-IDF对文本提取特征,使用分类器进行分类,分类器的选择上可以使用SVM、LR、XGboo

2021-01-23 00:31:03 283

原创 【异常检测】4 基于相似度的方法

基于相似度的方法1、大纲主要内容包括:基于距离的度量基于密度的度量2、基于距离的度量  基于距离的方法是一种常见的适用于各种数据域的异常检测算法,它基于最近邻距离来定义异常值。 此类方法不仅适用于多维数值数据,在其他许多领域,例如分类数据,文本数据,时间序列数据和序列数据等方面也有广泛的应用。  基于距离的异常检测有这样一个前提假设,即异常点的 kkk 近邻距离要远大于正常点。解决问题的最简单方法是使用嵌套循环。 第一层循环遍历每个数据,第二层循环进行异常判断,需要计算当前点与其他点的距离

2021-01-21 22:45:58 198

原创 【学术前沿分析】3 论文代码统计

任务说明论文代码统计,统计所有论文出现代码的相关统计;数据处理步骤在原始arxiv数据集中作者经常会在论文的comments或abstract字段中给出具体的代码链接,所以我们需要从这些字段里面找出代码的链接。确定数据出现的位置;使用正则表达式完成匹配;完成相关的统计;预备知识——正则表达式正则表达式(regular expression)描述了一种字符串匹配的模式(pattern),可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。普通字符:

2021-01-20 00:38:15 157

原创 【异常检测】3 线性模型

1、引言  真实数据集中不同维度的数据通常具有高度的相关性,这是因为不同的属性往往是由相同的基础过程以密切相关的方式产生的。在古典统计学中,这被称为——回归建模,一种参数化的相关性分析。  一类相关性分析试图通过其他变量预测单独的属性值,另一类方法用一些潜在变量来代表整个数据。前者的代表是 线性回归,后者一个典型的例子是 主成分分析。本文将会用这两种典型的线性相关分析方法进行异常检测。  需要明确的是,这里有两个重要的假设:  假设一:近似线性相关假设。线性相关假设是使用两种模型进行异常检测的重要理

2021-01-19 00:00:51 340

原创 【学术前沿分析】2 论文作者统计

论文作者统计任务说明任务主题:论文作者统计,统计所有论文作者出现评率Top10的姓名;任务内容:论文作者的统计、使用 Pandas 读取数据并使用字符串操作;任务成果:学习 Pandas 的字符串操作;数据格式分析在原始arxiv数据集中论文作者authors字段是一个字符串格式,其中每个作者使用逗号进行分隔分,所以我们首先需要完成以下步骤:使用逗号对作者进行切分;剔除单个作者中非常规的字符;但是authors_parsed字段已经帮我们处理好了作者信息,可以直接使用该字段完成后续

2021-01-17 00:59:08 165

原创 【异常检测】2. 基于统计学的方法

异常检测——基于统计学的方法感谢DataWhale1、概述统计学方法对数据的正常性做出假定。**它们假定正常的数据对象由一个统计模型产生,而不遵守该模型的数据是异常点。**统计学方法的有效性高度依赖于对给定数据所做的统计模型假定是否成立。异常检测的统计学方法的一般思想是:学习一个拟合给定数据集的生成模型,然后识别该模型低概率区域中的对象,把它们作为异常点。即利用统计学方法建立一个模型,然后考虑对象有多大可能符合该模型。根据如何指定和学习模型,异常检测的统计学方法可以划分为两个主要类型:参数方法和

2021-01-15 12:21:29 109

原创 【学术前沿分析】1 论文数据统计

论文数据统计1.1 任务说明读取json数据、爬取数据;论文数量统计,即统计2019年全年计算机各个方向论文数量;1.2 数据集介绍数据集来源:数据集链接;数据集的格式如下:id:arXiv ID,可用于访问论文;submitter:论文提交者;authors:论文作者;title:论文标题;comments:论文页数和图表等其他信息;journal-ref:论文发表的期刊的信息;doi:数字对象标识符,https://www.doi.org;report-no:报

2021-01-14 00:09:18 590

原创 【pandas】综合应用

综合应用显卡日志下面给出了3090显卡的性能测评日志结果,每一条日志有如下结构:Benchmarking #2# #4# precision type #1##1# model average #2# time : #3# ms其中#1#代表的是模型名称,#2#的值为train(ing)或inference,表示训练状态或推断状态,#3#表示耗时,#4#表示精度,其中包含了float, half, double三种类型,下面是一个具体的例子:Benchmarking Inference f

2021-01-13 14:07:19 146

原创 【异常检测】1.简介

1、什么是异常检测异常检测(Outlier Detection),顾名思义,是识别与正常数据不同的数据,与预期行为差异大的数据。识别如信用卡欺诈,工业生产异常,网络流里的异常(网络侵入)等问题,针对的是少数的事件。1.1 异常的类别点异常:指的是少数个体实例是异常的,大多数个体实例是正常的,例如正常人与病人的健康指标;上下文异常:又称上下文异常,指的是在特定情境下个体实例是异常的,在其他情境下都是正常的,例如在特定时间下的温度突然上升或下降,在特定场景中的快速信用卡交易;群体异常:指的是在群体集

2021-01-13 01:39:17 253 1

原创 【pandas】 时序数据

时序数据时序中的基本对象对于时序数据我们需要时间点、时间差、时间段和时间位移?时间差和时间段有什么不一样?概念单元素类型数组类型pandas数据类型Date timesTimestampDatetimeIndexdatetime64[ns]Time deltasTimedeltaTimedeltaIndextimedelta64[ns]Time spansPeriodPeriodIndexperiod[freq]Date offsetsD

2021-01-10 20:23:44 501

原创 【pandas】分类数据

第九章 分类数据import numpy as npimport pandas as pd一、cat对象1. cat对象的属性在pandas中提供了category类型,使用户能够处理分类类型的变量,将一个普通序列转换成分类变量可以使用astype方法。和R的factor有点像。df = pd.read_csv('../data/learn_pandas.csv', usecols = ['Grade', 'Name', 'Gender', 'Height', 'Weight'])s = d

2021-01-07 23:46:00 447

原创 【pandas】 文本数据

文本数据str对象str对象的设计意图str对象是定义在Index或Series上的属性,专门用于逐元素处理文本内容,其内部定义了大量方法,因此对一个序列进行文本处理,首先需要获取其str对象。在Python标准库中也有str模块,为了使用上的便利,有许多函数的用法pandas照搬了它的设计【】索引器对于str对象而言,可理解为其对字符串进行了序列化的操作,例如在一般的字符串中,通过[]可以取出某个位置的元素,同时也能通过切片得到子串。string类型从pandas的1.0.0版本开始,引入了

2021-01-06 23:03:50 165

原创 【pandas】 缺失数据

第七章 缺失数据一、缺失值的统计和删除缺失信息的统计缺失数据可以使用isna或isnull(两个函数没有区别)来查看每个单元格是否缺失df.isna().sum()/df.shape[0] # 查看每列缺失的比例 sum默认对列求和sub_set = df[['Height', 'Weight', 'Transfer']]df[sub_set.isna().all(1)] # 指定列全部缺失的行df[sub_set.isna().any(1)].head() # 指定列至少有一个缺失df[

2021-01-03 17:55:01 182

原创 【pandas】special task

【任务一】企业收入的多样性【题目描述】一个企业的产业收入多样性可以仿照信息熵的概念来定义收入熵指标:I=−∑p(xi)log(p(xi))I = -\sum p(x_i)log(p(x_i)) I=−∑p(xi​)log(p(xi​))其中p(xi)p(x_i)p(xi​)是企业该年某产业收入额占该年所有产业总收入的比重。在company.csv中存有需要计算的企业和年份,在company_data.csv中存有企业、各类收入额和收入年份的信息。现请利用后一张表中的数据,在前一张表中增加一列表示该公司

2021-01-01 23:50:34 127 1

原创 【pandas】连接

连接关系型连接连接的基本理解连接是将两个表整合成一个表,关系型数据常用的连接有四种:左连接,右连接,内连接,外连接,需要指定键值列,如上图所示。需要注意的是当键值列存在重复值时,只需把握一个原则,即只要两边同时出现的值,就以笛卡尔积的方式加入,如果单边出现则根据连接形式进行处理。其中,关于笛卡尔积可用如下例子说明:设左表中键张三出现两次,右表中的张三也出现两次,那么逐个进行匹配,最后产生的表必然包含2*2个姓名为张三的行。值连接merge顾名思义,值连接就是两张表根据某一列的值或某几列的值的

2020-12-29 23:23:16 443 1

原创 【matplotlib可视化】场景案例汇总

第六回:场景案例显神通感谢:fantastic matplotlib我们将常见的场景分为5大类:1)展示趋势变化(Evolution)2)展示分布关系(Distribution)3)展示相关关系(Correlation)4)展示排序信息(Ranking)5)展示组成关系(Part of a whole)一、展示趋势变化(Evolution)1. 折线图 - Line chart线图(也叫折线图)是众多图表中的基本图形。它由一系列的数据点和连接这些数据点的线段组成。它的形式和散点图类似,

2020-12-27 23:19:21 895

原创 【pandas】变形(长宽表变换)

变形长宽表的变形长表变宽表就是一个分类变量的多个值展开成多个变量,和哑变量变换有点相似,但不是0-1编码而是其他变量的值。宽表变长表类似,多个类别可以化在一个分类变量下。pivotpivot是一种典型的长表变宽表的函数,首先来看一个例子:下表存储了张三和李四的语文和数学分数,现在想要把语文和数学分数作为列来展示。df = pd.DataFrame({'Class':[1,1,2,2], 'Name':['San Zhang','San Zhang','Si

2020-12-27 22:38:04 3826

原创 【pandas】 分组

task 4 分组分组模式及对象分组的一般模式分组操作在日常生活中使用极其广泛,例如:依据性别\color{#FF0000}{性别}性别分组,统计全国人口寿命\color{#00FF00}{寿命}寿命的平均值\color{#0000FF}{平均值}平均值依据季节\color{#FF0000}{季节}季节分组,对每一个季节的温度\color{#00FF00}{温度}温度进行组内标准化\color{#0000FF}{组内标准化}组内标准化依据班级\color{#FF0000}{班级}班级筛选出组内

2020-12-25 23:39:28 226

原创 【matplotlib可视化】样式色彩

样式色彩matplotlib的绘图样式style在matplotlib中,要想设置绘制样式,最简单的方法是在绘制元素时单独设置样式。 但是有时候,当用户在做专题报告时,往往会希望保持整体风格的统一而不用对每张图一张张修改,因此matplotlib库还提供了四种批量修改全局样式的方式matplotlib预先定义样式matplotlib贴心地提供了许多内置的样式供用户使用,使用方法很简单,只需在python脚本的最开始输入想使用style的名称即可调用,尝试调用不同内置样式,比较区别import ma

2020-12-24 23:40:05 205

原创 【matplotlib可视化】文字图例

文字图例Figure和Axes上的文本Matplotlib具有广泛的文本支持,包括对数学表达式的支持、对栅格和矢量输出的TrueType支持、具有任意旋转的换行分隔文本以及Unicode支持。下面的命令是介绍了通过pyplot API和objected-oriented API分别创建文本的方式。pyplot APIOO APIdescriptiontexttext在 Axes的任意位置添加text。titleset_title在 Axes添加titlefi

2020-12-22 22:53:27 815

原创 【pandas】 索引

task3 索引索引器简单的直接索引例子loc索引器是基于元素的索引器,loc索引器的一般形式是loc[*, *],其中第一个*代表行的选择,第二个*代表列的选择,如果省略第二个位置写作loc[*],这个*是指行的筛选。其中,*的位置一共有五类合法对象,分别是:单个元素、元素列表、元素切片、布尔列表以及函数。示例df_demo = df.set_index('Name')df_demo.head()# 单个元素df_demo.loc['Qiang Sun'] # 多个人叫此名字

2020-12-22 21:47:29 161

原创 【matplotlib可视化】布局

matplotlib 布局子图plt.subplots均匀子图fig, axs = plt.subplots(2, 5, figsize=(10, 4), sharex=True, sharey=True)返回元素分别是画布和子图构成的列表,第一个数字为行,第二个为列figsize 参数可以指定整个画布的大小sharex 和 sharey 分别表示是否共享横轴和纵轴刻度tight_layout 函数可以调整子图的相对大小使字符不会重叠fig, axs = plt.s

2020-12-20 12:13:04 467 2

原创 【pandas】 pandas基础

pandas基础文件的读取和写入文件读取常用文件形式读取:pd.read_csv(".csv")pd.read_table(".txt") ⭐可以设置分隔符sep=" ",engine='python' 但sep需要使用正则表达式pd.read_excel(".xlsx")注:读取xlsx的文件需要把xlrd包降级到1.2.0版本公共参数:header=None表示第一行不作为列名index_col表示把某一列或几列作为索引usecols表示读取列的集合,默认读取

2020-12-19 23:47:54 535 1

原创 【matplotlib可视化】进一步理解

matplotlib task2matplotlib标准用法matplotlib的标准使用流程为:创建一个Figure实例使用Figure实例创建一个或者多个Axes或Subplot实例使用Axes实例的辅助方法来创建primitive值得一提的是,Axes是一种容器,它可能是matplotlib API中最重要的类,并且我们大多数时间都花在和它打交道上。更具体的信息会在之后容器小节说明一个流程示例及说明如下:import matplotlib.pyplot as pltimport

2020-12-18 22:30:07 265 1

原创 【pandas】 预备知识

第一章 预备知识一、python基础1、列表推导式与条件赋值推导式(comprehensions),又称解析式。利用列表推导式、字典推导式、集合推导式可以从一个数据对象构建另一个新的数据对象。列表推导式是python开发时用得最多的技术之一,表示对可迭代对象(Iterable)的元素进行遍历、过滤或再次计算,生成满足条件的新列表。在逻辑上等价于循环语句,但是形式上更简洁,并且由于python内部对列表推导式做了大量优化,运行速度更快。语法形式:[function/expression for

2020-12-16 22:04:43 234

原创 【matplotlib可视化】的基本认识

综述Matplotlib在figures上绘制数据(例如,窗口,Jupyter小部件等),每个figure都可以包含一个或多个axes,axes是可以根据x-y坐标(或极坐标中的theta-r或3-D图中的x-y-z等)指定点points的区域。The object-oriented interface and the pyplot interface使用matplotlilb绘图的两种方式:显式地创建figures和axes,而后调用相应的method。适用于多图的时候,用axes布局?依靠p

2020-12-14 18:51:53 136

原创 实践大作业 (2)

导入鸢尾属植物数据集,保持文本不变import numpy as npiris_type = np.dtype({ "names":["sepallength","sepalwidth","petallength","petalwidth","species"], "formats":["f8","f8","f8","f8","U30"]})iris_data = np.loadtxt("iris.csv", dtype=iris_type,delimiter=',',skipro.

2020-12-02 13:22:37 291 1

原创 2020-11-29

task 9 线性代数矩阵运算函数注释矩阵乘法numpy.dot()特征值numpy.linalg.eigvals()特征向量a,b = numpy.linalg.eig()返回特征值和特征向量奇异值分解(SVD)u, s, v =numpy.linalg.svd(a,<br />full_matrices=True,<br />compute_uv=True,<br />hermitian=False)- a

2020-11-29 22:02:09 68

原创 2020-11-27

统计相关codenote最小值numpy.amin(a[, axis=None, out=None, keepdims=np._NoValue, initial=np._NoValue, where=np._NoValue])- axis=None,取array所有元素的最小- axis=0,取每列最小- axis=1,取每行最小最大值numpy.amax(a[, axis=None, out=None, keepdims=np._NoValue, initial=np.

2020-11-27 10:59:47 64

原创 task 7 随机抽样

task 7 随机抽样numpy.random模块里有一些常用概率分布的抽样函数,比如二项分布、正态分布、泊松分布设定随机种子numpy.random.seed()如果不设置,则系统根据时间来自己选择这个值二项分布numpy.random.binomial(n, p, size=None)抽样函数,返回采样值size表示采样次数scipy.stats.binom.rvs(n, p, size)同上,返回一个numpy.ndarrayscipy.stats.binom.p

2020-11-25 00:14:31 92

原创 task 6 输入和输出

task 6 输入和输出numpy二进制文件两种类型npy格式:以二进制的方式存储文件,在二进制文件第一行以文本形式保存了数据的元信息(ndim,dtype,shape等),可以用二进制工具查看内容。保存一个数组。npz格式:以压缩打包的方式存储文件,可以用压缩软件解压。可以同时保存多个数组。两个储存函数numpy.save(file, arr, allow_pickle=True, fix_imports=True) Save an array to a binary file in

2020-11-23 18:54:27 229

原创 排序,搜索和计数速查表

排序搜索集合速查表排序numpy.sort(a[, axis=-1, kind='quicksort', order=None]) Return a sorted copy of an array.axis:排序沿数组的(轴)方向,0表示按行,1表示按列,None表示展开来排序,默认为-1,表示沿最后的轴排序。kind:排序的算法,提供了快排’quicksort’、混排’mergesort’、堆排’heapsort’, 默认为‘quicksort’。order:排序的字段名,可指定字段排序,

2020-10-31 23:27:00 81

原创 task04 数学函数和逻辑函数

速查表数学函数和逻辑函数向量化和广播(broadcasting)数学函数算术运算三角函数指数和对数加法函数和乘法函数累乘差分四舍五入向上向下取整裁剪绝对值示性函数逻辑函数真值函数非空测试逻辑运算大小比较比较两个数组是否可以认为相等数学函数和逻辑函数向量化和广播(broadcasting)不同形状(shape)的数组原则上不可以直接进行算术运算,但broadcasting机制可以使得满足一些条件的数组直接进行算术运算,使得他们具有兼容的形状。 Broadcasting需要满足的条件:两个数组的各维度兼容

2020-10-28 15:59:14 214

原创 note task3 数组操作

这里写目录标题数组操作更改形状数组转置更改维度数组组合数组拆分数组平铺添加和删除元素数组操作更改形状numpy.ndarray.shapeimport numpy as npx = np.array(np.arange(8))print('x is ', x,'\nx\'s shape is ', x.shape)x.shape = [2,4]print(x)x is [0 1 2 3 4 5 6 7] x's shape is (8,)[[0 1 2 3] [4 5 6

2020-10-24 19:25:11 99

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除