自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(121)
  • 收藏
  • 关注

原创 BWT(Burrows-Wheeler_transform)数据转换算法

BWT算法

2023-03-27 00:19:50 1268 2

原创 ATAC-seq 数据分析实战

ATAC-seq 实践

2023-03-11 17:51:16 1818

原创 ggplot2图形简单绘制

ggplot 简单绘图

2022-11-19 00:56:32 951 1

原创 单细胞测序实践

单细胞测序实践

2022-11-10 01:15:10 2870 3

原创 单细胞测序原理

单细胞测序简单原理

2022-11-05 22:03:48 4980 2

原创 awk 练习题

awk 练习

2022-10-05 17:23:41 199

原创 sed 练习题

sed 练习

2022-10-05 00:04:16 522

原创 grep练习题

grep 练习题

2022-10-04 22:20:56 985

原创 shell 命令

shell 命令总结

2022-10-01 21:20:56 262

原创 linux 三剑客

linux 三剑客

2022-09-26 17:39:05 585

原创 Shell练习2

select 、重定向

2022-09-21 21:20:09 298

原创 shell练习

shell 入门

2022-09-20 23:52:22 160

原创 浮点数溢出

1. 问题什么是浮点数的溢出?什么情况下发生上溢出?什么情况下发生下溢出?2. 解析浮点数的运算结果可能出现一下四种情况:阶码上溢出阶码下溢出尾数溢出非规格化尾数首先,阶码上溢出。正指数(即阶码值)超过了最大允许值。比如阶码用8bit移码表示,正指数却有128,即无法表示(8bit移码中真值表示范围为-126~127,-127的阶码全0表示非规格化数;而-128的阶码全1,表示无穷大)即上溢出。 如果结果为整数,则称为正上溢出;如果结果为负数,则称为负上溢出。这种情况为软件故障,需要

2021-08-12 17:29:51 19575 4

原创 9.1.6 DBSCAN聚类算法————机器学习实战第二版

一、工作原理对于每个实例,该算法都会计算在它一小段距离内 ε\varepsilonε 内有多少个实例。该区域称为实例的 ε−\varepsilon-ε− 邻域。如果一个实例在其 ε\varepsilonε 邻域内至少包含 min_samples 个实例(包含自身),则该实例为核心实例。核心实例附近的所有实例都属于同一集群。这个邻域可能包括其他核心实例。因此,一长串相邻的核心实例形成一个集群。任何不是核心实例且邻居中没有核心实例的实例都被视为异常二、参数sklearn中参数详解:详解两

2020-11-18 00:29:01 697

原创 9.1.3 使用聚类进行图像分割————机器学习实战第二版

文章目录一、简介二、原图三、步骤分析四、代码1. 导包2.读取图像3. 裁剪图像并重置矩阵4. 聚类1.难点2. 代码一、简介图像分割是将图像分成多个分割的任务。在语义分割中,属于同一对象类型的所有像素均被分配给同一像素。这里做一个简单的颜色分割。如果像素具有相似的颜色,就将它们分配给同一分割。二、原图原图:我家小可爱的魔方,xixixi三、步骤分析读取图像对图像矩阵进行KMeans聚类输出图像并观察结果四、代码1. 导包from matplotlib.image impor

2020-11-16 14:23:45 1063 1

原创 聚类

文章目录一、概述1.数据挖掘对聚类分析方法的要求2. 聚类在数据挖掘中的典型应用二、性能度量1. 外部指标2. 内部指标三、距离计算四、原型聚类1.K均值算法2. 学习向量量化(LVQ)3. 高斯混合聚类五、密度聚类1. DBSCAN(Density-Based Clustering)六、层次聚类1. AGNES一、概述1.数据挖掘对聚类分析方法的要求可伸缩性:指算法无论对于小数据还是发数据都应该有效。具有处理不同类型属性的能力:即可处理数值型数据,又可处理非数值型数据,既可以处理离散数据,又可以

2020-11-14 22:07:21 336

原创 即约分数(最大公约数)

问题描述如果一个分数的分子和分母的最大公约数是 1,这个分数称为既约分数。例如,34 , 52 , 18 , 71 都是既约分数。请问,有多少个既约分数,分子和分母都是 1 到 2020 之间的整数(包括 1 和 2020)?答案提交这是一道结果填空题,你只需要算出结果后提交即可。本题的结果为一个整数,在提交答案时只填写这个整数,填写多余的内容将无法得分。答案2481215代码#include<bits/stdc++.h>using namespace std;long l

2020-11-12 16:32:02 2417

原创 解谜游戏——第十届蓝桥杯b组c++决赛题目H

题目描述小明正在玩一款解谜游戏,谜题由 24 根塑料棒组成,其中黄色塑料棒 4 根,红色 8 根,绿色 12 根 (后面用 Y 表示黄色、R 表示红色、G 表示绿色)。初始时这些塑料棒排成三圈,如上图所示,外圈 12 根,中圈 8 根,内圈 4 根。小明可以进行三种操作:将三圈塑料棒都顺时针旋转一个单位。例如当前外圈从 0 点位置开始,顺时针依次是 YRYGRYGRGGGG,中圈是 RGRGGRRY,内圈是 GGGR。那么顺时针旋转一次之后,外圈、中圈、内圈依次变为:GYRYGRYGRGG

2020-11-12 00:32:21 6302 12

原创 素数求和

问题描述输入一个自然数n,求小于等于n的素数之和样例输入2样例输出2数据规模和约定测试样例保证 2 <= n <= 2,000,000思路首先将 2-n 的数全部标记为素数由小到大遍历每一个标记为素数的数字,将该素数的倍数全部置为标记为非素数最后求和详细见代码代码#include<bits/stdc++.h>using namespace std;const int maxn = 2e7 + 50;int flag[maxn],n;long lon

2020-11-11 14:44:06 1574

转载 c_str()

语法:const char c_str();c_str()函数返回一个指向正规C字符串的指针常量, 内容与本string串相同.这是为了与c语言兼容,在c语言中没有string类型,故必须通过string类对象的成员函数c_str()把string 对象转换成c中的字符串样式。注意:一定要使用strcpy()函数 等来操作方法c_str()返回的指针比如:最好不要这样:char c;string s=“1234”;c = s.c_str(); //c最后指向的内容是垃圾,因为s对象被析构,其

2020-11-10 12:55:34 132

原创 第九届蓝桥杯国赛 调手表(BFS)

题目描述小明买了块高端大气上档次的电子手表,他正准备调时间呢。在 M78 星云,时间的计量单位和地球上不同,M78 星云的一个小时有 n 分钟。大家都知道,手表只有一个按钮可以把当前的数加一。在调分钟的时候,如果当前显示的数是 0 ,那么按一下按钮就会变成 1,再按一次变成 2 。如果当前的数是 n - 1,按一次后会变成 0 。作为强迫症患者,小明一定要把手表的时间调对。如果手表上的时间比当前时间多1,则要按 n - 1 次加一按钮才能调回正确时间。小明想,如果手表可以再添加一个按钮,表示把

2020-11-09 21:32:23 213

原创 优先队列 + BFS

题目描述乍一看是BFS最短路径,但仔细思考下,发现最短路径不一定是时间最短的,所以需要求最短时间,用优先队列去存储状态。#include<bits/stdc++.h>using namespace std;int n,m,t,vis[105][105];char arr[105][105];int sx,sy,ex,ey,ans ;struct node{ int x,y,num; friend bool operator < (node x,node y){

2020-11-08 18:20:25 173 1

原创 DataFrame.groupby()用法

1. 函数定义DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, **kwargs)by : 接收映射、函数、标签或标签列表;用于确定聚合的组axis : 接收 0/1;用于表示沿行(0)或列(1)分割。level : 接收int、级别名称或序列,默认为None;如果轴是一个多索引(层次化),则按一个或多个特定级别分组as_index :

2020-10-31 19:35:34 4626

原创 六、 集成学习(下)

文章目录一、 结合策略1. 平均法2. 投票法3. 注意4. 学习法----Stacking一、 结合策略1. 平均法对于数值型输出,最常见的结合策略是使用平均法简单平均法h(x)为基学习器的输出加权平均法基学习器的权重一般是根据训练数据得到的,所以不完全可靠,对于规模较大的集成学习来说,容易造成过拟合,所以加权平均不一定优于简单平均。一般而言,在基学习器性能相差较大时,选择加权平均,基学习器性能类似时,选择简单平均。2. 投票法绝对多数投票法得票最多的类别要超过50%,否.

2020-10-26 21:20:56 470

原创 OneHotEncoder

原数据:data中的division属性为无顺序字符串,转独热编码。步骤建立编码器训练并转换原数据删除要转独热编码的属性原数据合并转换后的数据1. 建立编码器from sklearn.preprocessing import LabelEncoder,OneHotEncoderdivision_ohe = OneHotEncoder()2. 训练并转换df = division_ohe.fit_transform(data['division'].values.reshape(

2020-10-25 14:02:18 337

原创 LabelEncoder

一、概述在使用回归模型和机器学习模型时,所有考察数据都是数值更容易得到更好的结果。因为都是基于数学函数方法的,所以当数据集中出现类别数据时,此时数据是不理想的,不能用数学方法处理它们。例如处理性别属性时,将男和女两个性别数据用0和1进行代替。二、代码1. LabelEncoderlabel_le = LabelEncoder()data['salary'] = label_le.fit_transform(data['salary'])#对数据集中的salary属性进行labelencode

2020-10-25 11:41:22 1736

原创 pandas-profiling数据分析预览

导入包import pandas as pdimport pandas_profiling生成报告#data为DataFrame类型数据pandas_profiling.ProFileReport(data)导出报告prf = pandas_profiling.ProfileReport(data)prf.to_file('report.html')报告详细内容1. 总缆首先是总览 Overview,包含数据集的一些信息:行数列数数据缺失率占用内存大小属性值的类型的统

2020-10-25 11:18:02 247

原创 五、运输层

一、运输层协议概述1. 进程间的通信从通信和信息处理的角度看,运输层向它上面的应用层提供通信服务,它属于面向通信部分的最高层,同时也是用户功能中的最底层。当网络的边缘部分中的两个主机使用网络的核心部分的功能进行端到端的通信时,只有位于网络边缘部分的主机的协议栈才有运输层,而网络核心部分中的路由器在转发分组时都只用剩下三层功能。2. 网络层和运输层的区别3. 运输层作用在一台主机中经常有多个应用进程同时分别和另一台主机中的多个应用进程通信。和表明...

2020-10-22 22:24:28 178

原创 六、集成学习(上)

一、 个体与集成集成学习:通过构建并结合多个学习器来完成任务,也称为多分类器系统。基于委员会的学习1. 集成的方式同质集成:集成中只包含同种类型的“个体学习器”相应的学习算法称为“基学习算法”异质集成:个体学习器由不同的学习算法生成。不存在“基学习算法”2. 如何得到好的集成:个体学习器“好而不同”3. 集成学习算法二、BoostingBoosting是一族可将弱学习器提升为强学习器的算法,它的思想起源于Valiant提出的PAC(Probably Approximate.

2020-10-20 16:56:43 122

原创 图像增强——灰度直方图

一、灰度直方图表示图像中具有某种灰度级的像素的个数,反映了图像中每种灰度级出现的频率。它是图像最基本的统计特征。横坐标:灰度级纵坐标:该灰度级出现的个数二、直方图性质只反映该图像中不同灰度值出现的次数,而未反映某一灰度值像素所在位置。丢失了位置信息。图像与直方图之间是多对一的映射关系。由于直方图是对具有相同灰度值的像素统计得到的,因此,一副图像各子区的直方图之和等于该图像全图的直方图。三、直方图均衡化经变换后得到的新直方图不很平坦,但比原始图像的直方图平坦的多,扩展了动态范围

2020-10-20 10:31:58 1517

原创 四、IPv6

一、IPv6的基本首部二、IPv6的地址

2020-10-18 22:08:55 71

原创 四、互联网的路由选择协议

文章目录一、有关路由器选择的基本概念1. 理想路由算法2. 自治系统AS二、 内部网关协议RIP1. 工作原理2. RIP协议的三个特点3. 距离向量算法三、内部网关协议OSPF1. OSPF协议的基本特点2. 三个要点四、外部网关协议BGP五、路由器的构成一、有关路由器选择的基本概念1. 理想路由算法2. 自治系统AS二、 内部网关协议RIP路由选择协议RIP是内部网关协议IGP中最先得到广泛使用的协议1. 工作原理RIP是一种分布式的、基于距离向量的路由选择协议。RIP协议要求网

2020-10-18 21:47:31 496

原创 四、网际控制报文协议ICMP

一、ICMP报文的种类1. 概述目的:为了更有效的转发IP数据报和提高交付成功的机会,在网际层使用了网际控制报文协议ICMPICMP允许主机或路由器报告差错情况和提供有关异常情况的报告。但ICMP不是高层协议(因为ICMP报文是装在IP数据报中,作为其中的数据部分),而是IP层的协议。2. ICMP报文的格式3. ICMP报文的种类ICMP报文的种类有多种,即ICMP差错报告报文(例如在路由器丢弃分组后向源站发送ICMP差错报告,不需要回复,单向的)和ICMP询问报文(询问其他站或路由器

2020-10-18 20:39:54 359

原创 1210.连号区间数

题目描述解析:链接因为是从1~N的排列,可以枚举两端的位置,找出选取序列的最大值和最小值,如果最大值和最小值的差等于两端位置之差则ans++,三层循环的话会超时#include<bits/stdc++.h>using namespace std;int n,a[10005],ans = 0,maxn,minn,j;int main(){ //freopen("a.txt","r",stdin); scanf("%d",&n); for(int i = 0;i&lt

2020-10-15 22:09:05 102

原创 四、划分子网和构造超网

文章目录一、划分子网1、从两级IP地址到三级IP地址2、子网掩码3. 使用子网时分组的转发3. 无分类编址CIDR(构造超网)1. 编制记法2. CIDR地址块3、路由聚合一、划分子网1、从两级IP地址到三级IP地址基本思路:划分子网纯属一个单位内部的事情。单位对外仍然表现为没有划分子网的网络。从主机号借用若干个位作为子网号(subnet-id),而主机号host-id也就相应减少若干位。划分子网后IP地址就成了三级结构。划分子网只是把IP地址的主机号host-id这部分进行划分,而不

2020-10-12 22:14:24 2431 2

原创 三、比较检验

文章目录一、概述二、 具体检验方法1. 估计假设精度2. 采样理论基础3. 多次训练/测试的检验 - t检验4. 交叉验证t检验1. 基本思路5. MCNemar检验6.Friedman检验和Nemenyi后续检验一、概述比较检验的重要方法是统计假设检验,它为我们进行学习器性能比较提供了重要依据。统计假设检验:假设检验步骤:带入机器学习:二、 具体检验方法1. 估计假设精度区分两种错误率:errors(h)在何种程度上提供了对errorD(h)的估计?2. 采样理

2020-10-11 22:12:07 1609

原创 四、网络层(上)

文章目录一、 网络层提供的两种服务1. 争论二、网际协议IP1. 概述2. 虚拟互连网络1. 虚拟互连网络3. 分类的IP地址(1)IP地址及其表示法(2)IP地址的编制方式(3)点分十进制(4)IP地址的一些重要特点4. IP地址与硬件地址5. 地址解析协议ARP(1) 地址解析协议ARP要点(2)ARP高速缓存的作用(3)使用ARP的四种典型情况6. IP数据报的格式7. IP层转发分组的流程一、 网络层提供的两种服务1. 争论一种观点:让网络负责可靠交付计算机网络应模仿电信网络,使用面

2020-10-10 17:32:34 316

原创 numpy笔记

文章目录属性方法1. arange(起始值,中止值,步长)2. linspace(起始值,中止值,数值个数)3. 向量运算4. 向量筛选5. 矩阵间乘法6. 随机数矩阵7. 矩阵最大值,最小值,求和8. 求最大值,最小值索引9. 矩阵转置10. 截断函数11. 索引12. 循环13. 将矩阵转变为向量14. 向量合并15. 插入新的维度16. 矩阵分割17. copy()属性ndim: 维数shape: 行数和列数size元素个数可以在使用array函数时指定 dtype参数方法1.

2020-10-08 21:11:49 243

原创 pandas过滤数据

DataFrame:原始数据:1、可以通过 DataFrame[ 过滤条件 ] 来进行过滤print( data[ data['fruit_label'] == 1] )2、 注意事项过滤条件可以进行 与或非过滤的条件超过一个时,需要在每个条件的外面加()运算符不能用 and,or,not 而是用 &,|,!print( data[ (data['fruit_name'] == 'apple') & (data['mass'] >= 10

2020-10-07 16:04:12 11249

原创 pandas中describe函数详解

describe()函数可以查看DataFrame中连续值数据的基本情况,原数据:data = pd.read_table(path)data.head()使用describe函数之后:data.describe()分析:count:每一列非空值的数量mean: 每一列的平均值std:每一列的标准差min:最小值25%:25%分位数,排序之后排在25%位置的数50%:50%分位数75%:75%分位数max:最大值也可以对单列进行分析data['mass'].des

2020-10-06 21:33:35 19987 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除