自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

xiaoyaozizai017的博客

坚持,相信自已

  • 博客(93)
  • 收藏
  • 关注

原创 Scanpy(1)数据结构和样本过滤

Scanpy 是一个可扩展的工具包,用于分析与 AnnData(一种数据结构)联合构建的单细胞分析数据。通过conda,使用命令cd。

2024-04-21 18:34:15 707

原创 scanpy的UMAP可视化优化

在进行UMAP可视化时,经常使用scanpy.pl.umap()来进行可视化,但是有时不能画出我们想要的结果,这时应该怎么办呢?

2024-04-21 18:31:33 198

原创 Scanpy(2)多种可视化

我们使用10x的PBMC数据集(包含68k个细胞)。Scanpy在其发行版中包含了这个数据集的缩减版,该数据集只包含700个细胞和765个高变基因。。

2024-04-19 16:24:33 772

原创 损失函数中的均方误差以及平方误差

机器学习中的所有算法都依赖于最小化或最大化某一个函数,我们称之为“目标函数”。最小化的这组函数被称为“损失函数”。损失函数是衡量预测模型预测期望结果表现的指标。寻找函数最小值的最常用方法是“梯度下降”。把损失函数想象成起伏的山脉,梯度下降就像从山顶滑下,目的是到达山脉的最低点。损失函数可以大致分为两类:分类损失(Classification Loss)和回归损失(Regression Loss)。下面这篇博文,就将重点介绍5种回归损失。

2023-10-23 18:22:53 183

原创 数据+代码】LightGBM+Optuna实现回归分析

我们可以看到,LightGBM在RMSE和R2方面表现非常好,RMSE为2065.31,R2为96.68%,而线性回归的RMSE为4602.43$,R2为83.51%。此外,该图表明,与配备自动或半自动变速器的汽车相比,配备手动变速器的汽车的价格范围更窄,后者的价格范围更大。里程数:平均数约为2.5万,由于存在一个32.3万英里的异常值(这个数字太高了),我们将删除这个离群值,以获得一个更准确的数据表示。为了分析数据中的数值特征,我们将首先定义一个函数,绘制所有数字特征的分布直方图和箱线图。

2023-10-23 18:12:22 4

原创 跳过开屏广告

虽然 APP 被迫下架这事令人神伤,但大家其实完全没必要为再没有同类 APP 可用这事担心首先就是这类 APP 都是依靠安卓系统的无障碍服务,在 APP 启动时模拟人工点击跳过按钮来实现自动跳过开屏广告,实际都是无需联网即可使用的只不过因为每个 APP 的广告关闭按钮位置都不相同,联网权限只是作者为了给你更新不同 APP 的对应规则简单来说,**就是虽然在应用市场被下架了,但完全不影响 APP 的继续使用!**尽管作者以后都不会再更新规则了,但你完全可以自行添加规则继续使用。

2023-10-16 15:50:48 726

转载 小白看得懂的 Transformer (图解)

Attention和Transformer讲解

2023-10-10 17:29:40 99

原创 PaddleNLP开源UTC通用文本分类技术,斩获ZeroCLUE、FewCLUE双榜第一

百度构建了“任务架构统一、通用能力共享”的通用文本分类技术UTC,其实现了良好的零/少样本迁移性能。

2023-01-16 20:02:30 1257 1

原创 2021 年年度最佳开源软件

与Git类似,LakeFS 的数据中会带有提交记录、元数据字段和回滚等信息,此外还有hooks,即在分支合并到主分支前,hooks会检查数据,确保完整性和质量。StreamNative 将 Apache Pulsar 分布式流处理架构与 Kubernetes 和混合云支持等,以及企业级功能、大型数据、认证和授权、性能监控等工具相结合,既简化了应用程序的开发,又简化了流数据应用的部署和管理。Orange 包含了完整的一系列的组件以进行数据预处理,并提供了数据帐目,过渡,建模,模式评估和勘探的功能。

2022-12-12 14:27:12 10155 10

原创 Python实现十大经典排序算法

排序算法是《数据结构与算法》中最基本的算法之一。排序算法可以分为内部排序和外部排序,内部排序是数据记录在内存中进行排序,而外部排序是因排序的数据很大,一次不能容纳全部的排序记录,在排序过程中需要访问外存。常见的内部排序算法有:插入排序、希尔排序、选择排序、冒泡排序、归并排序、快速排序、堆排序、基数排序等。

2022-11-07 20:02:34 833

原创 Acrobat Pro DC2021安装教程

2021-08-23 16:56:58 3322 10

原创 数据资源网站

如美国安然公司邮件数据、美国环境污染数据、1908年以来全球空难数据、深证A股个股日线数据等数据集。资源 | 这是一份非常全面的开源数据集NLP新基准!谷歌重磅发布开放问答数据集,30万自然提问+人工注释答案最强数据集集合:50个最佳机器学习公共数据集丨资源 【OCR技术】大批量生成文字训练集...

2021-08-17 11:20:49 632

原创 学习资源网站分享

一、宏观数据国家统计局国家统计局这个网站,建议每个人没事都可以看看。为什么这么说?问你几个问题,这次第七次人口普查,进展得结果怎么样拉?全国平均工资是多少?哪个行业薪资最高?前段时间沙尘暴这么严重,我国的泥沙治理又怎么样?这些你是不是不清楚?不清楚就来这看看~平时国家统计局会发布关系国际民生的各种数据。在“人口普查公报“可以看到最新的人口普查数据。在年度数据中可以看到“城镇单位就业人员平均工资”,或者查看最新的发布报告:2020年城镇私营单位就业人员年平均工资57727元想要查

2021-08-17 10:44:09 3426

转载 Typora笔记发表文章时图片不显示问题

前言:相信我们都遇到过,使用Typora做笔记是一件非常令人舒服的事,然而,它却有一个非常难受的地方,那就是我们在做完笔记想要将其上传到自己的博客时,复制粘贴的图片无法显示。因为Typora复制的图片是在本地进行了保存,所以,我们只需要让其将图片自动上传到云上,所有的图片链接使用网页链接即可解决问题。安装所需gitee+typora+PicGo1. 准备安装PicGo:https://molunerfinn.com/PicGo/Typora:https://www.typora.io/#wind

2021-08-16 13:22:09 538

原创 2020年,那些令人印象深刻的AI论文

点击 机器学习算****法与Python学习 **,**选择加星标精彩内容不迷路作者 | Louis Bouchard,译者 | 冬雨在 GitHub 查阅完整列表:https://github.com/louisfb01/Best_AI_paper_2020观看 15 分钟时长的 2020 年度完整回放:https://youtu.be/DHBclF-8KwE1、YOLOv4: 目标检测的最佳速度和精度 [1]Alexey Bochkovsky 等人于 2020 年 4 月在.

2021-01-20 14:41:05 3

翻译 numpy列表与数组的相互转换

列表转数组1、转成数组的matrix对象,使用np.mat()方法。In [1]: a = [[2,3,4],[4,7,1]]In [2]: np.mat(a)Out[2]:matrix([[2, 3, 4],[4, 7, 1]])2、转成数组的ndarray对象,使用np.array()方法。In [1]: a = [[2,3,4],[4,7,1]]In [2]: np.arr...

2020-04-19 14:26:29 2248

原创 linux 上安装CRF++ 、问题和代码

1.在Linus 上安装crf++1)比较常用的工具就是CRF++。官网地址为:https://taku910.github.io/crfpp/ 选择CRF+±0.58.tar.gz2)tar zxvf CRF+±0.58.tar.gz 进入CRF+±0.58目录下3) ./configure4)make5)su6)make install注意:这里用crf++ 工具跑出的数...

2018-12-19 21:13:52 754 2

原创 python 遍历List各种方式

1.对zip() 函数进行测试print zip([1, 2, 3], ['a', 'b', 'c']) 结果:#[(1, 'a'), (2, 'b'), (3, 'c')]另外zip(*list)也就是数组前面带个星号,是上述操作的逆操作print zip(*[(1, 'a'), (2, 'b'), (3, 'c')])结果:[...

2018-09-15 15:42:40 5957 2

原创 Python 中执行shell 命令的总结

亲自测试成功!参考文件:Python执行Linux系统命令的4种方法:点击打开链接1. 执行操作文件,然后读取数据。p = subprocess.Popen(path_crf_test+' -m '+path_model+' '+ path_test, shell=True, stdout=subprocess.PIPE, stde

2018-07-09 11:50:57 11 1

原创 python3.5 读取文本文件出现乱码

1.读取文本文件出现乱码1.1 python2.7首先,在Python2.7的里面只要设置和编码,读取文本是没有问题的:# -*- coding:utf-8 -*-import sysreload(sys)sys.setdefaultencoding("utf-8")一般我们用Python2.7,保证输出中文,以上就已经搞定啦。 例子:# -*- coding:

2018-07-09 11:44:05 6 1

原创 python 可视化(一):matplotlib

1.图像属性1.1 figsize=(长,宽)# -*- coding: utf-8 -*-import pylab as pltimport numpy as np# 创建一个长宽为5*4 的图,并设置分辨率为100,分辨率越大,整个图像越清晰,而且图片很大plt.figure(figsize=(5,4), dpi=100)t = np.arange(0.,4.,0....

2018-07-09 11:42:17 434

原创 python 读写csv文件

1.忽略第一行标题的基础上 Python2.7# coding:utf-8import csvcsv_reader = csv.reader(open(r'C:\Users\thinkPad\Desktop\tweets.csv'))for row in csv_reader: # 条件语句忽略第一行文件数据 if csv_reader.line_num == ...

2018-07-09 11:40:54 570

转载 一文搞懂极大似然估计

以下转自 https://zhuanlan.zhihu.com/p/26614750 极大似然估计,通俗理解来说,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值!换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。可能有小伙伴就要说了,还是有点抽象呀。我们这样想,一当模型满足某个分布,它的参数值我通过极大似...

2018-07-09 11:38:17 1062

原创 Python实现字典依据value排序

1.初步理解:具体内容如下:使用sorted将字典按照其value大小排序 如果key值排序x[0] 默认是从小到大顺序排列>>> record ={'a':89, 'b':86, 'c':99, 'd':100}>>> sorted(record.items(), key=lambdax:x[1])[('b', 86), ('a', 89...

2018-06-27 11:31:14 802

原创 python word2vec的使用

引用块内容#-*- coding:utf-8 -*-import sysfrom gensim.models import word2vecimport gensimimport codecsfrom textrank4zh import TextRank4Keyword, TextRank4Sentencefrom nltk.tokenize import WordP...

2018-06-27 10:45:12 2184

原创 矩阵求导公式

原文地址:矩阵求导公式【转】 今天推导公式,发现居然有对矩阵的求导,狂汗–完全不会。不过还好网上有人总结了。吼吼,赶紧搬过来收藏备份。 基本公式: Y = A * X –> DY/DX = A’ Y = X * A –> DY/DX = A Y = A’ * X * B –> DY/DX = A * B’ Y = A’ * X’ * B –> DY/DX = B...

2018-06-05 10:37:56 577

原创 列表转换成自定义矩阵、切片

列表转换成矩阵:m=10;n=7list1 = range(70)print array(list1).reshape(7, 10)sd = array(list1).reshape(7, 10)print sd[:,1:10]print list1X = mat(ones((m,n)))print Xprint '===='print X[:,1:n]结果:...

2018-05-23 16:13:37 1025

原创 《机器学习实战》笔记之九——树回归

1.决策树与回归树的区别在别人那里摘过来的,并添加自已的看法。分类树以C4.5分类树为例,C4.5分类树在每次分枝时,是穷举每一个feature的每一个阈值,找到使得按照feature<=阈值,和feature>阈值分成的两个分枝的熵最大的阈值(熵最大的概念可理解

2018-05-18 10:41:48 1391

原创 Python 面向对象和类

1.类和对象类(Class): 用来描述具有相同的属性和方法的对象的集合。它定义了该集合中每个对象所共有的属性和方法。对象是类的实例。对象:通过类定义的数据结构实例。对象包括两个数据成员(类变量和实例变量)和方法。 面向对象:是把数据和方法结合起来,进行了分装。1.1 类打个比方,类好似玩具的模子,对象就是模子刻画出的玩具。 类包含:类的名称:类名类的属性:一组数据...

2018-05-15 16:08:04 1912

原创 《机器学习实战》笔记之三——决策树ID3算法

发的

2018-05-14 16:56:04 4327 2

原创 《机器学习实战》笔记之五——Logistic回归

# coding:utf-8'''Created on 2018 5 13Logistic Regression Working Module@author: flyfish'''from numpy import *# 加载数据def loadDataSet(): dataMat = []; labelMat = [] fr = open(r'E:\bookFi...

2018-05-13 21:46:54 384

原创 Random的使用

随机函数的使用,且不重复的使用旧数据的技巧from numpy import *dataIndex = range(20)print dataIndex #[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19]randIndex = int(random.uniform(0,len(dataIndex)...

2018-05-13 20:54:50 206

原创 初识 pandas (3):绘图

>>> import numpy as np>>> import pandas as pdBackend TkAgg is interactive backend. Turning interactive mode on.>>> ts = pd.Series(np.random.randn(1000), i

2018-05-01 21:01:13 279

原创 初识 pandas (2)

读取 csv 文件 关于 csv 文件csv 是一种通用的、相对简单的文件格式,在表格类型的数据中用途很广泛,很多关系型数据库都支持这种类型文件的导入导出,并且 excel 这种常用的数据表格也能和 csv 文件之间转换。 逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)...

2018-05-01 16:43:44 390

原创 初识pandas (1)

1.pandas的使用Pandas 是基于 NumPy 的一个非常好用的库,正如名字一样,人见人爱。之所以如此,就在于不论是读取、处理数据,用它都非常简单。1.基本的数据结构Pandas 有两种自己独有的基本数据结构。读者应该注意的是,它固然有着两种数据结构,因为它依然是 Python 的一个库,所以,Python 中有的数据类型在这里依然适用,也同样还可以使用类自己定义数据类型。...

2018-05-01 10:43:35 229

原创 python3 陌生的角落(9):JSON 数据解析

JSON (JavaScript Object Notation) 是一种轻量级的数据交换格式。它基于ECMAScript的一个子集。 Python3 中可以使用 json 模块来对 JSON 数据进行编解码,它包含了两个函数:json.dumps(): 对数据进行编码。json.loads(): 对数据进行解码。在json的编解码过程中,python 的原始类型与json类型会相...

2018-04-25 21:58:32 223

原创 python3 陌生的角落(8):MySQL 数据库连接

#-*- coding:utf-8 -*-import sysimport mysql.connectorimport chardetreload(sys)sys.setdefaultencoding('utf-8')#连接mysql数据库def testMySqlDatabase(): print 'mysql数据库' conn = mysql.connec...

2018-04-25 21:24:22 135

原创 python3 陌生的角落(7):正则表达式

1.re.match函数re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。re.match(pattern, string, flags=0)import reprint(re.match('www', 'www.runoob.com').span()) # 在起始位置匹配print(re.match('co...

2018-04-25 21:15:53 262

原创 python3 陌生的角落(6):开方、大小写转换和日期

1.开平方num = float(input('请输入一个数字: '))num_sqrt = num ** 0.5print(' %0.3f 的平方根为 %0.3f'%(num ,num_sqrt))2.生成日历# 引入日历模块import calendar# 输入指定年月yy = int(input("输入年份: "))mm = int(input("输入月...

2018-04-25 16:34:59 501

原创 python3 陌生的角落(5):标准库概览、年龄

1.操作系统接口 os.system('mkdir today') # 执行系统命令 mkdir 针对日常的文件和目录管理任务,:mod:shutil 模块提供了一个易于使用的高级接口:>>> import shutil>>> shutil.copyfile('data.db', 'archive.db')>&g

2018-04-25 11:52:49 180

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除