逍遥_yjz-CSDN博客

原创 Scanpy（1）数据结构和样本过滤

Scanpy 是一个可扩展的工具包，用于分析与 AnnData（一种数据结构）联合构建的单细胞分析数据。通过conda，使用命令cd。

2024-04-21 18:34:15 707

原创 scanpy的UMAP可视化优化

在进行UMAP可视化时，经常使用scanpy.pl.umap()来进行可视化，但是有时不能画出我们想要的结果，这时应该怎么办呢？

2024-04-21 18:31:33 198

原创 Scanpy（2）多种可视化

我们使用10x的PBMC数据集（包含68k个细胞）。Scanpy在其发行版中包含了这个数据集的缩减版，该数据集只包含700个细胞和765个高变基因。。

2024-04-19 16:24:33 772

机器学习中的所有算法都依赖于最小化或最大化某一个函数，我们称之为“目标函数”。最小化的这组函数被称为“损失函数”。损失函数是衡量预测模型预测期望结果表现的指标。寻找函数最小值的最常用方法是“梯度下降”。把损失函数想象成起伏的山脉，梯度下降就像从山顶滑下，目的是到达山脉的最低点。损失函数可以大致分为两类：分类损失（Classification Loss）和回归损失（Regression Loss）。下面这篇博文，就将重点介绍5种回归损失。

2023-10-23 18:22:53 183

原创数据+代码】LightGBM+Optuna实现回归分析

我们可以看到，LightGBM在RMSE和R2方面表现非常好，RMSE为2065.31，R2为96.68%，而线性回归的RMSE为4602.43$，R2为83.51%。此外，该图表明，与配备自动或半自动变速器的汽车相比，配备手动变速器的汽车的价格范围更窄，后者的价格范围更大。里程数：平均数约为2.5万，由于存在一个32.3万英里的异常值（这个数字太高了），我们将删除这个离群值，以获得一个更准确的数据表示。为了分析数据中的数值特征，我们将首先定义一个函数，绘制所有数字特征的分布直方图和箱线图。

2023-10-23 18:12:22 4

原创跳过开屏广告

虽然 APP 被迫下架这事令人神伤，但大家其实完全没必要为再没有同类 APP 可用这事担心首先就是这类 APP 都是依靠安卓系统的无障碍服务，在 APP 启动时模拟人工点击跳过按钮来实现自动跳过开屏广告，实际都是无需联网即可使用的只不过因为每个 APP 的广告关闭按钮位置都不相同，联网权限只是作者为了给你更新不同 APP 的对应规则简单来说，**就是虽然在应用市场被下架了，但完全不影响 APP 的继续使用！**尽管作者以后都不会再更新规则了，但你完全可以自行添加规则继续使用。

2023-10-16 15:50:48 726

转载小白看得懂的 Transformer (图解)

Attention和Transformer讲解

2023-10-10 17:29:40 99

原创 PaddleNLP开源UTC通用文本分类技术，斩获ZeroCLUE、FewCLUE双榜第一

百度构建了“任务架构统一、通用能力共享”的通用文本分类技术UTC，其实现了良好的零/少样本迁移性能。

2023-01-16 20:02:30 1257 1

原创 2021 年年度最佳开源软件

与Git类似，LakeFS 的数据中会带有提交记录、元数据字段和回滚等信息，此外还有hooks，即在分支合并到主分支前，hooks会检查数据，确保完整性和质量。StreamNative 将 Apache Pulsar 分布式流处理架构与 Kubernetes 和混合云支持等，以及企业级功能、大型数据、认证和授权、性能监控等工具相结合，既简化了应用程序的开发，又简化了流数据应用的部署和管理。Orange 包含了完整的一系列的组件以进行数据预处理，并提供了数据帐目，过渡，建模，模式评估和勘探的功能。

2022-12-12 14:27:12 10155 10

原创 Python实现十大经典排序算法

排序算法是《数据结构与算法》中最基本的算法之一。排序算法可以分为内部排序和外部排序，内部排序是数据记录在内存中进行排序，而外部排序是因排序的数据很大，一次不能容纳全部的排序记录，在排序过程中需要访问外存。常见的内部排序算法有：插入排序、希尔排序、选择排序、冒泡排序、归并排序、快速排序、堆排序、基数排序等。

2022-11-07 20:02:34 833

原创 Acrobat Pro DC2021安装教程

2021-08-23 16:56:58 3322 10

原创数据资源网站

如美国安然公司邮件数据、美国环境污染数据、1908年以来全球空难数据、深证A股个股日线数据等数据集。资源 | 这是一份非常全面的开源数据集NLP新基准！谷歌重磅发布开放问答数据集，30万自然提问+人工注释答案最强数据集集合：50个最佳机器学习公共数据集丨资源【OCR技术】大批量生成文字训练集...

2021-08-17 11:20:49 632

原创学习资源网站分享

一、宏观数据国家统计局国家统计局这个网站，建议每个人没事都可以看看。为什么这么说？问你几个问题，这次第七次人口普查，进展得结果怎么样拉？全国平均工资是多少？哪个行业薪资最高？前段时间沙尘暴这么严重，我国的泥沙治理又怎么样？这些你是不是不清楚？不清楚就来这看看~平时国家统计局会发布关系国际民生的各种数据。在“人口普查公报“可以看到最新的人口普查数据。在年度数据中可以看到“城镇单位就业人员平均工资”，或者查看最新的发布报告：2020年城镇私营单位就业人员年平均工资57727元想要查

2021-08-17 10:44:09 3426

转载 Typora笔记发表文章时图片不显示问题

前言:相信我们都遇到过，使用Typora做笔记是一件非常令人舒服的事，然而，它却有一个非常难受的地方，那就是我们在做完笔记想要将其上传到自己的博客时，复制粘贴的图片无法显示。因为Typora复制的图片是在本地进行了保存，所以，我们只需要让其将图片自动上传到云上，所有的图片链接使用网页链接即可解决问题。安装所需gitee+typora+PicGo1. 准备安装PicGo：https://molunerfinn.com/PicGo/Typora：https://www.typora.io/#wind

2021-08-16 13:22:09 538

原创 2020年，那些令人印象深刻的AI论文

点击机器学习算****法与Python学习 **，**选择加星标精彩内容不迷路作者 | Louis Bouchard，译者 | 冬雨在 GitHub 查阅完整列表：https://github.com/louisfb01/Best_AI_paper_2020观看 15 分钟时长的 2020 年度完整回放：https://youtu.be/DHBclF-8KwE1、YOLOv4: 目标检测的最佳速度和精度 [1]Alexey Bochkovsky 等人于 2020 年 4 月在.

2021-01-20 14:41:05 3

翻译 numpy列表与数组的相互转换

列表转数组1、转成数组的matrix对象，使用np.mat()方法。In [1]: a = [[2,3,4],[4,7,1]]In [2]: np.mat(a)Out[2]:matrix([[2, 3, 4],[4, 7, 1]])2、转成数组的ndarray对象，使用np.array()方法。In [1]: a = [[2,3,4],[4,7,1]]In [2]: np.arr...

2020-04-19 14:26:29 2248

原创 linux 上安装CRF++ 、问题和代码

1.在Linus 上安装crf++1）比较常用的工具就是CRF++。官网地址为：https://taku910.github.io/crfpp/ 选择CRF+±0.58.tar.gz2）tar zxvf CRF+±0.58.tar.gz 进入CRF+±0.58目录下3) ./configure4)make5)su6)make install注意：这里用crf++ 工具跑出的数...

2018-12-19 21:13:52 754 2

原创 python 遍历List各种方式

1.对zip() 函数进行测试print zip([1, 2, 3], ['a', 'b', 'c']) 结果：#[(1, 'a'), (2, 'b'), (3, 'c')]另外zip(*list)也就是数组前面带个星号，是上述操作的逆操作print zip(*[(1, 'a'), (2, 'b'), (3, 'c')])结果：[...

2018-09-15 15:42:40 5957 2

原创 Python 中执行shell 命令的总结

亲自测试成功！参考文件：Python执行Linux系统命令的4种方法：点击打开链接1. 执行操作文件，然后读取数据。p = subprocess.Popen(path_crf_test+' -m '+path_model+' '+ path_test, shell=True, stdout=subprocess.PIPE, stde

2018-07-09 11:50:57 11 1

原创 python3.5 读取文本文件出现乱码

1.读取文本文件出现乱码1.1 python2.7首先，在Python2.7的里面只要设置和编码，读取文本是没有问题的：# -*- coding:utf-8 -*-import sysreload(sys)sys.setdefaultencoding("utf-8")一般我们用Python2.7，保证输出中文，以上就已经搞定啦。例子：# -*- coding:

2018-07-09 11:44:05 6 1

原创 python 可视化（一）：matplotlib

1.图像属性1.1 figsize=(长,宽)# -*- coding: utf-8 -*-import pylab as pltimport numpy as np# 创建一个长宽为5*4 的图，并设置分辨率为100，分辨率越大，整个图像越清晰，而且图片很大plt.figure(figsize=(5,4), dpi=100)t = np.arange(0.,4.,0....

2018-07-09 11:42:17 434

原创 python 读写csv文件

1.忽略第一行标题的基础上 Python2.7# coding:utf-8import csvcsv_reader = csv.reader(open(r'C:\Users\thinkPad\Desktop\tweets.csv'))for row in csv_reader: # 条件语句忽略第一行文件数据 if csv_reader.line_num == ...

2018-07-09 11:40:54 570

转载一文搞懂极大似然估计

以下转自 https://zhuanlan.zhihu.com/p/26614750 极大似然估计，通俗理解来说，就是利用已知的样本结果信息，反推最具有可能（最大概率）导致这些样本结果出现的模型参数值！换句话说，极大似然估计提供了一种给定观察数据来评估模型参数的方法，即：“模型已定，参数未知”。可能有小伙伴就要说了，还是有点抽象呀。我们这样想，一当模型满足某个分布，它的参数值我通过极大似...

2018-07-09 11:38:17 1062

原创 Python实现字典依据value排序

1.初步理解：具体内容如下：使用sorted将字典按照其value大小排序如果key值排序x[0] 默认是从小到大顺序排列>>> record ={'a':89, 'b':86, 'c':99, 'd':100}>>> sorted(record.items(), key=lambdax:x[1])[('b', 86), ('a', 89...

2018-06-27 11:31:14 802

原创 python word2vec的使用

引用块内容#-*- coding:utf-8 -*-import sysfrom gensim.models import word2vecimport gensimimport codecsfrom textrank4zh import TextRank4Keyword, TextRank4Sentencefrom nltk.tokenize import WordP...

2018-06-27 10:45:12 2184

原创矩阵求导公式

原文地址：矩阵求导公式【转】今天推导公式，发现居然有对矩阵的求导，狂汗–完全不会。不过还好网上有人总结了。吼吼，赶紧搬过来收藏备份。基本公式： Y = A * X –> DY/DX = A’ Y = X * A –> DY/DX = A Y = A’ * X * B –> DY/DX = A * B’ Y = A’ * X’ * B –> DY/DX = B...

2018-06-05 10:37:56 577

原创列表转换成自定义矩阵、切片

列表转换成矩阵：m=10;n=7list1 = range(70)print array(list1).reshape(7, 10)sd = array(list1).reshape(7, 10)print sd[:,1:10]print list1X = mat(ones((m,n)))print Xprint '===='print X[:,1:n]结果：...

2018-05-23 16:13:37 1025

原创《机器学习实战》笔记之九——树回归

1.决策树与回归树的区别在别人那里摘过来的,并添加自已的看法。分类树以C4.5分类树为例，C4.5分类树在每次分枝时，是穷举每一个feature的每一个阈值，找到使得按照feature&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;lt;=阈值，和feature&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;gt;阈值分成的两个分枝的熵最大的阈值(熵最大的概念可理解

2018-05-18 10:41:48 1391

原创 Python 面向对象和类

1.类和对象类(Class): 用来描述具有相同的属性和方法的对象的集合。它定义了该集合中每个对象所共有的属性和方法。对象是类的实例。对象：通过类定义的数据结构实例。对象包括两个数据成员（类变量和实例变量）和方法。面向对象：是把数据和方法结合起来，进行了分装。1.1 类打个比方，类好似玩具的模子，对象就是模子刻画出的玩具。类包含：类的名称：类名类的属性：一组数据...

2018-05-15 16:08:04 1912

原创《机器学习实战》笔记之三——决策树ID3算法

发的

2018-05-14 16:56:04 4327 2

原创《机器学习实战》笔记之五——Logistic回归

# coding:utf-8'''Created on 2018 5 13Logistic Regression Working Module@author: flyfish'''from numpy import *# 加载数据def loadDataSet(): dataMat = []; labelMat = [] fr = open(r'E:\bookFi...

2018-05-13 21:46:54 384

原创 Random的使用

随机函数的使用，且不重复的使用旧数据的技巧from numpy import *dataIndex = range(20)print dataIndex #[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19]randIndex = int(random.uniform(0,len(dataIndex)...

2018-05-13 20:54:50 206

原创初识 pandas （3）：绘图

&gt;&gt;&gt; import numpy as np&gt;&gt;&gt; import pandas as pdBackend TkAgg is interactive backend. Turning interactive mode on.&gt;&gt;&gt; ts = pd.Series(np.random.randn(1000), i

2018-05-01 21:01:13 279

原创初识 pandas （2）

读取 csv 文件关于 csv 文件csv 是一种通用的、相对简单的文件格式，在表格类型的数据中用途很广泛，很多关系型数据库都支持这种类型文件的导入导出，并且 excel 这种常用的数据表格也能和 csv 文件之间转换。逗号分隔值（Comma-Separated Values，CSV，有时也称为字符分隔值，因为分隔字符也可以不是逗号），其文件以纯文本形式存储表格数据（数字和文本）...

2018-05-01 16:43:44 390

原创初识pandas （1）

1.pandas的使用Pandas 是基于 NumPy 的一个非常好用的库，正如名字一样，人见人爱。之所以如此，就在于不论是读取、处理数据，用它都非常简单。1.基本的数据结构Pandas 有两种自己独有的基本数据结构。读者应该注意的是，它固然有着两种数据结构，因为它依然是 Python 的一个库，所以，Python 中有的数据类型在这里依然适用，也同样还可以使用类自己定义数据类型。...

2018-05-01 10:43:35 229

原创 python3 陌生的角落（9）：JSON 数据解析

JSON (JavaScript Object Notation) 是一种轻量级的数据交换格式。它基于ECMAScript的一个子集。 Python3 中可以使用 json 模块来对 JSON 数据进行编解码，它包含了两个函数：json.dumps(): 对数据进行编码。json.loads(): 对数据进行解码。在json的编解码过程中，python 的原始类型与json类型会相...

2018-04-25 21:58:32 223

原创 python3 陌生的角落（8）：MySQL 数据库连接

#-*- coding:utf-8 -*-import sysimport mysql.connectorimport chardetreload(sys)sys.setdefaultencoding('utf-8')#连接mysql数据库def testMySqlDatabase(): print 'mysql数据库' conn = mysql.connec...

2018-04-25 21:24:22 135

原创 python3 陌生的角落（7）：正则表达式

1.re.match函数re.match 尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none。re.match(pattern, string, flags=0)import reprint(re.match('www', 'www.runoob.com').span()) # 在起始位置匹配print(re.match('co...

2018-04-25 21:15:53 262

原创 python3 陌生的角落（6）：开方、大小写转换和日期

1.开平方num = float(input('请输入一个数字： '))num_sqrt = num ** 0.5print(' %0.3f 的平方根为 %0.3f'%(num ,num_sqrt))2.生成日历# 引入日历模块import calendar# 输入指定年月yy = int(input("输入年份: "))mm = int(input("输入月...

2018-04-25 16:34:59 501

原创 python3 陌生的角落（5）：标准库概览、年龄

1.操作系统接口 os.system('mkdir today') # 执行系统命令 mkdir 针对日常的文件和目录管理任务，:mod:shutil 模块提供了一个易于使用的高级接口:&gt;&gt;&gt; import shutil&gt;&gt;&gt; shutil.copyfile('data.db', 'archive.db')&gt;&g

2018-04-25 11:52:49 180

空空如也

空空如也