3 ypfzhao

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 8k+

生物信息数据存放类型之——FASTQ

FASTQ简介FASTQ用于保存生物序列(通常是核酸序列)和其测序质量信息的标准格式。 其序列以及质量信息都是使用一个ASCII字符标示,最初由Sanger开发。 目的是将FASTA序列与质量数据放到一起,目前已经成为高通量测序结果的实施标准。一、定义和示例FASTQ文件中每个序列通常有四行:第一行是序列标识以及相关的描述信息,以‘@’开头 第二行是序列第三行以‘+’开头,后面是序列标示符、描述信息,或者什么也不加,但是“+”不能少。第四行,是质量信息,和第二行的序列相对应,每一

2020-06-02 20:10:39

GBT/Xgboost/Lightgbm

三大集成学习优秀博客汇总GBTXGboostLgbm

2019-08-03 20:29:44

神经网络训练结束后,重新指定输入输出进行预测keras

目录写在前面多输入输出模型重新定义输入输出进行预测完整代码写在前面这几年,深度学习推动了人工智能领域快速的向前发展,神经网络架构也是演变的越来越复杂,经常会有多输入,多输出的情况,然而,我们在使用训练后的模型进行预测的时候,有时并不需要进行和训练时一样的输入和输出,可能只需要模型的一部分,这时候我们可以怎么做呢?多输入输出模型以下是函数式 API 的一个很好的...

2019-03-13 12:21:21

深入理解过拟合与欠拟合

偏差是指我们忽略了多少数据,而方差是指我们的模型对数据的依赖程度。说你想学英语。你没有先前的语言知识,但你听说最伟大的英国作家是莎士比亚。一个自然的行动方式当然必须是将自己锁定在图书馆并记住他的作品。经过一年的学习,你从学业中走出来,前往纽约市,并向你看到的第一个人打招呼,“Good dawning to thee, friend!”(这种用法貌似只在莎士比亚作品出现过)作为回应,你...

2019-03-12 18:52:12

以XGBoost为代表的集成算法体现的哲学思想与数学技巧

目录哲学思想一:抓住主要矛盾为什么AdaBoost要增加前一次错分样本的权重?为什么lightGBM可以忽略梯度小的样本?哲学思想二:矛盾在一定条件下是可以相互转化的。为什么随机森林比单一决策树更好?为什么要用弱学习器?用偏差与方差理论解释:哲学思想三:如无必要、勿增实体数学技巧一:利用牛顿法优化数学技巧二:特征合并哲学思想一:抓住主要矛盾...

2019-03-12 18:49:26

奇异值分解SVD讲解

奇异值分解技术(简称SVD)具有长期且有些令人惊讶的历史。它开始于社会科学与智力测试。早期的情报研究人员指出,用于衡量智力的不同方面的测试,例如口头和空间,通常是密切相关的。因此,他们假设有一个共同的智力的一般衡量标准,他们称之为“g”,因为“一般情报”,现在通常被称为“智商”,所以他们着手解释构成的不同因素智力,以便拉出最重要的一个。今天,奇异值分解已经通过许多科学分支传播,特别是心理学...

2019-03-12 10:32:44

透彻理解深度学习背后的各种思想和思维

深度神经网络在2012年兴起,当时深度学习模型能够在传统机器学习问题,例如图像分类和语音识别,击败最先进的传统方法。这要归功于支撑深度学习的各种哲学思想和各种思维。抓住主要矛盾,忽略次要矛盾--池化神经网络中经过池化后,得到的是突出化的概括性特征。相比使用所有提取得到的特征,不仅具有低得多的维度,同时还可以防止过拟合。比如max_pooling:夜晚的地球俯瞰图,灯光耀眼的穿透性让人们...

2019-03-12 10:25:21

单样本学习(One shot learning)和孪生网络(Siamese Network)简介

背景传统观点一般认为深度神经网络通常比较擅长从高维数据中学习,例如图像或者语言,但这是建立在它们有大量标记的样本来训练的情况下。然而,人类却拥有单样本学习的能力--如果你找一个从来没有见过小铲刀的人,给它们一张小铲刀的图片,他们应该就能很成功的将它从其他厨房用具里面鉴别出来。(从来没有进过厨房?现在你有机会来测试一下你的单样本学习能力了!右边图像中,哪个是与左边大图片相同类别的?)...

2019-03-12 10:21:13

conda清理没用的安装包

conda clean -p //删除没有用的包conda clean -t //tar打包conda clean -y -all //删除所有的安装包及cache

2019-03-11 22:15:12

使用conda安装和卸载各种包

直接使用下面的命令安装conda install xxx //安装xxx包卸载conda uninstall xxx //卸载xxx包安装指定版本的包,以tensorflow-gpu1.4.0为例anaconda search -t conda tensorflow-gpu //搜索安装包运行后显示以下信息显示指定安装包的安装源anaconda ...

2019-03-11 22:12:20

conda环境管理

conda update -n base conda //update最新版本的condaconda create -n xxxx python=3.5 //创建python3.5的xxxx虚拟环境conda activate xxxx //开启xxxx环境conda deactivate //关闭环境con...

2019-03-11 21:57:45

anaconda卸载

anaconda windows版,直接在控制面板的程序与功能下卸载即可linux版,直接删除安装的文件夹即可,使用rm -rf file //ubuntu,file 为anaconda安装目录,例/home/anaconda3...

2019-03-11 21:53:07

conda升级命令-升级conda、anaconda及各种包

升级Anaconda需要先升级condaconda update condaconda update anacondaconda update anaconda-navigator //update最新版本的anaconda-navigatorconda update xxx #更新xxx文件包

2019-03-11 21:44:54

python的列表中存在两个冒号

有不少的人在刚接触python的时候,会遇到列表中存在两个冒号的问题,搞得一头雾水,今天为大家解释一下#创建一个列表lis=[0,1,2,3,4,5,6,7,8,9]lis=[i for i in range(10)]#取后4个数,下面两个结果是一样的,一个是按照倒叙的索引,一个是正序索引lis_=lis[-4:]lis_=lis[6:]#取3、5、7、9lis_=lis[3::...

2019-03-10 19:42:19

数据挖掘中的一些概率论知识

目录介绍随机变量概率分布函数期望值协方差预定义的概率分布分布混合(Distribution Mixtures)应用介绍为什么我们需要概率论基础才能理解机器/深度学习算法?上述问题的答案是本文背后的主要动机。机器学习/深度学习通常处理的时随机量,可以认为是非确定性的。这与在计算机科学领域产生的确定性量有很大不同。因此当希望能够在不确定的环境中进行推理...

2019-03-10 09:49:23

深度学习中八大类型卷积

本文为大家形象的介绍一下单通道卷积、多通道卷积、3D卷积、1 x 1卷积、转置卷积、扩张卷积、可分离卷积、分组卷积。目录单通道卷积多通道卷积3D卷积1 x 1卷积转置卷积(解卷积、反卷积)扩张卷积可分离卷积空间可分卷积深度可分卷积分组卷积单通道卷积单通道卷积在深度学习中,卷积是元素先乘法后加法。对于具有1个通道的图像,卷积如下图...

2019-03-09 11:34:01

资本「寒冬」已至,人工智能会同样遇冷吗?

回顾今年国内政策方向和科技巨头的战略布局,不难看出2018年是大数据、AI、互联网三大基础设施技术赋能各行各业的重要一年,发展产业互联网、产业智能与产业大数据已成为众多公司的重要战略目标。然而,今年的寒冬也同样凛冽。国内经济处于下行周期,加之中美贸易战的影响,引发了一些失业潮、跑路潮、返乡潮……不少企业都已扛不住寒冬的压力纷纷开始裁员。那么,在这个号称“寒冬”的时代,人工智能会同样遇冷吗?...

2019-01-04 14:49:50

最新ncRNA数据库大全(含TCGA、ceRNA、exosome等)

一、TCGA相关数据库 数据库名 网址 备注 TCGA-GDC https://portal.gdc.cancer.gov/ TCGA官网 GEPIA http://gepia.cancer-pku.cn/ 北大Zhang lab-Zefang Ta...

2019-01-04 10:27:24

中文姓名按照拼音排序-python

写在前面在做文档排版的时候经常会遇到姓名的排序问题,当人名很多的时候,我们是不可能人工的一个一个比较排序,那么有什么办法快速解决这一问题吗?答案可定是有,今天为大家介绍一种。程序from xpinyin import Pinyindef my_function(lis): #输入一个名字的列表 pin=Pinyin() result=[]...

2018-11-25 11:32:59

关于L1和L2正则化的一些理解

目录 零、简介一、数学基础1. 范数2.拉普拉斯分布3.高斯分布二、正则化的理论基础1.基于约束条件的最优化2.最大后验概率估计三、正则化的直观理解1.L1正则化和特征选择2.L2正则化和过拟合3.正则化参数λ参考零、简介机器学习监督算法的基本思路是 让拟合的模型尽量接近真实数据, 换句更通俗的话, 要让我们的模型尽量简单又能很好的反...

2018-11-20 19:26:26

查看更多

勋章 我的勋章
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。