自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

白雪

平时自己看书学习的一些心得以及记录

  • 博客(191)
  • 资源 (2)
  • 收藏
  • 关注

原创 计算机网络

协议有:HTTP FTP TFTP SMTP SNMP DNS TELNET HTTPS POP3 DHCP。:进行逻辑地址寻址,实现不同网络之间的路径选择。:定义传输数据的协议端口号,以及流控和差错校验。协议有:TCP UDP,数据包一旦离开网卡。:数据的表示、安全、压缩。格式有,JPEG、ASCll、DECOIC、加密格式等。:建立逻辑连接、进行硬件地址寻址、差错校验等功能。:建立、管理、终止会话。对应主机进程,指本地主机与远程主机正在进行的会话。:建立、维护、断开物理连接。

2023-08-21 16:33:45 915

原创 软考高级信息系统项目管理师1信息化与信息系统

面向服务:格局更大一些,是与组织相关的,是整个部门是提供这种服务的,但是基于构件就是复用,与组织无关。802.11:无线局域网协议;记忆方法:移动的信号是||||,移动是无线,去掉俩就是无线局域网协议。UDP就是人们直接游过去,不安全,但是可以很多人游,传输的数据量大,速度快。TCP就是人们在桥上走着过河,要安全可靠,但是桥上能通过的人少;对象是类的实例,类是对象的一个抽象。SNMP是在UDP之上的。802.3:局域网协议。

2023-02-04 20:26:41 501 1

原创 软考高级信息系统项目管理师0介绍

软考高级信息系统项目管理师的介绍、考试时间、学习安排等

2023-02-04 10:53:57 1497

原创 no module named tcn

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言 一、pandas是什么? 二、使用步骤 1.引入库 2.读入数据 总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、pandas是什么?示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分

2021-12-31 11:55:58 1806 1

转载 已经安装anaconda却没有conda命令

安装anaconda会提示是否将路径加入~/.bashrc,要填写yes。选择yes并安装完成后,会发现~/.bashrc中已经添加了相应的环境变量而尝试运行却发现“conda: command not found”解决方案是source ~/.bashrc然后再运行就可以用了。如果安装时提示添加路径时填写了no,则需要自行添加环境变量。安装教程https://blog.csdn.net/u012243626/article/details/82469174卸载教程https://

2021-12-10 17:25:49 9198 1

转载 VScode中python环境配置

VScode中python环境配置 vscode中python环境配置想要在vscode中运行python代码必须要告诉vscode使用哪个解释器才行方法1. 打开命令面板(Ctrl+Shift+P)输入Python: Select Interpreter然后选择一个解释器。方法2. 你也可以直接点击下图中的 Select Python Environment来进行选择。![pic0](https://img2018.cnblogs.com/blog/1588269/201902/15882

2021-06-10 21:32:57 1231

原创 Convolutional neural network architectures for predicting DNA–protein binding

CNN用于基因组学研究的最大优势之一是,它可以探测某一motif(指蛋白质分子具有特定功能的或者作为一个独立结构域一部分相近的二级结构聚合体)是否在指定序列窗口内,这种探测能力非常有利于motif的鉴定,进而有助于结合位点的分类摘要:我们提出了使用大量转录因子数据集预测DNA序列结合的CNN体​​系结构的系统探索。我们通过更改CNN的宽度,深度和pooling设计来确定性能最佳的体系结构。我们发现,将卷积核添加到网络对于基于motif的任务很重要。通过比较难度范围内的多个建模任务的网络性能,我们展示

2021-04-30 17:31:56 285

转载 生信的各种数据库

欢迎关注"生信修炼手册" annnovar filter-based annotaton用于分析哪些变异位点是数据库中的已知位点,在判断时,除了染色体位置之外,allel也必须相同。region-based annotation 在分析时只考虑基因组位置,只要是存在overlap关系就会输出结果,而filter-based annotation会更加严格,首先要求基因组上的起始和终止位置必须完全一致,其次变异位点的allel也必须完全相同才行。 简而言之,...

2021-04-30 17:25:50 2748 1

转载 深度学习研究基因组学

一、什么是深度学习?深度学习是表示学习的一种。上图能够看到数据经过不同的隐藏层,数据的表示形式不断的改变,直到线性可分或者变成具体的可能性。1、主要策略 监督学习:预测样本的标签 无监督学习:学习数据固有模式(转化数据)2、数据集的划分训练集:得到最佳模型参数(机器学习学的就是超参数的选择)验证集:挑选最佳模型测试集:保证泛化性能3、如何保证深度学习高效?1、合适的训练集例如样本平衡,这就像有99个女人和1个男人,你只要预测样本是女生,正确率就是99%,但你无法预测男人。2、合理的评估标准例如,不平衡的数

2021-04-30 17:20:19 1876 1

转载 如何获取目标基因的转录因子

<h1 class="post-title entry-title">如何获取目标基因的转录因子</h1> <div id="toc" style="display: block;"><i>Jump to...</i> <ol class="lorem ipsum"><li class="dolor sit amet"><a href="#%E5%A6%82%E4%BD%95%E8%8E%B7%E5%8F%9...

2021-04-26 16:58:42 5138

转载 GWAVA

GWAVAhttps://www.sanger.ac.uk/sanger/StatGen_Gwava文献 Nat Methods. 2014 Mar; 11(3): 294–296.首选推荐这个是因为GWAVA可以预测非编码区的突变此方法考虑了开放染色质数据,转录因子结合数据距离TSS远近,组蛋白修饰CpG岛数据等等作为参考来给非编码区的突变打分得到三个层面的scoreRegionscoreTSSscoreUnmatchedscore大致来说分

2021-04-21 11:02:48 398

转载 CADD-- 一种用于对整个基因组序列中的疾病原因突变进行排序的新方法 《自然遗传学》

华盛顿大学和哈德森·阿尔法生物技术研究所的研究人员已经开发出一种新的组织和确定遗传数据优先级的方法。联合注释依赖耗竭(CADD)方法将帮助科学家寻找人类基因组中的致病突变事件。当前组织人类遗传变异的方法仅考虑一个或几个因素,并且仅使用可用信息的一小部分。例如,《 DNA元素百科全书》或《 ENCODE》对人类基因组中各种类型的功能元素进行了分类,而序列保护则寻找在数亿年的进化过程中已在不同物种中生存的相似或相同序列。CADD将所有这些数据以及更多的这些数据加在一起得出一个分数,从而提供一种排

2021-04-21 11:00:18 2495

转载 .narrowPeak文件

ivf_peaks.narrowPeak上篇文章中所有的图都是利用这个文件作出来的在这里插入图片描述 1;染色体号 2:peak起始位点 3:peak结束位点 4:name 5:score 表示峰值在浏览器中显示的暗度(0-1000)。如果在将数据提交给DCC时所有得分均为“0”,则DCC基于信号值分配1-1000。理想情况下,每个碱基扩散的平均信号值在100-1000之间。 6 :strand 用+/-...

2021-04-20 15:33:03 4140

原创 查看deepSEA中GitHub上代码的数据是什么样子的

C:\Users\Admin>pythonPython 3.8.5 (default, Sep 3 2020, 21:29:08) [MSC v.1916 64 bit (AMD64)] :: Anaconda, Inc. on win32Warning:This Python interpreter is in a conda environment, but the environment hasnot been activated. Libraries may fail to l.

2021-04-15 10:01:37 281

转载 AgentBind--Deepneuralnetworksidentifysequencecontextfeaturespredictiveoftranscriptionfactorbinding

推荐度:⭐⭐⭐⭐⭐亮点设计了一种机器学习构架AgentBind,可以识别和解释对于转录因子(TF)结合最重要的序列特征。与以往大多数研究结合基序的系统或程序不同,AgentBind着眼于基序附近的序列背景,并可以研究其在TF结合中的作用。近日由加利福尼亚大学圣地亚哥分校郑安与Melissa Gymrek等的研究团队在《Nature Machine Intelligence》杂志上发表了一篇名为“Deep neural networks identify sequence context feat

2021-04-07 21:02:14 223

原创 conda变得不可用了解决方案

source /anaconda_installation_folder_path/bin/activate激活后就可以用了

2021-04-07 09:50:18 897 3

转载 deepSEA--基于深度学习的序列模型预测非编码区变异的功能效应

文章转自:作者:黄树嘉链接:https://www.jianshu.com/p/8cd6ef12b2e2来源:简书著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。[注] 本文同时发于泛基因fungenomics公众号和我的个人博客。Deep Learning,现在几乎到处都能看到它的应用。看!紧随DeepBind,在基因组学应用中又来了一个DeepSEA——这是一个适用于表观遗传研究和应用的工具,它只从DNA序列出发,并没用其他有关于表观研究的实验或者测序技术,通过直接

2021-04-06 17:22:52 2767 1

转载 Python scikit-learn,分类模型的评估,精确率和召回率,classification_report

分类模型的评估标准一般最常见使用的是准确率(estimator.score()),即预测结果正确的百分比。混淆矩阵:准确率是相对所有分类结果;精确率、召回率、F1-score是相对于某一个分类的预测评估标准。精确率(Precision):预测结果为正例样本中真实为正例的比例(查的准)({TP}/{TP+FP})召回率(Recall):真实为正例的样本中预测结果为正例的比例(查的全)({TP}/{TP+FN})分类的其他评估标准:F1-score,反映了模型的稳健型.

2021-04-06 16:10:12 1433 2

原创 python2.7不再被支持,安装各种包出现错误的解决办法

pip install --target=/home/zbx19/anaconda3/envs/py2tf1/lib/python2.7/site-packages -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com scikit-learn带上安装路径

2021-04-06 11:30:28 1321

转载 序列特征和基因模型

生信课程笔记8-序列特征和基因模型bio_meow0.0992020.03.24 23:47:36字数 1,529阅读 356基因组特征(GenomicFeatures)包括基因组上的基因模型(gene model)或其他序列特征(gene feature),如genes、exons、UTRs、transcripts等。基因模型被定义为基因产物的描述,包括来源于计算预测、mRNA测序或遗传特征的基因产物。该基因特征旨在近似覆盖该领域的工作者认为是基因的核酸区域。基因模型(gen.

2021-03-30 14:45:11 2592

转载 win10安装torch7

我只是在Windows上以32位和64位配置重建了Torch,并在此处提供了生成的二进制文件:https://github.com/hiili/WindowsTorch要使用它们,只需下载到C:\ torch,然后运行setpaths.cmd和luajit.exe。这些应该是完全独立的版本(在两台相对较干净的机器上测试),但是我还没有机会在完全干净的机器上对其进行测试。如果有人尝试过,请告诉我们它们是否有效。谢谢!我将构建过程中发出的所有命令记录到git日志中。(ping@hughperk...

2021-03-26 20:28:57 563 3

转载 使用CNN预测基因可及性

使用CNN预测基因可及性对于要转录的基因,转录因子蛋白必须能够访问它们才能与DNA结合。遗传密码中的突变会极大地改变DNA的可及性,进而影响基因表达。了解这些突变如何扰乱遗传机制可以导致更有针对性的医学和个性化治疗。但是,当前无法有效解释基因组中的非编码变体减慢了这一进展。在“ Basset:使用深度卷积神经网络学习可访问基因组的调控代码”中,作者通过实现一个卷积神经网络来从序列数据中学习DNA的活性和可访问性,从而解决了这一挑战。 ...

2021-03-26 16:38:12 931 1

转载 深度学习中的生物数据

基因表达生物学的中心教条指出,DNA被转录为mRNA,然后被翻译为蛋白质。我们知道不同的基因以不同的水平表达,并且这些表达水平可以随细胞而变化。基因表达的这些差异使细胞即使在具有相同的DNA“代码”的情况下也表现出不同的行为。 RNA-Seq是一种我们可以定量细胞样品中基因表达的方法[1]。基于mRNA的水平与该基因产生的蛋白质的水平直接相关的想法,RNA-Seq试图量化mRNA的丰度。这有效地使我们了解了每个基因在特定细胞类型或特定...

2021-03-26 16:14:45 942

原创 switchyOmega

2021-03-26 14:45:02 245

转载 GWAS研究基本概念2——Fine mapping

有了GWAS公共数据后的下一步就是找因果变异(causal varision),这篇文章介绍fine-mapping精细映射 和gene prioritization基因排序,简单一句话就是 translate GWAS loci to a functional understanding of the associated trait, while taking cell-type- and disease-specific context into account. 再简单点,搞清楚loci——trai

2021-03-25 22:17:57 4249 1

转载 Deep Learning for Genomics: A Concise Overview

本专栏介绍的这篇由卡耐基梅龙大学硕士岳天溦与Eric Xing教授的学生汪浩瀚合著的论文“Deep Learning for Genomics: A Concise Overview”, 综述了深度学习在基因组学中的应用。文中分析了不同深度模型的优劣势,举例讲解如何利用深度学习解决基因学问题,并且指出了当前科研所面临的缺陷和挑战。论文链接:https://arxiv.org/abs/1802.00810作者GitHub还有一些重要论文的笔记: https://github.com/Thither

2021-03-15 09:44:53 408

转载 VariantNet--简易的神经网络做DNA测序

前言恩。。最近太忙了,一直在忙着自己的研究生毕业设计,刚刚才提交了初稿,很多内容没有及时更新,见谅见谅...今天来讲讲基于DeepVariant框架的简化版,Simple Convolutional Neural Network for Genomic Variant Calling with TensorFlow这是一个工程师的博客内容,他工作在一间单分子测序的公司,不算是一篇文章,但是思路还是很好的,和大家分享一下。网页: 主要介绍了作者的一些动机和方法介绍源码地址:也用tensorflow写的,不过框

2021-03-14 15:46:24 409

转载 群体遗传分析—LD连锁不平衡

在群体遗传学研究中,LD连锁不平衡分析是最常见的分析内容,也是关联分析的基础。在很多的遗传进化GWAS的文章中都会出现LD衰减及单体型block图,如果你还不是很了解的话,是时候补补课了哦~~LD概念当位于某一座位的特定等位基因与另一座位的某一等位基因同时出现的概率大于群体中因随机分布的两个等位基因同时出现的概率时,就称这两个座位处于连锁不平衡状态(linkage disequilibrium)。LD计算方法D 是 LD(连锁不平衡) 的基本单位,度量观察到的单倍型频率与平衡状态下期望频.

2021-03-13 20:00:17 4858

转载 Basset:CNN学习新的染色体开放位点

尝试着将神经网络的元件与生物学意义联系起来。大胆假设,小心求证!PMC | Genome Res. | GitHub下载从ENCODE Project Consortium下载125种细胞类型的数据。从Roadmap Epigenomics Consortium下载39种细胞类型的数据。数据形式为DNase-seq的peak信息,保存在BED格式的文件中。使用未去重叠(overlap)的peak数据。预处理以1%的FDR使用模拟方法修改原始数据集——robustness归并重叠的peaks共 $2,071.

2021-03-12 16:24:56 825

转载 Cell-type–specific || 单细胞文章新范式

组织器官图谱 某一细胞类型异质性 细胞类型特异性分析单细胞技术带给我们的精度可见一斑。最近注意到单细胞的文章题目有的朝着Cell type–specific(细胞类型特异性)发展了。之前的图谱是聚类后注释出细胞类型或者亚型,现在是分析每个亚型有什么别的特点。细胞能有什么特点呢?什么是细胞类型,不就是基因选择性表达的结果吗?而基因的选择表达受到一系列的转录调控,在这个意义上,细胞命运背后的驱动力在于各自转录因子表达的程序化及其靶标基因。有的细胞类型里面是不是有其特异的转录因子呢?有。而细胞类型一旦形

2021-03-12 15:31:00 767

原创 Sequential regulatory activity prediction across chromosomes with convolutional neural networks

Sequential regulatory activity prediction across chromosomes with convolutional neural networks基于卷积神经网络的染色体序列调控活动预测摘要基因预测表型从DNA序列预测大型哺乳动物基因组中细胞类型特异性的表观遗传和转录谱。利用CNN对启动子和远端调控元件进行识别,综合其内容,进行基因表达的预测尽管许多研究表明,在一系列人类疾病和特征中,基因型和表现型的变异之间存在很强的关系,但这种关系运.

2021-03-12 15:22:13 578

转载 DNA非编码区突变,DNA外显子突变,DNA内含子突变的区别,什么是DNA突变,什么是基因突变

1,首先要明确DNA和基因的区别:DNA(Deoxyribonucleicacid)是由脱氧核糖核酸构成分子水平上的双链结构;基因(gene)具有遗传效应的DNA片段2,DNA突变与基因突变DNA突变:个别dNMP(脱氧单磷酸核苷)残基以至片段DNA在结构、复制或表型功能的异常变化,也称为DNA损伤,多指点突变;基因突变:基因组DNA分子发生的突然的、可遗传的变异现象(gene mutation)。从分子水平上看,基因突变是指基因在结构上发生碱基对组成或排列顺序的改变。3,DNA非

2021-03-12 11:43:33 7586

转载 基于卷积的神经网络的时间序列预测——WaveNet

基于卷积的神经网络的时间序列预测——WaveNet 原文博客的参考地址:https://jeddy92.github.io/JEddy92.github.io/ts_seq2seq_conv/ 项目参考地址:https://github.com/JEddy92/TimeSeries_Seq2Seq/blob/master/notebooks/TS_Seq2Seq_Conv_Intro.ipynb 项目中的数据集参考:https://download.csdn....

2021-03-12 11:10:43 2038

原创 基于卷积神经网络的序列特异性预测研究--云南大学范航恺硕士论文

基于卷积神经网络的序列特异性预测研究--云南大学范航恺硕士论文摘要基因序列特异性的预测无论是在基因分析领域还是基因调控领域都扮演着重要作用,DNA和RNA结合蛋白的特异性模式序列对致病基因的发现也具有指导性作用。目前生物数据量超级多,传统方法(生物实验、统计分析)耗时耗财耗人,采用深度学习方法可以有效避免这些问题。本文主要关注点是模体识别问题中模体的序列特异性,针对这个问题,使用卷积神经网络建立了相应的序列预测模型。该模型主要涉及几个阶段:首先将字符串序列转化为数值编码矩阵,再用预测模式的数

2021-03-11 22:19:34 612

转载 生物信息--连锁不平衡(Linkage Disequilibrium)

转载于:http://blog.csdn.net/bruceyang2009lzu/article/details/8211043  不同基因座位的各等位基因在人群中以一定的频率出现。在某一群体中,不同座位某两个等位基因出现在同一条染色体上的频率高于预期的随机频率的现象,称连锁不平衡 (linkage disequilibrium) 由于 HLA 不同基因座位的某些等位基因经常连锁在一起遗传,而连锁的基因并非完全随机地组成单体型,有些基因总是较多地在一起出现,致使某些单体型在群体中呈现较高的频率,从而引起

2021-03-10 17:17:48 583

转载 生物统计学基本术语

这里简单介绍下生物统计学里面的基本术语。样本与群体群体是指需要调查的所有个体,但是群体常常是可望而不可求的,因此我们使用抽样的方法从群体随机抽取一定量样本来对群体进行估计。期望与平均值平均数是一个统计学概念,期望是一个概率论概念。平均数是实验后根据实际结果统计得到的样本的平均值,期望是实验前根据概率分布“预测”的样本的平均值。之所以说“预测”是因为在实验前能得到的期望与实际实验得到的样本的平均数总会不可避免地存在偏差,毕竟随机实验的结果永远充满着不确定性。如果我们能进行无穷次随机实验并计

2021-03-09 21:46:49 1308

原创 2021-03-09

在跑basenji_gene的notebook过程中,出现找不到下面这个文件的问题,考虑是路径问题,切换了运行位置,切换到了tutorial目录下,就没有再报错了。又发现文件目录对不上,好几个python文件没有,比如batcher.py,另外还有文件目录对不上的,已经在import的时候做了修改,另外在basenji_test_reps.py中那个文件没有infer_replicates函数,但是以前下载的版本是有的,我又上传了以前的一个版本,把这个原来的重命名了一下,运行后,

2021-03-09 15:42:14 86

转载 AKT基因 AKT1 AKT2 AKT3

2021-03-09 11:14:55 2505

转载 MACS软件中peak-calling算法简介

转载:https://www.plob.org/article/7227.html本文将以MACS为例,介绍ChIP-seq数据的处理流程。为节省篇幅,本文略去测序数据预处理、mapping reads等步骤,直接从peak-calling开始讲起。一、首先粗略地介绍一下MACS的基本原理。TF在基因组上的结合其实是一个随机过程,基因组的每个位置其实都有机会结合某个TF,只是概率不一样,说白了,peak出现的位置,是TF结合的热点,而peak-calling就是为了找到这些热点。如何定义热点

2021-03-09 10:54:58 1320

转载 python import

Python包含子目录中的模块方法比较简单,关键是能够在sys.path里面找到通向模块文件的路径。下面将具体介绍几种常用情况:(1)主程序与模块程序在同一目录下:如下面程序结构:`-- src |-- mod1.py `-- test1.py 若在程序test1.py中导入模块mod1, 则直接使用importmod1或from mod1 import *;(2)主程序所在目录是模块所在目录的父(或祖辈)目录如下面程序结构:`-- src...

2021-03-09 09:23:03 85

共享单车的分配与调度

本论文主要探讨了共享单车的分配与调度,主要运用马可夫链,题目来自2017年数创杯C题

2017-11-15

计算机专业英语第四版答案

计算机专业英语答案

2016-11-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除