爱笑的小牙-CSDN博客

原创批量从bam文件获取指定位置的碱基

批量从bam文件获取指定位置(RS.xlsx)的碱基后输出到一个excel，按照编号进行排序。

2023-10-11 09:21:00 356

如果对整个数据的查看，就会发现位置不是唯一性的，里面很多同一个位置对应好几个MIM number或者好几个Entrez Gene ID，可能是这个位置太长了，里面对应的基因太多，所以如果我们简单的进行位置转化，在注释的时候，根据位置匹配，就会出现多个基因，最好的是根据OMIM数据库给的提示操作，把对应的位置范围缩小，才能更精准）由于OMIM上的位置是参考基因组GRch38，所以在进行hg19版本的annovar注释时，需要转化为hg19的，根据OMIM数据库上的提示，我们可以从gff文件中获取对应的位置。

2023-10-11 09:04:42 955

转载 python获取excel表格中的图片并且修改图片名字

python获取excel表格中的图片并且修改图片名字

2022-11-01 11:26:40 602 1

原创 python实现批量word转pdf

docx2pdf实现word批量转pdf

2022-10-26 12:41:08 1171

原创 python对指定段落中的关键字以及表格标记红色

【代码】python对指定段落中的关键字以及表格标记红色。

2022-10-26 12:35:39 1259

原创运行python进行指定内容的文件名查找

python自动化办公

2022-09-22 15:06:48 324

原创 linux scp不借用第三方工具不输入密码

需求是：在A服务器运行scp传输脚本，批量下载B服务器的数据到A服务器，就需要在B服务器进行以下操作：1.进入当前用户根目录下的隐藏目录 .ssh，命令如下：cd ~/.ssh2.生成服务器的私钥和公钥：ssh-keygen -t rsa3.根据提醒输入回车，下一步：ssh-add id_rsa系统如果提示：Identity added: id_rsa (id_rsa) 就表明加载成功了下面有几个异常情况处理：–如果系统提示：could not open a conne

2021-12-13 14:08:56 506

转载在windows下批量修改文件名

在windows下批量修改文件名

2021-06-26 11:38:09 3326

原创 biopython 根据关键词在NCBI上查找文献

Biopython是python的一个库，帮助生物学家解决感兴趣的事情。功能很多，比如：处理序列，解析序列文件格式（FASTA,GENEBANK），连接生物学数据库（NCBI，ExPASY，SCOP）。如：我们想在NCBI的PubMed数据库中查找与epilepsy相关的文章，然后输出title,author,source这些信息，这些对于在报告中显示参考文献时，很有必要。不用biopytho...

2021-06-26 11:33:40 930

原创 shell 统计大文件中某列每个字符出现的字数

对于几百万条记录的文件，用python处理起来会慢很多，这时候可以结合awk grep 等使用需求：获取2020001082.snp_indel.hg19_multianno.pro.txt 文件中第十列中每次字符的个数#!/bin/bash#for i in `cut -f 10 2020001082.snp_indel.hg19_multianno.pro.txt|sort |uniq -d # 这句总是报告代码最后一行的下面一行Syntax error: EOF in backquot

2020-11-06 11:52:43 485

原创 python pip 安装模块时的问题

python在windows上安装模块时，常用pip install packages.name或者是.whl文件 pip installC:\Python27\Scripts\pywin32-223-cp27-cp27m-win32.whl,cp 表示python2.7在https://pypi.org/project/pywin32/223/#files里面，有两个2.7可以安装的，但是如果选择pywin32-223-cp27-cp27m-win_amd64.whl会报错，识别不...

2020-08-19 11:29:00 233

原创使用pandas读取excel时遇到的某整数列读出浮点数

平时最喜欢用pandas 读取excel,最近工作时遇到对于某列整数列的表格，总是把整数读出了浮点数，后面加个.0，但其实我不需要变为浮点数。原因是：我这一列整数是由函数vlookup查找来的，没有查找到的是NA办法是：把NA替换为-,就可以了...

2020-08-19 09:34:53 2900

原创下载cosmic数据库以及转换为annovar可识别的格式

COSMIC作为肿瘤常使用的数据库，和OMIM，HGMD遗传数据库一起，可以进行区分体细胞突变和胚系突变（来源于《高通量测序技术李金明主编》第五章数据库里的P146),所以这些数据库的本地化就很重要了。1.下载COSMIC数据库，进入主页，点击data下的download，找到要下载的文件点击下载（直接下载失败，用脚本下载）。2.脚本下载时按照网页上的步骤操作，由于设置密码时不知道后期会有这种要求，就在密码中加入了感叹号！，导致提示!:event not found，这时候把 echo "ema

2020-06-28 17:33:16 2658 2

原创用python写的一些小应用

1.根据一个表格是基因，一个工作簿里不同的癌种基因信息放在不同的表格中，要查找表1的每个基因在工作簿里的哪些癌种中存在#!/usr/bin/env python# encoding=utf-8# 目的是根据基因在另一个工作簿中各个表格匹配癌种import pandas as pdimport sysreload(sys)sys.setdefaultencoding('utf-8')df = pd.ExcelFile('../allgene.xlsx')keylist=[]val

2020-06-17 14:43:26 533

原创利用数据库进行肿瘤基因的挖掘

查找肿瘤靶药预后风险相关基因位点，在没有找到相关的肿瘤panel的情况下，可以去cBioportal这个数据库去根据肿瘤类型查找频率很高的基因，然后把鼠标放在某个基因上，就会看到图一提示：进入OncoKB Cancer Gene List,看到图二界面：对于每个基因都进行了分类（癌基因还是易感基因），权威数据库是否收录。不需要注册，基因列表可以下载的，搜索某个基因进入后，就会看到每个基因上位点的变异，证据级别以及药物情况。在cbioportal数据库里也可以查找某个癌症里基因里的位点.

2020-06-16 15:20:08 1655 1

原创把PGM仪器上两次数据进行合并后再跑variantCaller的流程

因为一个样本做了两次，两次的深度都不是很大，需要把两次的数据bam文件进行合并后再运行流程，这时候拿到合并的数据后肯定不能在网页端进行插件运行了，需要自己把数据拷贝到仪器的服务器，运用相应的软件以及脚本进行运行了。1.分别合并两次的ubam,bam文件#常规做法samtools merge total.bam input1.bam input2.bamjava -jar picard.jar MergeSamFiles I=input1.bam I=input2.bam2. 合并好后就放.

2020-06-10 15:08:12 518

原创利用Biopython 快速根据pmid 来下载参考文献信息

之前用的常规爬虫思路（import requests，from bs4 import BeautifulSoup）来下载文章题目，作者，来源等信息时，偶尔会出现各种问题，有那个调试的时间，就自己根据biopython快速写了一个脚本，简单好用。# !bin/python# encoding:utf-8from Bio import Entrezfrom Bio import MedlineEntrez.email = '[email protected]'ref = open('ref.txt..

2020-06-09 10:23:50 1643 1

原创本地快速安装mysql数据库以及navicat连接mysql数据库

在做系统时首先要有数据库，常见的是mysql，快速安装如下：1.下载xampp以及mysql等其它软件2.打开连接后下载xampp软件，xampp是一个集成开发环境，里面自带mysql3.下载成功后，双击下载下来的exe文件注意：在安装下载前，必须完全卸载电脑里所有的mysql软件，不能就会安装不上，一定要到电脑软件卸载里面去看下是否安装mysql，不要以为没有，就不去卸载。（很关键）4.后面就是一直next,用此方法安装的mysql用户名是root，密码是空。5.用navicat连

2020-05-30 10:38:15 350

原创利用python生成二维码以及批量生成二维码

常见的两种简单生成二维码方法，目测均是很好用的1.MyQR 要求是python3 ，并且二维码上的内容不支持中文#1.生成普通二维码#在程序中导入MyQR包下的模板myqr，其中word参数接收一个字符串作为二维码的内容。from MyQR import myqrmyqr.run(words='https://www.cnblogs.com/Estate-47/p/9661543.html')#2.生成带图片的二维码图片要和代码保持同一路径 myqr.run(words='...

2020-05-11 09:46:30 1538

原创 java 字符串基础操作

1.“==”本身是进行数值比较的，而如果在对象之中进行比较，常进行的是对象内存地址的数值比较，而没有进行内容的比较，如果要进行内容的比较，而需要使用String类中的一个方法内容比较：public boolean equals(Sring str);eg: String str1 ="hello"; String str2 =new String("hell...

2020-04-28 10:43:22 171

原创学习笔记(01):Java面向对象编程（高手养成记）-String类对象的两种实例化方式

Java学习视频教程，该课程主要讲解JavaSE的发展历史，JDK开发环境的搭建，java api、JDK、面向对象编程、多线程、IO、类集、网络、数据库编程。

2020-04-27 17:13:31 206 1

原创 django基础课程-2

安装了所需要的软件，熟悉了一些基本命令，就可是进行实战操作，总会遇到一些问题，如下：一 .根据视频操作，执行django-admin.py startproject hello_django(命名为hello-django，会提示CommandError: 'hello-django' is not a valid project name. Please use only numbers, ...

2020-04-07 15:08:47 229

原创 django基础课程-1

django所用的软件安装步骤列出需要安装的包：pip freeze1.python(目前是3X)2.更新pip （非必须）python -m pip install --upgrade pip3.安装虚拟环境 pip install virtualenv==15.0.1（可以不加版本）4.创建虚拟环境 vitualenv django_back_env5.使用虚拟环境 ...

2020-04-07 14:41:44 157

原创 notepad++ 正则表达式的简单应用

1.对于日常需要把如下一列数据转换为'A','B','C','D'的方法为：在正则表达式的循环查找模式下，输入查找目标为([\w\W]+?)\r\n ,替换为 '\1',ABCD2.对于ACE，ADA，BAX，CAPS转换为如下模式，输入查找目标为([\w\W]+?)\，，替换为\1\r\n 。1表示找到的目标ACEADABAXCAPS...

2020-03-25 09:29:58 163

原创 R-一些小技巧

library() install.packages()ls() list.files()rm(list=ls(all=TRUE))Esc中断当前命令的执行 tab 补全Ctrl+L清楚当前屏幕 Ctrl+up弹出历史命令框getwd() setwd()head() tail()?function()help(function)a...

2020-03-12 12:54:35 173

原创 perl 小练习

1.以scaffold.fasta作为输入文件，计算GC含量以及N50和N902.根据给定的基因组scaffold.fasta文件和相对用的基因注释gff文件提取基因的cds区域，并以每行60个碱基的格式输出到cds.fasta文件中3.以cds.fasta作为输出文件，将其翻译成蛋白质序列并以每行60个氨基酸的格式输出到pep.fasta文件...

2020-03-12 10:14:38 954

原创 perl -常用正则表达式笔记

① 替换：s$string = ~s/<pattern>/<replacement>/; #返回值为替换次数s/ / /i; #不区分大小写s/ / /g; #全局替换s# # #g; #可以用其他界定符代替“/”my $str = 'My heart will go on,';$str = ~s/go/went/; #将go替换成went...

2020-03-12 09:49:37 427

原创在vim 编辑器中进行文件内容的复制

在vim 模式对文件中的内容进行复制，除了常规的复制粘贴外，其实还可以进行命令操作，简单快捷如：1.vim name.txt # 进入name文件2 假如内容只有11行，在insert 模式下，可以往下添加行号，然后按Esc键退出3.shift+: 模式后，要复制的第一行号 ,复制的最后一行号 co 要存放复制内容的行号（一般这行会空，在下一行复制）。:4,6 co 12 ...

2020-03-12 09:25:07 1696

原创 perl学习笔记 - 输入与输出

钻石操作符 <> ：从用户指定的位置读取输入（一般用于读取用户的输入文件）注意：1，<>会处理所有的输入，直到所有输入的结尾为止一般在一个程序中只有一个<>，若出现多次则可能发生错误。2，调用参数@ARGV @ARGV 是一个装着调用参数的数组标准输入输出1，读取从键盘输入的值 <STDIN>注意：<STDIN...

2020-03-11 17:21:37 399

原创通过哈希的键来去掉数组中的重复值

通过哈希键不存在重复值的属性，可以去掉数组中的重复值#!/usr/bin/perl use strict;my %hash = ();my @array = (2,3,4,6,89,56,35,38,4,6,89);foreach my $e (@array){ $hash{$e} +=1; }my @keys = keys %hash;foreach my $k...

2020-03-11 13:57:54 277

原创 python做方差分析

方差分析可以用来推断一个或多个因素在其状态变化时，其因素水平或交互作用是否会对实验指标产生显著影响。主要分为单因素方差分析、多因素无重复方差分析和多因素重复方差分析。做方差分析首先必须满足独立，正态检验，方差齐性检验。如果是重复测量方差分析，则必须满足正态检验，方差齐性检验，以及球形检验。之前一直使用的是SPSS,其实也可以用python或者R做方差分析python主要用到的库是...

2020-02-06 10:32:09 4477

原创在window下写linux命令

在window系统下，用编辑器写shell脚本时会遇到的问题：当你的命令在终端运行没有问题，放入xx.sh文件时，会报错，比如找不到文件，或者是提示command '\r'等类似的错误提示语时，均要考虑编码问题。可以在.sh文件中输入:set ff=unix:wq即可。如对文件中每一行进行操作的脚本#bashcat BRCA1_2.designed.bed|whi...

2020-02-05 10:57:31 306

原创对annovar注释的总结

新的一年到了，到了该更新数据库的时候了，首先就从常用的annovar软件以及所使用的数据库开始更新吧。1.下载最新版的annovar软件，annovar.latest版本，需要一个edu的邮箱。2.下载注释所用的数据库，官网上太多，可以根据需要自行下载，比如下载hg19版本的, clinvar数据库更新到20190305版本了，但是NCBI数据库已经更新到20191223了，可以自己下载后...

2020-01-20 17:32:23 6810 3

转载 python编码问题

相关知识1.字节(Byte):计算机中数据存储的基本单位,一个字节是8位.计算机上所有的数据都是由字节组成的2.字符:字符是一个信息单位,是各种文字和符号的统称.(一个英文字母,一个汉字都是一个字符)3.字符集(Characterset):是某个范围内字符的集合,不同的字符集规定了字符的个数.如:ASCII,GB23124.字符码:字符集中每个字符的数字编号5.字符编码(cha...

2019-11-21 17:15:24 171

原创王金发版的《细胞生物学》笔记链接

好久没更新了，附上自己这段时间的劳动成果之一王金发版的王金发版的《细胞生物学》笔记幕布链接这是第一次使用幕布作为读书笔记，可能不是很美观，对书本内容也只是进行了简洁的汇总。细胞概述：https://mubu.com/doc/d7FOUoE1n0细胞质膜与跨膜运输：https://mubu.com/doc/d8nhgTczL0细胞环境与互作：https://mubu.com/...

2019-09-12 11:52:57 1154

原创预测疾病风险参考文章

对于把测序的数据真正的落实到每个人身上，除了能够有意义的分析致病原因，更多的是对疾病风险的预测。每个公司都有自己的风险模型，比如：1.23魔方写的很详细，可以参考https://www.23mofang.com/advantage/authority#userconsent#2.香港大学MBBS博士的疾病风险预测，比较复杂，用的机器学习贝叶斯算法。https://github....

2019-06-13 09:41:07 1528

原创学习linux的好助手-linux命令解释工具

有时候在听学习视频时，看到大佬输入没见过的linux命令行，就不知道什么意思。现在可以通过在线工具Linux命令解释工具输入你的命令，就会告诉你什么意思，并且对每个参数进行了解释，简直是菜鸟的福音。可能英文不是很方便，那就使用下面的中文版的快速查找 Linux 命令行命令，简直是好用的不行，必须强烈推荐，不仅仅是简单的告诉什么作用，还提供了学习教程，作为学习的教程是极好的。Linu...

2019-06-05 10:39:35 741 1

原创 Biopython根据关键词在NCBI上查找文献

Biopython是python的一个库，这个库可以解决很多生物上的问题，使大量的生物数据简单化，是个很好用的包。对于数据库上的各种信息，有专门的函数处理，不用按照常规的文本处理方法，写大量的代码。比如很常见的报告中展示的参考文献，一般思路是有了文章的PMID，然后通过爬虫的方法，获取这些文章的title，author，source等信息。在Biopython中有自己独特的解决方法。在NC...

2019-05-29 09:12:19 2763

原创 python解析gff文件中的转录本

1.下载基因组注释文件，选择对应的版本：ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/BUILD.37.3/GFF/2.GTF 为General Transfer Format ，熟悉格式http://www.huoyunjn.com/wuliuxinwen/2/33709819.htm。第三列feature- 后面...

2019-05-27 13:47:10 6402

原创 pandas 读取文件时的设置header

用pandas 中的read_table()函数时，发现header设置值不一样，所获得的结果也不一样。之前一直认为header = 0 和header = None是一样的，其实是不一样的。读取一个有10行的文件，没有行名1.header =None 时，可以全部读取.2.header =0 时，少一行3.header =1 时，又少一行...

2019-05-17 17:26:26 16332 2

空空如也

空空如也