自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(46)
  • 收藏
  • 关注

原创 python下载目标链接

urllib.request.urlretrieve()

2022-10-01 13:45:28 735 1

原创 Tensorflow2神经网络八股常用函数

######## Tensorflow常用函数 ##########

2022-09-23 15:35:23 795

原创 【无标题】

序列下载python爬虫+linux wget命令运用爬虫获取目的序列网址,再通过wget命令下载目的序列wget 目的网址Entrez + biopython演示基因组序列genbank格式和fasta格式批量下载Aspera下载数据库ftp路径:https://www.ncbi.nlm.nih.gov/public/~/.aspera/connect/bin/ascp -QT \ -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh \

2022-05-22 20:13:53 510

原创 docker基本用法

获取镜像docker pull sample:latest查看镜像列表docker imagesdocker image list删除镜像docker image rm sample:latestdocker rmi image-id运行镜像docker run -i -t <IMAGE_ID> /bin/bash 注:-i:标准输入给容器 -t:分配一个虚拟终端 /bin/bash:执行bash脚本容器基本操作# 运行停止容器docker start 容器i

2022-05-22 20:00:48 186

原创 VIGA--病毒基因组注释

VIGA安装及数据库配置基于docker容器命令sudo path/run-viga --input test.fna --diamonddb /data/databases/RefSeq_Viral_DIAMOND/refseq_viral_proteins.dmnd --blastdb /data/databases/RefSeq_Viral_BLAST/ --hmmerdb /data/databases/pvogs/pvogs.hmm --rfamdb /data/databases/rfam/

2022-05-06 19:09:12 1107

原创 T细胞/B细胞表位预测

Bcellepidope -i sample.fna -o sampleTcellmhcflurry-predict-scan sample.fasta --alleles HLA-A*02:01 --out sample.csv相关文献https://openvax.github.io/mhcflurry/

2022-03-12 12:49:13 1745

原创 biopython:基因genbank格式转核酸或氨基酸fasta格式

genbank to fasta 核酸from Bio import SeqIOgbk_filename = "c00079_GUT_GEN...region001.gbk"faa_filename = "c00079_GUT_GEN...region001.fna"input_handle = open(gbk_filename, "r")output_handle = open(faa_filename, "w")for seq_record in SeqIO.parse(input_h

2022-02-07 17:04:40 1907

原创 PathoFact问题--WARNING (theano.configdefaults): install mkl with `conda install mkl-service`: No modul

问题包:DeepVirFinder解决:1.安装包指定依赖conda install python=3.6 numpy theano=1.0.3 keras=2.2.4 scikit-learn Biopython h5py2.重新下载DeepVirFinder

2022-01-30 17:28:31 798

原创 PathoFact问题--DeepVirFinder运行时间长

原因:input数据单个contig超过2.1mb(2100000bp)

2022-01-30 17:23:14 610

原创 Linux释放缓存与内存

#释放缓存echo 3 > /proc/sys/vm/drop_caches 0:不释放(系统默认值)1:释放页缓存2:释放dentries和inodes3:释放全部缓存free -h # 查看内存使用情况# 查看内存占用前40ps auxw|head -1;ps auxw|sort -rn -k4|head -40kill -9 PID...

2022-01-24 23:16:48 488

原创 R语言学习笔记--《R语言实战》

文章目录R语言基础一、数据结构1. 向量2. 矩阵3. 数组4. 数据框5.列表R语言基础一、数据结构1. 向量2. 矩阵y <- matrix(DATA,nrow = n1,ncol = n2,byrow = TRUE(default:false),dimnames = list(string_row,string_col)out: B1 B2 B3 B4 A1 1 2 3 4A2 5 6 7 8A3 9 10 11 12A4 13 14 15 1

2022-01-17 14:19:19 1549

原创 linux-杂七杂八

文件内容包含指定字符串#查找当前目录下文件内容包含字符串string的文件find . | xargs grep string管道命令符是把上一部的结果传递给下一步来处理,在 find . | grep string中虽然看似和find . | xargs grep string差不多,但是实际上还是有区别的。应为find .得到的结果是一串文件名集合,如果直接传递给grep的话,grep会把这些文件名看作一些无意义的字符串来处理。但是传递给xargs,他会把他当作一个有意义的文件来处理。#文件

2021-08-22 19:38:38 91

原创 samtools提取指定位置核酸或氨基酸序列

提取序列:samtools faidx input.fa chr1 > chr1.fasamtools faidx input.fa chr1:100-200 > chr1.fa

2021-08-22 19:30:35 1739

原创 批量提取antiSMASH核心基因编码AA序列(JSON文件)

import jsonimport osdef extract(json_path,out_path): """ :param json_file: antismash结果json文件父目录 :param out_path: core核心蛋白质序列存放目录 """ json_files=os.listdir(json_path) #创建结果存放目录 isExists = os.path.exists(out_path) if not

2021-08-10 23:05:16 812 1

原创 mapping、bam结果提取、覆盖率、数据深度、序列拼接

提取比对到参考序列结果samtools view -bF 4 abc.bam > abc.F.bam配对比对samtools view -bF 12 abc.bam > abc.F.bam#bam排序samtools sort *.bam -o *.bambam转fqbedtools bamtofastq -i * -fq *_1.fq -fq2 *_2.fqsamtools fastq NOf41_human-mapped.bam > NOf41_human_test.f

2021-07-25 22:53:44 3072

原创 解决PathoFact之libgcc_s.so.1 must be installed for pthread_cancel to work

“libgcc_s.so.1 must be installed for pthread_cancel to work”/usr/lib或/usr/lib64目录下有libgcc_s.so.1文件,但是却出现了文件未安装的错误,那就非常有可能是PathoFact找不到so文件。(在加载动态库时软件和系统路径冲突)解决:# 删除指定目录(加载软件动态库路径)unset LD_LIBRARY_PATH# 查看是否去除export | grep LD_LIBRARY_PATH参考:https:

2021-04-28 13:03:25 1712

原创 解决git clone速度慢

原链接git clone https://github.com/*使用镜像git clone https://github.com.cnpmjs.org/*或git clone https://git.sdut.me/*

2021-04-27 21:49:22 204

原创 解决make error:fatal error: zlib.h: No such file or directory

在编译一个二进制包是出现的一个错误,网上安装zlib-devel的方法没有作用,并且我的/lib/include是含有zlib.h文件的。二进制包编译zlib.h路径不对解决方法:export C_INCLUDE_PATH=$C_INCLUDE_PATH:/usr/include/...

2021-04-25 19:10:39 3929

原创 Bowtie2 基因组mapping

Bowtie 2是一种超快速且高效存储的工具,可用于将测序序列与参考序列进行比对。https://github.com/BenLangmead/bowtie2建立参考基因组索引# Building a small indexbowtie2-build example/reference/lambda_virus.fa example/index/lambda_virus# Building a large indexbowtie2-build --large-index example/ref

2021-04-18 23:10:30 1392 1

原创 fastq和fasta格式转化

fastq >> fastaseqtk# 安装conda install seqtk# 运行seqtk seq -A input_file.fastq > output_file.fastafasta >> fastqfasta_to_fastq.pl# 下载 wget https://storage.googleapis.com/google-code-archive-downloads/v2/code.google.com/fasta-to-fastq/

2021-04-18 22:23:47 3905 6

原创 DeepBGC:生物合成基因簇的检测和分类

DeepBGC使用深度学习来检测细菌和真菌基因组中的BGC。DeepBGC使用双向长期短期记忆递归神经网络和Pfam蛋白域的word2vec样载体嵌入。使用随机森林分类器预测产品类别和检测到的BGC的活性。简单来说就是他可以挖掘到antismash没有分析出来的BGCdeepbgc安装:https://github.com/Merck/deepbgc运行deepbgc#Show command help docsdeepbgc pipeline --help#Detect and class

2021-04-16 12:05:37 2877

原创 2021-02-06

ncbi sra 数据下载NCBI提供的SRA Tookit 工具 获取sra登录号list(存储在txt文件中),使用prefetch acc.txt批量下载第一种方法下载速度比较慢,建议获取sra数据的ftp下载地址用wget批量下载sra数据转fastq格式fastq-dump --split-e SRR1778454.1"–split-e"中“-e”表示双端测序,输出转换结果为两个fastq文件(如果样品为单端测序只返回一个fastq文件)...

2021-02-06 15:43:58 674 1

原创 双歧杆菌基因组序列批量下载、基因组注释、antiSMASH合成基因簇挖掘、核心基因的同源性比较。

双歧杆菌基因组序列批量下载、基因组注释、antiS合成基因簇挖掘、核心基因的同源性比较文章目录双歧杆菌基因组序列批量下载一、双歧杆菌基因组信息检索及下载1.PATRIC数据库检索双歧杆菌(Bifidobacterium) 并下载序列信息csv文件二、基因组序列批量下载python脚本代码prokka基因组注释一、prokka的安装二、prokka使用三、结果antiSMASH安装及使用一、antiSMASH简介二、antiSMASH安装与使用1.安装2.使用结果核心基因的同源性比较一、提取核心基因AA序

2021-02-01 19:52:34 2834 8

原创 selenium批量提取antiSMASH结果中的核心基因AA序列

import osfrom selenium import webdriverimport timeimport rebrowser = webdriver.Chrome() # 全局变量 浏览器def click_event(): """ 所有点击事件 返回 一个菌株的polygons_name 、AA_seqs 待写入文本中 """ polygons_name = [] # 用于一个菌株存储所有核心基因名称 AA_seqs = [] #

2021-01-29 13:23:05 1032

原创 wps excel批量获取网址标题(Title)

wps excel启用宏下载wps.vba.exe链接: https://pan.baidu.com/s/1kMvoVfzzi719oAcfmoNpGw 密码: qn86b站教程安装wps.vba.exe重启wps即可VB编辑器弹出窗口新建模块添加代码Function getTitle(sUrl As String) Dim oXHTTP As Object, Str As String Set oXHTTP = CreateObject("MSXML2.

2021-01-26 14:27:21 3263 11

原创 Aspera高速下载NCBI FTP数据

本地blast需要下载的nr/nt数据库太大,并且wget命令下载简直龟速。服务器使用aspera下载ftp数据ftp路径:https://www.ncbi.nlm.nih.gov/public/~/.aspera/connect/bin/ascp -QT \ -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh \-k1 -l 300m \[email protected]:/blast/db/FASTA/nr.gz ./

2021-01-18 17:26:38 2781

原创 antismash-“ValueError: Called find_genes, but genefinding disabled”

Traceback (most recent call last): File "/home/youke/DATA/Chenhu/anaconda3/envs/antismash/bin/antismash", line 11, in <module> sys.exit(entrypoint()) File "/home/youke/DATA/Chenhu/anaconda3/envs/antismash/lib/python3.6/site-packages/antismash

2020-12-20 19:36:13 393

原创 Prokka原核生物基因组注释centos安装

安装https://github.com/tseemann/prokka问题Prokka不会生成所有文件,但是在直接从命令行运行时可以正常工作错误日志显示 Bio::SearchIO: hmmer3 cannot be found解决cpanm Bio::SearchIO::hmmer

2020-12-19 17:40:12 1700 1

原创 antiSMASH安装与使用

antiSMASH本地安装简要:antiSMASH的本地安装需要安装很多的依赖包,本文章使用conda辅助安装参考:官方:https://docs.antismash.secondarymetabolites.org/install/文章:http://blog.sciencenet.cn/blog-3416913-1240614.html依赖包下载conda install -y diamond=0.8.36conda install -y fasttree=2.1.9conda ins

2020-11-21 13:03:13 5446 13

原创 Clusterfinder结果分析

cluster结果储存图片*.cluster.out文件 requires at least three biosynthetic domains 至少需要三个生物合成域Ⅰ:自己取的生物体名称Ⅱ:chain 不同的氨基酸序列Ⅲ:gene命Ⅳ:gene_start 基因开始位置Ⅴ:gene_end 基因结束位置Ⅵ:pfam_start pfam结构域开始Ⅶ:pfam_end pfam结构域结束Ⅷ:含有簇域的概率...

2020-11-20 23:37:04 784 1

原创 提取Pfamscan分析后文件中满足clusterfinder输入文件格式的内容

import redef deal_file(input_file,out_file): """ 提取pfamscan分析后的文件(input_file)中满足clusterfinder输入文件格式的内容,函数返回clusterfinder输入文件(out_file) chain gene genestart genestop pfamstart pfamstop pfamID 0 1

2020-11-20 19:11:25 422

原创 Conda channels配置

bioconda安装及镜像设置# 添加channels命令conda config --add channels 镜像链接# 删除channels命令conda config --remove channels 镜像链接#查看已添加的channelsconda config --get chaneels

2020-11-20 13:22:08 7593 2

原创 基因组序列genbank格式和fasta格式批量下载

实验内容:1.在PATRIC数据库检索栏选择“Genomes”,以Bifidobacterium(双歧杆菌)为关键字进行检索。2.对上述检索结果进行进一步的过滤筛选,选择“Genomes Status”下的“Complete”,以及“Host Name”下的“Human, Homo sapiens”,完成检索结果的过滤筛选。3.下载2中过滤后的结果,并保存为CSV文件格式。4.利用Python提取CSV文件中各个基因组的“GenBank Accessions”,存储到想要的python列表中。5.

2020-11-07 14:29:37 7390 1

原创 blast命令

蛋白质序列比对蛋白质数据库(blastp)blastp -query seq.fast -out seq.blast -db dbname -outfmt 6 -evalue 1e-5 -num_descriptions 10 -num_threads 8核酸序列比对核算数据库(blastn)blastn -query seq.fasta -out seq.blast -db dbname -outfmt 6 -evalue 1e-5 -num_descriptions 10 -num_thread

2020-10-21 12:13:33 4343 5

原创 查找酿酒酵母v染色体基因TATA框

from Bio import SeqIOs= SeqIO.read("酿酒酵母S288Cv染色体基因序列.fasta","fasta")sequence = s.seqprint()print("查找酿酒酵母v染色体基因TATA框")print()print("酿酒酵母v染色体基因")print(s.format("fasta"))print()print("基因序列长度:"+str(len(sequence)))def index_TA(seq1,seq2): """

2020-10-02 22:00:16 480

原创 数据可视化分析之numpy

创建数组numpy.array()numpy.array([1,2,3,4,5],dtype=“int”)numpy.array(range(10),dtype=“float”)numpy.arange((10),dtype=“int”)修改数组数据类型 array1.astype(“int”)数组形状array1.shape 返回一个元组(行数,列数)array1.reshape() 修改数组形状 一维数组:一个数 二维数组: 行数,列数 三维数组:模

2020-07-16 17:58:56 334

原创 数据可视化分析之matplotlib

导入库from matplotlib import pyplot as plt # 绘制from matplotlib import font_manager # 中文显示折线图# 设置字体(后续中文字体)my_font = font_manager.FontProperties(fname=r"C:\Windows\Fonts\simfang.ttf")# 设置图片plt.figure(figsize=(15,8),dpi=200)# plot绘制折线图 x,y为两个

2020-07-06 21:21:03 146

原创 词云

import jieba # 分词from matplotlib import pyplot as plt # 绘图,数据可视化from wordcloud import WordCloud # 词云from PIL import Image # 图片处理import numpy as np # 矩阵运算i

2020-06-30 18:12:06 176

原创 英语四级单词频率统计及翻译

英语四级单词文本处理单词频率统计,并排序excel、数据库操作import reimport xlwtimport sqlite3def get_file(): """ 将txt中的文本进行处理,删除其他字符和中文,返回文本内容 """ f1 = open(r"C:\Users\Administrator\Desktop\英语四级.txt", "r",encoding="utf-8" ) content = f1.read().lower() #

2020-06-30 14:25:21 1243

原创 PyAutoGUI库-模拟鼠标键盘操作

个人学习笔记类似的库还有:模拟键盘操作:pyuserinput,win32api,以及winiopymouse模拟鼠标操作,使用pyautogui模拟鼠标操作# 获取屏幕分辨率大小size =pyautogui.size()print(size) # 鼠标位置mouse_pos = pyautogui.position()# 判断点是否在屏幕内 返回bool值print(pyautogui.onScreen(100,100))# 实时获得鼠标位置last_pos =

2020-06-29 11:38:58 1552

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除