7 KeepLearningBigData

尚未进行身份认证

主要学习Spark、CarbonData、Alluxio、Adam等大数据技术 CarbonDarta、Spark、Alluxio、SparkBWA等项目的contributor

等级
TA的排名 1k+

通过git拉取github/gitlab上的Pull Request(PR)/Merge Request(MR)到本地进行code review

通过git拉取github/gitlab上的Pull Request(PR)/Merge Request(MR)到本地进行code reviewGithub:git fetch origin pull/3188/head:pr31883188是PR的idhttps://github.com/apache/carbondata/pull/3188Gitlab:git pull remo...

2019-08-17 10:39:50

read traffic light image(4138 images) from whole dataset(10w+) to obs

Applicationread traffic light image(4138 images) from whole dataset(10w+) to obsPrepare:Download data from reference[2]start jupter, import pycocoDemo.ipynb localhost:PythonAPI xubo$ jupyter ...

2019-04-10 09:58:22

Share Android 8.0 network to Mac High Sierra 10.13.3 by horndis

Share Android 8.0 network to Mac High Sierra 10.13.3 by horndisI can confirm Horndis works with Honor V10 on High Sierra 10.13.3. Here’s a quick guide:brew cask install horndisYou might have to...

2019-03-18 23:17:42

Apache CarbonData学习资料汇总

CarbonData Learning Materials1. introductionApache CarbonData is an indexed columnar data store solution for fast analytics on big data platform, e.g.Apache Hadoop, Apache Spark, etc.1.1 官网: http:...

2018-11-22 12:02:27

Install tensorflow and run hello world in MacBook pro : MacOS

Install tensorflow and run hello world in MacBook pro / MacOSinstall tensorflowlocalhost:git xubo$ pip3 install tensorflowCollecting tensorflow Cache entry deserialization failed, entry ignored ...

2018-10-20 23:45:37

集群节点间数据分发dispath.sh

!/usr/bin/env bashif [ $# -ne 1 ]; then echo “Usage: dispath.sh filename” exit 1 ficur_dir=(cd"(cd"(cd "(dirname “$1”)”; pwd) for dst in {1..50} doscp -r $1 emr-worker-$dst:$cur_di...

2018-06-06 12:07:52

基因数据处理123之SSW代码不正确,到时比SparkSW时间长

更多代码请见:https://github.com/xubo245基因数据处理系列1.解释由于要生成新的score matrix:blosum50,第一次使用静态方法,直接传给align,到时每次运行都需要进行一次score matrix的计算,而这个是将blosum50的矩阵转换成128*128的矩阵,当计算Q0,即8个字符串的query时,显然时间占比大,本来序列比对时间就不长...

2018-06-06 09:02:49

基因数据处理122之SSW和SparkSW评分不一致,query为Q9

更多代码请见:https://github.com/xubo245基因数据处理系列1.解释RT,但是顺序一致2.代码:hadoop@Master:~/disk2/xubo/project/alignment/SparkSW/SparkSW20161114/alluxio-1.3.0$ vi sparkSWSSWQ10.sh dir=$(ls -l query/* |...

2018-06-06 09:02:11

基因数据处理121之SSW的score matrix调整,使得与SparkSW评分一致

更多代码请见:https://github.com/xubo245基因数据处理系列1.解释SSW的评分矩阵是128*128的,是按char的int值来进行计算的。而blosum50是蛋白质的,而且不是按ABC顺序来的,所以需要转换。java中无法运行128*128的String矩阵,所以需要提供blosum的转换2.代码: public static int[...

2018-06-06 09:01:22

基因数据处理120之scala调用SSW在linux下运行

更多代码请见:https://github.com/xubo245基因数据处理系列1.解释先有java提供转换,使用jni调用c然后scala调用java2.代码:2.1 java:package ssw;/** * Created by xubo on 2016/11/25. */public class SSW { public sta...

2018-06-06 09:00:04

基因数据处理119之java调用SSW在linux下运行

更多代码请见:https://github.com/xubo245基因数据处理系列1.解释测试自带Example:xubo@xubo:~/xubo/tools/Complete-Striped-Smith-Waterman-Library/src$ scala -Djava.library.path=. -cp SparkSW.jar ssw.ExampleAligning...

2018-06-03 00:05:44

基因数据处理118之SSW运行

更多代码请见:https://github.com/xubo245基因数据处理系列1.解释SSW是一个更快的SW算法,并且提供了c语言lib和java的调用代码:https://github.com/mengyao/Complete-Striped-Smith-Waterman-Library论文:Zhao, M., et al. (2013). "SSW Lib...

2018-06-03 00:05:20

基因数据处理117之重新多次运行SparkBWA Yarn集群

更多代码请见:https://github.com/xubo245基因数据处理系列1.解释重新运行,跟换了文件地址后来终端,需要运行其他的2.代码:hadoop@Master:~/disk2/xubo/project/alignment/sparkBWA$ vi sparkBWA.sh for j in 10000 100000 1000000 1000000...

2018-06-03 00:03:54

基因数据处理116之重新运行SparkBWA Yarn集群模式

更多代码请见:https://github.com/xubo245基因数据处理系列1.解释很久没运行SparkBWA了,系统文件有点多,重新运行。2.代码:endhadoop@Master:~/disk2/xubo/project/alignment/sparkBWA$ vi g38L100c100000Nhs20Paired12SparkBWAYarnPartit...

2018-06-03 00:03:32

基因数据处理115之重新运行SparkBWA本地模式

更多代码请见:https://github.com/xubo245基因数据处理系列1.记录hadoop@Master:~/disk2/xubo/tools/SparkBWA/build$ ./pairedGRCH38L1Local.sh [Stage 3:> (...

2018-06-03 00:02:37

基因数据处理114之BWA建立全基因组索引成功

运行记录hadoop@Mcnode5:~/disk2/home/hadoop/xubo/ref/buildIndex$ bwa index GCA_000001405.15_GRCh38_full_analysis_set.fna [bwa_index] Pack FASTA... 33.14 sec[bwa_index] Construct BWT for the packed sequ...

2018-06-03 00:01:56

基因数据处理113之对avocado识别的SparkBWA变异数据进行疾病分析_

(一)问题问题1:avocado数据读取:avocado存到磁盘是:RDD[Genotype]val processedGenotypes: RDD[Genotype] = postProcessVariants(calledVariants, stats).flatMap(variantContext => variantContext.genotypes) // sav...

2018-06-03 00:01:41

基因数据处理112之运行gcdss的avocado编译识别报错getRecordGroupSample空指针异常解决办法

前面一片已经讲了遇到的问题,之前也遇到过:基因数据处理31之avocado运行avocado-cli中的avocado问题3-变异识别找不到RecordGroupSample(null) http://blog.csdn.net/xubo245/article/details/51525241解决办法:在读入的sam/bam/adam数据进行判定,如果RecordGroup等数据为...

2018-06-03 00:01:24

基因数据处理111之运行gcdss的avocado编译识别报错getRecordGroupSample空指针异常

脚本:hadoop@Master:~/xubo/project/callVariant$ cat runBBg38L50c100000Nhs20Paired12YarnT201606252236LocalNopartition.sh #!/usr/bin/env bash spark-submit \--class org.gcdss.cli.callVarian...

2018-06-03 00:01:09

基因数据处理110之批量测试SparkBWA和CS-bwamem算法

1.总的脚本 hadoop@Master:~/xubo/project/alignment$ cat runSparkBWAAndCsbwamem.sh echo "start sparkBWA" ./sparkBWA/sparkBWA.sh echo "startCsbwamem algin" ./cs-bwamem/csbwamemAlign.s...

2018-06-03 00:00:50

查看更多

CSDN身份
  • 博客专家
勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!