9 CS青雀

尚未进行身份认证

技术转学术

等级
TA的排名 866

【学术经验】著名科学家杨阳如何指导学生

公众号“慕格学术”今天登发了一篇文章,名为“疑辞去美国教职,这位国际顶级科学家就任西湖大学!”我深深地为国家能吸引如此优秀的科学家而感到欣喜。此时正是中美的贸易战关头,也是新一代科学技术革命的前夜。各国都在经济停滞的困境中摸索、试图突围。国家更是对人才求贤若渴。仔细一读,杨教授已执教23年,按30岁推算,应该五十到六十岁。他在海外深耕多年,拥有丰富的荣誉和地位,是美国物理学会会士,美国材料...

2019-08-16 12:58:54

【算法分析】多个对比算法的统计检验方法

一、几种检验方法先说结论:方差分析、秩和检验、Holm'smethod一定要做。前二者生成p值用于对比,最后一个用于矫正临界值。(1)方差分析(AnalysisOfVariance,ANOVA)——推荐1用于多组样本比较,方差齐,正态性。不齐可以用Tamhane'sT2。(在两组和多组比较中,方差齐性的意思是比较各组的方差大小,看看各组的方差是不是差不多大小,如果差别太大,...

2019-08-15 15:58:14

【计算视觉】理解图像中基本概念:色调、色相、饱和度、对比度、亮度

理解图像中基本概念:色调、色相、饱和度、对比度、亮度对比度:对比度指不同颜色之间的差别。对比度越大,不同颜色之间的反差越大,即所谓黑白分明,对比度过大,图像就会显得很刺眼。对比度越小,不同颜色之间的反差就越小。亮度:亮度指照射在景物或图像上光线的明暗程度。图像亮度增加时,就会显得耀眼或刺眼,亮度越小时,图像就会显得灰暗。色调:色调是各种图像色彩模式下原色的明暗程度,级别范围...

2019-08-09 16:14:33

【机器学习】Stacking方法详解

集成学习方法主要分成三种:bagging,boosting和Stacking。这里主要介绍Stacking。stacking严格来说并不是一种算法,而是精美而又复杂的,对模型集成的一种策略。首先来看一张图。1、首先我们会得到两组数据:训练集和测试集。将训练集分成5份:train1,train2,train3,train4,train5。2、选定基模型。这里假定我们选择了...

2019-08-08 11:21:10

【机器学习】三招提升数据不平衡模型的性能(附python代码)

对于深度学习而言,数据集非常重要,但在实际项目中,或多或少会碰见数据不平衡问题。什么是数据不平衡呢?举例来说,现在有一个任务是判断西瓜是否成熟,这是一个二分类问题——西瓜是生的还是熟的,该任务的数据集由两部分数据组成,成熟西瓜与生西瓜,假设生西瓜的样本数量远远大于成熟西瓜样本的数量,针对这样的数据集训练出来的算法“偏向”于识别新样本为生西瓜,存心让你买不到甜的西瓜以解夏天之苦,这就是一个数据不平衡...

2019-08-06 12:21:36

【机器学习】sklearn-Adaboost调参

AdaBoostClassifier默认分类器为决策树:base_estimator:object,optional(default=None)Thebaseestimatorfromwhichtheboostedensembleisbuilt.Supportforsampleweightingisrequired,aswellasprope...

2019-08-06 12:14:44

【机器学习】sklearn分类器调参-RandomizedSearchCV

1.官方说明文档:sklearn.model_selection.RandomizedSearchCV2.指定评估指标scoring:Thescoringparameter:definingmodelevaluationrules3.指标中F1分数的一些解释:sklearn中F1-micro与F1-macro区别和计算原理...

2019-08-06 11:16:38

【机器学习】sklearn-GBDT调参-GradientBoostingClassifier

 在梯度提升树(GBDT)原理小结中,我们对GBDT的原理做了总结,本文我们就从scikit-learn里GBDT的类库使用方法作一个总结,主要会关注调参中的一些要点。1.scikit-learnGBDT类库概述    在sacikit-learn中,GradientBoostingClassifier为GBDT的分类类,而GradientBoostingRegressor为GBDT...

2019-08-06 11:03:38

【机器学习】sklearn-决策树调参-DecisionTreeClassifier

sklearn中决策树算法参数共有13个,如下:classsklearn.tree.DecisionTreeClassifier(criterion=’gini’,splitter=’best’,max_depth=None,min_samples_split=2,min_samples_leaf=1,min_weight_fraction_leaf=0.0,max_featur...

2019-08-06 10:46:38

【机器学习】sklearn-SVM调参

SVM调参策略以下内容摘自网络CSDN:SVM怎样能得到好的结果1.对数据做归一化(simplescaling)2.应用RBFkernel3.用cross-validation和grid-search得到最优的c和g4.用得到的最优c和g训练训练数据5.测试1关于svm的C以及核函数参数设置C一般可以选择为:10^t,t=[-4,4...

2019-08-06 10:36:03

【机器学习】sklearn-LR调参-Logistic Regression

sklearn中LogisticRegression的API如下,官方文档:http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn.linear_model.LinearRegressionclasssklearn.linear_model.Logi...

2019-08-05 21:22:32

【机器学习】Sklearn-cluster聚类方法

Classes1各种聚类方法特性汇总:sklearn.cluster.KMeansfromsklearn.clusterimportKMeansKMeans(n_clusters=8,init='k-means++',n_init=10,max_iter=300,tol=0.0001,precompute_distances='auto',verbose=0,random_...

2019-07-31 19:40:15

【机器学习】在Python中使用XGBoost

本文原是xgboost的官方文档教程,但是鉴于其中部分内容叙述不清,部分内容也确实存在一定的问题,所以本人重写了该部分。数据请前往Github此处下载前置代码引用类库,添加需要的函数importnumpyasnpfromsklearn.model_selectionimporttrain_test_splitimportxgboostasxgbimportpand...

2019-07-31 13:16:40

【机器学习】 处理不平衡数据的技巧总结!

概念类别数据不均衡是分类任务中一个典型的存在的问题。简而言之,即数据集中,每个类别下的样本数目相差很大。例如,在一个二分类问题中,共有100个样本(100行数据,每一行数据为一个样本的表征),其中80个样本属于class1,其余的20个样本属于class2,class1:class2=80:20=4:1,这便属于类别不均衡。当然,类别不均衡问同样会发生在多分类任务中。它们的解决方法是一样...

2019-07-31 12:35:23

【cmd】合并多个文件与查看文件行数

cmd合并多个文件:输入“type*.txt>>f:\111.txt”,该命令将把当前目录下的所有txt文件的内容输出到f:\111.txt。type*.txt>>out.txtcmd统计文件行数:type文件名|find/v/c""...

2019-07-30 21:10:05

【Python】JSON读取大量数据错误:JSONDecodeError: Extra data: line 2 column 1或者ValueError: Extra data: 类似错误处理

大量数据,里面有多行多列,出现类似标题报错raiseJSONDecodeError(“Extradata”,s,end)json.decoder.JSONDecodeError:Extradata:line2column1(char104)可以逐行读取,然后再处理成列表importjson#由于文件中有多行,直接读取会出现错误,因此一行一行读取fil...

2019-07-30 21:04:17

【机器学习】集成学习(Soft Voting Classifier)

一、HardVoting与SoftVoting的对比 1)使用方式voting='hard':表示最终决策方式为HardVotingClassifier; voting='soft':表示最终决策方式为SoftVotingClassifier; 2)思想HardVotingClassifier:根据少数服从多数来定最终结果; SoftVotin...

2019-07-29 20:53:13

【机器学习】分类器调参:什么是Grid Search 网格搜索?

将多种模型的结果通过投票的方式进行聚合。选择的模型的结果要有好有坏,这样聚合的结果最佳。PLAN1MajorityClassLabels(Majority/HardVoting)事先准备三个模型,xgb和rf模型都已经通过cross_validation找出了较好的参数>>>fromxgboost.sklearnimportXGBClassifier...

2019-07-29 20:40:22

【它山之玉】研究生回复审稿意见的门道---科学网马臻

【笔记】还有的作者长篇大论地向审稿人解释,并把修改过的段落附上,但长篇解释和新增段落的内容几乎一样,这就没有必要了。逐条回复要务实、干脆利落,要不惊不乍,而不要让编辑觉得“问题很大”以至于作者需要用很大的篇幅来解释问题。如果初审时审稿人的定性评价很负面怎么办?那也得如实呈现。既然编辑决定让你修改论文,只要你认真修改,论文最终发表的可能性很大。对审稿人不要犟,而要有策略。审稿人总是认为...

2019-07-24 15:28:44

7月休假:粤港澳大湾区旅程记录

六月底得知,姐姐七月初带小朋友来玩。我开始提前安排手里事务、和相关合作人员打招呼,为工作停止的一周做准备。七月的第一周尤其辛苦。每天有效工作时间是往常两倍:一到座位什么都不想,就是干活。这让我体会到,为什么有些人能把事业进程提速,拼命干是一个好办法。7月4日中午,讨论问题时,G打来电话,问为什么昨晚微信没回。答复曰:活着呢。心里偷笑他的担忧。没想到第二天,群里传来消息:湘雅医院副教授辛老师...

2019-07-10 11:14:55

查看更多

CSDN身份
  • 博客专家
勋章 我的勋章
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。