10 老笨妞

尚未进行身份认证

29岁开始纯软的老笨妞。

等级
TA的排名 1w+

自助法

自助法的原理引用别人举得一个特别形象的例子来说明一下什么是自助法:一个池塘里面有很多鱼,到底有多少呢?有2000条,但我们并不知道?只有上帝和一个和池塘一样大的渔网才知道,但是我们不是上帝,也没有这样的渔网。于是,拿个大渔网,捞出100条鱼,做好标记,放回池塘里,让鱼游一晚上(shuffle操作),第二天,拿个小鱼网,每次捞一条鱼,捞出来后记录是否是头一天标记过的鱼,然后将鱼放回...

2019-08-29 15:26:01

概率分布汇总

概率分布、总体分布、抽样分布,一开始很容易搞混,还以为是同一个理论,不同的概念,毕竟都是分布,又都是统计学里面的概率。今天就来理解理解这个东西吧。概率分布是指随机变量的各取值与该取值对应的概率之间呈现的规律。这里,随机变量具体指什么是根据我们提供的数据的变化而变化的。当我们需要得到数据总体的取值分布时,随机变量表征的就是数据总体,此时,概率分布就是总体分布。在抽样时,我们对数据总体做n次抽样,...

2019-08-29 15:22:26

标准误差和标准偏差

标准偏差和标准误差是统计学中的两个变异性估计量。两者只有一字之差,但是所表示的估计含义却很不同。首先,从英文名字来讲,标准偏差是standard deviation,deviation有“离差”的意思,标准偏差表征的是数据的离散程度;而标准误差的英文名是standard error,表征的是单个统计量在多次抽样中呈现出的变异性。可以这样理解,前者是表示数据本身的变异性,而后者表征的是抽样行为的...

2019-08-13 15:39:28

图数据库neo4j通过py2neo的查询操作

neo4j是当下比较流行的图数据库,为什么流行呢?因为用起来真的很方便,笔者之前分别将知识存储在mysql、RDF、mongodb中,现在尝试neo4j,从初步尝试来看,在构建图谱、查询、路径搜索上,neo4j用起来比前3者都更简洁省心。neo4j分为两种版本,社区版和企业版,企业版支持分布式布局,可支持高并发,但是需要付费;社区版免费,但是只能单机部署,当图中结点和关系达到一定量后,查询速度会比...

2019-06-04 23:29:15

HRL-RE学习笔记——端到端训练实体和关系抽取

本文是对《A Hierarchical Framework for Relation Extraction with Reinforcement Learning》这项工作的理解和分析。很久没有深入分析一篇论文了,这篇算是笔者今年第一篇深入分析的工作,为什么要深入分析呢?大概是因为它可以一次搞定实体识别和关系分类,同时又采用了比较时髦的强化学习。论文作者友好的提供了pytorch下的代码。因此,...

2019-05-17 17:08:41

几种常用cv工具的颜色通道总结

已经被cv2的颜色通道问题坑了两次了,最后老老实实用各工具读、写、显示才摸清楚。1. cv2(opencv python接口)是BRG格式的。假设有一张只有(2,1)尺寸的图片,数组形式   [[[20, 21, 22]]    [[23,24,25]]](1). 原图经过cv2.imread()后,1、3通道调换(RGB->BRG),图像的数组变成[[[22, 21...

2018-09-13 11:43:55

膨胀卷积——《MULTI-SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONS》

看这篇论文主要是想了解膨胀卷积,搜出这篇,看起来貌似比deeplab简单一些,于是以此入手。这篇论文把膨胀卷积的计算原理讲的很清楚,但是作用和产生的缘由的话还是deeplab的论文更容易懂,deeplab里面叫"hole algorithm"。1. dense prediction在谈膨胀卷积之前想先说一下dense prediction,一开始对这个概念不太理解,看了看别人的解释后说说自...

2018-08-31 14:11:45

长文本分类的总结

笨妞很少做文本分类,因为工作中文本分类确实不怎么用得到,唯一一个项目用到短文本分类,验证集acc和f1都到90%以上,所以在笨妞印象中文本分类应该是很简单的分类问题,都不属于NLP问题。偶然碰到DC竞赛中“达观杯”文本分类大赛,尝试了一下新闻类文本的分类。其实并没有那么简单。 数据概况“达观杯”的主题是19类新闻分类,数据包含4个字段:id(文章索引)、article(字级别文章)、w...

2018-08-28 08:43:17

NLP论文翻译——《Chinese Event Extraction With Inadequate Data》

这是一篇可能不出名,但是很实用的事件抽取论文,也很契合笨妞当下的使用。原文来自于这里,代码也比较好用。以下是翻译记录。********************************************分割线***********************************************一、概述事件抽取是文本挖掘的一种常见应用,它提取句子甚至是通道的主要特征。我们的实验主要集中在...

2018-06-23 11:50:34

snake算法总结

snake是一种主动轮廓模型,笨妞对主动轮廓模型的理解:你先给它一个初始轮廓,模型以初始轮廓为基准逐步迭代,来改进图像的轮廓,使其更加精确。主动轮廓模型目前用到了2种:CV和snake。前者没有看算法内部的原理。而snake,以最原始的论文《Snakes:ActiveContourModels》为出发点。1.snake原理snake在逐步迭代优化过程的目标是能量函数最小化,这个能量函数指的...

2018-06-07 14:08:45

第一次搞图像处理的总结

现在做图像分类、分割、目标侦测等项目,大家可能首先想到的都是CNN。深度学习虽然看起来很高大上,既是项目的卖点,又容易实现,真心是最耗的选择。然而,CNN需要一定量的标注数据,而对于一些特定领域,拿标注数据本身就很难。没有标注数据,CNN、RNN就是废铁一堆。最近就在一堆没有标注信息的特定领域图像中倒腾,倒腾了一段时间后,最大的感触就是,像笨妞这样的AI最底层技工,用深度学习实际上就像一般人用wi...

2018-06-04 20:07:42

Boost和bagging算法

无意间开启了xgboost,为了弄清楚它的原理,只能往下挖,随着xgboost->gbdt->boost来到基本的boost算法,同时也遇见了Boost的伙伴Bagging。接下来,稍微看看他们吧。学习Bagging和Boost首先需要了解两个名词“弱分类器”和“强分类器”。“弱分类器”的分类能力不强,但它又比随机选的效果稍微好点,类似于“臭皮匠”。“强分类器”具有很强的分类能力,也就...

2018-05-12 16:55:59

首次试水天池数据大赛——7个小时玩了把美年健康AI大赛

并不想花太多精力去拼比赛拿名次,毕竟又工作又带娃,时间并不多。但比较喜欢看比赛里的技术论坛。工作中的内容相对要单一很多,很容易陷入狭窄的思维中,而比赛中,大家的思维还是很有营养的。偶尔遇到合胃口的数据,下一份,玩一玩还是不错。之前的糖尿病大赛,看到的时候离初赛结束只有几天了,周末紧急下载数据,搞了一天弄出结果,然而没有办法提交,后来仔细看了下赛制才发现,初赛最后两天会换数据,之前没提交过的,最后两...

2018-05-09 19:13:23

基于全卷积的图像语义分割—《Fully Convolutional Networks for Semantic Segmentation》

两年前,我曾想做一个自动抠“人”的系统,目标是去除路人甲或者自动合成照片。当时“井底之蛙”般搞了一个混合高斯模型,通过像素聚类的方式来抠“人”。这个模型,每跑一张小图片需要几分钟,抠出来的前景“噪音”很严重,完全没办法使用。最后这个通过“抠人”去除路人甲的项目告吹。两年后的今天,这种“去除路人甲”的软件好像早已经有了,并且笨妞也发现,换成现在的我,做一个效果好的“抠人”神器太容易了。下载deepl...

2018-04-21 18:33:01

Deep dream——《Going Deeper into Neural Networks》

deep dream的体验和以往看论文,跑例子的过程完全不同。这是在跑“风格迁移”的例子时,在keras的examples中无意看到了程序,然后顺带跑一跑的。跑出来的效果让我觉得和无厘头,于是读程序,看它到底干了些啥。程序风格也很特别,没有和通常训练过程一般的迭代方式,又很好奇,处于什么目的做这个呢,于是,看了论文。看了论文,简直对写论文的人佩服的五体投地。整个过程笨妞的情绪就是一条“低开高走”的...

2018-03-30 16:49:25

图像风格迁移——《A Neural Algorithm of Artistic Style》

之前看到别人玩图像风格迁移,感觉挺有意思的,趁着空下来的时间自己玩了一下。还是沿着老方法,先看一下论文,然后跑跑程序。论文看的是最基础的《A Neural Algorithm of Artistic Style》,程序嘛,当然不是笨妞自己写的,跑了keras安装文件夹下examples里面的例子1. 论文概括这篇论文写得很容易懂,虽然连笨妞这么啰嗦的人都觉得有点啰嗦。原本想直接翻译的,但是,实际核...

2018-03-28 19:03:26

大脑的功能框架

作为一个人工智能工作者,虽然经常用人工神经网络,但对生物神经网络并没有多大兴趣,直到半年前,我那年纪并不大的老爹因为高血压发生急性脑梗塞,有一些脑组织被损伤了,我觉得是时候学点脑科知识了。我们习惯把我们的脑称作大脑,人的脑组织中大脑占了很大部分,但也有很多别的部分,例如,小脑、脑干。在关注这块之前,对于笨妞来说,这些总体称为大脑。但是,脑科学界貌似并不这么认为。大脑是人脑的高级进化区域,小脑和脑干...

2018-03-26 09:12:49

python 参数定义库argparse

这一块的官方文档在这里注意到这个库是因为argparse在IDE中和在ipython notebook中使用是有差异的,习惯了再IDE里面用,转到ipython中会报错,究其原因,还是对库的本质不够理解。打开argparse.py,里面有很多class,但是,实际笨妞貌似只用过ArgumentParser。ArgumentParser是用来创建argparse类的。一般的应用过程是这样的:impo...

2018-03-23 14:03:27

import openslide时报 WinErr127的解决过程

首先,虽然现在这个问题解决了,但笨妞其实还是迷糊的。原本在python上用openslide是很顺畅的,刚顺利跑完一个导入openslide的程序,然后帮同事看一个nii文件显示的问题,于是在自己的电脑上查找nii显示的方法。操作的步骤是这样的:1. 安装了nibabel库,用pip装的,装好后,nii文件可以载入,并可以用pyplot按slice读出来,并显示。2. 继续跑了一次我的WSI数据处...

2018-03-22 14:29:07

一个很好的肿瘤数据下载地址

https://wiki.cancerimagingarchive.net/不用注册,不用参赛,没有使用限制的数据集集合点。

2018-03-15 18:21:10

查看更多

勋章 我的勋章
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 分享小兵
    分享小兵
    成功上传3个资源即可获取