自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

老笨妞

老笨妞的技术小生活

原创移动Anaconda文件夹后，如何修改配置让conda继续使用

使用云服务器，home目录挂载的盘空间很小，在home目录下安装了Anaconda之后，随着使用中，在huggingface上下载了很多预训练大语言模型，硬盘空间爆掉了。购入新的更大的存储空间，但不想重新安装系统和Anaconda，就把Anconda整个文件夹移入新的目录中了，从~/.bashrc中的段代码可以看出，初始化时，首先查询conda自身的定义文件etc/profile.d/conda.sh是否存在，如果存在就执行这个sh文件，如果不存在才直接定义环境变量。但改之后，conda命令都识别不了。

2023-03-02 09:39:03 1414 2

原创 DUL学习心得（二）：flow模型之RealNVP

在学习伯克利CS294-158-SP20第3节课时，课程中提到的一种flow模型的结构RealNVP,并在课后作业也有相关的练习，于是，笔者读了这篇论文，并对课程中的基本知识进行理解，然后跟着课后作业，分析了代码。论文在此，如有兴趣请查看。 Flow 模型是基于样本进行概率密度估计变通方法中的一种，其他的变通方法还有VAE，GAN。为什么会有出现这些变通方法呢？因为基于样本算它们所服从的最优分布的太难算了，于是大家就想办法简化它或者近似计算它。Real NVP是fl...

2021-09-14 16:07:42 3709 1

原创 deepUL学习心得 (1)：无监督学习模型前言

作为机器学习的工业应用者，几年下来，对有监督学习的好感越来越低了。每天接收大量的数据，那个早期的标注数据会越来越落后。所以，现在要用有监督学习，首先会去看看自己的数据有没有天然的，并且一直更新的标注，如果没有，那就先考虑无监督学习，最后的策略才是找人标注数据。无监督学习有好几种模式，目前笔者能总结出来的无监督学习有一下几种：聚类聚类是应用最广泛，历史最悠久的无监督学习吧。它依据特征向量的相似性或者向量空间位置对空间中的样本进行划分，从而形成不同类别。由于历史悠久，目前有很多种聚类方法，像最经典的

2021-09-09 09:00:44 387

原创自助法

自助法的原理引用别人举得一个特别形象的例子来说明一下什么是自助法：一个池塘里面有很多鱼，到底有多少呢？有2000条，但我们并不知道？只有上帝和一个和池塘一样大的渔网才知道，但是我们不是上帝，也没有这样的渔网。于是，拿个大渔网，捞出100条鱼，做好标记，放回池塘里，让鱼游一晚上（shuffle操作），第二天，拿个小鱼网，每次捞一条鱼，捞出来后记录是否是头一天标记过的鱼，然后将鱼放回...

2019-08-29 15:26:01 8394

原创概率分布汇总

概率分布、总体分布、抽样分布，一开始很容易搞混，还以为是同一个理论，不同的概念，毕竟都是分布，又都是统计学里面的概率。今天就来理解理解这个东西吧。概率分布是指随机变量的各取值与该取值对应的概率之间呈现的规律。这里，随机变量具体指什么是根据我们提供的数据的变化而变化的。当我们需要得到数据总体的取值分布时，随机变量表征的就是数据总体，此时，概率分布就是总体分布。在抽样时，我们对数据总体做n次抽样，...

2019-08-29 15:22:26 4479 1

原创标准误差和标准偏差

标准偏差和标准误差是统计学中的两个变异性估计量。两者只有一字之差，但是所表示的估计含义却很不同。首先，从英文名字来讲，标准偏差是standard deviation，deviation有“离差”的意思，标准偏差表征的是数据的离散程度；而标准误差的英文名是standard error，表征的是单个统计量在多次抽样中呈现出的变异性。可以这样理解，前者是表示数据本身的变异性，而后者表征的是抽样行为的...

2019-08-13 15:39:28 50226

原创图数据库neo4j通过py2neo的查询操作

neo4j是当下比较流行的图数据库，为什么流行呢？因为用起来真的很方便，笔者之前分别将知识存储在mysql、RDF、mongodb中，现在尝试neo4j，从初步尝试来看，在构建图谱、查询、路径搜索上，neo4j用起来比前3者都更简洁省心。neo4j分为两种版本，社区版和企业版，企业版支持分布式布局，可支持高并发，但是需要付费；社区版免费，但是只能单机部署，当图中结点和关系达到一定量后，查询速度会比...

2019-06-04 23:29:15 12859 3

原创 HRL-RE学习笔记——端到端训练实体和关系抽取

本文是对《A Hierarchical Framework for Relation Extraction with Reinforcement Learning》这项工作的理解和分析。很久没有深入分析一篇论文了，这篇算是笔者今年第一篇深入分析的工作，为什么要深入分析呢？大概是因为它可以一次搞定实体识别和关系分类，同时又采用了比较时髦的强化学习。论文作者友好的提供了pytorch下的代码。因此，...

2019-05-17 17:08:41 2376 2

原创几种常用cv工具的颜色通道总结

已经被cv2的颜色通道问题坑了两次了，最后老老实实用各工具读、写、显示才摸清楚。1. cv2(opencv python接口）是BRG格式的。假设有一张只有（2,1）尺寸的图片，数组形式 [[[20, 21, 22]] [[23，24,25]]](1). 原图经过cv2.imread()后，1、3通道调换（RGB->BRG），图像的数组变成[[[22, 21...

2018-09-13 11:43:55 2242

原创膨胀卷积——《MULTI-SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONS》

看这篇论文主要是想了解膨胀卷积，搜出这篇，看起来貌似比deeplab简单一些，于是以此入手。这篇论文把膨胀卷积的计算原理讲的很清楚，但是作用和产生的缘由的话还是deeplab的论文更容易懂，deeplab里面叫"hole algorithm"。1. dense prediction在谈膨胀卷积之前想先说一下dense prediction，一开始对这个概念不太理解，看了看别人的解释后说说自...

2018-08-31 14:11:45 5371 3

原创长文本分类的总结

笨妞很少做文本分类，因为工作中文本分类确实不怎么用得到，唯一一个项目用到短文本分类，验证集acc和f1都到90%以上，所以在笨妞印象中文本分类应该是很简单的分类问题，都不属于NLP问题。偶然碰到DC竞赛中“达观杯”文本分类大赛，尝试了一下新闻类文本的分类。其实并没有那么简单。数据概况“达观杯”的主题是19类新闻分类，数据包含4个字段：id（文章索引）、article（字级别文章）、w...

2018-08-28 08:43:17 19179 4

翻译 NLP论文翻译——《Chinese Event Extraction With Inadequate Data》

这是一篇可能不出名，但是很实用的事件抽取论文，也很契合笨妞当下的使用。原文来自于这里，代码也比较好用。以下是翻译记录。********************************************分割线***********************************************一、概述事件抽取是文本挖掘的一种常见应用，它提取句子甚至是通道的主要特征。我们的实验主要集中在...

2018-06-23 11:50:34 3466 4

原创 snake算法总结

snake是一种主动轮廓模型，笨妞对主动轮廓模型的理解：你先给它一个初始轮廓，模型以初始轮廓为基准逐步迭代，来改进图像的轮廓，使其更加精确。主动轮廓模型目前用到了2种：CV和snake。前者没有看算法内部的原理。而snake，以最原始的论文《Snakes: Active Contour Models》为出发点。1. snake原理snake在逐步迭代优化过程的目标是能量函数最小化，这个能量函数指的...

2018-06-07 14:08:45 21678 10

原创第一次搞图像处理的总结

现在做图像分类、分割、目标侦测等项目，大家可能首先想到的都是CNN。深度学习虽然看起来很高大上，既是项目的卖点，又容易实现，真心是最耗的选择。然而，CNN需要一定量的标注数据，而对于一些特定领域，拿标注数据本身就很难。没有标注数据，CNN、RNN就是废铁一堆。最近就在一堆没有标注信息的特定领域图像中倒腾，倒腾了一段时间后，最大的感触就是，像笨妞这样的AI最底层技工，用深度学习实际上就像一般人用wi...

2018-06-04 20:07:42 1783

原创 Boost和bagging算法

无意间开启了xgboost，为了弄清楚它的原理，只能往下挖，随着xgboost->gbdt->boost来到基本的boost算法，同时也遇见了Boost的伙伴Bagging。接下来，稍微看看他们吧。学习Bagging和Boost首先需要了解两个名词“弱分类器”和“强分类器”。“弱分类器”的分类能力不强，但它又比随机选的效果稍微好点，类似于“臭皮匠”。“强分类器”具有很强的分类能力，也就...

2018-05-12 16:55:59 7706

原创首次试水天池数据大赛——7个小时玩了把美年健康AI大赛

并不想花太多精力去拼比赛拿名次，毕竟又工作又带娃，时间并不多。但比较喜欢看比赛里的技术论坛。工作中的内容相对要单一很多，很容易陷入狭窄的思维中，而比赛中，大家的思维还是很有营养的。偶尔遇到合胃口的数据，下一份，玩一玩还是不错。之前的糖尿病大赛，看到的时候离初赛结束只有几天了，周末紧急下载数据，搞了一天弄出结果，然而没有办法提交，后来仔细看了下赛制才发现，初赛最后两天会换数据，之前没提交过的，最后两...

2018-05-09 19:13:23 2526 7

原创基于全卷积的图像语义分割—《Fully Convolutional Networks for Semantic Segmentation》

两年前，我曾想做一个自动抠“人”的系统，目标是去除路人甲或者自动合成照片。当时“井底之蛙”般搞了一个混合高斯模型，通过像素聚类的方式来抠“人”。这个模型，每跑一张小图片需要几分钟，抠出来的前景“噪音”很严重，完全没办法使用。最后这个通过“抠人”去除路人甲的项目告吹。两年后的今天，这种“去除路人甲”的软件好像早已经有了，并且笨妞也发现，换成现在的我，做一个效果好的“抠人”神器太容易了。下载deepl...

2018-04-21 18:33:01 3056 2

原创 Deep dream——《Going Deeper into Neural Networks》

deep dream的体验和以往看论文，跑例子的过程完全不同。这是在跑“风格迁移”的例子时，在keras的examples中无意看到了程序，然后顺带跑一跑的。跑出来的效果让我觉得和无厘头，于是读程序，看它到底干了些啥。程序风格也很特别，没有和通常训练过程一般的迭代方式，又很好奇，处于什么目的做这个呢，于是，看了论文。看了论文，简直对写论文的人佩服的五体投地。整个过程笨妞的情绪就是一条“低开高走”的...

2018-03-30 16:49:25 2088

原创图像风格迁移——《A Neural Algorithm of Artistic Style》

之前看到别人玩图像风格迁移，感觉挺有意思的，趁着空下来的时间自己玩了一下。还是沿着老方法，先看一下论文，然后跑跑程序。论文看的是最基础的《A Neural Algorithm of Artistic Style》，程序嘛，当然不是笨妞自己写的，跑了keras安装文件夹下examples里面的例子1. 论文概括这篇论文写得很容易懂，虽然连笨妞这么啰嗦的人都觉得有点啰嗦。原本想直接翻译的，但是，实际核...

2018-03-28 19:03:26 12023 15

原创大脑的功能框架

作为一个人工智能工作者，虽然经常用人工神经网络，但对生物神经网络并没有多大兴趣，直到半年前，我那年纪并不大的老爹因为高血压发生急性脑梗塞，有一些脑组织被损伤了，我觉得是时候学点脑科知识了。我们习惯把我们的脑称作大脑，人的脑组织中大脑占了很大部分，但也有很多别的部分，例如，小脑、脑干。在关注这块之前，对于笨妞来说，这些总体称为大脑。但是，脑科学界貌似并不这么认为。大脑是人脑的高级进化区域，小脑和脑干...

2018-03-26 09:12:49 2916 1

原创 python 参数定义库argparse

这一块的官方文档在这里注意到这个库是因为argparse在IDE中和在ipython notebook中使用是有差异的，习惯了再IDE里面用，转到ipython中会报错，究其原因，还是对库的本质不够理解。打开argparse.py，里面有很多class，但是，实际笨妞貌似只用过ArgumentParser。ArgumentParser是用来创建argparse类的。一般的应用过程是这样的：impo...

2018-03-23 14:03:27 1477

原创 import openslide时报 WinErr127的解决过程

首先，虽然现在这个问题解决了，但笨妞其实还是迷糊的。原本在python上用openslide是很顺畅的，刚顺利跑完一个导入openslide的程序，然后帮同事看一个nii文件显示的问题，于是在自己的电脑上查找nii显示的方法。操作的步骤是这样的：1. 安装了nibabel库，用pip装的，装好后，nii文件可以载入，并可以用pyplot按slice读出来，并显示。2. 继续跑了一次我的WSI数据处...

2018-03-22 14:29:07 5416 8

原创一个很好的肿瘤数据下载地址

https://wiki.cancerimagingarchive.net/不用注册，不用参赛，没有使用限制的数据集集合点。

2018-03-15 18:21:10 4095

原创 openslide的安装

具体操作如下：1. 从https://buildbot.openslide.org/snapshots/windows/下载openslide-winbuild的最新版本，openslide官网上要求windows版本编译需要vc10以前的版本，但是这里下载的包是已经make了的，所以对VS没要求。2. 下载后将安装包解压，并放到某个合适的位置。3. 配置环境变量：为了保险起见，将bin和...

2018-02-27 13:25:53 3921 2

原创 pandas应用—— Dataframe的属性们

Dataframe包含的书友属性如下：先通过一个dict生成dataframe:N = 5tmp_dict = dict()sum = 0for i in range(N): n_sum = 'sum_' + str(i) sum += i tmp_dict[n_sum] = set() tmp_dict[n_sum].add(sum)tmp_df

2018-02-05 11:01:31 3899

原创 keras上inception_v3和ImageDataGenerator的使用

最近在用keras做图像分类。初次试水，先用现有的模块搭个最简单的模型玩玩。在这个模型中，主要用到两个模块：ImageDataGenerator和inception_v3，前者是用于对图片数据做预处理，后者是inception网络的api。不得不说，keras提供的接口真心强大。1.ImageDataGenerator的功能和参数这个类的中文官网解释在http://keras-cn.r

2018-01-25 18:47:13 2605

原创 pandas应用——读excel和DataFrame转字典

1.读excel表的方法：read_excel()重要参数sheetname:选择要读的sheetindex_col: 定义某一列为索引，参数的值是列名。例子：import pandas as pddf = pd.read_excel('excel_file.xlsx', sheetname='sheet1', index_col='col_1')2.DataFram

2018-01-24 18:46:11 14791 2

原创谈谈ECS远程调用和备案的坑

最近想建一个个人博客网站，记录技术和生活。于是，到百度上搜了域名的购买，在前面的自然是百度自己加的云服务。在百度上购买了一个域名，然后准备挑选服务器，网上看的策略是先购买域名，实际上域名便宜，购买也容易，而服务器费用更高，货比三家（大的就那三家）很有必要，所以，先确定好云服务器在哪家买，再在同一家买域名，这才是正道。由于百度的1核2G服务器要1000块左右一年，而阿里新人优惠套餐只要199

2018-01-04 18:08:14 1796

原创 python2.7上运行python3的代码

python3现在越来越流行了，经常拿到python3的代码，但是本人的linux服务器一直是python2.7的。所以经常得改改。这里总结一下2.7运行3的程序时，需要修改的点。python2.7默认是ascii编码的，尽管加上了#coding:utf-8这样的提示，但经常读UTF-8文件时会报编码错误，但python3是不报的。所以，拿到python3的程序，首先加上# encoding=u

2018-01-04 16:54:16 7014 1

原创在win10上安装keras

1.keras本身的安装貌似很容易，但是theano安装，大家都觉得很吐血，寒意顿生啊。都建议用anaconda，但是我之间已经安装好了完备的python2.7，各种库都有了。找了个同样状况的博客，照着先玩玩吧。1.安装anaconda完全照着https://www.cnblogs.com/yamin/p/7111397.html弄的2.安装mingwconda install mingw libp

2018-01-04 10:42:20 1970

原创在一个裸服务器上安装python各库和tensorflow

公司有一台64G的服务器，对于经常在12G上跑的笨妞来说，这简直是肥肉啊。于是要来IP，准备用用。连上才发现完全是一台centos的裸机。笨妞觉得centos最讨厌的地方就是g++的版本很低，貌似还只支持gcc，很多底层是c++的框架make的时候总是不通过。（暂时不嫌弃这个了），开始自己武装它吧。原机器里面安装了python 2.7.4，就着这个版本，开始安装各种库。*************

2018-01-03 11:41:42 3094

转载 accuracy、precision、recall、F1、ROC等指标

这篇博文写得很全 https://www.cnblogs.com/sddai/p/5696870.html

2017-12-29 15:39:43 631

原创 NLP论文笔记1：Neural Architectures for Named Entity Recognition

看这一篇论文的主要目的是看BILSTM-CRF模型，对于实际应用，CRF看分词、BILSTM-CRF做NER，接下来通过BILSTM-CNN-CRF做序列标注，NLP几个基本的应用也差不多了，句法分析貌似比较复杂，留作以后吧。********************开始论文吧****************一.叙述命名实体识别一直是更具挑战性的NLP应用，为什么更具挑战呢？原因有两方面，一方面，可用

2017-12-26 18:31:14 6790 4

原创条件随机场(3)——学习和预测

看了两天理论，终于轮到学习和预测上了。下载安装了CRF++-0.58，准备程序分析来理解CRF的主要过程。 CRF++算法源程序是C++编写的，主要的原生接口有三个：学习和预测用的crf_learn和crf_test，供其他语言调用模型的libcrfpp。官方文档把learn过程看做是encoder，把test看作decoder。1.学习的过程执行crf_learn最简洁的命令crf_learn

2017-12-22 17:44:01 1197

原创 windows10和linux配置CRF++的python接口

本笨妞自从用了python之后，就堕落了，能python的基本不java，能java的基本不c。然而CRF++是C版本的，尽管用的时候直接命令行就可以搞定，但还是想弄个python的接口，用起来方便。我以为CRF++和libsvm一样直接复制进工程就可以加载了，其实不然。libsvm应该是已经做过python到cpp之间的build和install了，而CRF++虽然给出了python包，但是貌

2017-12-21 17:20:44 3623 2

原创条件随机场(2)——概率计算

1.CRF简化表示先回顾一下线性链CRF参数化形式和都可以表示为随机变量的函数，因此，可以将和统一成其中，是转移特征的个数，是状态特征的个数。特征函数所代表的特征集合一共有K个值，。用来表示特征的权重，是和的集合，k=1,2,3,…,K。所以，CRF的形式可简化为对转移特征和状态特征在各位置i求和将权重集合组合成向量w，将特征函数包含的所有特征表示为全

2017-12-21 11:58:19 1306

原创条件随机场(1)——原理

条件随机场是给定随机变量X条件下，随机变量Y的马尔科夫随机场。所以，首先得看马尔科夫随机场。之前看概率图模型的时候，正好看到马尔科夫随机场，知识真是相通的。在以前的总结《概率图模型学习3》中总结过马尔科夫网的基本理论知识。下面贴出《概率图模型》中条件随机场的定义：和《统计学习方法》中条件随机场的定义：后者比较通俗易懂。个人理解，CRF就是给定X下的条件概率分布P(Y|X),当

2017-12-20 13:37:16 4933

翻译判别式分类器vs生成式分类器：逻辑回归和朴素贝叶斯的比较

本文是二货算法妇女对ng和Jordan的神论文《On Discriminative vs. Generative classifiers: A comparison of logistic regression and naive Bayes》的翻译式理解。由于在看这篇论文时还没有仔细看过VC 界和VC维，翻译起来很吃力，也理解很不到位，很多公式都不理解。各位不喜随便喷。下面是我对论文的机械式理

2017-12-18 16:38:17 5237

原创朴素贝叶斯理论进阶(1)——cs229(4、5)笔记

朴素贝叶斯分类器是生成式模型的代表，同时朴素贝叶斯和逻辑回归都是线性分类器，两者可以组成了一组生成-判别对。为了更好的了解朴素贝叶斯，又倒回去看了Andrew ng的机器学习视频第4讲和第5讲，并做了如下笔记。以下知识基本上都是视频中的内容，没有什么自己的东西，如有对视频理解不到位的地方，欢迎指正。1.生成式方法简介分类算法要解决的问题是给定一个如下图训练集合，如果对它运行逻辑回归这样的算法，它会观

2017-10-18 19:17:40 1385

转载 hive一些基本操作

字符串操作 http://www.cnblogs.com/iiwen/p/5611761.html函数大全。 http://blog.csdn.net/wisgood/article/details/17376393 函数大全。hive类型转化：cast(‘字段1’ as ‘type1’) in和not in更简洁的处理方式。 hql也可以用in和not in，但是1个in或者not i

2017-10-16 17:21:43 325

高质量C/C++编程指南

很好非常实用的c/c++编程指导哦，我自己看过之后感觉帮助很大。

2013-04-19

Flyback snubber吸收技巧

snubbner钳位电路设计与计算snubbner钳位电路设计与计算snubbner钳位电路设计与计算

2013-04-04

Linux_kernel 核心中文手册

很全面的一本Linux kernel的书，讲解详细易懂。

2012-10-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除