YYLin-AI-CSDN博客

原创 Y-Autoencoders: disentangling latent representations via sequential-encoding

Y-Autoencoders: disentangling latent representations via sequential-encoding前言论文架构损失函数总结前言这是2019年CVPR上的一篇文章，讲一下为啥介绍这篇文章吧，首先呢自己最近在做image-to-image，本篇文章和自己刚好和自己的做的方向一致，第二也是最重要的是看了这篇对应的架构和自己的研一发的一篇论文有点相...

2019-11-23 17:02:43 534

原创 CCF乘用车细分市场销量预测之ARIMA模型

1：什么是ARIMA模型介绍ARIMA之前，我们首先介绍一下时间序列回归建模和一般回归建模的区别。想象一下我们预测某个人是否会还对应的贷款，即使我们拥有每个用户之前的贷款时间，但是这个时间仅仅表示用户申请贷款的时间，不同用户是否会还贷款和他们申请的时间关系不会很大(经济大萧条除外)，显然此类问题即使一个回归问题。在想象一下我们预测某种车型在某省接来四个月的销量，根据我们的常识判断，前几个月的...

2019-11-19 11:53:37 2022 3

原创 2019移动广告反欺诈算法挑战赛之一些奇妙的idea

首先简单介绍一下自己的几种写好代码但是还没有跑的方案，然后呢分享一下其他几个人的想法，看完感觉不错的话点个赞呗，哈哈哈哈哈哈思路一：处理长尾对于类别特征处理一下长尾特征(也即是把make model ver这些特征中仅仅出现次数少于20次的数据归为一类)，因为catboost对于类别特征是自动暴力找组合特征，默认的时候最多是对四个特征进行组合的，具体可参考catboost官方文档...

2019-09-16 10:31:17 2213 7

原创 2019移动广告反欺诈算法挑战赛baseline

前言：分享这个baseline之前，首先先感谢一下我的好朋友油菜花一朵给予的一些帮助。然后呢介绍一下最近比赛中碰到的几个问题，以及解释。如果有可能的话，明天分享一个94.47左右的baseline吧，初赛之前设置为粉丝可见，初赛后在设置所有人可见吧。本来想分享47的baseline的，但是后来发现版本找不到了。就把自己的想法融合了一下，也不知道多少分。比赛名次不重要学到东西才重要。第...

2019-08-18 20:57:33 10085 44

原创 2019移动广告反欺诈算法挑战赛之数据清洗

原始数据集的各个属性:1: sid每条记录的索引2： label，训练的标签3： pkgname,一个包名代表一个应用，包名必须唯一,4： ver, app版本号，5：对外广告位ID，应该是投放广告的位置6：对外媒体ID，通过什么方式传播的广告7： apptype, app的类别8：请求达到服务时间，什么时候请点击了该广告9： ip, city...

2019-08-03 14:52:28 2171 2

原创 2019移动广告反欺诈算法挑战赛之初始数据分析

前言：最近参加的科大讯飞的2019移动广告反欺诈算法挑战赛，但是白天一直在忙着写论文，所以一直是跑跑别人的公开的baseline，调调参数一类的，现在是94.43左右，有需要的可以和我说一下，免费奉献。但是感觉成长不是很大，所以就学学kaggle上的一个大佬分析数据的方式很有意思，就拿过来学学。比猫画虎而已，肯定有些不对的。程序是用jupyter写的，但是CSDN不是很支持jupyter，所以...

2019-07-23 00:42:19 3847 35

原创使用迁移学习和融合模型进行图像识别

前言：上一节介绍了如何使用迁移学习进行图像识别，但是只是在单模型上进行图像识别的任务。本节介绍的是如何使用融合模型进行图像识别任务。说起来有点抽象，但是原理并不复杂。具体过程如下：首先：我们将图像放到InceptionV3、InceptionResNetV2模型之中，并且得到图像的隐层特征，PS(其实只要你要愿意可以多加几个模型的)然后：我们把得到图像隐层特征进行拼接操作，并将拼...

2019-07-06 19:38:08 4009 8

原创 Cats vs Dogs之使用迁移学习进行图像识别

前言：前面介绍如何使用AlexNet、VGG19、ResNet_152 、InceptionV4 、DenseNet训练自己的数据集，接下来两节主要介绍如何使用迁移学习进行图像识别的任务。第一节是介绍使用单个模型进行图像识别的任务，第二节介绍使用融合模型进行图像是别的任务。什么是迁移学习：迁移学习（Transfer Learning）：就是指利用已经训练好的开源网络模型...

2019-07-05 16:55:40 1837

原创使用Densenet模型训练自己的数据集

前言：之前四篇文章分别介绍了如何使用AlexNet、VGG19、ResNet_152 、Inception_V4训练自己数据集，本节将介绍最后一个经典图像识别模型Densenet，Densenet是CVPR2017年的Best Paper, DenseNet脱离了加深网络层数(ResNet)和加宽网络结构(Inception)来提升网络性能的定式思维。它建立的是前面所有层与后面层的密...

2019-07-02 23:53:33 15139 41

原创使用Inception V4训练自己的数据集

前言：Inception v1-v4是谷歌推出的一系列产品。这节我们主要介绍一下Inception v1-v4各个模型的特点，并在最后实现一下使用Inception v4进行卫星图像的分类。在这里谈一下我对Inception系列的粗浅的认识。我们可以看到之前一系列深度卷积模型只是在关注如何在不过拟合的情况下加深网络的结构。但是他们却不关注网络的宽度，而Inception系列不仅着手加深网络的深...

2019-07-02 21:20:52 6774 29

原创使用Resnet_50_101_152训练自己的数据集

前言：前面两节介绍了AlexNet和VGG-19模型的结构，以及具体的实现。正如前面讲的两者在结构上是相似的。但是接下来讲的Resnet(残差网络)不仅在深度上取得巨大的进步，而且在架构上也与之前的网络是不同的。残差网络的发明人是何凯明博士期间，在CVPR的文章《Deep Residual Learning for Image Recognition》中首次提出。值得注意的是他还是广东省的高考...

2019-07-02 17:41:52 21732 40

原创使用VGG-19模型训练自己的数据集

前言：上一节介绍的图像识别中一个经典的模型AlexNet，今天介绍的是图像识别领域另一个经典的模型VGG-19。VGG-19是由牛津大学的Oxford Visual Geometry Group实验室发明的。因为不像是AlexNet是由Alex一个人完成的。所以这个模型就按照实验室的名称的缩写命名。VGG-19和AlexNet的整体架构是相似的，只是在AlexNet进行了一些改进，具体的有。...

2019-07-02 17:16:38 24322 66

原创使用AlexNet训练自己的数据集

前言：前两篇分别介绍两个图像识别的模型，第一个是mnist手写体图像识别，第二个是在第一个代码的基础上增加了一些优化技巧，例如正则化、dropout等，并且比较加上各种优化技巧之后图像识别的结果。接下来介绍几个图像识别中比较经典的算法。具体的就介绍AlexNet、VGG19、ResNet_152 、InceptionV4 、DenseNet这五个模型，并且测试一下这些模型在卫星图像...

2019-07-02 15:58:12 22757 72

原创 2019腾讯广告算法大赛之使用XGBOOST模型+网格搜索轻松上80

前三个部分分别介绍了如何清洗广告数据集、用户数据集、曝光广告数据集和测试集，以及构如何构造训练的标签，具体链接见下文，在我们构造好训练集之后，我们开始使用XGBOOST模型训练数据集，训练方法分为两个版本，第一个版本是简单版本，训练集的属性列中只包含取唯一值的数据，第二个版本是加上取多值的属性列。参考的代码链接是bryan大佬18年腾讯算法大赛公布的baseline。第一部分：如何清洗广告数...

2019-05-06 07:29:54 2867 14

原创 2019腾讯广告算法大赛之整理测试数据集以及构造训练集

在重构训练样本之前我们首先需要对测试集中样本进行整理，因为训练的样本要和测试样本在维度上(属性列)要保持一致的。首先看一下原始样本的格式：除了人群定向这一列属性需要根据关键字进行分裂之外，对于其他属性我没有做任何修改，Okay！！！对于人群定向的修改可以分成两种情况，第一种：当该条记录中的关键字是（属性列名：具体值）对于出现的属性列进行保存，没出现的属性列直接设置成-1第二种：...

2019-05-05 15:01:05 4106 12

原创 2019腾讯广告算法大赛之清洗曝光广告数据集以及构造标签

首先是对清洗曝光广告日志中的脏数据进行清洗，脏数据主要包括三种情况，第一：该条广告记录中的广告ID不存在于静态广告数据和操作广告数据中，因为不存的话则该条数据无法构造训练集。第二：广告请求时间不合理，也即是出现二月三十号的这种情况第三：如果该条广告操作数据的取值不合理，例如（广告行业ID中出现多值，或者出现缺失数据）最后在保存广告操作数据集时，我首先是按照天进行保存的，然后在...

2019-05-05 10:47:53 2397 7

原创 2019腾讯广告算法大赛之清洗广告数据集和用户数据集

研一下半学期参加的比赛，失败原因如下:第一，pandas几乎是从零开始，对于某些数据的清洗如果使用pandas封装的函数可能只需要很短的时间，但是使用python的判断语句会很慢，而且可能做不出来。okay 2019/06/05已学习第二，因为赛题中需要自己构造训练数据和标签，对题目理解的不是很好，导致构造数据集的目标一直再修改，第三，比赛之前虽然实现了和题目相关代码，以及可...

2019-05-04 16:51:44 5594 23

原创医疗图像质量评估

前言：# -*- coding: utf-8 -*-# @Time : 2021/1/31 15:33# @Author : YYLin# @Email : [email protected]# @File : pixel_value.pyfrom matplotlib.patches import ConnectionPatchimport cv2, osimport matplotlib.pyplot as pltimport numpy as np..

2021-03-14 10:24:12 532

原创医学图像预处理之可视化

1 前言本文介绍两种医疗图像可视化的方案，一种是直接使用ITK-SNAP从冠状面、矢状面、横断面，另一种是使用python+SimpleITK将后缀名为.nii.gz转化成jgp的形式进行保存。

2020-12-30 19:26:19 4409

原创医疗图像翻译预备知识之不同类型的肿瘤

1 前言CT检查是现代一种较先进的医学影像检查技术。CT检查不仅能够可以显示肝内占位性病变、原发性肝癌或转移性肝癌的形态、轮廓、坏死、出血及生长方式等，还可以了解胆、胰、肾等脏器的情况，所以慢性肝炎、肝硬化并存在可疑病变或肝癌的患者，则有做CT检查的必要。但是有些肝脏的癌变细胞例如局灶性结节性增生（Focal Nodular Hyperplasia，FNH）、肝细胞肝癌（Hepatocellular carcinoma，HCC），其和正常组织相比差异性不大，因此医生并不能通过一般的CT检查就给出判断患者

2020-12-28 20:45:49 746

原创医疗图像预处理之图像配准

1 前言图像配准是图像处理研究领域中的一个典型问题和技术难点，其目的在于比较或融合针对同一对象在不同条件下获取的图像，例如图像会来自不同的采集设备，取自不同的时间，不同的拍摄视角等等。以医学图像为例，对于同一患者，可以采集含有准确解剖信息的图像诸如CT，MRI;同时，也可以采集到含有功能信息的图像诸如SPECT。然而，通过观察不同的图像进行诊断需要凭着空间想象和医生的主观经验。采用正确的图像配准方法则可以将多种多样的信息准确地融合到同一图像中，使医生更方便更精确地从各个角度观察病灶和结构。同时，通过对不

2020-12-28 10:33:10 4204

原创医学图像预处理之重采样

1 前言对于不同的数据类型重采样的方法和目的都不相同。例如在遥感中，重采样是从高分辨率遥感影像中提取出低分辨率影像的过程；在数据挖掘中，重采样是指为了解决训练数据类别不均衡，通过在训练期间通过增加小样本的数量或者减少大样本的数量保持样本类别均衡的算法；在医疗图像中，重采样是指将医疗图像中大小不同的体素归一化到相同的大小。体素是体积元素（Volume Pixel）的简称，一张3D医疗图像可以看成是由若干个体素构成的，体素是一张3D医疗图像在空间上的最小单元，具体解释可见上一篇博客。本文主要包含两个部.

2020-12-27 19:40:00 12262 7

空空如也

空空如也