自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 收藏
  • 关注

原创 全球人工智能技术创新大赛【热身赛一】--笔记二--数据增强

布匹缺陷检测--笔记二--数据增强baseline的情况baseline的数据情况baseline使用的参数:baseline的训练报告:baseline的得分更多数据数据合并后的情况数据增强增强方式增强参数设置增强后的数据统计代码baseline的情况baseline的数据情况baseline使用的数据其实只是一部分,仅用了guangdong1_round2_train2_20191004_images\defect下的1264份有缺陷的数据。normal数据和其他3个文件夹的数据都是没有用到的。

2021-02-25 12:51:50 772 5

原创 CV之Transformer--笔记一--Transformer原理学习

CV之Transformer--笔记一--Transformer原理学习用自己的话描述Transformer的结构编码器用自己的话描述Transformer的结构先上一副经典结构图首先Transformer可以分为左右两边看,左边是一个编码器,右边是一个解码器。编码器我理解在vision中,inputs的是经过backbone卷积之后的矩阵,和位置编码结合后传入Multi-Head Attention 然后和输入做残差连接然后进行normalization。继续的传到前向传播网络(两个线性层+R

2021-10-18 00:29:36 710 1

原创 吃瓜教程ML--笔记三--决策树

吃瓜教程ML--笔记三--决策树什么是决策树3种决策树ID3决策树(Iterative Dichotomiser)熵(entropy)信息增益C4.5决策树增益率CART决策树(Classification And Regression Tree)基尼指数(Gini index)训练过程剪枝sklearn代码决策树可视化参考资料什么是决策树decision tree决策树是一种基本的分类和回归方法。顾名思义,决策树模型呈树形结构,就是数据结构中的树,有一个根节点、若干个内部节点、若干个叶子节点(决策结果

2021-07-22 23:48:49 274 1

原创 吃瓜教程ML--笔记二--线性模型

吃瓜教程ML--笔记二--线性模型基本形式线性回归对数几率回归多分类学习类别不均衡参考资料基本形式线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函数:写成向量模式则为:只要求出w和b则可以确定线性模型。线性模型有较好的解释性,Wi的大小表示着第i个特征的重要程度。线性模型蕴涵着机器学习中一些重要的基本思想,非线性模型可在线性模型的基础上通过引入层级结构或高维映射而得。线性回归线性回归模型是一个一次方程方程,通过自变量尽可能准确地预测因变量的值。线性回归的标

2021-07-20 00:20:18 399 2

原创 异常检测--笔记二--基于统计学的方法

异常检测--笔记二--基于统计学的方法1概述2参数方法3非参数方法4基于角度的方法5HBOSHBOS的尝试6总结参考资料1概述统计学方法对数据的正常性做出假定。它们假定正常的数据对象由一个统计模型产生,而不遵守该模型的数据是异常点。 统计学方法的有效性高度依赖于对给定数据所做的统计模型假定是否成立。异常检测的统计学方法的一般思想是:学习一个拟合给定数据集的生成模型,然后识别该模型低概率区域中的对象,把它们作为异常点。根据如何指定和学习模型,异常检测的统计学方法可以划分为两个主要类型:参数方法和非参数方

2021-05-14 23:07:10 163

原创 异常检测--笔记一--概述

异常检测--笔记一--概述什么是异常检测异常检测的类别异常检测任务分类异常检测场景异常检测方法简介基于统计学的方法线性模型基于邻近度的方法集成方法机器学习李宏毅老师:异常检测异常检测不能简单的看成二分类参考资料什么是异常检测根据相关场景,寻找出不符合预期的情况(数据)。识别如信用卡欺诈,工业生产异常,网络流里的异常(网络侵入)等问题。异常检测的类别①点异常(point anomalies)指的是少数个体实例是异常的,如下图中的离群点②条件异常(conditional anomalies),又称上下

2021-05-12 01:53:34 600

原创 leetcode-刷题

leetcode-刷题第一周day2第一周day2剑指offer25:输入两个递增排序的链表,合并这两个链表并使新链表中的节点仍然是递增排序的。示例1:输入:1->2->4, 1->3->4输出:1->1->2->3->4->4解题思路:使用伪指针进行迭代1.定伪指针和当前节点2.循环比较两个指针当前值的大小,cur节点指向较小的那一个节点,移动cur节点到next当其中一个链表遍历完成,跳出循环4.将cur指向还有剩余的链表5

2021-05-09 18:43:50 113

原创 数据挖掘之心跳信号分类预测--笔记五--模型融合

数据挖掘之心跳信号分类预测--笔记五--模型融合单模的缺点单模的缺点

2021-03-29 01:58:57 281

原创 数据挖掘之心跳信号分类预测--笔记四--边学边做尝试建模

数据挖掘之心跳信号分类预测--笔记四--边学边做尝试建模关于task4的学习模型调优我自己的思考关于这段时间尝试的模型憨憨尝试:将序列画成图像,然后做了图像分类进攻RNN后续会尝试的模型关于task4的学习这一次的学习内容挺丰富的有很多模型(逻辑回归、决策树、GBDT、XGBoost、LightGBM、Catboost、RNN、LSTM)、有对应模型的性能评估、调参方法(贪心调参、网格搜索、贝叶斯调参)由于内容多,我就选取了一些自己感兴趣的部分学习一下,这段时间主要还是以心跳信号比赛为背景按自己的想法

2021-03-26 02:23:01 396

原创 数据挖掘之心跳信号分类预测--笔记三--特征工程

数据挖掘之心跳信号分类预测--笔记二--数据分析tsfresh是什么特征提取tsfresh是什么tsfresh是用于从时间序列中自动提取特征的python包。tsfresh官网.这个包的使用从官网中的例子能较好的快速上手。特征提取tsfresh提取特征的过程比较吃内存,也很耗时间,得谨慎使用。当然也可以使用一些技巧,例如将数据划分几块分别进行特征提取最后再拼接在一起。特征提取前的原始数据,如下图所示:需要进行一些预处理才能使用tsfresh进行特征提取。因为heartbeat_signal

2021-03-22 08:35:21 440

原创 数据挖掘之心跳信号分类预测--笔记二--数据分析

数据挖掘之心跳信号分类预测--笔记二--数据分析EDA开始分析describeinfolabel类别的比例无界约翰逊分布画出数据趋势图先看效果代码这次比赛的数据我感觉相对简单,原始数据只有三列,除却id和label只有一列特征了。EDAEDA全称是Exploratory Data Analysis,即探索性数据分析。一开始我以为EDA是一个算法,但是查了一下资料发现,EDA是指对已有的数据在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。

2021-03-19 23:02:36 436

原创 深度推荐模型--笔记二--Wide & Deep

深度推荐模型--笔记二--Wide & DeepWide & Deep的地位什么是Wide & Deep思考题参考Wide & Deep的地位Wide & Deep处于一个居中的位置,一些模型都是根据它演化出来的,可以看到对wide部分进行改进出现了DCN和DeepFM;对Deep部分进行改进产生了AFM和NFM模型。什么是Wide & Deep顾名思义,模型就是由两部分组成:Wide部分是线性模型,我理解为Y=wX+b。X特征部分包括原有特征和交

2021-03-19 01:23:32 170

原创 深度推荐模型--笔记一--DeepCrossing

深度推荐模型--笔记一--DeepCrossing什么是DeepCrossing观察本次学习所用到的数据模型结构运行结果遇到的困难参考资料什么是DeepCrossingDeepCrossing于2016年由微软提出,完整的解决了 特征工程、稀疏向量稠密化, 多层神经网络进行优化目标拟合 等一系列深度学习再推荐系统的应用问题。Deep Crossing的优化目标就是预测对于某一广告, 用户是否会点击,依然是点击率预测的一个问题。这种场景下,模型的输入一般会有两种数据:类别型特征(如广告id):需要进

2021-03-17 00:58:05 159

原创 数据挖掘之心跳信号分类预测--笔记一--理解题目和baseline

数据挖掘之心跳信号分类预测--笔记一--理解题目和baseline题目背景赛题数据评估指标数据预处理baseline题目背景以心电图心跳信号数据为背景,我们要根据心电图感应数据预测心跳信号所属类别,其中心跳信号对应正常病例以及受不同心律不齐和心肌梗塞影响的病例,这是一个多分类的问题。赛题数据比赛分A、B榜训练数据共有10万条数据测试集A共有2万条数据其中heartbeat_signals(心跳信号)长这个样子心跳信号序列的采样频次一致,长度相等,没行数据的heartbeat_signa

2021-03-16 09:31:23 605 1

原创 全球人工智能技术创新大赛【热身赛一】--笔记三--YOLOv5的使用步骤

布匹缺陷检测--笔记三--YOLOv5的使用步骤以全球人工智能技术创新大赛【热身赛一】从头到尾使用YOLOv5到GitHub上下载源码配置所需文件放置这次比赛的数据,并生成YOLOv5所需格式在data文件夹下建立一个后缀为yaml的文件修改train.py文件训练结果修改detect.py 生成提交结果踩坑以全球人工智能技术创新大赛【热身赛一】从头到尾使用YOLOv5到GitHub上下载源码到GitHub上下载代码:https://github.com/ultralytics/yolov5解压下

2021-03-05 15:42:29 842 1

原创 全球人工智能技术创新大赛【热身赛一】-笔记一

全球人工智能技术创新大赛【热身赛一】-笔记一docker踩坑使用docker在阿里云上提交比赛流程第一步配置阿里云容器服务中的命名空间第二步配置镜像仓库第三步点击镜像仓库标签页右边的管理,根据操作指南登录阿里云Docker Registry第四步拉取镜像第五步编辑Dockerfile第六步构建镜像并推送第七步推送到镜像仓库第八步将镜像提交总结参考docker踩坑登录阿里云sudo docker login --username=******* registry.cn-shenzhen.aliyuncs.

2021-02-22 00:42:51 289

原创 零基础入门推荐系统 - 新闻推荐实战-笔记五

零基础入门推荐系统 - 新闻推荐实战-笔记五-排序模型LGBLightGBM调参Learning to Rank代码参考资料LGBLGB 即 LightGBM 即 Light gradient boosting machine 即 轻量梯度提升机LightGBM在以下方面比XGBoost更优:①训练效率更快②内存消耗更低③准确率更高④支持并行计算LightGBM调参(一)针对 leaf-wise 树的参数优化:①num_leaves:控制了叶节点的数目。它是控制树模型复杂度的主要参数。

2020-12-06 23:06:52 397

原创 零基础入门推荐系统 - 新闻推荐实战-笔记四

零基础入门推荐系统 - 新闻推荐实战-笔记四-特征工程什么是特征工程本次特征工程内容已有特征特征构造负采样什么是特征工程工业界名言:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。特征工程本质是一项工程活动,它目的是最大限度地从原始数据中提取特征以供算法和模型使用。特征工程可以一步增强数据的表达能力,通过构造新特征,可以挖掘出数据的更多信息,使得数据的表达能力进一步放大。我理解的特征工程包括: 数据处理、特征选择、维度压缩。本次特征工程内容①通过制作特征和标签把预测问题转成了监

2020-12-03 23:01:20 224

原创 零基础入门推荐系统 - 新闻推荐实战-笔记三

零基础入门推荐系统 - 新闻推荐实战-笔记三-多路召回faiss装包踩坑faiss装包踩坑faiss安装不能直接pip install faiss 要用pip install faiss-cpu,但是我安装成功后,导入还是存在如下问题:无论是在线安装还是离线安装,结果都是一样。...

2020-11-30 22:55:43 221

原创 零基础入门推荐系统 - 新闻推荐实战-笔记二

零基础入门推荐系统 - 新闻推荐实战-笔记二-数据分析进一步思考进一步思考点击时间戳进行排序这里我尝试了输出某一个user_id的所有进行查看。我发现:①rank对的是每一个user的,就是每行数据的rank对应的是该user看文章的顺序②rank的数据是倒序的,rank=1并不是user第一篇看的文章,而是最新看的文章。trn_click的数据阅览将训练集用户点击日志和新闻文章信息数据表,以文章id进行了左连接新闻文章信息数据表对 words_count 字段进一步分析:count

2020-11-27 23:11:37 179

原创 零基础入门推荐系统 - 新闻推荐实战-笔记一

零基础入门推荐系统 - 新闻推荐实战-笔记一赛题简介数据概况评价方式赛题理解Baseline预测完整代码赛题简介赛题以新闻APP中的新闻推荐为背景,要求选手根据用户历史浏览点击新闻文章的数据信息预测用户未来点击行为,即用户的最后一次点击的新闻文章,测试集对最后一次点击行为进行了剔除。数据概况数据来自某新闻APP平台的用户交互数据,包括30万用户,近300万次点击,共36万多篇不同的新闻文章,同时每篇新闻文章有对应的embedding向量表示。为了保证比赛的公平性,将会从中抽取20万用户的点击日志数据

2020-11-25 23:03:05 384

原创 python零碎技巧

随笔记录、持续记录1变量变字符串list_test = []for i in range(14): list_test.append('lines'+'_'+str(i))for i in list_test:##变量变字符串 globals()[i] = 'a'print(list_test)print(lines_13)结果['lines_0', 'lines_1', 'lines_2', 'lines_3', 'lines_4', 'lines_5', 'line

2020-10-25 11:28:38 132

原创 matplotlib练习:散点图、折线图、直方图、饼图、箱线图

matplotlib练习:散点图、折线图、直方图、饼图、箱线图声明数据集实训1合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入声明本人小白,在学习python数据分析与应用,这个是课后作业,为了方便以后应用时查看,特此记录。仅供参考,互相

2020-10-07 15:38:24 3547

原创 NLP学习笔记五

NLP学习笔记五Task 1Word2VecSkip-gramsContinuous Bag of Words (CBOW)更高效的训练方法Negative samplingHierarchical SoftmaxTextCNNTextRNN参考文档:Task 1这次学习内容挺难的,力所能及记录自己学到的。学习目标:①学习word2vec的使用和基础原理;②学习使用TextCNN、TextRNN进行文本分类;③学习使用HAN网络结构进行文本分类。Word2VecWord2Vec模型的基本思想

2020-07-31 23:58:22 148

原创 NLP学习笔记四

NLP学习笔记四Task 4FastText原理fasttext.supervised的参数FastText代码十折交叉验证Task 4今天主要的学习内容是FastText,学习目标:①学习FastText的使用和基础原理②学习使用验证集进行调参FastText原理Fast Text,是一种典型的深度学习词向量的表示方法,它非常简单通过 Embedding层将单词映射到稠密空间,然后将句子中所有的单词在 Embedding空间中进行平均,进而完成分类操作。Fasttext是一个浅层神经网络,由输

2020-07-27 23:59:30 133

原创 NLP学习笔记三

NLP学习笔记三Task 3TF-IDFTFIDFTask 3从前两次学习发现,学得不是很深入,这次尝试以作业为重点,多实践,还是那句话:输出倒逼输入。今天的学习目标:①学会TF-IDF的原理和使用;②使用sklearn的机器学习模型完成文本分类。TF-IDFTF-IDF是由TF(term frequency)和IDF(inverse document frequency)两部分组成的。TF**词语频率(Term Frequency)**表示某个单词或者短语在文本中出现的频率。公式::F

2020-07-26 00:00:30 235

原创 NLP学习笔记二

NLP学习笔记二Task 2数据的长度分析数据的类别发布数据的字符发布总结作业Task 2第二个学习任务,分析数据。分析目标:①赛题数据中,新闻文本的长度是多少?②赛题数据的类别分布是怎么样的,哪些类别比较多?③赛题数据中,字符分布是怎么样的?数据的长度分析因为每个字符都以空格隔离,所以可以直接进行统计。train_df['text_len'] = train_df['text'].apply(lambda x: len(x.split(' ')))print(train_df['tex

2020-07-22 23:57:49 791

原创 NLP学习笔记一

NLP学习笔记一写在前头Task 1分析赛题数据的初步认识评价标准解题思路总结写在前头第一次参加Datawhale组队学习,希望自己能克服困难,坚持下来,比自己优秀的人实在太多了。Task 1第一个学习任务,理解赛题。这次组队学习是边打比赛边学习的方式,以输出倒逼输入。这次自然语言处理(NLP)对应的比赛是: 零基础入门NLP - 新闻文本分类 。今天的学习目标:①理解赛题背景;②初步认识赛题数据;③理解赛题的解题思路。分析赛题赛题数据为新闻文本,可能出于保密和防止作弊的行为,数据按照字

2020-07-21 23:45:19 228 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除