自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

老肥码码码

微信公众号:老肥码码码

  • 博客(262)
  • 收藏
  • 关注

原创 我的2019年度代码报告

不知从何时起,年度报告总能在旧年将近、新年伊始的时候掀起朋友圈的热潮。近日,网易云音乐、知乎等各大流行app也如期放出了其用户2019年的年度报告,我突发奇想,为何不为自己生成一个GitHub的年度代码报告?绿油油的GitHub仿佛在诉说着咱们coder的岁岁年年。本报告的数据来源于我的 GitHub 2019年全年的代码提交数据,经简单的Python网络爬虫与数据分析获得。...

2020-01-01 09:06:08 1284 2

原创 网络爬虫进阶

文章目录网络爬虫进阶字体反爬JS逆向Scrapy框架debugger微信公众号网络爬虫进阶字体反爬猫眼电影汽车之家实习僧大众点评JS逆向有道翻译网易云音乐阿里文学Scrapy框架豆瓣unsplashdebugger反调试问题微信公众号algo_and_data...

2019-08-07 23:54:13 453

原创 科大讯飞人岗匹配Top1方案总结

九月份的时候胡萝卜参加了讯飞的人岗匹配挑战赛,后面机缘巧合和老肥组队打团。比赛过程可谓跌宕起伏,非常有意思。在这里和大家分享一下我们的建模方案。赛题任务智能人岗匹配需要强大的数据作为支撑,本次大赛提供了大量的岗位JD和求职者简历的加密脱敏数据作为训练样本,参赛选手需基于提供的样本构建模型,预测简历与岗位匹配与否。实质上,可以看做一个多分类问题。赛题数据本次比赛为参赛选手提供了大量的岗位JD和求职者...

2022-11-18 15:51:08 1183 10

原创 科大讯飞CTR预估挑战赛Top3方案总结

‍‍前一阵子,老肥参加了科大讯飞AI开发者大赛的部分比赛,主要包括结构化、音频、文本以及图像这四大类型,总体来看都是较为简单的任务并且解题方案也较为简单,后续会跟大家一一分享。今天要分享的是结构化的赛题-创意视角下的数字广告CTR预估挑战赛。赛题任务广告的CTR预估需要强大的数据作为支撑,本次大赛提供了讯飞AI营销云海量的现网流量和创意数据作为训练样本,参赛选手需基于提供的样本构建模型,预测测试集...

2022-11-17 12:27:06 692

原创 快速入门数据科学竞赛

上期给大家介绍了数据科学竞赛是什么这期跟大家聊聊- 为什么要参加数据科学竞赛竞赛?-- 如何入门数据科学竞赛?-- 为什么要参加数据科学竞赛竞赛?一、核心:自我提升1. 可以提升自己的代码能力、建模能力、思考能力、沟通能力和解决问题的能力。2. 通过真实的数据,检验自己对于书本知识的掌握情况,检验顶会文章是否真的work。二、结识志同道合的朋友,拓宽人脉1. 这些竞赛的选手可能是高校在读的优秀...

2022-11-12 22:52:35 514

原创 竞赛平台大合集

数据科学竞赛是什么?数据科学竞赛又叫大数据竞赛、算法竞赛、人工智能竞赛等,是指以真实业务问题为导向,聚合广泛的、跨学科的数据人才的参与,利用数据研发算法模型、探索解决方案的技术赛事。那我们一般去哪里找竞赛资讯呢?一、主流竞赛平台Kaggle、DataFountain、Datacastle、天池、Heywhale、AIStudio、Biendata……Kaggle相对来讲竞争较为激烈,奖金可观,...

2022-11-10 08:30:07 742

原创 山东赛 - 心电图智能事件识别Top2方案分享

老肥今天和大家分享的是山东省第三届数据应用创新创业大赛的心电图智能事件识别赛题的Top2方案,完整代码已开源,需要的同学可以点击底部阅读原文一键直达。本次比赛是我第二次参加的心电图竞赛,主要采用的是基于ResNet改写的1DCNN模型。而上一次参加的则是AIWIN的赛题,比赛中因为数据不可开放、只能使用线上较差的计算资源而提前放弃,当时主要采用了树模型与特征工程的思路,完...

2022-05-23 18:54:06 514 1

原创 招商银行2022FinTech精英训练营 - 数据赛道方案分享

老肥今天和大家分享的是招商银行2022FinTech精英训练营的数据赛道。该赛题是表格类赛题,主要是对客户流失进行预测,是一个常规的二分类问题,评价指标为AUC,其特点是A榜和B榜两个阶段是完全不同的打法。A榜数据是与训练集同分布的数据,而B榜的数据则非同分布,因此成绩变化波动也比较大,下面我们一起从两个不同榜单的不同打法来简单回顾一下本赛题吧。A榜思路* 原始特征简单处...

2022-05-12 19:09:56 2605 7

原创 我的Kaggle第一金-Happywhale

老肥今天和大家分享的是最近结束的Kaggle竞赛Happywhale - Whale and Dolphin Identification。该竞赛为计算机视觉类型比赛,任务是识别鲸鱼和海豚个体,评价指标为MAP@5。在大佬队友们的Carry下,我们队最终位列第三,我也收获了自己第一块Kaggle金牌,下面就和大家一起分享一下我们团队本次比赛的方案。赛题描述本次比赛的数据包...

2022-05-11 18:48:59 1057

原创 DCIC摸奖赛大型翻车现场

老肥今天和大家分享的是今年DCIC的OCR赛题-基于文本字符的交易验证码识别,我和@Ernnnn同学租卡打比赛血本无归(本想着线上线下非常稳定,肝一肝稳恰没想到后面演变成了摸奖),同时本次比赛体验相当差,具体表现为:第一点本赛题一共出现了两种Leak,第一个Leak为生成验证码图片的时间泄露,不同生成方式根据图片生成时间可以进行划分,第二个Leak则是所有验证码具有顺序排...

2022-04-28 10:22:36 678

原创 Kaggle | 如何解决提交错误

‍‍老肥近期参加Kaggle平台的比赛,因为比赛类型为Code Competition,测试数据并不可见,我们需要将notebook代码在线提交进行推理,而因为测试集不可以见经常会遇到提交...

2022-03-07 19:00:00 3213

原创 Kaggle PetFinder.my - Pawpularity Contest

老肥今天和大家分享的是刚刚结束的kaggle竞赛PetFinder.my-Pawpularity Contest,具体任务是使用一些元数据以及图像数据做出流行度预测(一个回归问题)。然而本...

2022-01-17 19:00:00 3305

原创 一个平凡竞赛人的2021

2021即将在今天画上一个句号,迎来更加充满希望的2022。老肥今天也在这里做一个关于竞赛方面的年度总结。在2021年度,我一共参加了19场国内外的数据竞赛,共收获了三个冠军(分别是招行F...

2021-12-31 19:00:00 813

原创 字节跳动安全AI挑战赛总结

今天老肥和大家分享的是字节跳动安全AI挑战赛赛题小样本半监督风险识别的赛后总结,本次比赛的相关开源代码我已汇总在文章底部。赛题描述在真实的社交网络中,存在的作弊用户会影响社交网络平台。在真...

2021-12-20 19:00:00 472

原创 Let’s Find a Leak

最近老肥在做厦门赛的题目,突然间有多名选手得分暴涨,我个人认为这其中要么是找到了极佳的上分点,要么就是挖掘到了赛题数据当中的leak, 于是我也开始挖掘本题可能存在的泄露。Leak主要是和...

2021-12-17 09:00:00 147

原创 一个普通双非硕士的算法秋招流水账

本文是由老肥的老队友Ernnnn同学所写的秋招感悟,主要讲述了其秋招成功上岸某头部大厂算法岗的心路历程, 真是羡煞旁人。——START——想写这篇总结很久了,感觉自己能在算法岗拼到offe...

2021-12-12 17:11:29 2337

原创 ATEC线上赛网络欺诈举报定性Top1方案总结

老肥前一阵子参加了ATEC科技精英赛的线上赛,赛题是网络欺诈举报定性,幸运地和大佬队友们以一个极简的stacking方案拿下了科技新星榜的冠军,下面就和大家一起回顾一下本次比赛。赛题背景随...

2021-11-22 14:27:42 1874 3

原创 AIWIN 心电图智能诊断Baseline【线上0.719】

今天老肥和大家分享的是AIWIN的秋季赛-心电图智能诊断竞赛的任务一Baseline方案,线上与线下验证得分均为0.719,采用的是单模树模型。赛题背景心电图是临床最基础的一个检查项目,因...

2021-11-16 16:40:26 1057

原创 隔空投送 老肥想要共享1个故事。

今天是10月24日,是一个属于我们代码人的节日,老肥在这里先祝大家节日快乐~老肥最近更新效率有点低,除了在忙秋招也还同时在多线程打一些比赛,现在秋招已经接近尾声,有空来和大家分享一下老肥的...

2021-10-24 16:58:49 299

原创 DIGIX全球算法精英大赛-视频推荐任务亚军方案分享

今天老肥和大家分享的是DIGIX全球算法精英大赛赛题三-基于多目标优化的视频推荐的亚军方案,主要使用的是特征工程为主的树模型和深度模型的融合方案。赛题任务本赛题的目标是基于用户前十四天的行...

2021-10-01 12:46:15 417 2

原创 微信大数据挑战赛方案总结

微信大数据挑战赛是一个非常有意思的比赛,从5月20日一直到8月9日,我从初赛周周星到险些未进复赛,从复赛开始,又占得了一个相对靠前的名次,从躺平到惊起,又从惊起到躺平,是一次“魔幻”的竞赛...

2021-08-14 09:45:48 1629 20

原创 第二期招银FinTech精英训练营夺冠之旅

上个周末我参加了招商银行的Fintech精英训练营,也是因为之前深圳疫情的影响,训练营一直推迟到了7月份,主办方也是克服了很多困难,最终得以让训练营顺利的开展。在本次出行路上还有一个大插曲...

2021-07-16 22:00:00 4368 1

原创 中兴捧月之旅

上个月底,我怀着激动的心情来到古都西安参加了第十一届中兴捧月算法大赛的全国总决赛,因为这是我第一次参加的线下封闭开发的现场竞赛,特以此文记录这趟快乐的西安之旅。中兴捧月是中兴通讯公司举办的...

2021-07-13 19:00:55 351

原创 基于用户画像的商品推荐挑战赛Baseline【线上0.67】

科大讯飞AI开发者大赛的比赛已经正式开幕了,这些赛题涉及了各个领域,包括CV、NLP以及传统的表格赛题等等,今天老肥和大家分享的是表格赛题-基于用户画像的商品推荐挑战赛的Baseline方...

2021-06-30 12:22:01 1744 1

原创 三一挖掘机工作模式识别Baseline分享

今天老肥和大家分享的是三一数据应用大赛-挖掘机工作模式识别的Baseline方案,全流程需在DCLab平台上进行,选手需要在平台上进行数据处理、算法调试。现在很多比赛平台出于数据保密等原因...

2021-05-28 12:01:38 775

原创 招商银行2021FinTech精英训练营数据赛道方案分享

今天老肥和大家分享的是下午刚刚结束的招商银行2021FinTech精英训练营数据赛道的方案。这次赛题是时间序列赛题,我也是第二次尝试(第一次是中兴捧月迪杰斯特拉赛道的流量预测),方式方法还...

2021-05-12 18:17:02 2480

原创 智慧支付挑战赛一等奖方案分享

今天和大家分享的是前不久老肥我参加的银联商务和华东理工商学院一起举办的智慧支付挑战赛,本次比赛我也是单人参加,最终很高兴收获了一等奖的好成绩。赛题分析本次挑战赛的目标是设计一个基于商户静态...

2021-04-28 19:00:00 346

原创 腾讯游戏安全技术竞赛-机器学习赛道Rank4方案

今天和大家分享的是前不久老肥参加的腾讯游戏安全技术竞赛,这也是我第一次参加这样刺激的比赛。怎么个刺激法呢,总的来说就是一发入魂(也可称作摸奖),每个人只有一次提交机会,并且不论是初赛还是决...

2021-04-25 18:23:18 501

原创 “梧桐杯”中国移动大数据应用创新大赛 - 智慧金融赛道Baseline

老肥今天和大家分享的是“梧桐杯”中国移动大数据应用创新大赛的智慧金融赛道的Baseline方案(抱歉鸽了很久),线上成绩为0.9438,处于一个相对靠前的排名位置。赛题介绍背景在金融领域,...

2021-03-03 19:00:00 2884 5

原创 手把手之如何写一个抢课脚本

大家好,我是菜鸡q,大家好久不见!故事的起因是由于群里有人通知马上要选下学期的课了,鉴于第一学期立志认真上课的我头铁选了几门巨难的课后,到学期中由于真的听不懂后索性懒得去上课,所以我决定下...

2021-03-02 19:00:00 36289 39

原创 基于AI的信道信息反馈性能提升Baseline分享

今天老肥和大家分享一个和通信相关的人工智能比赛,有不少朋友在这个赛题上遇到了很多问题,导致无法正常提交或者无法得到有效的分数,我搜集了一些与赛题相关的论文资料,并会给出目前排名前十的Ba...

2021-01-15 19:00:00 1556 5

原创 CCF企业非法集资风险预测Rank11赛后总结

这是老肥第一次参加CCF大数据与计算智能大赛,选择了企业非法集资风险预测这个相对简单的结构化数据赛题,本赛题共有4210人、3403支队伍参赛,是今年CCF BDCI大赛参赛人数最多的赛...

2021-01-02 21:00:00 1422 10

原创 中移集成首届OneCity编程大赛Rank15赛后总结

今天老肥和大家分享的是我最近参加的一个自然语言处理的比赛,复赛Rank15,喜提小米充电宝一枚。因为之前已经分享过本次竞赛的Baseline, 具体的赛事信息就不在此赘述,有需要的同学可...

2020-12-24 09:02:57 276 5

原创 公积金贷款逾期预测Baseline分享

今天老肥和大家分享的是山东省第二届数据应用创新创业大赛-日照分赛场-公积金贷款逾期预测的baseline, 这个赛题是结构化数据的分类问题,相对来说入门门槛较低,那就一起来看看吧!赛事介...

2020-12-10 19:00:00 1814 1

原创 中移集成首届OneCity编程大赛Baseline分享

机缘巧合在DC竞赛上看到了这个比赛,这个编程比赛正是数据类算法比赛,主要是自然语言处理相关的文本多分类任务,老肥我从来没有学习过这NLP领域相关的知识,正好借这个比赛学习充电,在此分享一...

2020-11-17 09:00:00 405

原创 在消失的几个月里,我拿奖啦

最近不怎么出现在大家的视野中,可不是因为我偷懒喔。在普遍唱衰算法岗位的大环境下,为了给自己的空白简历增加点色彩,也是给自己未来在就业市场增加求职的筹码,从今年六月份到现在这5个月我一共参...

2020-11-05 14:00:46 331 3

原创 百行代码轻松爬取视频

最近老肥在追剧,遇到了不是VIP无法畅享剧集的小困难。然后我在某强大的搜索引擎中发现了一个视频网站,该网站涵盖了各大热门视频,与VIP的更新速度同步,并且无需等待广告。视频网站?不如我们...

2020-08-01 09:00:00 1000 4

原创 用Python拓展副业的几种方式

Python是当下最火的编程语言之一,除了成为一名Python程序员之外,我们能否将Python作为自己的副业利器呢?答案是肯定的,本文就给大家介绍一些可以用Python赚零花钱的一些方...

2020-06-27 08:50:00 991

原创 定制你的私人arXiv论文报告,掌握一手科研动态

arXiv是一个收录科学文献预印本的在线数据库,许多还未被期刊会议收录的论文会被挂到arXiv上,以证明作者论文的原创性。我们需要阅读相关领域最新的论文,掌握一手科研动态,看看自己关注的...

2020-06-16 08:57:19 523

原创 字体反爬之博X网实战

今天的目标网站是某彩票网站博X网。其主要的反爬技术为字体反爬,话不多说,我们直接开始!我们想要获取的是具体的开奖号码,此号码是通过蓝色的小球表示的,如何获取呢?观察NetWork后,我们...

2020-06-07 08:30:00 366

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除