自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

莉莉兹的摸鱼日记

机器学习/深度学习/数据挖掘一个都不会

  • 博客(32)
  • 收藏
  • 关注

原创 datetime与unixtime转换及时区陷阱

但在第二遍看自己写的代码时忽然发现,为什么unixtime->datetime有时区因素(time.localtime函数)而相反的过程却不用考虑时区呢?本文主要参考了https//dvel.me/posts/datetime-note/感谢原作者,请感兴趣的同学移步该链接查看详细内容。这样就存在一个隐患在业务系统中如果使用了unixtime,必须同时明文约定转换规则,否则可能出现时区偏差。做数据开发的时候遇到一个unixtime与datetime互转的小问题即将形如。......

2022-07-28 14:27:08 509 1

原创 论文写作排版小技巧(更新中)

熟练了语法之后,毕业论文其实用 LaTeX 写是最好的,但总有些原因吧。Word 排版是比较蛋疼的。整格式第一件要做的事情就是找学校的官方模板,把正文往上套。模板解决不了的以及一些写论文时候发现的小技巧有这么几个,按照我发现的顺序整理如下。先做个无责任声明啊,博主渣校硕士,对论文的细节要求相对比较水。博士的我也不了解。出了问题不要找博主。博主这个博客用烦了打算过段时间跑路。1. 符号表对不齐...

2019-03-17 17:20:27 1539

原创 Machine Learning Yearning 要点笔记

Andrew Ng. 的新书终于出完了。薄薄一百多页的小册子,翻下来其实是一堆实操经验集合。感觉还是有一定借鉴意义的,按照我自己的理解简单地整理如下,也不展开说了。有过实际经验的肯定心里有数。新成果的驱动因素:数据,算力数据集的划分:val & testval & test 应当来自相同的分布how large? 足够区分算法之间的(精度)差异建立单一的评估指标,并通...

2018-10-06 11:39:26 389

原创 浅度讨论:Deep Learning 模型的迁移

对很久以前和近期一批业余实验的几点总结,依然是唠嗑的形式。 水平和精力有限,欢迎讨论。一、Hinton 的预言Deep Learning 成为一种现象大约是在2014年以后。2016年谷歌的 AlphaGO 应该被列入史上最成功的营销案例。 在 Deep Learning 的 “Hinton 时代”(约2006~2014),Hinton 常提的一种训练模式,是 pretrain-fin...

2018-08-27 18:18:58 1462

原创 TapTap 评论爬取、分类和基于 Attention 的可视化

结构: -- `cache` //存放中间缓存文件。做完全套占空间其实还挺多的,扒下来60MB的数据楞有5个G的缓存 -- `data` //合并单个文件之后得到的所有评论。大概有18万条。 -- `playground` //由于比较菜很多步骤是在 Notebook 边实验边写的,包括合并数据啊简单统计啊之类的。还有作图 -- `spider` //爬虫代码。跟上一个项目一样 -...

2018-08-14 11:52:57 5401 1

原创 BDCI2017 360 赛题数据上的一点拓展实验

———– 没干货预警———————— 没干货预警———————— 没干货预警———————— 没干货预警————- 前段时间忙里偷闲,参考第三名大佬 https://github.com/fuliucansheng/360 的代码,重做了一部分实验,结果可以看几个 Notebook 里的输出记录。非常有意思。为了节省时间,训练数据随机抽了初赛 5w、复赛 6w,也就是各取十分之一后合成 11...

2018-07-31 18:55:55 393

翻译 我的模型有多快?——深度学习网络模型的运算复杂度、空间占用和内存访问情况计算

前段时间看了几个笔试题,涉及 DNN 的模型复杂度,主要是参数量和计算复杂度的问题。当时搜了一下感觉中文网上的内容比较乱。刚好本文是对神经网络模型资源消耗情况的一篇介绍,就不自己写了,把关键内容做了一下编译。 原文见 http://machinethink.net/blog/how-fast-is-my-model/ 。深度网络的计算消耗是学术 paper 相对少见的话题。当然,早期网络精度...

2018-07-11 16:12:04 27459 19

原创 Fast.ai 课程笔记: Dogs VS. Cats 实践

Fast.ai 的 Jeremy Howard 等人开发的 Deep Learning 课程,是我见过最贴合实践,同时又注重应用最新、最有效算法的入门课程。资源包括 fastai 库、视频、论坛和 一部分 Jupyter Notebook,视频在 USF (三藩大学)录制,实际上是 Jeremy 等人在 USF 做的一项数据科学学位课,所以授课期间会看到授课式的讲解和学生提问。今年公开了第二期...

2018-06-20 22:17:37 2662 2

原创 刷题笔记:二叉树的花式遍历(未完成)

二叉树遍历是笔试面试里常考的问题了。这里做一下总结,以求加深印象。以 LeetCode 相关题目为例。三序遍历最常规的遍历是三序遍历:先、中、后。区别在于打印节点的顺序。 先序遍历是“根-左-右”,中序遍历是“左-根-右”,后序遍历是“左-右-根”。 遍历方法有两种:递归和迭代。绝大多数二叉树题目都涉及递归,递归也是三序遍历最直接的实现;迭代则是依靠栈实现与递归相同的结果。 先序遍历...

2018-06-10 17:05:40 232

原创 Windows 下 pip 提示找不到/打不开 script 等错误的处理方法

莫名奇妙的错误。由于是在 cmd 下出现的,我又有随手关窗口的习惯,没办法找到原始的错误记录了,只能凭印象说说。 最初是打开 cmd 想用 pip 更新几个 package,结果报错,大意是找不到 pip 的 script。 非常怪。Python 环境管理我装的是 Anaconda, 最近也没动过 Python 这块,pip 忽然就不能用了。第一时间没选择直接重装 pip,反倒试了一下用 co...

2018-06-06 20:12:02 7819

原创 Word2Vec 学习心得

本文没什么干货,主要是前后看了大概一个星期,反复去读源码和解读文章,终于感觉这东西不那么云山雾罩了。同时也发现网上很多材料有点扯淡,99% 的博文不过是把别人的东西用自己的话说一下,人云亦云。好多人自己理解错了而不自知,实在是误人误己。我也不敢说理解得有多深,下面的内容甚至可能有自相矛盾的地方,所以阅读本文时请一定擦亮眼睛,认真思考。源码才是根本,作者那两篇论文感觉参考价值也不高。说到底,Machine Learning/Deep Learning 的价值在于实践,而实际开发的应用中经过大量的 tric

2018-05-12 15:57:54 1585

原创 对学习/理解 Word2Vec 有帮助的材料

之前面试被面到了,加上一直不是很理解词嵌入的工作方式,所以这段时间找了不少相关的资料想把这玩意儿搞明白。理解还是有限,就不自不量力自己写一篇了(就算写也是把已有的文章揉一揉,不敢说是自己的理解),把看过觉得比较有用的材料整理出来,作为一则记录。一篇英文的博客也做了类似的整理(http://textprocessing.org/getting-started-with-word2vec)。 本...

2018-05-03 15:59:44 284

原创 简单、强壮的情感、主题分类工具——NB-SVM

首先承认题目是来搞笑的。这篇笔记要记录的算法是 NB-SVM ,NB 是 Naive Bayes ,即把 NB 和 SVM 结合为一个算法来使用。 Kaggle 前面结束了一场 Toxic Comments Tagging(https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge),因为我啥都不会嘛,所以只能等比...

2018-04-22 12:08:54 3415 1

原创 “人机大战”简单复盘

准备材料的时候又找了一下相关资源,发现已经有多个队伍公开方案或者开源代码了。&1. 第一名的经验分享:https://zhuanlan.zhihu.com/p/33243415 &2. 第三名的代码开源,模块分得很清晰,推荐阅读:https://github.com/fuliucansheng/360 &3. 一份代码和总结,没公开名次:https://zhuanl...

2018-04-02 11:05:14 452

原创 随手记:机器学习工程师newbees最常犯的六种错误(Top 6 errors novice machine learning engineers make)

原博文来自 Medium,被北邮陈光老师发了在微博上。很久以前就收藏了但一直没看,今天拿出来发现文章很短而且颇具启发性,没经验的人在做数据类实践的时候确实想不到这些问题。 下面是我理解之后写的简单笔记,原文请自行搜索。 PS. Medium 是个好网站。1 使用默认的损失函数损失函数的作用是将当前问题转化为一个可求解的优化问题。损失函数需要建立在具体问题之上,对于一部分实际问题,已...

2018-03-28 11:38:20 293

原创 多卡服务器下隐藏部分 GPU 和 TensorFlow 的显存使用设置

服务器有多张显卡,一般是组里共用,分配好显卡和任务就体现公德了。除了在代码中指定使用的 GPU 编号,还可以直接设置可见 GPU 编号,使程序/用户只对部分 GPU 可见。操作很简单,使用环境变量 CUDA_VISIBLE_DEVICES 即可。 具体来说,如果使用单卡运行 Python 脚本,则可输入CUDA_VISIBLE_DEVICES=1 python my_script.p...

2018-03-27 08:43:14 1705

原创 Ubuntu 挂载移动硬盘(U盘)传输文件

实验室信号非常乱,我用 WIFI 连着新主机,速度非常感人。大的数据只好换移动硬盘拷贝。主机的地盘被人抢了,无奈找了个位置放下,但现在没了显示器,全靠命令行。……倒也无所谓,毕竟终端才是操作系统的本体嘛。 Ubuntu 16.04 和更新的版本应该都支持 NTFS,不支持请另外安装软件包。挂载移动存储说白了就是 mount 和 umount俩命令的事儿。 接好移动硬盘,先 sudo blkid...

2018-03-25 15:57:27 8667 1

原创 升级 CUDA 到 9.0、Tensorflow 到1.6

Update 注意,官方编译的 TF1.6 尚不支持 cuDNN 7.1.x,下载时请选择 cuDNN 7.0.x。Tensorflow 最新的 1.6 版本需要 CUDA9.0,原来装的是 8.0 。这就需要卸载一个、安装一个。 虽然 Linux 内核的系统下删除软件给人的印象好像直接删目录就可以,但 CUDA 牵扯太多系统层面的东西,所以官方如果有正式解决方案那肯定优先使用。官...

2018-03-25 15:48:47 13159

原创 一个项目的经验教训:关于打乱和拆分数据

最近因为某事要准备一点材料,刚好前段时间给导师做项目的时候遇到一个大坑,浪费了很多时间,所以就着这个问题顺便做点总结。传统的机器学习,即在深度学习流行之前的问题的一般处理流程通常是“预处理->特征变换->分类/回归”。即便现在深度学习似乎要统治业界,但要转换成这样的步骤,也不过是将“特征变换”与“分类/回归”合二为一而已,该做的预处理往往还是要做。《深度学习(Deep Learni...

2018-03-08 15:11:11 7875 19

原创 《Learning to Program: Crafting Quality Code》 笔记

Coursera 上的编程入门课,由多伦多大学制作,使用 Python 语言。这门课介绍了一些实践中非常有用,但在常规入门教程中容易被忽视的内容,对养成良好的编码习惯有一定的启发意义。 很久以前上过的课程,把知识点拿出来整理一下。0 Week1:引子以回文和餐厅推荐为例,简单介绍了算法和数据结构,讲解了如何用 Python 自顶向下地解决问题。细节内容包括函数和注释该怎么写等。 函...

2018-02-28 17:59:02 366 3

原创 BDCI2017 “人机大战”参赛总结

UPDATE: 妈呀第三名开源了:https://github.com/fuliucansheng/360update: 比赛第一名的经验分享:https://zhuanlan.zhihu.com/p/332434150. 前言:这将是一篇又臭又长的日志明年就要找工作了。看到自己还是这么菜,心里挺着急的。一直琢磨着找几个比赛做一做,这样到时候简历不至于一片空白。但又总用...

2018-01-02 19:29:33 3016

原创 屏蔽 Chrome “请停用以开发者模式运行的扩展程序”(对新版 chrome 失效)

Chrome 更新版本后这玩意儿又弹出来了。找了一圈发现暂时没好使的办法,Google 是铁了心要封堵。 Stackoverflow 上有一个回答可以参考: https://stackoverflow.com/questions/30287907/how-to-get-rid-of-disable-developer-mode-extensions-pop-up/30361260#303612

2017-11-09 15:27:31 4863

原创 在 Jupyter Notebook 中更换主题与折叠代码

Jupyter美化:在 Jupyter Notebook 中更换主题与折叠代码

2017-10-05 17:59:45 24083 9

原创 CS229 笔记:关于 Logistic Regression 的六个小问题

CS229 的一则学习笔记,梳理一下 logistic regression 的一些相关问题。

2017-09-20 17:22:26 2164

原创 Fast.ai: Practical Deep Learning for coders 课程学习笔记:Part1 Lesson1 (Lesson0)

这节课是Fast.ai项目的一个介绍,介绍了课程制作者的一些理念、教学的想法和一部分关于深度学习的概念性的描述,非常休闲。可以当作一个谈话节目来看。

2017-09-07 15:49:27 1722

原创 配置windows客户端远程登录深度学习服务器

导师大手一挥给了块闲置的TitanX,加上毕业师兄留下的一台服务器级主机,花一天时间配了个深度学习环境出来。 实验室其他组有好几台这样的服务器。以前看人家测试代码都是自己电脑和服务器两头跑,心想这么搞看起来好土,把主机做好当个远程环境、在本机上run代码不就完了吗。 结果轮到自己配环境,还是查了好多文章。主要是对linux、Jupyter都一窍不通。 肯定有其他更简单美妙的实现方式。这里权做个

2017-09-05 11:50:06 9230 1

原创 Batch Normalization 学习笔记

本文是对批标准化方法的一则学习笔记

2017-08-28 11:31:04 12902 2

翻译 线性判别分析简明入门教程

LDA是脑电信号分析中最常用的分类器之一。中文网站上详细讲该算法的文章不多,也大都没有代码。于是编译了一篇LDA的简单教程。已经征得了原作者授权。转载请勿删改原文信息。

2017-07-29 11:05:31 11517

原创 GitHub滑稽入门指南

GitHub教程网上为数不少,但个人感觉从需求驱动的学习来讲还有很多优化的余地。所以今天就以Windows平台为例,用一种最简单的方式介绍一下Git和GitHub最基础的操作。 因为实在是太简单了,说“入门”都不好意思,得加个“滑稽”表示强调。引入首先要知道,GitHub是用来干什么的。 Git和GitHub不是一回事。 Git是一种分布式代码控制系统,原生Git最主要的作用,是代码管理/版本

2017-07-21 15:06:47 6467

原创 《机器学习/深度学习入门资源整理》增补 v0.1

前面发了《入门资源整理》的博文。在学习中遇到过很多问题,也跟着发现了许多补充资料。不仅对课程有帮助。 这里做一下简单整理,方便有兴趣的朋友查阅。CS231n相关课程官网: http://vision.stanford.edu/teaching/cs231n/index.html 课程翻译笔记: https://zhuanlan.zhihu.com/p/21930884 2016winter

2017-07-08 09:07:00 563

原创 CS231n作业2中Cython相关问题的处理

最近磨磨蹭蹭地学着CS231n,看着满屏幕代码不禁感慨Stanford大神们当真深不可测,作业是以挖空形式给出的。这么多代码要让博主从头写,那还不得写到天荒地老…… 博主使用的是2016年的教学录像和作业。录像是网易云课堂上大数据文摘做的中文版,配合知乎的杜客他们在专栏上发布的教程翻译使用。CS231n的作业基于Python2.7,个别文件需要使用C语言编译。博主在Windows 10上运行时曾有

2017-07-03 15:54:09 7712

原创 机器学习/深度学习入门资源整理v1.0

机器学习/深度学习入门资源整理。

2017-07-03 11:20:31 2219 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除