6 asher_lithium

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 6w+

语义搜索(semantic searching)简介

2000s 以来,“语义搜索”是信息检索和知识图谱等领域的一类重要话题。一言蔽之,“语义”即“某种表达的含义”。“让计算机更好地理解人类”是学术界和产业界的共同愿景,以至于有人提出,机器的“理解力”≈“智能”水平,一旦解决了“理解”问题,人类就具备了制造“通用人工智能”的能力。本文将对“语义搜索”做一个蜻蜓点水式的简单介绍。可能需要读者对信息检索/自然语言处理/知识图谱/数据库/机器学习等领域有...

2020-02-23 20:38:36

论文写作排版小技巧(更新中)

熟练了语法之后,毕业论文其实用 LaTeX 写是最好的,但总有些原因吧。Word 排版是比较蛋疼的。整格式第一件要做的事情就是找学校的官方模板,把正文往上套。模板解决不了的以及一些写论文时候发现的小技巧有这么几个,按照我发现的顺序整理如下。先做个无责任声明啊,博主渣校硕士,对论文的细节要求相对比较水。博士的我也不了解。出了问题不要找博主。博主这个博客用烦了打算过段时间跑路。1. 符号表对不齐...

2019-03-17 17:20:27

Machine Learning Yearning 要点笔记

Andrew Ng. 的新书终于出完了。薄薄一百多页的小册子,翻下来其实是一堆实操经验集合。感觉还是有一定借鉴意义的,按照我自己的理解简单地整理如下,也不展开说了。有过实际经验的肯定心里有数。新成果的驱动因素:数据,算力数据集的划分:val & testval & test 应当来自相同的分布how large? 足够区分算法之间的(精度)差异建立单一的评估指标,并通...

2018-10-06 11:39:26

浅度讨论:Deep Learning 模型的迁移

对很久以前和近期一批业余实验的几点总结,依然是唠嗑的形式。 水平和精力有限,欢迎讨论。一、Hinton 的预言Deep Learning 成为一种现象大约是在2014年以后。2016年谷歌的 AlphaGO 应该被列入史上最成功的营销案例。 在 Deep Learning 的 “Hinton 时代”(约2006~2014),Hinton 常提的一种训练模式,是 pretrain-fin...

2018-08-27 18:18:58

TapTap 评论爬取、分类和基于 Attention 的可视化

结构: -- `cache` //存放中间缓存文件。做完全套占空间其实还挺多的,扒下来60MB的数据楞有5个G的缓存 -- `data` //合并单个文件之后得到的所有评论。大概有18万条。 -- `playground` //由于比较菜很多步骤是在 Notebook 边实验边写的,包括合并数据啊简单统计啊之类的。还有作图 -- `spider` //爬虫代码。跟上一个项目一样 -...

2018-08-14 11:52:57

BDCI2017 360 赛题数据上的一点拓展实验

———– 没干货预警———————— 没干货预警———————— 没干货预警———————— 没干货预警————- 前段时间忙里偷闲,参考第三名大佬 https://github.com/fuliucansheng/360 的代码,重做了一部分实验,结果可以看几个 Notebook 里的输出记录。非常有意思。为了节省时间,训练数据随机抽了初赛 5w、复赛 6w,也就是各取十分之一后合成 11...

2018-07-31 18:55:55

我的模型有多快?——深度学习网络模型的运算复杂度、空间占用和内存访问情况计算

前段时间看了几个笔试题,涉及 DNN 的模型复杂度,主要是参数量和计算复杂度的问题。当时搜了一下感觉中文网上的内容比较乱。刚好本文是对神经网络模型资源消耗情况的一篇介绍,就不自己写了,把关键内容做了一下编译。 原文见 http://machinethink.net/blog/how-fast-is-my-model/ 。深度网络的计算消耗是学术 paper 相对少见的话题。当然,早期网络精度...

2018-07-11 16:12:04

Fast.ai 课程笔记: Dogs VS. Cats 实践

Fast.ai 的 Jeremy Howard 等人开发的 Deep Learning 课程,是我见过最贴合实践,同时又注重应用最新、最有效算法的入门课程。资源包括 fastai 库、视频、论坛和 一部分 Jupyter Notebook,视频在 USF (三藩大学)录制,实际上是 Jeremy 等人在 USF 做的一项数据科学学位课,所以授课期间会看到授课式的讲解和学生提问。今年公开了第二期...

2018-06-20 22:17:37

刷题笔记:二叉树的花式遍历(未完成)

二叉树遍历是笔试面试里常考的问题了。这里做一下总结,以求加深印象。以 LeetCode 相关题目为例。三序遍历最常规的遍历是三序遍历:先、中、后。区别在于打印节点的顺序。 先序遍历是“根-左-右”,中序遍历是“左-根-右”,后序遍历是“左-右-根”。 遍历方法有两种:递归和迭代。绝大多数二叉树题目都涉及递归,递归也是三序遍历最直接的实现;迭代则是依靠栈实现与递归相同的结果。 先序遍历...

2018-06-10 17:05:40

Windows 下 pip 提示找不到/打不开 script 等错误的处理方法

莫名奇妙的错误。由于是在 cmd 下出现的,我又有随手关窗口的习惯,没办法找到原始的错误记录了,只能凭印象说说。 最初是打开 cmd 想用 pip 更新几个 package,结果报错,大意是找不到 pip 的 script。 非常怪。Python 环境管理我装的是 Anaconda, 最近也没动过 Python 这块,pip 忽然就不能用了。第一时间没选择直接重装 pip,反倒试了一下用 co...

2018-06-06 20:12:02

Word2Vec 学习心得

好嘛博主食言了。不过本文没什么干活,主要是前后看了大概一个星期,反复去读源码和解读文章,终于感觉这东西不那么云山雾罩了。同时也发现网上很多材料有点扯淡,99% 的博文不过是把别人的东西用自己的话说一下,人云亦云。好多人自己理解错了而不自知,实在是误人误己。我也不敢说理解得有多深,下面的内容甚至可能有自相矛盾的地方,所以阅读本文时请一定擦亮眼睛,认真思考。 源码才是根本,作者那两篇论文感觉参...

2018-05-12 15:57:54

对学习/理解 Word2Vec 有帮助的材料

之前面试被面到了,加上一直不是很理解词嵌入的工作方式,所以这段时间找了不少相关的资料想把这玩意儿搞明白。理解还是有限,就不自不量力自己写一篇了(就算写也是把已有的文章揉一揉,不敢说是自己的理解),把看过觉得比较有用的材料整理出来,作为一则记录。一篇英文的博客也做了类似的整理(http://textprocessing.org/getting-started-with-word2vec)。 本...

2018-05-03 15:59:44

简单、强壮的情感、主题分类工具——NB-SVM

首先承认题目是来搞笑的。这篇笔记要记录的算法是 NB-SVM ,NB 是 Naive Bayes ,即把 NB 和 SVM 结合为一个算法来使用。 Kaggle 前面结束了一场 Toxic Comments Tagging(https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge),因为我啥都不会嘛,所以只能等比...

2018-04-22 12:08:54

“人机大战”简单复盘

准备材料的时候又找了一下相关资源,发现已经有多个队伍公开方案或者开源代码了。&1. 第一名的经验分享:https://zhuanlan.zhihu.com/p/33243415 &2. 第三名的代码开源,模块分得很清晰,推荐阅读:https://github.com/fuliucansheng/360 &3. 一份代码和总结,没公开名次:https://zhuanl...

2018-04-02 11:05:14

随手记:机器学习工程师新手最常犯的六种错误(Top 6 errors novice machine learning engineers make)

原博文来自 Medium,被北邮陈光老师发了在微博上。很久以前就收藏了但一直没看,今天拿出来发现文章很短而且颇具启发性,没经验的人在做数据类实践的时候确实想不到这些问题。 下面是我理解之后写的简单笔记,原文请自行搜索。 PS. Medium 是个好网站。1 使用默认的损失函数损失函数的作用是将当前问题转化为一个可求解的优化问题。损失函数需要建立在具体问题之上,对于一部分实际问题,已...

2018-03-28 11:38:20

多卡服务器下隐藏部分 GPU 和 TensorFlow 的显存使用设置

服务器有多张显卡,一般是组里共用,分配好显卡和任务就体现公德了。除了在代码中指定使用的 GPU 编号,还可以直接设置可见 GPU 编号,使程序/用户只对部分 GPU 可见。操作很简单,使用环境变量 CUDA_VISIBLE_DEVICES 即可。 具体来说,如果使用单卡运行 Python 脚本,则可输入CUDA_VISIBLE_DEVICES=1 python my_script.p...

2018-03-27 08:43:14

Ubuntu 挂载移动硬盘(U盘)传输文件

实验室信号非常乱,我用 WIFI 连着新主机,速度非常感人。大的数据只好换移动硬盘拷贝。主机的地盘被人抢了,无奈找了个位置放下,但现在没了显示器,全靠命令行。……倒也无所谓,毕竟终端才是操作系统的本体嘛。 Ubuntu 16.04 和更新的版本应该都支持 NTFS,不支持请另外安装软件包。挂载移动存储说白了就是 mount 和 umount俩命令的事儿。 接好移动硬盘,先 sudo blkid...

2018-03-25 15:57:27

升级 CUDA 到 9.0、Tensorflow 到1.6

Update 注意,官方编译的 TF1.6 尚不支持 cuDNN 7.1.x,下载时请选择 cuDNN 7.0.x。Tensorflow 最新的 1.6 版本需要 CUDA9.0,原来装的是 8.0 。这就需要卸载一个、安装一个。 虽然 Linux 内核的系统下删除软件给人的印象好像直接删目录就可以,但 CUDA 牵扯太多系统层面的东西,所以官方如果有正式解决方案那肯定优先使用。官...

2018-03-25 15:48:47

一个项目的经验教训:关于打乱和拆分数据

最近因为某事要准备一点材料,刚好前段时间给导师做项目的时候遇到一个大坑,浪费了很多时间,所以就着这个问题顺便做点总结。传统的机器学习,即在深度学习流行之前的问题的一般处理流程通常是“预处理->特征变换->分类/回归”。即便现在深度学习似乎要统治业界,但要转换成这样的步骤,也不过是将“特征变换”与“分类/回归”合二为一而已,该做的预处理往往还是要做。《深度学习(Deep Learni...

2018-03-08 15:11:11

《Learning to Program: Crafting Quality Code》 笔记

Coursera 上的编程入门课,由多伦多大学制作,使用 Python 语言。这门课介绍了一些实践中非常有用,但在常规入门教程中容易被忽视的内容,对养成良好的编码习惯有一定的启发意义。 很久以前上过的课程,把知识点拿出来整理一下。0 Week1:引子以回文和餐厅推荐为例,简单介绍了算法和数据结构,讲解了如何用 Python 自顶向下地解决问题。细节内容包括函数和注释该怎么写等。 函...

2018-02-28 17:59:02

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。