iterate7-CSDN博客

原创向量检索milvus之一：以图搜图

安装milvus关于milvusmilvus作为一个集成的开源平台，目标就是向量检索的集成平台。类似于elasticsearch集成了搜索。细节大家可以直接看官网。https://www.milvus.io/cn/docs/v0.11.0/overview.md安装说起来其实挺容易，方法也比较清晰。不过下载比较慢。>> docker pull milvusdb/milvus:0.11.0-cpu-d101620-4c44c00.11.0-cpu-d101620-4c44c0: Pul

2020-11-01 20:12:30 2323 1

原创 bert第三篇：tokenizer

文章目录tokenizer基本含义bert里涉及的tokenizerBasicTokenzerwordpiecetokenizerFullTokenzierPretrainTokenizer关系图实操如何训练训练自己中文的tokenizer总结引用tokenizer基本含义tokenizer就是分词器；只不过在bert里和我们理解的中文分词不太一样，主要不是分词方法的问题，bert里基本都是最大匹配方法。最大的不同在于“词”的理解和定义。比如：中文基本是字为单位。英文则是subword的概念，例

2020-10-08 09:54:24 32695 6

原创 bert系列第二篇：几个损失函数

目录L1-Loss（MAE)MSE(L2 Loss)nllloss=negative-log-loss那么如何计算呢？能否举个例子crossentropy仔细思考上面的nllloss总结参考文献L1-Loss（MAE)Loss(x,y)=1N∑i(∣xi−yi∣)Loss(x,y)=\frac{1}{N} \sum_{i}( |x_i-y_i|)Loss(x,y)=N1i∑(∣xi−yi∣)简单而言，就是两个向量的绝对值的误差。默认求平均，可以设置为sum。也是mean absolut

2020-10-07 10:01:25 7183 1

原创 bert系列第一篇： bert进行embedding

bert可以干啥我们理解bert为一个transformer集合，输入是一句话，输出是经过transform的结果。我们了解，深度学习的本质就是抽取核心特征，这也是bert的核心功能，而且以transformer为主要模块，具有更优秀的attention功能，捕获的特征更为精确和全面。一句话概括， bert就是一个抽取器。输入一句话（词序列），输出抽取后的embedding序列。输入输出输入会加入特殊的[CLS]代表整句话的含义，可以用于分类。input的词help，prince，ma

2020-10-04 23:22:33 15119 1

原创搜索排名：基于lightgbm的learn2rank

learning2rankpointwise：一个文档一个point，计算得分。可以排序；回归问题，分类问题都可。pairwise：任何两篇的排序；listwise：所有文档的排序损失之和。lightgbmLightGBM is a gradient boosting framework that uses tree based learning algorithms.https://lightgbm.readthedocs.io/en/latest/基于lightgbm的learn

2020-10-03 11:34:26 1994 2

原创方差、偏差（variance、bias)

概念方差的概念，是无监督的，描述的是一堆数据的聚集的程度。聚集的厉害方差就很小。偏差的概念，是有监督，偏差是指和目标的距离。偏差大，就是离目标大。举例想象你开着一架黑鹰直升机，得到命令攻击地面上一只敌军部队，于是你连打数十梭子，结果有一下几种情况:1.子弹基本上都打在队伍经过的一棵树上了，连在那棵树旁边等兔子的人都毫发无损，这就是方差小（子弹打得很集中），偏差大（跟目的相距甚远）。2.子弹打在了树上，石头上，树旁边等兔子的人身上，花花草草也都中弹，但是敌军安然无恙，这就是方差大（子弹到处都是）

2020-08-20 22:53:30 694

原创 MAP_K 检索评估指标

1. MAP_KMAP: mean average precision.precision很容易理解；precision@10表示检索10个文档中包含相关所占的比例，比如检索了10个，有9个是相关的，那么 precision@10=0.9average precision, 也容易理解。可以看p1，p2，p3，p4，p5，p6的平均值；就是 ap6的值mean 则是对所有的case求mean则是结果。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(im

2020-05-24 21:57:26 2927

原创 CNN再思

CNNconvolutional neural network核心步骤则是：卷积、池化对于分类问题，主要的流程：至于卷积和池化则在后面代码介绍，一句话理解：卷积就是抽取某些特征。filter就是卷积核，抽取某类特征，如果想抽取不同的特征，则就是多个filter，抽取之后形成feature map。我们要学习什么参数呢?filter.比如我们有3个filter，每个filter是...

2020-03-08 01:09:15 182

原创 cart回归树：练手+sklearn

背景cart树作为决策树的一种，在非常多的地方被使用。既可以用于分类问题，也可以用于回归问题。分类问题则非常容易理解，利用gini系数较大的特征进行样本分裂，从而构建一颗分类树。今天我们要探讨的是回归树。回归树cart简介回归树，则目标函数则是平方差，也就是说，分完之后形成left和right子树，每个子树对label，也就是y，进行平方差的计算。最后左右子树的平方差之和则是评估标注。 ...

2020-02-23 20:43:08 2245

原创 mac OWLVis安装

OWLVis介绍如果我们需要管理类似KG知识图谱的东西，可以使用protege。这款斯坦福共享的软件非常棒。也有网页版：webpretege.stanford.edu.但是我们需要观察更细致的树形结构：如何安装但是安装之后仍然遇到： dot的问题 /usr/local/bin/dot no such file问题。那么我们需要安装dot。brew install GraphVis ...

2020-01-16 21:30:26 217

原创动态规划之二：背包问题knapsack

背包问题描述有n个物品，它们有各自的体积和价值，现有给定容量的背包，如何让背包里装入的物品具有最大的价值总和？类似的问题非常多：比如每个任务都有时间和价值，我们有一定的时间，现在在有限的的时间里完成最大价值的任务，如何安排？任务ABCDEFG所得收益7951214612需要时间3426735下面就以这个问题来进行分析。...

2019-12-08 12:27:28 603

原创动态规划解决宫格移动

介绍动态规划（英语：Dynamic programming，简称 DP）是一种在数学、管理科学、计算机科学、经济学和生物信息学中使用的，通过把原问题分解为相对简单的子问题的方式求解复杂问题的方法。动态规划常常适用于有重叠子问题和最优子结构性质的问题，动态规划方法所耗时间往往远少于朴素解法。动态规划背后的基本思想非常简单。大致上，若要解一个给定问题，我们需要解其不同部分（即子问题），再根据子问...

2019-12-07 22:38:29 255

原创 python并行加速之: multiprocessing, multithread

背景对于java的多线程问题，可以方便利用disrupt架构。在python则一般是使用multiprocessing和multithread两种解决方案，前者是基于cpu；后者基于多线程。具体方案Process 方案def f(x, ret): ret[x] = x*x def task_multiprocessing_get(): ret = {} ...

2019-11-03 21:24:04 2417

原创 GridSearch & Kfold & cross validation

what’s cross validation?Cross-validation is a technique that is used for the assessment of how the results of statistical analysis generalize to an independent data set. Cross-validation is largely u...

2019-10-06 09:02:01 651

原创机器学习的第一步：数据预处理

背景以前讲过一篇关于特征缩放的，其实本质也是特征预处理，使得标注化。https://blog.csdn.net/iterate7/article/details/78881562这里主要是巩固，同时结合sklearn里的代码直接来看。标准化z-score方法x′=x−μσx' = \dfrac{x - \mu}{\sigma}x′=σx−μ翻译公式为：(x-mean)/std 计...

2019-10-05 11:08:49 979

原创损失函数：逻辑回归损失函数推导简记

这里只推导逻辑回归的损失公式。假设函数hθ(x)=11+e−θTx(假设函数)(假设函数)hθ(x)=11+e−θTxh_\theta(x) = \frac{1}{1+e^{-\theta^Tx}} \tag{假设函数}用于二分类p(x)={hθ(x),(1−hθ(x)),if y=1if y=0p(x)={hθ(x),if y=1(1−hθ(...

2019-10-02 23:22:04 6198 2

原创 pyscaffold建立项目管理

pyscaffold新建一个python项目的管理软件。一个命令就可以PyScaffold helps you to easily setup a new Python project.安装三种方法：1. pip install pyscaffold2. pip install pyscaffold[all]3. conda install -c conda-forge pyscaf...

2019-09-01 11:21:43 921

原创如何利用conda建立的虚拟空间在jupyter里开发

conda安装之后使用命令行将anaconda的bin目录加入PATH，根据版本不同，也可能是~/anaconda3/binecho ‘export PATH="~/anaconda2/bin:$PATH"’ >> ~/.bashrc更新bashrc以立即生效source ~/.bashrc如果mac安装了zshrc怎么办，简单修改～/.zshrc文件，在其中添加：sour...

2019-08-29 11:29:44 260

原创 RSA premaster secret error问题分析和解决

问题描述java 在打包，利用 java -Xmx1g -Djava.ext.dirs=lib2 Runner xx运行。报错：RSA premaster secret error测试没有问题，本地可以运行且结果正确；服务器可以运行，但结果不正确，报上述错误。问题分析java -cp xx.jar yy 可以运行。java -Djava.ext.dirs则不可以运行。应该是环境问...

2019-08-23 14:57:03 3368

原创 mac上安装xlearn

什么是xlearn安装步骤1. xcode for clanghttps://developer.apple.com/download/more/下载xcode并安装，是的，就是5-6G大小，而且解压缩之后11.8G2. cmakebrew install cmake 即可。验证成功。==> Auto-updated Homebrew!Updated 2 taps (home...

2019-06-23 11:06:09 686

原创 StarSpace系列之一：tagspace

问题类型TagSpace 单词、标签的嵌入用途: 学习从短文到相关主题标签的映射,例如，在这篇文章中的描述。这是一个典型的分类应用。模型：通过学习两者的嵌入，学习的映射从单词集到标签集。例如，输入“restaurant has great food <\tab> #restaurant <\tab> #yum”将被翻译成下图。（图中的节点是要学习嵌入的实体，图...

2019-04-14 00:32:30 1376

原创利用gensim进行词向量处理和找到相似词

关于词向量计算方法word2vec加载方法word2vec format；bin；text format；xx.kv结构如何计算相似度有必要norm吗？性能那个更快结果参考文献

2019-04-06 12:38:20 6086

原创知识引擎

知识引擎的几个层次

2019-04-06 09:10:20 718

原创 apache maven install notes

introduction（what）if we want to use commands to package, install or deply base MAVEN. let’s install it at mac.howdownloadhttps://maven.apache.org/download.cgiunzipunzip apache-maven-3.6.0.zips...

2019-03-25 14:17:40 99

原创 install java for mac

for whoFor El Capitan, Sierra and High SierracondtionFirst install and update brew from Terminal:steps/usr/bin/ruby -e “$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/in...

2019-03-13 17:54:16 625

原创 intellij 专业版下载、安装、破解实测

官网download链接:https://pan.baidu.com/s/1W53l7zcCvYlwESlH6X3RhQ 密码:bkmdcrack链接:https://pan.baidu.com/s/1FPj9DQWMXUVJbO_afO8bAg 密码:4rph步骤安装mac版idea；然后把crack的jar包复制到/Applications/IntelliJ IDEA.app...

2019-01-26 23:22:00 3662 1

原创哈佛训

2019-01-05 15:12:38 283

原创 7z centos 安装和源码安装

如何在centos里安装7z压缩和解压缩软件答： yum install -y p7zip

2018-12-29 14:15:36 1882

原创 cpu thread core lscpu

cpu thread corelscpu[root@localhost ~]# lscpuArchitecture: x86_64CPU op-mode(s): 32-bit, 64-bitByte Order: Little EndianCPU(s): 24On-line CPU(s) list: ...

2018-11-15 09:03:30 1790

原创 intellij idea 管理module和project，以及git管理项目

introduction这篇笔记主要包括两部分内容，第一部分是介绍idea如何操作project和module。第二部分则是创建git项目，然后idea中导入项目，然后创建多个module，以及一些基础的add，commit，push操作。下面的git操作适用于github和gitlab。两者没太多本质区别。先说一下相同点，二者都是基于web的Git仓库，在很大程度上GitLab是仿照G...

2018-10-12 11:16:29 2965

原创 elasticsearch 5+ head的三种安装方法

自从elasticsearch 5.0 之后，因为大统一的原因，head插件有不大变化；以前是直接解压缩，现在变为node开发。第一种，npmgit clone git://github.com/mobz/elasticsearch-head.gitcd elasticsearch-headnpm installnpm run start第二种，dockerf...

2018-09-11 23:33:28 993

原创 eclipse plugin install 插件安装

eclipse plugin install 插件安装自动手动首先要下载插件的zip，分两种，一种是带content.jar的；另一种则是plugin+feature的。第一种artifactcontent.jar and artifacts.jar 的这种，直接在eclipse里点击路径即可安装。方法是：help->install new softwa...

2018-09-07 09:43:03 3823

原创 elasticsearch mysql mongodb 底层设计

elasticsearch mysql mongodb SQL术语/概念 MongoDB术语/概念 elasticsearch 解释/说明 database database index 数据库 table collection type 数据库表/集合 row document document 数据记录行/...

2018-08-29 23:52:48 458

原创代码的习惯坚持

代码是落地代码是最终工程师的结果呈现，其中包括了本身的业务的实现，代码的习惯，逻辑的展现，代码的质量，甚至一些个人风格。基础标准个人理解，基础的业务满足，代码清晰，无逻辑bug，代码稳定，符合标准规范和具有一定的可读性这是一个基础。追求的一些标准这里罗列一些想法，供参考。也要求自己按照这个习惯坚持下去。 0. 先做到业务满足、代码清晰、无bug、稳定、符合规范。至于符合规...

2018-05-29 10:43:15 339

原创 leetcode 68：Text Justification（Round Robin算法应用）

题目Given an array of words and a width maxWidth, format the text such that each line has exactly maxWidth characters and is fully (left and right) justified.You should pack your words in a greedy a...

2018-05-13 23:02:35 532

原创 leetcode 807. Max Increase to Keep City Skyline（不变天际线的最大化）

题目In a 2 dimensional array grid, each value grid[i][j] represents the height of a building located there. We are allowed to increase the height of any number of buildings, by any amount (the amounts...

2018-04-30 23:48:44 388 1

原创熵、交叉熵、KL散度、损失函数

信息量一个事件x的信息量是： I(x)=−log(p(x))I(x)=−log(p(x))I(x)=-log(p(x)) 解读：如果一个事件发生的概率越大，那么信息量就越小。如果是1，也就是100%发生，那么信息量为0。熵就是对信息量求期望值。 H(X)=E[I(x)]=−∑x∈Xp(x)logp(x)H(X)=E[I(x)]=−∑x∈Xp(x)log⁡p(x) H(X...

2018-04-25 16:06:18 10650 1

原创异或XOR的再理解以及在leetcode上的应用

异或0和0异或产生0，0和1； 1和0异或得到1；1和1异或得到0。简单总结：不同的产生1；否则0。代表的是差别。补充AND，OR。AND 0&0=0 1&1=1 0&1=0 只有两个同时满足才能满足。OR 0|0=0 1|1=1 0|1=1 只要有一个满足就满足。再理解：异或的操作，如同...

2018-04-12 14:17:36 1926 1

原创 bootstrap自采样再理解

前言本文要讨论的并非是Bootstrap工具包，而是统计学习中一种重采样（Resampling）技术。下面引用的是谢益辉博士关于Bootstrap （和 Jackknife）基本思想的论述，希望能帮助读者对于Bootstrap 建立一个初步的认识：在统计的世界，我们面临的总是只有样本，Where there is sample, there is uncertainty，正因为不确定性...

2018-03-29 15:11:50 25265 9

原创 bp算法的理解

bp算法又称反向传导算法，英文： back propagation。我们了解，前向传导，可以根据W，b来计算出隐层、输出层的各个神经元的值以及对应的激活值，最终得到输出。如果输出和我们的目标存在误差，这个误差可以用成本函数表示（loss function），那么我们就需要反向的把这个误差分配到前面的各个传导的过程中，也就是W和B上；我们需要知道每个神经元带来了多少误差，这个影响程度我们用“...

2018-03-23 14:03:44 4606 1

milvus的milvus.yaml 官方配置文件

这是milvus的官方的milvus.yaml配置文件。主要是官网的地址无法wget rawgit下载。所以搞一份方便大家。

2020-11-01

gridsearch_kfold.ipynb

grid search with cross validation 网络搜索和交叉检验

2019-10-06

方差标准差.ipynb

sklearn 预处理的方法。包括归一化、标准化、正则化等。

2019-10-05

pku_training.utf8

分词训练用的pku训练集，主要是说明相似度计算的样例数据。

2019-05-25

word2vec googlecode 官方代码

The word2vec tool takes a text corpus as input and produces the word vectors as output. It first constructs a vocabulary from the training text data and then learns vector representation of words. The resulting word vector file can be used as features in many natural language processing and machine learning applications.

2015-12-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人