2 晨恒父

尚未进行身份认证

我要认证

努力工作 挣钱养家

等级
TA的排名 15w+

词典构建方法

一. 注意此文章只是解释了hanlp的代码,纯属应用绝不应用于商业用途二. 代码粘贴# -*- coding:utf-8 -*-# user: wbb# Date: 2020-06-11# 功能:词典from typing import List, Dict, Union, Iterablefrom model.common.structure import Serializablefrom model.common.constant import PAD, UNKimport ten

2020-06-12 09:19:52

配置阿里yum源

配置本地yum的配置文件[local_yum]name = linux_fybaseurl = file:///mnt/cdromgpgcheck = 0enabled = 1下载必要文件wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-7.repo修改配置文件修改刚...

2019-11-06 08:06:39

集成学习(机器学习)

集成学习Bagging实例:采样方式随机采样(bootsrap)就是从我们的训练集中采集固定个数的样本,但是每采样一个样本后,都将样本放回。也就是说,之前采集到的样本放回后有可能继续被采集到。集成方式Bagging的集合策略也比较简单,对于分类问题,通常使用简单投票法,得到最多票数的类别或者类别之一为最终的模型输出。对于回归问题,通常采用简单平均,对弱学习器得...

2019-08-28 06:49:46

句法分析

关键词解释序号符号解释1IP简单从句2NP名词短语,noun phrase3VP动词短语,verb phrase4PP介词短语,preposition phrase5ADVP副词短语:adverb phrase6ADJP形容词短语:adjective phrase7NN常用名词:normal noun8...

2019-07-19 18:15:15

文本分类BiLSTM-Attenion

BiLSTM-Attenion导包+参数 import os import csv import time import random import json import numpy as np import pandas as pd from tqdm import tqdm import torch import torch.nn as ...

2019-07-13 09:32:01

文本分类之Bi-LSTM

Bi-LSTM库导入与参数配置 import os import csv import time import random import json import numpy as np import pandas as pd from tqdm import tqdm import torch import torch.nn as nn ...

2019-07-13 06:57:24

pytorch归一化问题

CharCNN学习

2019-07-11 17:04:43

文本分类实战-textCNN

文本分类实战Word2vec词向量

2019-07-10 17:56:23

朴素贝叶斯+语言模型

语言模型语言模型定义困惑度常用模型

2019-07-09 16:27:02

Docker

简介常用命令docker infodocker --help镜像命令docker image显示内容说明:PEPOSITORY表示镜像的仓库源;TAG镜像的标签;IMAGE ID镜像编号;CREATED 镜像创建时间;SIZE镜像大小参数:-a,列出本地所有的镜像;-q只显示镜像ID;–digests 显示镜像的摘要信息;–no-trunc 显示镜像的完整信息do...

2019-07-08 19:40:09

CRF实践

题目假设我们有两个相同的骰子,但是其中一个是公平的,每一个点数出现的概率相同;另一个筛子则被做了手脚,数字6出现的概率被调为80%,而1-5出现的概率都为4%。如果我给你一个15次投骰子的序列,你能预测出每次投掷的是哪个筛子吗?理论:对于理论的讨论我们分为三个部分:1.指定模型参数;2.估计这些参数;3.利用这些参数进行预测指定参数在这个问题中,我们需要担心...

2019-07-08 08:06:07

条件随机场

概率无向图模型定义概率无向图模型又称为马尔可夫随机场,是一个可以由无向图标识的联合概率分布。无向图是指边上没有方向的图,既然边没有方向,其权值就是有方向的。无向图中表示的随机变量之间存在的性质成对马尔可夫性P(Yu,Yv∣YO)=P(Yu∣YO)∗P(Yv∣YO)P(Y_u,Y_v|Y_O) = P(Y_u|Y_O)*P(Y_v|Y_O)P(Yu​,Yv​∣YO​)=P...

2019-07-06 11:24:00

隐马尔科夫模型

定义HMM是关于时序的概率模型,描述由一个隐藏的马尔可夫链生成不可观测的状态随机序列,再由各个状态生成观测序列的过程HMM的确定HMM由初始概率分布π\piπ、状态转移概率分布A以及观测概率分布B确定λ=(π,A,B)\lambda = \big( \pi,A,B\big)λ=(π,A,B)三个基本问题概率问题:前向-后向算法----动态规划给定模型...

2019-07-05 10:19:09

Spark之Scala基础

基本数据类型基本数据类型:Byte,Char,Int,Long,Float,Double,Boolean函数调用与apply()函数“Hello"(2)其实就是调用”Hello".apply(2)条件语句条件 var age = 30 if (age>18) 1 else 20语句终结符与块表达式 var a=b=c = 10 if (a<...

2019-06-13 17:29:05

文本相似度计算

文本相似度计算方案TF-IDF基本概念TF-IDF是Term Frequency-Inberse Document Frequency的缩写,即‘词频-逆序文本频率’。它由两部分组成,TF和IDFTF:词频,文本中各个词的出现频率,并作为文本特征IDF:IDF反映了一个词再所有文本中出现的频率,如果一个词在很多文本中出现过,那么它的IDF值应该很低。而反过来如果一个词在比较少的...

2019-05-05 19:07:52

PageRank、TextRank

PageRank将Web做如下抽象a. 将每个网页抽象成一个节点b. 如果一个页面A由链接直接指向B,则存在一条有向边从A到B因此整个Web被抽象成一张有向图。假设只有四张网页:A、B、C、D其抽象结构如下图所示:PageRank算法基本思想描述:被用户访问越多的网页更可能质量越高,而用户在浏览网页时主要通过超链接进行页面跳转,因此需要通过分析超链接组成的拓扑结构来推算每...

2019-04-27 21:15:43

Transform模型

Elmo(基于LSTM)Sequence to Sequence例attention例隐藏层:h1,h2,⋯ ,hNh_1,h_2,\cdots,h_Nh1​,h2​,⋯,hN​on timestep t,we have decoder hiden state sts_tst​可以得到sttention score ete^tetfo...

2019-04-25 11:07:27

狄利克雷分布、采样方法、主题模型

主题模型LDALDA是一种无监督的贝叶斯模型是一种主题模型,它可以将文档集中的每篇文档的主题按照概率分布的形式给出。同时它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量K即可。此外LDA的另一个优点则是,对于每个主题均可找出一些词语来描述它。是一种典型的词袋模型,即它认为一篇文档是由一组词构成的一个集合,词与词之间没有顺序以及先后的顺序,...

2019-04-25 10:27:13

RNN、LSTM

RNN参数特点各个时刻参数共享模型详解图LSTM包含的组件之 忘记门(Forget Gate Layer)图ft=δ(Wf[ht−1,xt])f_t=\delta \big( W_f[h_{t-1},x_t]\big)ft​=δ(Wf​[ht−1​,xt​])...

2019-04-18 21:39:01

卷积神经网络

卷积图解Padding假设输入/原图像大小为n×n,过滤器大小为3×3,则输出大小按照如下计算:VALID:不够滑动,则将右下的剩余部分舍弃,从原矩阵右上角开始卷积H′⌈H−k+1d⌉H^{\prime}\lceil \frac{H-k+1}{d}\rceilH′⌈dH−k+1​⌉注:H表示卷积前尺寸,H′H^\primeH′表示卷积后尺寸,k为卷积核尺寸,d为步长....

2019-04-17 00:04:33

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。