Juanly Jack-CSDN博客

原创基于 LSTM 电影评论情感分析

0、前言RNN网络因为使用了单词的序列信息，所以准确率要比前向传递神经网络要高。网络结构：首先，将单词传入 embedding层，之所以使用嵌入层，是因为单词数量太多，使用嵌入式词向量来表示单词更有效率。在这里我们使用word2vec方式来实现，而且特别神奇的是，我们只需要加入嵌入层即可，网络会自主学习嵌入矩阵。通过embedding 层, 新的单词表示传入 LSTM cells。这将是...

2018-11-04 13:47:02 11895 14

原创基于LDA对电商商品评论进行情感分析

数据是人工爬取自京东网站上的评论数据，该项目主要以美的产品作为分析。下载连接:链接：https://pan.baidu.com/s/1uyzEa6VJBkBLHMzxLxwwMw提取码：bwfa1、项目背景：现在大众在进行网购之前都会先看下相关商品的评论，包括好评与差评，再综合衡量，最后才决定是否会购买相关的物品。甚至有的消费者已经不看商品的详情秒数页而是直接看评论，然后决定是否下单。商...

2018-10-22 18:27:14 8391 1

原创数据挖掘--基于KMeans算法的客户价值分析

数据下载链接:链接：https://pan.baidu.com/s/1EFiYAceEkZsnBkVNjTlH_A提取码：v1641、客户价值分析：客户价值分析就是一个客户分群问题，以客户为中心，从客户需求出发，搞清楚客户需要什么，他们有怎样的一个特征，需要什么样的产品，然后设计相应的产品满足客户的需求。进行客户价值分析，可以避免商家闭门造车以及主管臆断客户的需求。项目背景为某电信运营商...

2018-10-17 19:58:10 3704 1

原创基于CNN+tensorflow对搜狐新闻进行分类并对函数进行封装

1、下载数据数据来源于搜狐新闻，下载连接：链接：https://pan.baidu.com/s/1St_s7CRPeghF2Z8MuVG56w提取码：yd1l2、数据简单分析import numpy as npimport pandas as pdtrain_data = pd.read_csv('sohu_train.txt', sep='\t', header=None, dty...

2018-10-16 23:35:45 422

原创基于CNN+tensorflow训练50000条新闻文本并实现分类

1、本文作者学习了前辈的研究《Implementing a CNN for Text Classification in TensorFlow》以及github作者的实验，使用THUCNews的一个子集进行训练与测试。THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。非常感激前辈及学习过程中...

2018-10-10 23:17:12 6585 3

原创基于word2vec和CNN 对十年的新闻文本数据做道琼斯指数预测

1、数据描述：（1）新闻数据：从Reddit WorldNews Channel（/ r / worldnews）抓获历史新闻头条。它们按reddit用户的投票排名，并且只有前25个标题被考虑用于单个日期。（范围：2008-06-08至2016-07-01）（2）股票数据：道琼斯工业平均指数（DJIA）用于“证明这一概念”。（范围：2008-08-08至2016-07-01）文件数据格式：c...

2018-09-26 23:33:25 1571 1

原创莱文斯顿距离（python版）

莱文斯顿距离leetcode No.72新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入leetcode No.72给你两个单词 word1 和 word2，请你计算出将 word1 转换成 word2 所使用的最少操作

2021-03-30 11:45:08 411 2

原创国际GPS（IGS）工作组

1、简介　　IGS电离层工作组（Iono WG）于1998年6月开始工作。工作组的主要任务是定期提供具有2小时时间分辨率和每日GPS卫星和接收机硬件差分编码偏差（DCB）值的电离层TEC图。　　这些TEC图和DCB集的计算是基于GPS双频跟踪数据的常规评估，这些双频跟踪数据用全球IGS跟踪网络记录。　　目前，五个IGS电离层关联分析中心 (IAACs)将其电离层产品用于电离层工作组活动。　...

2018-12-06 11:07:46 1060

转载电离层TEC格网主要计算方法

1、TEC格网主要计算方法　　利用GNSS伪距和载波相位反演视线方向上电离层TEC通常是一组离散的数据，计算全球电离层TEC格网（GIM）时必须通过一定的数学方法将其拓展至全球并生成固定格网点垂直方向上的电离层TEC.　　向IGS正式提交的产品的电离层分析中心包括：欧洲定轨中心(Center for Orbit Determination in Europe, CODE)、美国喷气推进实验室(...

2018-12-04 22:36:01 8190

原创 Hanlp 汉字转拼音如何通过python调用

0、hanlpHanLP是一系列模型与算法组成的NLP工具包，由大快搜索主导并完全开源，目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。开源网址：HanLP: Han Language Processing但由于hanlp是用java来实现的，要在python中使用hanlp，只能通过调用pyhanlp这个包来。但是pyhan...

2018-11-30 10:41:40 792 2

原创 Wordpiece Model --学习笔记

0、Segmentation Approaches神经机器翻译模型通常使用固定的词汇，即使翻译从根本上来说是一个开放的词汇问题(名称、数字、日期等)。有两大类方法可以解决词汇表外词汇（OOV,即词汇表未登录的词）的翻译问题。一种方法是简单地将罕见字从源复制到目标(如最罕见的字是名称或数字正确的翻译只是一个副本),要么基于注意力模型,使用外部对齐模型,甚至使用一个更复杂的专用指向网络。另一个大...

2018-11-27 11:49:03 9366 5

原创 zipfile读取zip文件以及txt编码问题 --pyhton

0、源文件格式如下把以上文件进行zip压缩，文件后缀为zip。1、用zipfile包中的ZipFile进行解压import tensorflow as tfimport zipfilewith zipfile.ZipFile('./testzip.zip') as z: read = tf.compat.as_str(z.read(z.namelist()[0])).spl...

2018-11-23 15:17:02 2446

原创 Markdown公式编辑LaTeX

LaTeX编辑辅助网站网址：https://www.numberempire.com/latexequationeditor.php要在博客中插入公式还要在markdown代码两边加“$”符号。

2018-11-16 18:00:56 135

原创 All you need is attention（Tranformer） --学习笔记

1、回顾传统的序列到序列的机器翻译大都利用RNN或CNN来作为encoder-decoder的模型基础。实际上传统机器翻译基于RNN和CNN进行构建模型时，最关键一步就是如何编码这些句子的序列。往往第一步是先将句子进行分词，然后每个词转化为对应的词向量，那么每个句子都可以由这些词向量来构造对应的句子的序列表示向量。（1）RNN递归进行：yt=f(yt−1,xt)不管是LSTM、GRU还是S...

2018-11-16 17:13:43 2153

原创 Fine-tuning Approaches -- OpenAI GPT 学习笔记

1、Fine-tuning Approaches从语言模型转移学习的一个趋势是，在监督的下游任务中相同模型的微调之前，一个语言模型目标上预训练一些模型体系结构。这些方法的优点是几乎没有什么参数需要从头学习。至少部分由于这一优势，OpenAI GPT在GLUE benchmark的许多句子级别任务上取得了以前最先进的结果。微调是必须非常精确地调整模型参数以适应某些观察的过程。在没有已知机制来解释...

2018-11-15 18:17:23 2133

原创 Ubuntu18.04 添加下载源

1、下载并安装vim在终端输入一下命令安装vim：sudo apt-get install vim-gtk备注：可通过以下途径修改vim的界面：1）用vim打开vimrcsudo vim /etc/vim/vimrc2）将文件里面的 syntax on 取消注释。3）在文件最后一行添加以下代码：set nu // 在左侧行号...

2018-11-14 11:46:20 2416

原创 Ubuntu18.04安装Anaconda3.5.2记录

1、下载Anaconda点该网址进入下载页面选择下载“Anaconda3-5.2.0-Linux-x86_64.sh”。下载完成后可以返回该页面选择添加清华下载源。备注：Ubuntu18.04自带的python3.6，比Ubuntu14.04友好多了。2、安装1）按着Ctrl + Alt + T 打开终端2）在终端输入以下命令追踪到该安装包下载路径。（xxx表示的是你的用户名）cd /...

2018-11-14 10:54:40 1201 1

原创 RINEX 2.11 观测值文件格式说明

0、前言RINEX版本2格式的第一个文档是由W. Gurtner和G. Mader在1990年9 / 10月的CSTG GPS公报中。RINEX 2.11版本修改:2004年10月。修改的主要原因是通过RINEX格式对反欺骗数据进行了新的处理。在原论文表A3中，“PGM / RUN BY / DATE”导航头文件记录缺失。1、RINEX 2.10Version 2.10 Modifica...

2018-11-12 12:29:17 8786

原创 GRU（门控循环单元）--学习笔记

0、门控循环单元门控循环神经网络可以更好地捕捉时间序列中时间步距离较大的依赖关系，通过引入了门的概念，修改循环神经网络中隐藏状态的计算方式，它包括重置门、更新门、候选隐藏状态和隐藏状态。重置门有助于捕捉时间序列里短期的依赖关系。更新门有助于捕捉时间序列里长期的依赖关系。1、重置门和更新门门控循环单元中的重置门（reset gate）和更新门（update gate）的输入均为当前时间步输入...

2018-11-11 17:08:39 7301

原创 Attention mechanism --学习笔记

学习自：（1）注意力机制（2）什么是自注意力机制？0、注意力机制在seq2seq的模型里面，解码器在各个时间步都依赖相同的背景变量/向量来获取输入序列信息，当编码器为循环神经网络时，背景变量来着它最终时间步的隐藏状态。但显然，举个例子，若要对不同语言进行翻译，我们在解码器生成输出序列中的每个词可能仅需要利用输入序列中的某一部分信息，也就是应该对每个时间步的编码信息分配不同的注意力。回忆...

2018-11-11 15:34:26 457

原创 ELMo（Embeddings from Language Models） --学习笔记

学习参考自：（1）、ELMo 最好用的词向量《Deep Contextualized Word Representations》（2）、吾爱NLP(5)—词向量技术-从word2vec到ELMo（3）文本嵌入的经典模型与最新进展1、ELMo简介基于大量文本，ELMo模型从深层的双向语言模型（deep bidirectional language model）中的内部状态(internal...

2018-11-09 23:20:28 2939 1

原创 seq2seq编码器与解码器 --学习笔记

0、网络图结构从上图可以看出，编码是一个RNN网络，当然可以是一个单向RNN也可以是一个双向RNN，C是一个context为背景变量，将输入信息进行编码汇总得到一个信息。接着由这个背景变量作为解码的输入，加上隐藏变量和输出变量，得到结果在进行映射，依次得到序列的每个预测结果。以上x1，x2，x3分别表示时间步输入，h1，h2等分别表示时间步隐藏状态，y1，y2分别表示时间步输出，s1，s2...

2018-11-08 20:09:07 3287

原创 fastText --学习笔记

学习自此处致谢李沐大神！0、子词嵌入（fastText）在法语、西班牙语、英语等语言中，一个词可能有多种内部结构和形成方式（实际上这是语言学中构词学的研究内容），为了解决这些问题，可以将单词进行结构拆分，以此来研究单词的词向量。在 word2vec 中，没有直接利用构词学中的信息，无论是在skip-gram模型还是CBOW模型中，将形态不同的单词用不同的向量来表示。例如，“dog”和“do...

2018-11-07 17:25:29 232

原创 Word2Vec --学习总结笔记

0、Word2vec它将每个词表示成一个定长的向量，并使得这些向量能较好地表达不同词之间的相似和类比关系。Word2vec 工具包含了两个模型：跳字模型（skip-gram）和连续词袋模型（continuous bag of words，简称 CBOW），此外还有两种训练方法，分别为负采样和层次softmax。1、skip-gram跳字模型假设基于某个词来生成它在文本序列周围的词。举个例子，...

2018-11-07 14:54:23 641

原创全局向量GloVe --学习笔记

好

2018-11-06 23:10:52 544

原创 NER --关系抽取总结

1、关系抽取概述2、关系抽取分类3、常用关系抽取方法关系抽取面临的挑战：（1）基于规则的关系抽取命名实体标签：人工规则优缺点：（2）有监督关系抽取常用特征工程：词汇特征：句法特征和其他特征：**基于Boostrapping的关系抽取 **关系抽取可能存在以下问题（大部分情况适用）：1）没有足够标注数据2）可能有一些种子实体对3）可能有一些非常...

2018-11-02 17:14:20 3430 1

原创如何制作pip安装包 --python

1、新建一个文件夹，文件名可以自定义，用来存放文档。2、再新建一个文件夹，文件夹名自定义，但此处一般为工程名，我命名为packer。3、分别新建LICENCE、README.md（markdown文件）、requirements.txt、setup.py文件，注意文件尾缀。4、在pycharm编译器里面打开这个文件夹，然后新建一个file，命名为“.gitignore&amp;amp;quot;，用来在check...

2018-11-02 15:59:46 6345

原创 NER -- 词向量与标注预处理阶段

0、前言本文旨在对自己命名实体识别中词向量与标注预处理阶段的总结。此处假设给定大量文本，以及部分对应的标注（此处使用的是IOB标注方案），但是文本与标注是分开存储的。在我们进行NER的预测任务之前，我们需要做以下工作：（1）对每个文本进行分词（当然这里分词也要注意用什么标准进行分词，此处不解释），然后用空格（join）连接每个词，同时对部分文本进行打标注，分开存储成两个文件。（2）对分好词...

2018-11-01 16:20:04 3001

原创【Tensorflow】tf.app.run() 与 tf.app.flags()

tf.app.flagstf.app.flags.DEFINE_XXX()用来定义参数项:import tensorflow as tftf.app.flags.DEFINE_float( 'flag_float', 0.01, 'input a float')tf.app.flags.DEFINE_string( 'flag_string', 'yes', 'input...

2018-10-30 18:22:00 187

原创 Dilation卷积与IDCNN 笔记

0、前言Dilation 卷积，也被称为：空洞卷积、膨胀卷积。在神经网络中，通常利用卷积来实现数据的特征提取。卷积层还有一个权值共享的原则：每个神经元只关注一个特征。卷积完经过激励层做一个非线性映射，输出到Pooling layer。池化层的作用：(1)压缩数据和参数的量，减小过拟合。(2)增大感受野。主要两种方法：Max Pooling 和 Average Pooling1、...

2018-10-30 12:49:01 4371

原创 python转换模块codecs

0、编码编码转换时，通常需要以unicode作为中间编码，即先将其他编码的字符串解码（decode）成unicode，再从unicode编码（encode）成另一种编码。str1.decode('gb2312') #将gb2312编码的字符串转换成unicode编码str2.encode('gb2312') #将unicode编码的字符串转换成gb2312编码注意事项：s=...

2018-10-29 15:08:40 408

原创马尔科夫链蒙特卡洛（MCMC） -- 学习笔记

0、前言蒙特卡罗方法(Monte Carlo Simulation)是一种随机模拟(或者统计模拟)方法。给定一个概率分布p(x)，如何让计算机生成满足这个概率分布的样本。这个问题就是统计模拟中研究的重要问题–采样(Sampling)。MCMC(Markov Chain Monte Carlo)算法是其中一种重要的采样方法。1、马尔科夫链、马尔科夫稳态马尔科夫链的数学定义如下:P(Xt+...

2018-10-29 00:16:52 4434

原创序列标注中的标签方案

0、前言对于英文，token可以是一个单词（e.g. awesome），也可以是一个字符（e.g. a）。对于中文，token可以是一个词语（分词后的结果），也可以是单个汉字字符。标签列表为IOBES：B，即Begin，表示开始I，即Intermediate，表示中间E，即End，表示结尾S，即Single，表示单个字符O，即Other，表示其他，用于标记无关字符1、标签方案I...

2018-10-27 22:34:30 248

原创命名实体识别(NER)

学习笔记，详情请点击此处。0、前言NER又称作专名识别，是自然语言处理中的一项基础任务，应用范围非常广泛。命名实体一般指的是文本中具有特定意义或者指代性强的实体，通常包括人名、地名、组织机构名、日期时间、专有名词等。NER系统就是从非结构化的输入文本中抽取出上述实体，并且可以按照业务需求识别出更多类别的实体，比如产品名称、型号、价格等。实体这个概念可以很广，只要是业务需要的特殊文本片段都可以称...

2018-10-27 22:07:54 7991

原创信噪比、L2C码与载波

1、信噪比信噪比（signal-to-noise ratio）是描述信号中有效成分与噪声成分的比例关系参数。不同的应用领域有不同的具体定义。较常见的有以下两种：（1）额定最大信号功率与无信号时静态噪声功率之比；（2）信号中有效成分的功率与噪声成分功率之比。单位都是dB。"噪声"的广义的定义就是:“在处理过程中设备自行产生的信号”，这些信号与输入信号无关。以dB计算的信号最大保真输出与...

2018-10-27 19:41:09 3896

原创卫星星历

0、卫星星历星历是指在GPS测量中，天体运行随时间而变的精确位置或轨迹表，它是时间的函数。具体应用中有"广播星历"与后处理"精密星历"之分。卫星星历是用于描述太空飞行体位置和速度的表达式———两行式轨道数据系统。卫星星历以开普勒定律的6 个轨道参数之间的数学关系确定飞行体的时间、坐标、方位、速度等各项参数，具有极高的精度。卫星星历能精确计算、预测、描绘、跟踪卫星、飞行体的时间、位置、速度等运...

2018-10-27 18:42:19 6603

原创 RINEX2.10、2.11 : （观测值文件）不同观测值类型对比

L1和L2上的相位观测值L1频率（L1 Frequency）：GPS发射的两种L频道无线电载波之一；L1频率为1575.42MHz，波长为19cm，L1上调制了两种虚拟随机噪声电码，即C/A电码与P-电码，以及每秒五十个位的卫星信息。L2频率（L2 Frequency ）：GPS发射的两种L频道无线电载波之一；L2频率为1227.60MHz，波长为24cm。L2上仅调制P-电码以及五十个位...

2018-10-27 16:16:47 5929 1

转载 BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding

1.BERT模型BERT的全称是Bidirectional Encoder Representation from Transformers，即双向Transformer的Encoder，因为decoder是不能获要预测的信息的。模型的主要创新点都在pre-train方法上，即用了Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的represen...

2018-10-26 10:36:41 3358

原创深度学习使用word embedding(词嵌入)的原因

1、基于神经网络的词分布表示，将单词映射到低维连续向量词嵌入编码了语义空间中的线性关系，向量不同部分表示不同的语义。比如“国王-往后”与“男-女”的类比反映中语义空间的线性关系。2、相似词映射到了相似方向，语义相似性被编码近义词或者“相似”词的邻居词分布类似，同样两个词邻居词分布类似可以推出两个词语义相近。比如 “猫宠物主人喂食蹭喵 ” 和 “狗宠物主人喂食咬汪”这两组词...

2018-10-24 23:47:05 1789

原创 LDA主题模型浅析 -- 笔记

0、前言LDA是两个常用模型的简称:Linear Discriminant Analiysis 和Latent Dirichlet Allocation.LDA（Latent Dirichlet Allocation）在文本建模中类似于SVD,PLSA等模型,可以用于浅层语义分析,在文本语义分析中是一个很有用的模型.这个模型涉及到Gamma函数,Dirichlet分布(狄利克雷分布),Dir...

2018-10-22 23:33:43 3589 1

空空如也

空空如也