bensonrachel-CSDN博客

原创自然语言处理（NLP）- HMM+VITERBI算法实现词性标注（解码问题）（动态规划）（Python实现）

NLP- HMM+维特比算法进行词性标注（Python实现）维特比算法针对HMM解码问题，即解码或者预测问题（下面的第二个问题），寻找最可能的隐藏状态序列：对于一个特殊的隐马尔可夫模型(HMM)及一个相应的观察序列，找到生成此序列最可能的隐藏状态序列。也就是说给定了HMM的模型参数和一个观测序列，计算一系列的隐状态。给定观测序列，求最可能的对应的隐状态序列。Viterbi：...

2018-11-18 20:42:54 4729 3

原创关于各种计算机字符编码的笔记

又一年的七月来了各种字符编码的出现次序：1.ANSI 的”Ascii”编码；2.GB2312；GB2312 是对 ASCII 的中文扩展；3.GBK；GB2312+20000.4.GB18030：GBK+几千；5.（2.3.4）为DBCS（双字节字符集）；6.UNICODE;一个字符两个字节；7.UTF-8；面向传输的每次八个位传输数据。8.UTF-16；同理；...

2018-11-03 14:13:17 606 1

原创（spark-shell）Scala命令行中如何批量查看多条历史命令（代码）

scala> :history 1000 可在输入里直接输入：得到更多的提示信息！ All commands can be abbreviated。:h? <string> search the history:history [num] show the history (optional num is commands to show)scala> :All commands can be ab...

2021-09-09 14:33:38 717 1

原创 MMLSpark+Spark：pyspark+lightGBM应用实践

MMLSpark，即Microsoft Machine Learning for Apache Spark ，是微软开源的一个针对 Apache Spark 的深度学习和数据可视化的库。作为专门为大规模数据处理而设计的快速通用计算引擎，Apache Spark 为用户提供了创建可扩展 ML 的有力平台。新发布的 MMLSpark 能够将诸如深度学习等前沿机器学习技术应用于更大的数据集，并为用户提供能够应对诸如文本、分类数据等多种类型数据的 API , 大大提高数据分析师使用 Apache Spark 的..

2021-07-13 20:41:49 2227 2

原创 Kylin分布式分析型数据仓库-集群部署步骤小结

集群部署Kylin分布式分析型数据仓库步骤集群信息：hadoop2.6.5-CDH5.13.3版本、JDK8.151、以及Hive、Hbase、ZooKeeper、Spark（可选）。使用的Kylin版本是apache-kylin-2.4.0-bin-cdh57。下载地址：https://archive.apache.org/dist/kylin/apache-kylin-2.4.0/ .五台机器的具体ip和名字：2.创建目录：mkdir /usr/local/appscd /usr/l.

2021-04-19 13:41:29 292

原创关于Spark的机器学习库Smile的应用及记录及安装Scala notebook

专栏博客Smile官方地址、需要VPN才能访问的官方文档构建Spark+smile项目，但是smile这个库目前还在更新和迭代阶段，很多由于版本和库对不上，比较多的功能只在文档里有，但是正式的github上下载的包却没有能使用的方法。Smile机器学习库是Github上的开源的由开发者haifengl开发的一款适用于Scala项目的统计机器智能和学习引擎。Smile涵盖了机器学习的各个方面，包括分类，回归，聚类，关联规则挖掘，特征选择，流形学习，多维缩放，遗传算法，缺失值插补，有效的最近邻搜索等

2021-04-15 20:02:04 711

原创 Kaggle首战-入门Titanic挑战的记录和相关学习（决策树、随机森林、线性回归、逻辑回归）记录

作为一名研究大数据领域的学生，最近因为有点空，想起Kaggle这个网站在收藏夹里呆了可能有3、4年，吃了这么久的尘，才注册一个账号真正去尝试一下。remember “Make your hands dirty”。看了一些对于这个kaggle的入门和操作，便开始对最基本的一个挑战下手学习。温馨提示：注册过程和上传结果（CLI方式不用，网页方式需要）的过程都是需要科学上网的。这里可以看到这是两次提交的结果。鉴于有些使用方法和介绍其他博主已经说的很详细，这里mark过来记录一下。经典博客之作、使.

2021-03-10 19:43:31 402 1

原创关于学习scala中lazy关键字的记录

最近，看到一个scala里关于lazy懒加载的关键字。测试了一遍它的使用和功能。lazy修饰变量就是为了延迟初始化。使用lazy关键字修饰变量后，只有在使用该变量时，才会调用其实例化方法。1.不使用lazy关键字。object lazy_study { def init():String={ println(1+1) return "lazy study" } def main(agrs:Array[String]): Unit = { val name =

2021-03-08 10:47:13 466

原创关于学习Spark的记录

2021年第一更，在实验室呆了一个学期，写这一篇主要是想把一些容易的忘记的做过的关于Spark的记录下来。下面有两个之前mark下来的点。是关于一些spark读写问题和bug的。Note_1Note_2关于读取某些列或行的方法。数据格式如图。 Channel,Region,Fresh,Milk,Grocery,Frozen,Detergents_Paper,Delicassen2,3,12669,9656,7561,214,2674,13382,3,7057,9810,9568,1

2021-03-04 11:08:23 325 1

原创 Spark2.4.0源码（scala）：自动化单元测试的实现与探索

项目场景：在spark的源码中，有一个main文件夹，同时还有一个test文件夹，里面大部分是suite后缀的scala文件，这就是测试文件。通常我们编译spark源码，会skip掉test部分以加快速度，如果我们不是skip的话，完成的就是自动化测试，这个过程并不难懂，但是这个过程也并不是很简单地就能一次跑通。耗时也比skip test多非常地多，我带测试的编译了core包，在集群上编译一共花费15小时多点。问题描述：实验环境：spark：2.4.0maven：3.6.3scala：2.1

2020-11-25 14:51:07 567

原创 Scala：Scaladoc的生成方法

项目场景：根据需求对spark源码进行修改后使用maven在git bash中对修改后的项目进行文档生成，即有api文档等的index.html问题描述：提示：这里描述项目中遇到的问题：例如：数据传输过程中数据不时出现丢失的情况，偶尔会丢失一部分数据APP 中接收数据代码：@Override public void run() { bytes = mmInStream.read(buffer); mHandler.obtainM

2020-11-11 15:41:00 526

原创二进制算法问题解析——1000瓶药水，1瓶有毒药，几只小白鼠能够找出？

题目：1000瓶药水，1瓶有毒药，服用后一小时毒发，毒药可以无限稀释，那么一小时内用几只小白鼠能够找出毒药？不钻牛角尖，不是IQ题。这个题目网上其他博客已经有很详细的答案，这里主要用一种更好理解的方式去呈现。将问题规模缩小去理解解决方法。具体实现与3老鼠确定8瓶子原理一样第一，毒药可以混合；第二，注意题目的限制条件；从0-7的顺序将三位的二进制数按顺序（如图）写出来，写好之后从横向看，三行就分配给三只老鼠，一代表是用这些瓶子的毒药做了混合，零就是没有用到这些瓶子里的毒药。..

2020-10-24 16:35:41 5530 1

原创 Spark：关于yarn中的application master的启动流程问题的探索

Spark：关于yarn中的AM的启动流程问题的探索Spark中的三种分布式集群部署模式:Spark：Yarn三大组件（模块）ResourceManagerNodeManagerApplicationMaster需再次明确的概念：AMSpark on YARN的两种模式具体阐述YARN-Cluster模式的AM执行流程：我自己看完的总结：Spark中的三种分布式集群部署模式:当以分布式集群部署的时候，可以根据自己集群的实际情况选择Standalone模式（Spark自带的模式）、YARN-Client模

2020-10-24 16:05:16 2096 1

原创数据挖掘-基础知识-笔记汇总12：神经网络-并行计算

课程笔记第十一篇本课程笔记的课程来源于清华大学深圳研究生院-袁博老师的《数据挖掘：理论与算法》。视频在学堂在线或者b站都有。第四章第一节-神经网络：神经网络模拟的是人的大脑，进行并行计算。且计算机元器件的速度远远高于人的大脑神经元的速度。神经元又被称为感知机Perceptron；输入为各个属性，需要与权重作内积。n个输入属性，n+1个权重。w0必须有，x0为1；实际上是形成一个判别平面，如果没有w0，这个平面永远都要经过原点。感知机能做什么？可以实现与门（and）、或门（

2020-09-15 21:16:45 1457

原创数据挖掘-基础知识-笔记汇总11：贝叶斯与决策树-建决策树

课程笔记第十篇本课程笔记的课程来源于清华大学深圳研究生院-袁博老师的《数据挖掘：理论与算法》。视频在学堂在线或者b站都有。第三章第四节-建决策树：该问题就是做如何建一颗更小更短的树。经典算法：ID3:目标是选择更好区分度更大的属性，然后放在树的上面。那么如何选择一个更有效能的属性呢？就要用到我们之前学过的熵的概念了。点这里信息增益越大越好，即选择一个能对系统的不确定性降低更多的属性。属性用过的不能再用，直到最纯或者没有属性了为止，不纯的话就用多的做结果，如果相等可

2020-09-12 16:20:38 296

原创数据挖掘-基础知识-笔记汇总10：贝叶斯与决策树-决策树

课程笔记第九篇本课程笔记的课程来源于清华大学深圳研究生院-袁博老师的《数据挖掘：理论与算法》。视频在学堂在线或者b站都有。第三章第三节-决策树：DT（决策树）是一种自顶而下的树状结构。一层一层地去做决策的这样一个模型。比较符合人的思维逻辑的分类器，可解释性好。例子：树状：然而这棵树并不唯一：1.决策树可以提取规则；2.决策树可以不唯一；3.更倾向于使用更简单的树；...

2020-09-11 23:15:12 474

原创数据挖掘-基础知识-笔记汇总9：贝叶斯与决策树-朴素贝叶斯定理

课程笔记第八篇本课程笔记的课程来源于清华大学深圳研究生院-袁博老师的《数据挖掘：理论与算法》。视频在学堂在线或者b站都有。第三章第二节-朴素贝叶斯定理：理论上用第三条式子去计算，因为理论上的式子在实际中很难精确计算，因为属性多，实际上用最后的式子计算，做了一个假设，假设它们之间条件独立。假设这些属性在类出现的时候是独立的。因为是乘积，所以一旦出现了一个为0，就不行了，所以要进行拉普拉斯平滑处理。NB可用于离散型数据，也可以用于连续性数据。可用于非常多的场合，算出某一个概率，然后最有可

2020-09-10 22:55:02 261

原创数据挖掘-基础知识-笔记汇总8：贝叶斯与决策树-贝叶斯

课程笔记第七篇本课程笔记的课程来源于清华大学深圳研究生院-袁博老师的《数据挖掘：理论与算法》。视频在学堂在线或者b站都有。第三章第一节-贝叶斯：以上是著名的贝叶斯公式。P（A）、P（B）是先验概率的意思。...

2020-09-09 20:37:39 353

原创数据挖掘-基础知识-笔记汇总7：数据预处理-线性判别方法LDA之详细例子

课程笔记第六篇本课程笔记的课程来源于清华大学深圳研究生院-袁博老师的《数据挖掘：理论与算法》。视频在学堂在线或者b站都有。第二章第七节下-LDA（线性判别方法）之详细例子：PCA做法：使用matlab直接计算即可。Z矩阵为协方差矩阵，计算方法直接百度，有很多文章都写得很详细。V矩阵为特征向量矩阵，D对角线为特征值，毫无疑问应该选择特征值最大的那个的对应的特征向量的方向作为投影的线方向。LDA做法：LDA区分开了两个类别的。图：LDA选择的方向散度要窄一

2020-09-08 14:16:08 415

原创数据挖掘-基础知识-笔记汇总6：数据预处理-线性判别方法LDA

课程笔记第五篇本课程笔记的课程来源于清华大学深圳研究生院-袁博老师的《数据挖掘：理论与算法》。视频在学堂在线或者b站都有。第二章第七节上-LDA（线性判别方法）：上篇所讲述的PCA并不适用于分类问题，不考虑分类类别的，是一种无监督的方法。因此，有标签的数据，使用LDA的方法，也是降维，但是是能把类别区分开，不重合。费舍判别准则J越大越好，分子是两个类别的均值差的绝对值平方，分母是两个类别的方差，分子越大越好，分母越小越好。同样使用数学方法进行优化，最终得到还是一个特征方程，且

2020-09-07 21:21:48 224

原创数据挖掘-基础知识-笔记汇总5：数据预处理-主成分分析（PCA）和特征提取

课程笔记第四篇本课程笔记的课程来源于清华大学深圳研究生院-袁博老师的《数据挖掘：理论与算法》。视频在学堂在线或者b站都有。第二章第六节-主成分分析（PCA）和特征提取：注明：此节需要提前学习高等数学及线性代数的相关知识，里面用到拉格朗日乘数法（条件最值），特征值，特征向量，矩阵运算等知识。特征提取包含特征选择，做特征提取就要做主成分分析，选择好的成分（特征）来进行提取，有效信息保留多才是好的。二维例子：方差variance——>信息，数据延某一属性的方差越大，散度越大，区分度大

2020-09-04 22:08:05 1121

原创数据挖掘-基础知识-笔记汇总4：数据预处理-特征选择

课程笔记第三篇本课程笔记的课程来源于清华大学深圳研究生院-袁博老师的《数据挖掘：理论与算法》。视频在学堂在线或者b站都有。第二章第五节-特征选择：特征选择就是要找出那些数据中好的属性。熵entropy：衡量一个系统或者变量的值的不确定性，不确定性越大，熵值越大。例如，如果男人和女人都是50%的话，这个时候是最不确定一个人的性别的，这个时候的熵值就会很高。在0.5时熵最高为1，0或者1的时候熵值是最低的。信息增益information gain：当你知道一个额外的属性的

2020-09-03 20:23:10 406

原创数据挖掘-基础知识-笔记汇总3：数据预处理-数据描述与可视化

课程笔记第二篇本课程笔记的课程来源于清华大学深圳研究生院-袁博老师的《数据挖掘：理论与算法》。视频在学堂在线或者b站都有。第二章第四节-数据描述与可视化：由于很多数据本来是没有单位，所以要进行数据的标准化，比如把数据映射到0-1之间。标准化的方法有0-1标准化即min-max标准化（Min-max normalization），z-score 标准化(zero-meannormalization)z-score标准化方法适用于属性A的最大值和最小值未知的情况，或有超出取值范围的离群数据的

2020-09-02 22:19:26 327

原创数据挖掘-基础知识-笔记汇总2：数据预处理-类型转换与采样

课程笔记第一篇本课程笔记的课程来源于清华大学深圳研究生院-袁博老师的《数据挖掘：理论与算法》。视频在学堂在线或者b站都有。第二章第三节-类型转换与采样：数据一般分为：连续型（continuous）、离散型（discrete）、序数型（oordinal）、标称型（nominal）、无结构数据（例字符串）型。各种类型的数据举例如下：注意：1.序数型是有顺序的，如评等级：A、B、C、D。 2.标称型不能绝对的使用0 1 2这样给每个属性编码，原因是如果这样编码，就会...

2020-09-01 16:09:53 591

原创数据挖掘-基础知识-汇总笔记1

分类：有监督；聚类：无监督；1.k-means:连续型，数值型数据，使用欧式距离（余弦距离）“大哥-小弟”的例子，无监督学习算法；形心均值是相加再除即可；对异常值敏感--k-medoids:形心均值改为中心点，在每个聚簇中按照顺序依次选取点，计算该点到当前聚簇中所有点距离之和，最终距离之和最小的点，则视为新的中心点。计算量比上一个大。2.k-modes；只是处理分类变量数据；使用汉明距离：不同属性值的个数, 差异度越小，则表示距离越小3.fuzzy k-modes；模糊；1999年论

2020-09-01 13:01:42 390

原创 python3.6-制作一个含有NLP基本功能系统（Windows exe）自然语言处理系统

系统功能：分词、词性标注、关键词提取、文本分类；系统实现：分词：使用jieba中文分词（去停用词，精确模式）；词性标注：使用jieba库里的posseg包进行词性标注；关键词提取：使用tfidf的最合适前六个词；文本分类：给复旦预料数据进行分词，生成词向量，装袋（词袋模型），接着训练集训练，多次调参，具体参数注释和代码中有，然后再选择相应测试预料进行测试，用的是skleran库的多项式朴素贝叶斯算法。（有参考其他博客）图形界面：...

2020-08-18 21:33:16 709

原创 Python3.6-Flask：制作一个语音对话问答机器人系统（网页版）

首先，本项目分为制作语音机器人后台部分和利用flask搭建网页部分。制作语音机器人：本系统的功能有：与图灵机器人进行对话；设置闹钟（计时器）；播放本地音乐：机器写古诗；（1）与图灵机器人对话的部分，参考了这篇博客，博主写得非常用心详细。需要下载安装的包有：cmd：pip install xxxx即可；（2）闹钟功能，这里使用了多线程的技术，把用户语音设定的时间转为文字且交给另一个线程去执行时间流逝，到点即响应报时。多线程的使用如上。（3）播放音乐，需要使用的包

2020-08-04 20:18:12 2180 1

原创磨人小问题-偶遇神奇解决方法（3）——关于win10专业版勒索软件防护感叹号且忽略点不了和提示设置onedrive

现象情况：某天开机，发现突然defender上有个感叹号，提示上图的情况，但是这个情况的忽略死活点不了（bug），这就纳闷了，又不想设置OneDrive（微软想你用OneDrive），一直有个感叹号也看着不舒服，难受。具体操作：安装一个VS2019，然后感叹号神奇的消失了。...

2020-07-25 17:33:50 8624 1

原创磨人小问题-正正经经解决方法（2）——关于u盘（资料已备份）被写保护无法操作文件如何解决的问题——使用量产工具

现象情况：本来使用此u盘制作系统安装盘，在频繁查看和备份数据的时候，U盘莫名就被写保护了，而且u盘并没有外置推动按钮解锁。反复多次试过无效后，只能上网百度查看，然而很多方法，包括修改注册表之类的等等，都解决不了问题。尝试过多次，也无法解决。后来想到...

2020-07-25 14:04:58 274

原创磨人小问题-偶遇神奇解决方法（1）——关于Linux·Windows双系统在win里直接删掉linux的盘导致的开机grub异常问题。

现象情况：手提电脑——空闲分区——装了一个Ubuntu系统后——手迷在windows下直接删掉了Linux的盘以及相关文件。然后就从此开机变得难受，直接就显示“grub>”命令，如果想进入启动项选择就得不断按F9或者什么（其他电脑），所以贼难受。这种情况就一直难得搞，也没时间搞，偶尔安慰自己还挺酷，后来突然就偶遇了一个操作，突然解决掉这问题了，现在每次开机都直接进入剩下的windows系统。具体操作：开机按F10，...

2020-07-24 23:43:55 158

原创研读论文报告-《Word Embedding andWordNet Based Metaphor Identification and Interpretation》（2018ACL）

“论文主要研究的问题是识别并解释输入句子中的隐喻词，作者首次提出了一个支持机器翻译的无监督隐喻识别模型，无需任何预处理和标注数据即可进行训练。”本次主要根据论文实现的论文的第四部分的如下图：具体：程序步骤是给出一个英文句子，指定需要判断的目标单词，应用维基数据集训练词向量，得到所有英语单词的词向量（我写的程序可追加训练），给出一个英文句子，指定需要判断的目标单词，将句子中的单词分为上下文单词和目标单词。根据WordNet，查找目标单词的同义词和直接上位词，将这些单词以及他们的变形作...

2020-07-17 22:20:58 427

原创初次组装台式机-618自营-装机配置单-3000价位中上普通家用型主机

最近，体验了一把一次点亮的快感。装了一台普通家用机（大多数大型游戏都完全没问题）我的装机自选配置单：（全618京东自营）金士顿-骇客神条4G*2套装：279元；2400宏碁固态硬盘SSD512G nvme协议：369元；华硕B450pro-gaming主板+AMD cpu R3 3100（4c8t）套装：1239元；M-atx主板，使用盒装原装散热器。显卡1050ti：789元；二线牌子盈通。先马电源500w：219元；金牌电源，非模组化。Tt机箱：99元；质量不错的。机箱风扇*4：7

2020-06-29 23:01:30 338

原创回溯算法：字符串排序——C语言（回溯法）

2020.5.24 【更】回来啦回来啦输入一个字母字符串，字母按照顺序递增，要求输出所有的排序（全排列）输入用例：abc输出用例：abcacbbacbcacabcba （注意：一定要先输出cab，再cba，按照字母序。）————————输入用例：abcde输出用例：abcdeabcedabdceabdecabecdabedcacbdeacbedacdbeacdebacebdacedbadbceadbecad...

2020-05-24 14:11:33 1092 3

原创算法：顺序表L中删去值为X的元素，要求O(n)的时间复杂度及O(1)的空间复杂度

对于长度为n的顺序表L，编写一个算法，该算法删除线性表中的所有值为X的元素。要求：时间复杂度O（n）空间复杂度O（1）算法思路：方法一：用K记录L中不为X的元素的个数，即需要保存的元素的个数，边扫描边统计k，并将不等于X的元素向前移动k个位置，最后修改L长度，K表示不等于X的元素个数。方法二：用G记录L中等于X的元素的个数，边扫描边统计G，并将不等于X的元...

2019-06-30 12:41:00 5759

原创自然语言处理（NLP)——使用NLTK包验证齐夫定律及使用wordnet

第一题，利用大文本验证“齐夫定律”的正确性，首先我们使用pycharm作为集成开发环境，python3.5+nltk来做实验。齐夫定律：齐夫定律（英语：Zipf's law）是由哈佛大学的语言学家乔治·金斯利·齐夫（George Kingsley Zipf）于1...

2019-05-17 23:12:44 1901 1

原创研读论文报告—《大规模英语动词多词表达式注释语料库的构建》

论文出处：2018paper of LREChttp://www.lrec-conf.org/proceedings/lrec2018/pdf/394.pdf背景：多次表达式的复杂以及出现率非常大。动词表达式的歧义问题以及前人工作较为少。一般都做名词多词表达式。基于上述背景：此实验主要是构建一个全新的动词多词表达式语料库，非充满技术含量的实验，主要方法是...

2019-04-19 13:28:15 436

原创语料库技术与应用—基于维基百科构建日语平行语料并爬取谷歌翻译语音（mp3）

准备：wikipedia-parallel-titles项目（老师给的） This document describes how to use these tools to build a parallel corpus (for a specific language pair) based on article titles across languages in Wik...

2019-03-22 21:33:46 1608 2

原创数字签名和数字证书究竟是什么？

一篇看过好几遍的文章，一直没有机会写个总结什么的，久了也容易忘记，又得重新看一遍。我们经常会见到数字签名和数字证书的身影，比如访问一些不安全的网站时，浏览器会提示，此网站的数字证书不可靠等。那么究竟什么是数字签名和数字证书呢？（文章在后）那就...现在来写写总结吧。实际见面：12306，个人网站的https证书等等。就是这么简单易懂又“易忘”~ 文章所在~...

2019-02-07 14:43:05 406

原创 python实现——Jaccard相似度（jaccard_coefficient）

Jaccard相似度的python实现；#import numpy as np#from scipy.spatial.distance import pdist#直接调包可以计算JC值 :需要两个句子长度一样；所以暂时不用import jiebadef Jaccrad(model, reference):#terms_reference为源句子，terms_model为候选句子...

2019-01-13 20:08:53 30835 7

原创自然语言处理（NLP）- 一个英文拼写纠错系统

功能：给出拼写错误的单词，返回一个正确的单词，或者返回一个与输入单词最接近的单词；IDE：pycharm；python3.5；PYQT做界面；数据：使用big.txt作为语料库。主要算法原理：编辑距离（这里使用的是替换操作算一次开销的版本，跟插入和删除等价）：这里的东西请看我的博客算法里的编辑距离问题，这里不在详细说明。编辑距离具体处理方法：把b...

2018-12-20 17:42:14 7094 3

《一个故事带你搞懂ASCII-Unicode字符集和UTF-8编码》

chineseDic.txt

空空如也