6 蜗牛0

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 8w+

Sklearn的Tf-Idf的向量计算

对于TF-IDF的计算,我们都知道是TF与IDF的乘积,但sklearn中计算的结果和我们手动计算的不太一样,究竟是什么原因呢?TF计算为词在文档中出现的频数。IDF为总文档除以词出现在文档中的文档数,再求对数,再加1。即其中,n为总文档数,df(t, d)为出现词t的文档数d。为了防止df(t, f)为0,一般我们会将n和df(t, d)加1,进行平滑。即使用 TF * IDF即得到结果。但是,sklearn中的计算结果却与我们计算得到的不同。from sklearn.f

2020-09-10 09:39:54

关于Dict2Anki插件不能导入欧路词典的问题

1.按照下面网址的介绍更改欧路词典处理文件看这里2.新建一个模板新建一个模板,名称为“Dict2Anki-v6.1.3”,后面的版本换成自己的版本。如图所示:3.添加字段包含字段包含如下:['term', 'definition', 'sentenceFront', 'sentenceBack', 'phraseFront', 'phraseBack', 'image', 'BrEPhonetic', 'AmEPhonetic', 'BrEPron', 'AmEPron']其

2020-09-08 17:47:29

使用tar解压gz文件出现 “not in gzip format”错误解决办法

我在解压.gz文件时使用的下面命令:tar -zxvf *.tar.gz然后出现下面的提示:gzip: stdin: not in gzip formattar: Child returned status 1tar: Error is not recoverable: exiting now解决办法:tar -xvf *.tar.gz

2020-09-07 15:12:58

机器学习算法之感知机

1、基本定义1.基本介绍感知机是由两层神经元组成的,输入层接收外界输入信号号传递给输出层,输出层是M-P神经元,也称为"阈值逻辑单元"。其中x1、x2为输入神经元,y是输出神经元。w1,w2分别为x1,x2的权重,权重代表着该神经元的重要性。b为偏置,表示输出神经元激活的容易程度。感知机是二分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,取+1和-1二值。感知机对应于特征空间中将实例划分为正负两类的分离超平面,属于判别模型。2.定义假设输入空间(特征空间)是,输出空

2020-07-17 15:17:29

机器学习之模型评估与选择(一)

1、模型评估现实中,可供选择的算法有很多,参数不同,每个算法也有不同的形式,我们应该如何选择最优的那个?如果按照泛化误差最小来选择是最好,但我们又不能得到未知的数据,不能直接计算泛化误差。如果仅仅使用训练集来选择,我们不能知道该模型是否对于泛化误差也最小。1.验证方法与采样为了能够在训练集中获得泛化误差的近似,我们需要将训练集划分为训练集和测试集,用测试集误差近似泛化误差,但要保证测试集是从样本真实分布中独立同分布采样而得,且尽可能与训练集互斥,即测试样本不曾在训练样本中出现过。如何对数据集

2020-07-16 16:13:37

机器学习的分类

1、一般分类机器学习的一般分类为:监督学习、无监督学习、强化学习、半监督学习、主动学习。1.监督学习监督学习是从<x, y>这样的示例对中学习统计规律,然后对于新的X,给出对应的y。输入空间、特征空间、输出空间、假设空间输入、输出所有可能的取值的集合分别称为输入空间、输出空间。一个具体的输入是一个实例,通常由特征向量表示,特征向量组成的空间为特征空间。特征空间与输入空间可以为同一空间,也可以为不同空间。输入输出的随机变量一般用大写X、Y表示,具体实例使用小写表示。输

2020-07-14 20:02:51

机器学习之基本定义

什么是机器学习?

2020-07-14 11:26:05

ValueError: Unicode strings with encoding declaration are not supported.

在写爬虫爬取网页时遇到题目中的问题,完整错误如下:def getXpath(req, xpath): sourcehtml = etree.HTML(req.text) print(sourcehtml) nodes = sourcehtml.xpath(xpath) return nodesValueError:Unicodestringswithencodingdeclarationarenotsupported.Pleaseusebyt...

2020-06-26 20:11:21

Type Error:an integer is required的解决方法

TypeError: an integer is required 的解决方法在执行open函数操作文件时,会出现题目中的错误。看其他博客说由于从os模块引入了所有的函数导致的!我之所以造成这样的原因是因为在执行open函数时,在参数操作模式后直接传入了“utf-8”。具体解决方法:在“utf-8”前加上“encoding=”即可解决!...

2020-06-26 16:18:11

hive中数据的几种加载方式

1、从linux fs和hdfs中加载load data [local] inpath 'path' [overwrite] into table tblName [partition_sepc];[local]:如果加上表示本地地址,如果没有表示HDFS上的地址。[overwrite]:如果加上表示覆盖之前的数据,如果没有表示追加之前的数据。[partition_

2017-04-19 23:05:22

metadata远程存储和hive.metastore.local属性的说明

官网上对hive.metastore.local属性的解释为:local or remote metastore (Removed as of Hive 0.10: If hive.metastore.uris is empty local mode is assumed, remoteotherwise);即本地或者远程的元数据(在hive0.10版本上删除列这个属性;如果hive.me

2017-04-19 23:02:31

hive的metastore的选择

metastore是hive元数据的集中存放地,Hive中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。Hive将元数据存储在数据库中(metastore),目前只支持 mysql、derby。metastore默认使用内嵌的derby数据库作为存储引擎,但是我们一般选择使用mysql作为meta的存储位置。

2017-04-19 22:59:08

调用Hadoop时遇到的一个问题:could not find or load main class

最近在使用其他框架调用Hadoop时,执行命令出现错误,查看UI界面的日志发现,如下:导致错误的原因应该是,在程序运行时,找不到Hadoop中的MRAppMaster的主类,导致程序无法进行下去。解决方法:在yarn-site.xml文件中name为yarn.application.classpath对应的value中配置Hadoop的相关jar需求等,如下:

2017-04-19 22:41:31

集群运行spark时出现的问题

在运行spark时遇到一个问题,spark程序在集群上运行了一段时间后,突然挂掉了,查看日志发现了下面的错误信息,如下图所示:spark程序是提交到yarn上运行的,而在yarn中,container是程序最终运行的容器,从上面的日志上我们可以看到是在container启动时出现了异常,也就是说container容器没有能够正常启动,直接退出了。后来查看提交程序时的命令,如下:

2017-04-19 22:38:01

hive表的DDL操作

查看表hive> show tables;创建表hive> create table t1(id int);查看表结构hive> desc [extended] t1;extended是可选的,是扩展的表的信息删除表hive> drop table t1;重命名表的名称h

2017-04-19 22:23:28

hive常用语句示例

1/ DDL1.1 内部表和外部表(external)create table t_2(id int,name string,salary bigint,add string)row format delimitedfields terminated by ',';create external table t_3(id int,name string,sala

2017-04-19 22:22:14

数据的两种加载模式

读模式数据库加载数据的时候不进行数据的合法性校验,在查询数据的时候将不合法的数据显示为NULL,好处:加载速度快,适合大数据的加载。写模式数据库加载数据的时候要进行数据的合法性校验,在数据库里面的数据都是合法的好处:适合进行查询,不会担心有不合法的数据存在。hive使用的就是读模式,而mysql等数据库使用的则是写模式。

2017-04-19 22:15:30

hive的三种复合数据类型array、map、struct以及自定义分割符示例

Hive的数据类型主要有int、boolean、date、array、map、struct等,在这只描述array,map,struct三种。1.array(等同于数组,可以使用下标来操作相应的元素)默认分割符下的array,示例如下:有一群学生,id,name,hobby(多个)create table t3_arr(id int,na

2017-04-19 22:04:21

hive的四种表类型

Hive表有受控表(内部表)、外部表、分区表、桶表四种。内部表,就是一般的表,前面讲到的表都是内布标,当表定义被删除的时候,表中的数据随之一并被删除。外部表,数据存在与否和表的定义互不约束,仅仅只是表对hdfs上相应文件的一个引用,当删除表定义的时候,表中的数据依然存在。创建外部表,external是外部表的关键字,也是和内部表有区别的地

2017-04-19 22:02:46

hive视图和索引的简单介绍

Hive和mysql等数据库一样,也有视图的概念,视图实际上是一张虚拟的表,是对数据的逻辑表示,只是一种显示的方式,主要的作用是:1、视图能够简化用户的操作2、视图使用户能以多钟角度看待同一数据3、视图对重构数据库提供了一定程度的逻辑独立性4、视图能够对机密数据提供安全保护5、适当的利用视图可以更清晰的表达查询如何创建一个视图?create

2017-04-19 22:01:10

查看更多

勋章 我的勋章
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。