自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 SQL语句 — 留存率

参考:https://zhuanlan.zhihu.com/p/143494489一、什么是留存率? n日留存率 = 第n天还在登录的用户数/新增的用户数 假如某日新增了100个用户,第二天登录了50个,则次日留存率为50/100=50%,第三天登录了30个,则第二日留存率为30/100=30%,以此类推,第7天登录了10个用户,则7日留存率就是10/100=10%。二、SQL实现1、数据说明 计算留存率只需要2个字段:用户ID (user_id) 和 ...

2020-08-08 09:52:04 4168

原创 KhanAcademy统计学 - 学习笔记(上)

学习资源视频在b站和网易公开课均可找到~2、极差、中程数 极差=最大值-最小值 中程数=(最大值+最小值)/23、象形统计图5、线型图7、诱导人的线型图8、茎叶图9~10、箱型转存失败重新上传取消图11、统计:集中趋势12、统计:样本和总体16、统计:诸方差公式17、随机变量介绍18、概率密度函数 概率密度函数是针对连续性随机变量而言的19~22、二项分布 二项分布的一些例子,EXC...

2020-08-01 11:29:03 268

原创 数据倾斜的原理

参考: http://freewill.top/2019/11/10/spark-8/#more https://blog.csdn.net/weixin_35353187/article/details/84303518 https://blog.csdn.net/anshuai_aw1/article/details/84033160一、什么是数据倾斜?大量相同的key被分配到一个分区中,造成该分区承担的数据量巨大,而其他分...

2020-07-21 09:20:17 217

原创 安装MySQL出现由于找不到VCRUNTIME140_1.dll,无法继续执行代码。重新安装程序可能会解决此问题

安装以下运行库可以成功解决:链接:https://pan.baidu.com/s/16qeQDGP3IyIBgs4-FPuwlA提取码:n3wd安装即可!

2020-07-16 09:27:35 346

原创 Python调用百度OCR实现图片文字识别

百度AI提供了一天50000次的免费文字识别额度,可以愉快的免费使用!下面直接上方法:首先在百度AI创建一个应用,按照下图创建即可,创建后会获得如下:创建后会获得如下信息:APP_ID = '******'API_KEY = '************'SECRET_KEY = '**************'下面就是百度API包的安装,在终端cmd输入如下语句直接pip方式安装,注意是 baidu-api 哦!pip install --user baidu-aip

2020-07-15 16:43:30 2889 2

原创 Win10下Hadoop3.2.1的安装与配置

准备工作 安装hive的前提是安装好JDK、hadoop、mysql。1、安装JDK,并配置好JDK环境 参考:https://blog.csdn.net/pu329289309/article/details/104883458/ 安装好后检验:2、安装Hadoop: 下载地址:http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-3.2.1/ 选择下方第二个:...

2020-07-12 17:38:04 4003 9

原创 基于维基百科的概念发现(综述)

本文以Paşca等人近期的三篇文献为基础,总结一下基于维基百科的概念发现方法。基于规则的方法[1]基于规则的概念发现方法[1]利用了维基百科词条正文中的词法模式、词条的形式变化以及与词条相关的类别信息,无需任何语言预处理工具,也不依赖于大写字母,并且可以迁移到其他语言中,总体精度和召回率分别为0.9和0.6。词法模式证据要求词条正文中句子的任何片段匹配(不区分大小写)以下模式之一,那么该词条就是一个概念。形式变化证据要求词条以单数和复数两种形式出现在词条正文中,那么该词条就是一个概念。

2020-07-08 20:54:42 339

原创 Python爬虫 —— 以北京天气数据爬取为例

本文以北京天气为例讲解数据爬取的整个流程,不涉及网络爬虫的原理,直接讲爬取代码怎么写!1、首先找到你要爬取的网站url:'http://www.tianqihoubao.com/lishi/beijing.html' ,进入该网页,可以看到网页是这样的。2、接下来进行一波爬虫的固定操作,首先创建存储数据的excel文件,pandas方法也可以创建,这里用的xlsxwriter是为了方便之后一行一行向excel中存储数据;然后找到网页的User-Agent作为网页的heahders,使用reque

2020-07-08 10:56:04 4986 9

原创 tomcat服务器被占用如何解决?

2018-11-27 21:00:04 695

原创 机器学习西瓜书(周志华)学习笔记(4)-线性模型

                                              1. 基本形式       线性模型(linear model)就是要学得一个通过属性的线性组合来进行预测的函数:                                ,       一般用向量形式写成:                                       ...

2018-08-08 17:22:54 414

原创 机器学习西瓜书(周志华)学习笔记(3)-模型评估与选择(下)

       机器学习种性能比较是个很复杂的问题,需要考虑的因素很多。那么如何对单个或多个学习器在不同或相同测试集上的性能度量结果做比较呢?这就是比较检验。偏差与方差是解释学习器泛化性能的一种重要工具。                                                                                     4. 比较检验   ...

2018-08-05 11:04:29 1365 1

原创 机器学习西瓜书(周志华)学习笔记(2)-模型评估与选择(上)

                                                   1.经验误差与过拟合错误率(error rate):错误样本数占测试样本数的比例。 精度(accuracy):1-错误率。 误差(error):学习器的实际预测输出与样本的真实输出之间的差异。 训练误差(training error)/经验误差(empirical error):学习器在...

2018-08-04 12:09:15 2269

原创 机器学习西瓜书(周志华)学习笔记(1)-绪论

 基本术语数据集(data set):一组记录的集合。例如:(色泽=青绿;根蒂=稍蜷;敲声=沉闷)。 样本(sample):数据集中的每条记录,它是关于一个事件或对象的描述。又称示例(instance)。例如:色泽=青绿。 属性(attribute):反映事件或对象在某方面的表现或性质的事项。又称特征(feature)。例如色泽。 属性值(attribute value):属性上的取值。...

2018-08-03 11:51:18 1147

原创 Python学习笔记(6)-tuple用法

tuple:是另一种有序的列表,中文翻译为“元组”。tuple和list非常类似,但是tuple一旦创建完毕,就不能修改了。Python之创建tuple:      创建tuple和创建list唯一不同之处就是用()替代了[ ] 。如下代码所示创建一个tuple:t = ('Adam','Lisa','Bart')      访问方法与前文提到的list相同,只是tuple不支持a...

2018-07-31 19:49:16 215

原创 Python学习笔记(5)-List用法

Python创建list      Python内置的一种数据类型是列表:List。list是一种有序的集合,可以随时添加和删除其中的元素。比如,列出班里所有同学的名字,就可以用一个list表示:             classmates = ['Michaeal','Bob','Tracy']      由于Python是动态语言,所有list中包含的元素并不要求必须是一种数据类...

2018-07-31 17:47:03 143

原创 Python学习笔记(4)-中文字符输出

       字符串中存在一个编码问题。       因为计算机只能处理数字,如果要处理文本,就必须要把文本转换为数字才能处理。最早的计算机在设计时采用8个比特作为一个字节,所以一个字节能表示的最大整数为255。0-255被用来表示大小写英文字母、数字和一些符号,这个编码表成为ASCII编码。       如果要表示中文,显然一个字节是不够的,至少需要两个字节,而且还不能和ASCII编码冲...

2018-07-31 11:23:12 594

原创 Python学习笔记(3)-字符串

字符串本身含有但双引号:             Python中对于字符串只需要将其用“ ”或者‘ ’括起来即可,但是如果字符串本身包含“ ”或者‘ ’时,应该怎么解决呢?下面用一个例子来说明解决方法:      例如   Mary said "I'm fine".   这样表示:                 ‘Mary said \"I\'m fine\".’      简要...

2018-07-31 11:08:30 117

原创 Python学习笔记(2)-数据类型

Python中能够直接处理的数据类型如下:整数 浮点数 字符串 布尔值 空值       下面就这几种数据类型进行运算:整数之和运算:       运行结果如下: 输出字符串:​​​​​​​       运行结果如下 计算表达式的布尔值:        运行结果如下:  ...

2018-07-31 10:01:46 114

原创 Python学习笔记(1)-入门

Python的安装直接去官网python.org下载即可,我的电脑是windows系统,所以选择windows版本。 我这里安装的是2.7.15版本的Python,读者可根据需求自行安装需要的版本。 安装完成后在命令提示符中输入python,对python进行检查。如下图所示,成功安装!第一个程序“Hello World!” 首先在命令提示符中进入python环境,然后输入代码,...

2018-07-30 19:40:55 152

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除