自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 资源 (1)
  • 收藏
  • 关注

转载 通过spark3打开iceberg的认知之门

spark3操作iceberg

2022-11-23 11:38:07 636 1

原创 ABTest样本量计算

显然,如果实验选取的样本很小,实验结果可信度就不高,因为很可能抽取的样本不能代表真实的水平。这样的对比在统计学上叫做两样本假设检验,即实验组和对照组为两样本,假设检验的原假设Ho:实验组和对照组无显著差异;从这个公式可以知道,在其他条件不变的情况下,如果实验两组数值差异越大或者数值的波动性越小,所需要的样本量就越小。以下将以以p1=0.3,p2=0.305,α=0.05,β=0.2为例,演示在这几个工具里计算样本量的方法。实际A/B测试中,我们关注的较多的一类是比例类的数值,如点击率、转化率、留存率等。

2022-11-23 11:27:38 5056

原创 AB Test实验设计

ABtest实验设计详细介绍

2022-11-23 11:21:09 469

原创 Cognos制作报表

第一章创建报表制作ReportStudio报表,步骤如下图所示:第二章添加查询1、点击中间栏的查询资源管理器,然后点击查询,就可以新建查询。步骤如下图所示:2、点击查询出现的页面:3、在左侧的工具箱选择查询、SQL拖拽到右侧,如下图所示:4、选中右侧的SQL,在左下角方框选择数据源(就是数据库),如下图所示:5、选择好数据源之后,双击右侧的SQL,在弹出的框上把写好的SQL语句粘贴上,然后点击【验证】按钮,验证通过之后点击【确定】按钮...

2022-03-03 11:20:47 3397

转载 leveldb原理和使用

LevelDB是一个基于本地文件的存储引擎,非分布式存储引擎,原理基于BigTable(LSM文件树),无索引机制,存储条目为Key-value。适用于保存数据缓存、日志存储、高速缓存等应用,主要是避免RPC请求带来的延迟问题。在存取模型上,顺序读取性能极高,但是对于随机读取的情况延迟较大(但性能也不是特别低),比较适合顺序写入(key),随机的key写入也不会带来问题。数据存量通常为物理内存的3~5倍,不建议存储过大的数据,在这个数据量级上,leveldb的性能比那些“分布式存储”要高(即本地磁盘存取延迟

2021-08-31 16:13:29 2262

原创 SQL 判断字段值中是否包含某个字符串

1.模糊查询likeselect * from tablewhere fieldlike ‘%key%’2.charindex()charindex(字段,字符串)>0 为包含

2021-03-30 14:07:55 25128

原创 梯度下降优化算法

梯度下降法作为机器学习中较常使用的优化算法,其有着三种不同的形式:批量梯度下降(Batch Gradient Descent)、随机梯度下降(Stochastic Gradient Descent)以及小批量梯度下降(Mini-Batch Gradient Descent)。其中小批量梯度下降法也常用在深度学习中进行模型的训练。1.批量梯度下降(Batch Gradient Descent,BGD)批量梯度下降法是最原始的形式,它是指在每一次迭代时使用所有样本来进行梯度的更新。从数学上理解如下:

2020-09-01 14:47:48 227

原创 对于图片倾斜做矫正处理

一 霍夫变换对于图片倾斜问题可通过霍夫变换进行矫正,霍夫变换主要是利用图片所在的空间和霍夫空间之间的变换,将图片所在的直角坐标系中具有形状的曲线或直线映射到霍夫空间的一个点上形成峰值,从而将检测任意形状的问题转化成了计算峰值的问题。即在图片所在的直角坐标系的一个直线,转换到霍夫空间便成了一点,并且是由多条直线相交而成,我们统计的峰值也就是该相交点的橡胶线的条数。 这么难以理解,下面将用霍夫直线检测具体解释一下为什么可以将检测任意形状问题转化成计算峰值问题。对图片建立直角坐标系,则图片中如...

2020-09-01 14:45:48 8260

原创 大津法Python实现

大津法Python实现1.简介在计算机视觉和图像处理中,大津法被用于自动获取图像的阈值,或者将灰度图像转换为二值化图像。该算法假设图像包含两个类别的像素(前景像素和背景像素),然后它计算一个最优的阈值用于分离前景和背景,使得前景和背景的类间方差最小。2.定义类间方差的计算公式:假设我们使用阈值T将灰度图像分割为前景和背景size:图像总像素个数u:图像的平均灰度w0:前景像素点占整幅图像大小的比例u0:前景像素点的平均值w1:背景像素点占整幅图像大小的比例u0:背景像

2020-09-01 14:44:16 2927 3

原创 区域轮廓检测方案

根据实际应用场景,需要对之前针对固定颜色背景开发的身份证图片处理程序进行优化。前期针对固定白色背景进行图片转换、截取,但是在实际场景中,用户拍摄身份证的背景是多样的,背景颜色、光照、角度等因素都不一样,综合以上问题决定采用轮廓检测算法对身份证图片进行处理。该算法采用对图像字符区域先进行纹理分割,获取字符区域后对其上下轮廓凹凸特征近似检测单个字符的宽度,从中选出稳定的局部特征,利用结构语句识别的方法进行字符识别。1 基于区域的方法分割+提取基于灰度、颜色、纹理等来进行分割,分...

2020-09-01 14:40:19 439

原创 Centos7安装docker教程

1.查看内核版本:Docker 要求 CentOS 系统的内核版本高于 3.10 ,查看本页面的前提条件来验证你的CentOS 版本是否支持 Docker 。通过 uname -r 命令查看你当前的内核版本。$ uname -r2.Yum 更新:yum update期间要选择确认,输入 y 即可。3.安装所需包:安装需要的软件包, yum-util 提供yum-config-manager功能,另外两个是devicemapper驱动依赖的。yum install -y y

2020-09-01 14:32:17 105

原创 分布式节点部署爬虫管理平台

管理平台可以实现在多个节点上跑爬虫任务的需求,也就是在分布式节点上管理爬虫。例如有多台服务器,需要在这些服务器集群上运行、监控、操作相关爬虫脚本,并集中统一查看和管理,这种应用场景就非常适合天生支持分布式管理的爬虫管理平台Crawlab。要让各个节点运行的Crawlab服务协同工作在同一个网络,只需要让这些服务连接到MongoDB和Redis数据库,而不需要暴露自己的IP和端口。 下图是一个多节点部署的示意图,展示了Crawlab分布式集群是如何工作的。每一个Crawlab服务都在一台服...

2020-09-01 14:28:41 758

原创 Python操作MongoDB进行文件存储

将图片、文档等存入mogodb中,需要用到两个模块,pymongo和gridfs,在存入过程中必须将文件转换为二进制的格式才能存入,存入mongoDB中会生成两个文件xxx.chunk 和xxx.files。GridFS是一种将大型文件存储在MongoDB的文件规范:数据库支持以BSON格式保存二进制对象。 但是MongoDB中BSON对象最大不能超过4MB。GridFS 规范提供了一种透明的机制,可以将一个大文件分割成为多个较小的文档。为实现这点,该规范指定了一个将文件分块的标准。每个文件都将

2020-09-01 14:26:31 2710 1

原创 Ajax-hook原理解析及使用思路

针对神器ajax-hook做一个介绍和实践。ajax-hook可以拦截所有ajax请求并允许修改请求数据和响应数据。实际项目中它可以用于请求添加统一签名、协议自动解析、接口调用统计等。1.Ajax-hook整体思路Ajax-hook实现的整体思路是实现一个XMLHttpRequest的代理对象,然后覆盖全局的XMLHttpRequest,这样一但上层调用 new XMLHttpRequest这样的代码时,其实创建的是Ajax-hook的代理对象实例。具体原理图如下:上图中...

2020-09-01 11:52:22 3713 1

原创 PyCharm 常用快捷键

显示CTRL -: 折叠当前代码CTRL +: 展开当前代码CTRL SHIFT -: 折叠所有代码CTRL SHIFT +: 展开所有代码CTRL SHIFT F7: 将当前单词在整个文件中高亮,F3移动到下一个,ESC取消高亮。CTRL F11 | F11: 设置书签.SHIFT F11: 显示所有书签。CTRL F12: 当一个文件中方法太多,要快速跳到某个方法时,可以用此快...

2020-05-06 11:09:00 499

原创 Python 向csv存储中文数据,乱码怎么解决

直接上代码:import csvwith open('test.csv', 'a', newline='', encoding='utf-8-sig') as f: # utf-8格式 f_csv = csv.writer(f) f_csv.writerow(('名称', '日期', '地址', '价格')) # 标题信息 # f_csv.writerows(...

2020-04-13 17:55:10 1156

原创 使用cv2.findContours()函数时报 ValueError: not enough values to unpack (expected 3, got 2)

在import cv2包调用findContours函数时出现如下问题:ValueError: not enough values to unpack (expected 3, got 2)而我在调用函数时:image, contours, hierarchy = cv2.findContours(opened, cv2.RETR_LIST, cv2.CHAIN_APPROX_SIM...

2020-03-14 14:34:53 468

原创 Win10下安装tesseract4.0并配置环境变量

1. 下载tesseract4.0tesseract版本下载地址:https://digi.bib.uni-mannheim.de/tesseract/windows系统选择32位或者64位下载即可;其它操作系统下面网址选择相应的版本。https://github.com/tesseract-ocr/tesseract/wiki/4.0-with-LSTM#400-alpha-for-wi...

2020-03-11 14:08:52 4133 1

原创 xpath学习-轴(总结)

XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。 XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 同时被构建于 XPath 表达之上。 XPath轴(XPath Axes)可定义某个相对于当前节点的节点集: 1、child 选取当前节点的所有子元素...

2019-12-25 19:38:37 998

原创 pythonan安装cv2

使用pip安装即可:pip install opencv-python当pip安装失败时,可以下载opencv_python-4.1.1.26-cp36-cp36m-win_amd64.whl文件安装。文件可以从`https://pypi.tuna.tsinghua.edu.cn/simple/opencv-python/ `下载,选择相应版本即可。下载成功后到文件路径下使用pip...

2019-11-01 15:22:14 299

原创 C#中对json数据进行取值

1、添加引用Newtonsoft.Json.dll,需要升级NuGet,在项目中右击项目名,选择“管理NuGet程序包”2、引用:using Newtonsoft.Json.Linq;3、实现代码:string s = "{\"model\":\"2\"}";JObject studentsJson = JObject.Parse(s);string model = stu...

2019-09-09 17:31:55 6371

原创 使用c#对MongoDB进行操作

定义实体类:public sealed class Data{ [DataId] public string DataID { get; set; } public string DataName { get; set; } public string ContactName { get; set; } public string Address {...

2019-09-09 17:26:39 344

原创 Python中Json库得dumps、loads、dump、load方法的使用

1. json.dumps()         json.dumps()用于将dict类型的数据转成str类型,直接将dict类型的数据写入json文件中会发生异常,因此在将数据写入时需要用到该函数。2. json.loads()          json.loads()用于将str类型的数据转成dict。3. json.dump()         json.dump()用...

2018-08-18 23:22:24 396

原创 Anaconda创建、激活、退出、删除虚拟环境

在Anaconda中conda可以理解为一个工具,也是一个可执行命令,其核心功能是包管理与环境管理。所以对虚拟环境进行创建、删除等操作需要使用conda命令。创建虚拟环境:使用 conda create -n your_env_name python=X.X(2.7、3.6等),anaconda 命令创建python版本为X.X、名字为your_env_name的虚拟环境。your_env_nam...

2018-07-08 23:36:11 345808 12

原创 在Ubuntu16.04上 MongoDB的安装与简单使用

MongoDB安装首先添加签名到APT:sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 0C49F3730359A14518585931BC711F9BA15703C6 为MongoDB的创建列表文件:#下面命令针对ubuntu16.04版本,在其他ubuntu版本系统请查看MongoDB官网echo“deb [a...

2018-07-07 12:45:44 750

原创 在ubuntu下安装pyspider

1、首先安装依赖库:#更新源sudo apt-get update #更新pip python -m pip install -U pip #安装依赖包sudo apt-get install python-dev sudo apt-get install python-distribute sudo apt-get install libcurl4-openssl-dev sudo apt-ge...

2018-07-06 12:03:12 743

转载 进程与线程的区别

1、一个程序至少有一个进程;一个进程中至少包含一个线程。 2、进程在内存中拥有独立的存储空间,而多个线程则共享它所依赖的进程的存储空间。 3、进程和线程对操作系统的资源管理的方式不同。 3.1、由于多个线程共享一个进程的存储空间(内存地址),也就是说多个线程是共享堆栈和局部变量的。即:多个线程只是一个进程中不同的执行路径(例如由多个线程执行同一个类),所以在进程中,一个线程崩溃就等于整

2017-12-08 14:33:52 229

原创 学习python多线程的简单总结

python提供了两个多线程模块thread、threading,但是threading更加成熟,所以我直接学习的threading,接下来我们用一个例子来做说明:就用我们最常见的两件事来举例吧,同时进行吃饭和玩手机#-*- coding:utf-8 -*-#name:sizhiimport threadingfrom time import ctime,sleepdef eat

2017-12-08 14:05:58 2382

原创 python3 Queue(一个同步队列类)学习

python3中自带了queue所以不需要安装,queue模块实现多生产者,多用户队列。当在多线程之间必须安全地交换信息时,它在线程编程中特别有用。该Queue模块中的类实现了所有必需的锁定语义。这取决于Python中的线程支持的可用性; 该模块实现三种类型的队列,它们的区别仅在于检索条目的顺序。在FIFO(先来先服务)队列中,第一个添加的任务是第一个被检索的。在LIFO队列中,最近添加的条目是第

2017-12-08 00:31:40 1186

转载 为什么要使用三次握手

首先,tcp是可靠传输协议,需要三次握手建立连接服务。三次握手的目的是“为了防止已经失效的连接请求报文段突然又传到服务端,因而产生错误”,这种情况是:client端发出了一个连接请求报文,而是因为某些未知的原因在某个网络节点上发生延迟、滞留,导致延迟到连接释放以后的某个时间才到达server端。本来这是一个早已失效的报文段,但是server收到此失效的报文之后,会误认为是client再次发出的

2017-12-07 00:14:11 10818

转载 linux中将用户添加到组的指令

在 Linux 操作系统下,如何添加一个新用户到一个特定的组中?如何同时将用户添加到多个组中?又如何将一个已存在的用户移动到某个组或者给他增加一个组?对于不常用 Linux 的人来讲,记忆 Linux 那繁多的命令行操作真是件不容易的事。在 Linux 中,增加用户或改变用户的组属性可以使用 useradd 或者 usermod 命令。useradd增加一个新用户或者更新默认新用户信息

2017-11-27 12:58:50 6353

原创 linux挂载光盘时出现mount: block device /dev/sr0 is write-protected, mounting read-only

此时说明 /dev/sr0只有只读权限,所以改成mount -o remount,rw /dev/sr0 /media即可

2017-11-23 14:55:50 27324

Wi_Fi定位技术在大学图书馆移动信息服务应用研究_周恒忠.pdf

Wi_Fi定位技术在大学图书馆移动信息服务应用研究_周恒忠.pdf

2017-12-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除