自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(82)
  • 收藏
  • 关注

原创 计算文本相似度的常用算法

NLP、数据挖掘领域中,文本分析是一个很重要的领域,这有助于我们去让计算机理解语言的作用和使用。文本分析是数据挖掘的重要手段,利用文本分析,我们将很快的读取到一本书、一篇文章、一段话中的关键词和核心思想,而文本相似度就是我们用来剔除无用信息或者重复信息的重要手段,让计算机去找文本中的不同。在生活中,信息检索、数据挖掘、机器翻译、文档复制检测等领域都应用到“文本相似度”。文本不仅仅是文字,文本相似度的应用更广,除了文字的匹配,还可以是图片、音频等,因为它们的实质都是在计算机中都是以二进制的方式存在的。相.

2021-03-07 14:36:49 20266 2

原创 JSON

JSON(JavaScript Object Notation,JavaScript对象标记法)是一种存储和交换数据的语法,经常在数据从服务器发送到网页时使用JSON的语法是来自JavaScript对象符号的语法,但JSON格式是纯文本,JavaScript程序可以很容易地将JSON数据转换成本地的JavaScript对象交换数据当数据在浏览器与服务器之间进行交换时,这些数据只能是文本JSON属于文本,并且我们能够把任何JavaScript对象转换为JSON,然后将JSON发送到服务器,我们也能.

2021-01-13 14:07:35 209

原创 JavaScript 正则表达式

正则表达式是构成搜索模式的字符序列,当搜索文本中的数据时,可以使用搜索模式来描述要搜索的内容正则表达式可以是单字符,或者更复杂的模式正则表达式可用于执行所有类型的文本搜索和文本替换操作// 语法/pattern/modifiers;var patt = /helloworld/i; //i是修饰符(把搜索改为大小写不敏感)正则表达式修饰符修饰符描述i执行对大小写不敏感的匹配g执行全局匹配(查找所有匹配而非在找到第一个匹配后停止)m执行多行匹配.

2021-01-11 14:00:42 190

原创 JavaScript知识点总结

type属性不是必需的。JavaScript是HTML默认的脚本语言。脚本放置的位置脚本可被放置在HTML页面的<body>或<head>部分中,或兼而有之。提示:把脚本置于<body>元素的底部,可改善显示速度,因为脚本编译会拖慢显示脚本可放置在外部文件中如需使用外部脚本,请在<script>标签的src属性中设置脚本的名称。<script src="myscript.js"></script>注意...

2021-01-11 11:13:05 1013

原创 Composer中的ThingWorx模型定义—数据存储

3. 数据存储3.1 数据表数据表类似于标准关系数据库表,但两者在性能方面有很大的差异。通常情况下,如果数据少于1000000行,则应使用数据表。对于较大的数据集,应使用关系数据库事物模板进行连接。数据形状用于定义数据表的列或字段。3.1.1 数据表服务提供许多用于从数据表(特定于数据表形状)中导入或获取数据的内置服务详细介绍3.1.2 数据表最佳业务实践在很多情况下,可能无法确定何时使用数据表(相对于流或事物属性)。请使用以下指南:如果您需要逐行处理数据(甚至是查询),请使用数据表;.

2021-01-08 13:58:19 396

原创 Composer中的ThingWorx模型定义—可视化

Composer中的ThingWorx模型定义—可视化2. 可视化混搭混搭是用于从ThingWorx模型传递信息的网页可视化功能。Mashup Builder是用于在ThingWorx中创建可视化网页的工具,可在其中定义单独的混搭。混搭是一种ThingWorx网页。Mashup Builder旨在供了解已实现ThingWorx模型的内容开发人员使用,并允许您将ThingWorx内提供的数据服务与一组称为小组件的可视化组件组合在一起,以创建能够组合多源数据的唯一网页。还可以在Mashup Build

2021-01-08 11:05:27 584

原创 Composer中的ThingWorx模型定义—建模

Composer中的ThingWorx模型定义1. 建模模型是物理和解决方案环境的逻辑表示。它通过一组 REST API 来表现,这使得该模型易于使用。 事物中的各个 API 为您和您的合作伙伴创建的应用程序提供了句柄。构建模型的过程类似于面向对象的设计。您可以分解您的事物,定义它们的交互,并定义要向应用程序开发人员公开的 属性、 服务和 事件。ThingWorx模型在ThingWorx中构建IoT解决方案始于以事物为中心的解决方案,其中,事物是创建模型的关键部分。ThingWorx模型是表示过程

2021-01-07 15:22:59 1223

原创 ThingWorx入门

ThingWorx是快速的,基于模型的应用程序开发平台。通过采用建模而非编码,内容开发人员能够专注于敏捷性和应用程序组合,而非调试、维护和更新代码。模型构建成为一组可重用的构建块来汇编新的应用程序。在建立完模型之后,可以通过拖放混搭构建器将模型的数据、服务和功能汇入Web应用程序中。1. IoT编程编程规则和事务逻辑在物联网(IoT)中,规则和事务逻辑的编程不同于使用SQL和数据库查询的传统过程编程模型/程序从头到尾遍历代码,同时将逻辑控制转移到应用程序的其他部分。所设计的系统可支持如下过程:.

2021-01-06 10:41:14 3842

原创 AB 测试

AB测试AB测试的前身是随机对照试验—双盲测试,是“医疗/生物试验将研究对象随机分组,对不同组实施不同的干预,对照起效果”AB测试将不同的用户分成不同的组,同时测试不同的方案,通过用户反馈的真实数据来找出哪一个方案更好的过程。解决的是“多种方案需要拍脑袋确认哪一种更好的问题”特性:先验性:A/B Test是一种“先验体系”,属于预测型结论(与其相对的是后验型的经验归纳)。同样是一个方案是否好坏:A/B Test通过小流量测试获得具有代表性的试验结论,来验证方案好坏后再决定是否推广到全量;后验型则是

2021-01-03 21:12:17 383

原创 异常指标分析

2021-01-03 20:46:20 511

原创 底线在哪里

底线在哪里当你在验证你提出的问题和解决方案时,要问自己,有没有足够多的人对此有足够的兴趣来维持5%的增长率;但是不要在没有真正理解客户、提出有意义的解决方案之前就致力于提高增长率。当你的创业公司遇到或接近了产品与市场的契合点,如果还没有产生收入,就以每周活跃用户增长率5%为底线,如果你已经产生收入,就以每周收入增长5%为底线没有什么明确的规则规定应该怎样收费。但是无论你如何选择定价模式,关键都在于测试。如果你要在收入和产品采用之间取得平衡,正确理解所在市场的合适价格层级和价格弹性是非常关键的。如果你.

2021-01-03 20:29:42 192

原创 五大提高DAU的运营策略

DAU是指日活跃用户数量,作为衡量运营人工作成果的一项重要指标,如何提高DAU是困扰每一个运营人的难题。本文将和大家分享五种提高DAU的运营策略,简单来说包括激励用户、产品内容、完善服务、策划活动以及社区氛围。激励用户相信大家都明白激励体系设计的好,会吸引用户经常来使用产品的道理。比如签到就是激励用户,提升DAU的重要手段。产品可以设置金币,通过签到或者是试玩等方式,增加用户的金币收入,从而使用户保持活跃。一般来讲,这个激励用户的核心最好可以直接给用户利益,像是赚钱相关的频道应该成为产品标配,因为赚.

2021-01-03 20:12:51 1761

原创 第1章 了解Web及网络基础

1. 使用HTTP协议访问Web根据Web浏览器地址栏中指定的URL,Web浏览器从Web服务器端获取文件资源(resource)等信息,从而显示出Web页面。像这种通过发送请求获取服务器资源的Web浏览器等,都可称为客户端。Web使用一种名为HTTP(HyperText Transfer Protocol,超文本传输协议)的协议作为规范,完成从客户端到服务器端等一系列运作流程。而协议是指规则的约定,可以说,Web是建立在HTTP协议上通信的。2. HTTP协议的诞生CERN(欧洲核子研究组织.

2021-01-03 14:11:12 343

原创 第6章 统计量及其抽样分布

在利用统计方法研究的问题中,通常把所要调查研究的事物或现象的全体称为总体,而把组成总体的每个元素(成员)称为个体,一个总体中所含个体的数量称为总体的容量。为了推断总体的某些特征,需要采用一定的抽样技术从总体中抽取若干个体,这一抽取过程称为抽样。所抽取的部分个体称为样本,样本中所含个体的数量称为样本量。统计学中最主要的提取信息的方式就是对原始数据进行一定的运算,得出某些代表性的数字,以反映数据某些方面的特征,这种数字称为统计量。用统计学语言表述就是:统计量是样本的函数,它不依赖于任何未知参数。推.

2020-12-11 11:46:29 1527

原创 第5章 概率与概率分布

统计数据中隐含着非常丰富的重要信息,要有效地充分利用统计数据,需要愚弄推断统计的方法。推断统计就是在搜集、整理观测样本数据的基础上,对有关总体做出推断,其特点是根据随机的观测样本数据以及问题的条件和假定,对未知事物作出的以概率形式表述的推断随机事件及其概率1. 随机事件的几个基本概念试验:在同一组条件下,对某事物或现象所进行的观察或实验;事件:观察或实验的结果随机事件:在同一组条件下,每次试验可能出现也可能不出现的事件,也叫偶然事件;必然事件:在同一组条件下,每次试验一定出现的事件;不.

2020-12-10 16:14:24 776

转载 第4章 数据的概括性度量

利用图表展示数据,可以让我们对数据分布的形状和特征有一个大致的了解。但是要全面把握数据分布的特征,还需要找到反映数据分布特征的各个代表值。数据分布的特征可以从三个方面进行测度和描述:分布的集中趋势:反映各数据向其中心值靠拢或聚集的程度;分布的离散程度:反映各数据远离其中心值的趋势;分布的形状:反映数据分布的偏态和峰态集中趋势的度量集中趋势是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。1. 分类数据:众数众数是一组数据中能够出现最多的变量值。众数主要用于测度分类.

2020-12-09 21:48:38 3324

原创 第3章 数据的图表展示

数据的预处理数据的预处理是在对数据分类或分组之前所做的必要处理,内容包括数据的审核、筛选、排序等数据审核数据审核就是检查数据中是否有错误。**对于通过调查取得的原始数据,主要从完整性和准确性两个方面去审核。**完整性审核主要是检查应调查的单位或个体是否有遗漏,所有的调查项目是否填写齐全等。准确性审核主要是检查数据是否有错误,是否存在异常值等。对于异常值要仔细鉴别:如果异常值属于记录时的错误,在分析之前应予以纠正;如果异常值是一个正确的值,则应予以保留。**对于通过其他渠道取得的二手数据,应着重审.

2020-12-09 10:49:56 642

原创 第2章 数据的搜集

数据的来源所有统计数据追踪其初始来源,都是来自调查或实验。但是,从使用者的角度看,统计数据主要有两个渠道:一个是数据的间接来源,即数据是由别人通过调查或实验的方式搜集的,使用者只是找到它们并加以使用,对此我们称为数据的间接来源。另一个是通过自己的调查或实验活动直接获得一手数据,对此我们称为数据的直接来源。A. 数据的间接来源如果与研究内容有关的原信息已经存在,我们只是对这些原信息重新加工、整理,使之成为我们进行统计分析可以使用的数据,则把它们称为间接来源的数据。B. 数据的直接来源虽然二手数据具.

2020-12-08 22:35:59 2531

原创 第1章 导论

什么是统计学统计学是收集、处理、分析、解释数据并从数据中得出结论的科学数据分析所用的方法可分为描述统计方法和推断统计方法描述统计研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法;推断统计是研究如何利用样本数据来推断总体特征的统计方法;统计数据的类型1. 分类数据、顺序数据、数值型数据按照计量尺度的不同,可以将统计数据分为分类数据、顺序数据和数值型数据。分类数据是只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用文字来表述的;顺序数据是只能归于.

2020-12-08 19:26:33 279

原创 第2章 业务:数据驱动运营

1. 如何用数据驱动运营1.1 定义数据分析目标说到底,常见的数据分析目标主要分为三类,即解决是什么、为什么、做什么的问题。解决是什么的问题,一般用描述性统计方法就可以解决;解决为什么的问题,则需要能用严谨的逻辑思维对具体问题做数据分析,找出原因;解决做什么的问题,则需要通过具体的分析,提供可选的建议,最后嫁给于宁或管理层来拍板选择相关可行方案。这三大类分析目标最终都会聚焦到一点,对业务及业务流程的了解,只有对业务完全清楚,才知道如何描述是什么,才知道应该从什么角度去切入分析为什么,才知道提供的解决.

2020-12-06 17:06:13 2344

原创 第1章 概述:数据运营基础

大数据领域涵盖了数据采集、数据存储、数据处理、数据挖掘、数据分析、数据呈现等一系列的技术手段,随着技术的不断成熟,并逐渐被更多富数据的行业和企业所应用,各个行业在得到大数据带来收益的同时,也在推动大数据技术的快速发展。下面简要介绍几个行业中大数据的应用。互联网行业:互联网行业的主要特征之一就是各种类型的数据都呈现爆炸式增长。用户在互联网上的丰富行为都能被网站日志所记录,网站可以利用大淑女技术从海量用户数据中挖掘有价值的信息,建立用户模型,针对性提供产品和服务,提高用户体验零售行业:零售行业需要根据销.

2020-12-04 16:58:32 442 1

原创 Pandas库的使用

读取文件# 读取excel文件df = pd.read_excel("abc.xlsx")# 读取MySQL数据库import pymysqlconn = pymysql.connect( host = '127.0.0.1', user = 'root', password = '123456', database = 'test', charset = 'utf-8')mysql_page = pd.read_sql("select * fro.

2020-12-02 22:04:20 176

原创 异步执行的运行机制

所有同步任务都在主线程上执行,形成一个执行栈主线程之外,还存在一个“任务队栈”,只要异步任务有了运行结果,就在“任务队列”之中放置一个事件一旦”执行栈“中的所有同步任务执行完毕,系统就会读取”任务队列“,看看里面有哪些事件。那些对应的异步任务,于是结束等待状态,进入”执行栈“,开始执行主线程不断重复上面的第三步主线程从“任务队列”中读取事件,这个过程是循环不断的,所以整个的这种运行机制又称为Event Loop(事件循环)。只要主线程空了,就会去读取“任务队列”,这就是...

2020-11-29 14:37:05 131

原创 EXISTS谓词的用法

支持SQL的基础理论有两个:一个是数学领域的集合论,另一个是作为现代逻辑学标准体系的谓词逻辑(predicate logic),准确地说是“一阶谓词逻辑”,下面将重点介绍EXISTS谓词。EXISTS不仅可以将多行数据作为整体来表达高级的条件,而且使用关联子查询时性能仍然非常好,这对SQL来说是不可或缺的功能引入EXISTS这个谓词的目的是为了实现谓词逻辑中“量化”(quantification)这一强大功能谓词到底是什么?实际上,谓词是一种特殊的函数,返回值是真值(true、false、unk.

2020-11-29 11:10:08 533

原创 用SQL进行集合运算

集合论是SQL语言的根基——因为它的这个特性,SQL也被称为面向集合语言顾名思义,集合运算符的参数是集合,从数据库实现层面上来说就是表或者视图,集合运算有以下几个注意事项:SQL能操作具有重复行的集合,可以通过可选项ALL来支持一般的集合论是不允许集合里存在重复元素的,因此集合{1,1,2,3,3,3}和集合{1,2,3}被视为相同的集合。但是关系数据库里的表允许存在重复的行,称为多重集合集合运算符为了排除掉重复行,默认地会发生排序,而加上可选项ALL之后,就不会再排序,所以性能会有提升。 这.

2020-11-28 23:27:07 526

原创 HAVING子句的力量

表不是文件,记录也没有顺序,所以SQL不进行排序SQL不是面向过程语言,而是面向集合语言寻找缺失的编号在以前的SQL标准里,HAVING子句必须和GROUP BY子句一起使用,但是,按照现在的SQL标准来说,HAVING子句是可以单独使用的。不过这种情况下,就不能在SELECT子句里引用原来的表里的列了,要么使用常量,要么就得像SELECT COUNT(*)这样使用聚合函数-- 如果有查询结果,说明存在缺失的编号SELECT '存在缺失的编号'FROM SeqTblHAVING COU..

2020-11-28 22:32:15 149

原创 SQL性能优化

本文将介绍一些使SQL执行速度更快、消耗内存更少的优化技巧参数是子查询时,使用EXISTS代替IN在大多数时候,[NOT] IN 和 [NOT] EXISTS返回的结果是相同的,但是两者用于子查询时,EXISTS的速度会更快一些,原因如下:当IN的参数是子查询时,数据库首先会执行子查询,然后将结果存储在一张临时的工作表里(内联视图),然后扫描整个视图。很多情况下这种做法都非常耗费资源。使用EXISTS的话,数据库不会生成临时的工作表避免排序会进行排序的代表性的运算包括:GRO.

2020-11-27 21:53:52 77

原创 面向对象的程序设计思想

面向对象是当今主流的一种程序设计理念和设计规范,它取代了早期的"结构化"过程设计开发技术,主张一切皆为对象,程序以人的思维模式去解决问题。面向对像的程序是由类组成的,每个类包含对用户公开的特定功能部分和隐藏的实现部分。面向对象 ( Object Oriented ) 是将现实问题构建关系,然后抽象成 类 ( class ),给类定义属性和方法后,再将类实例化成 实例 ( instance ) ,通过访问实例的属性和调用方法来进行使用面向对象的特点包括:封装、继承和多态1.封装封装是面向对象的.

2020-11-26 16:28:05 1537

原创 三值逻辑和NULL

对NULL使用比较谓词后得到的结果总是unknown,因为NULL既不是值也不是变量。NULL只是一个表示“没有值”的标记,而比较谓词只适用于值。因此,对并非值的NULL使用比较谓词本来就是没有意义的三值逻辑的真值表NOTxNOT xtfuuftANDANDtufttufuuufffffORORtufttttutuuftuf这三个真.

2020-11-23 22:33:31 232

原创 自连接的用法

针对相同的表进行的连接被称为“自连接”面向对象语言以对象的方式来描述世界,而面向集合语言SQL以集合的方式来描述世界,自连接技术充分体现了SQL面向集合的特性获取列的组合使用等号“=”以外的比较运算符,如“<、>、<>”进行的连接称为“非等值连接”将非等值连接与自连接结合使用称为“非等值自连接”,在需要获取列的组合时,我们经常需要用到这个技术注意:”<"、">"等比较运算符不仅可以用于比较数值大小,也可以用于比较字符串(比如按字典序进行比较)或者日期等无论.

2020-11-23 22:33:18 3389

原创 case表达式

CASE表达式的写法CASE表达式有简单CASE表达式和搜索CASE表达式两种写法-- 简单CASE表达式CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女'ELSE '其他' END-- 搜索CASE表达式CASE WHEN sex = '1' THEN '男' WHEN SEX = '2' THEN '女'ELSE '其他' END使用CASE表达式的时候,需注意以下几点:统一各分支返回的数据类型不要忘记写END养.

2020-11-23 22:33:01 438

原创 PyQuery库的使用

初始化URL初始化from pyquery import PyQuery as pq# 声明一个pyquery对象doc = pq(url="https://www.baidu.com")print(doc('head'))文件初始化doc = pq(filename="demo.html")print(doc('li'))remove() 方法

2020-11-18 21:52:17 84

原创 JavaScript事件

2020-11-18 21:15:58 59

原创 this关键字

在JavaScript中,this关键字指的是它所属的对象。它拥有不同的值:在方法中,指的是所有者对象单独的情况下,指的是全局对象在函数中,指的是全局对象在函数中,严格模式下,this是undefined在事件中,指的是接收事件的元素像call()和apply()这样的方法可以将this引用到任何对象方法中的this在对象方法中,this指的是此方法的“拥有者”单独的this在单独使用时,拥有者是全局对象,因此this指的是全局对象在浏览器窗口中,全局对象是[object .

2020-11-18 21:07:40 86

原创 JavaScript对象

在 JavaScript 中,几乎“所有事物”都是对象布尔是对象(如果用 new 关键词定义)数字是对象(如果用 new 关键词定义)字符串是对象(如果用 new 关键词定义)日期永远都是对象算术永远都是对象正则表达式永远都是对象数组永远都是对象函数永远都是对象对象永远都是对象所有 JavaScript 值,除了原始值,都是对象。JavaScript原始值原始值指的是没有属性或方法的值原始数据类型指的是拥有原始值的数据JavaScript定义了5种原始数据类型:st.

2020-11-18 20:09:09 84

原创 作用域和提升

作用域作用域指的是有权访问的变量集合在ES2015之前,在JavaScript中只有两种作用域类型:局部作用域 —— 局部(函数内)声明的变量拥有局部作用域,只能在它们被声明的函数内访问(在函数完成时被删除)全局作用域 ——全局(在函数之外)声明的变量拥有全局作用域,可以在 JavaScript 程序中的任何位置访问(在页面关闭时被删除)块作用域通过 var 关键词声明的变量没有块作用域,在块{} 内声明的变量可以从块之外进行访问{ var x = 10; }//.

2020-11-18 20:06:17 313

原创 Scrapy框架

Scrapy是用纯Python实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架Scrapy使用了Twisted异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各种需求Scrapy Engine:负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯、信号、数据传递等 (相当于总司令,发号司令)Scheduler(调度器):负责接收引擎发送过来的Request请求,并按照一定.

2020-11-16 22:35:34 115

原创 WordCloud库的使用

WorldCloud导入词云第三方库 worldcloudimport wordcloud创建词云对象,并赋值给WW = wordcloud.WordCloud()设置词云图片宽、高、字体、背景颜色W = wordcloud.WordCloud( width = 1000, height = 700, background_color = 'white', font_path = 'msyh.ttc')# font_path = 'msyh.ttc'表示把.

2020-11-15 17:06:05 900

原创 Selenium库的使用

Selenium库是一个自动化测试工具(模拟浏览器操作),支持多种浏览器。在爬虫中主要用来解决JavaScript渲染的问题。声明浏览器对象from selenium import webdriver# webdriver其实是一个浏览器驱动对象# 声明一个浏览器对象# The selenium.webdriver module provides all the WebDriver implementations. Currently supported WebDriver impleme.

2020-11-15 16:30:28 95

原创 SQL约束

约束(Constraints)用于限制加入表的数据的类型可以在创建表时规定约束(通过 CREATE TABLE 语句),或者在表创建之后也可以(通过 ALTER TABLE 语句)UNIQUE约束UNIQUE 约束唯一标识数据库表中的每条记录。UNIQUE 和 PRIMARY KEY 约束均为列或列集合提供了唯一性的保证。PRIMARY KEY 拥有自动定义的 UNIQUE 约束。请注意,每个表可以有多个 UNIQUE 约束,但是每个表只能有一个 PRIMARY KEY 约束。-- MyS.

2020-11-15 10:40:00 154

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除