6 猪逻辑公园

尚未进行身份认证

数据分析 机器学习 NLP 风控 营销推荐

等级
TA的排名 2w+

python编译、运行、反编译pyc文件

编译生成pyc:单个文件代码:import py_compilepy_compile.compile("test.py")命令行下:python -m py_compile test.py多个文件import compileallcompileall.compile_dir("存放海量py的目录")命令行下:python -m compil...

2019-12-13 14:04:49

使用pandas如何进行速度提升

前言当大家谈到数据分析时,提及最多的语言就是Python和SQL。Python之所以适合数据分析,是因为它有很多第三方强大的库来协助,pandas就是其中之一。pandas的文档中是这样描述的:“快速,灵活,富有表现力的数据结构,旨在使”关系“或”标记“数据的使用既简单又直观。”我们知道pandas的两个主要数据结构:dataframe和series,我们对数据的一些操作都是基于这两个...

2019-12-11 16:54:53

Numpy clip函数

numpy.clip(a, a_min, a_max, out=None)[source]其中a是一个数组,后面两个参数分别表示最小和最大值,怎么用呢,老规矩,我们看代码:import numpy as npx=np.array([1,2,3,5,6,7,8,9])np.clip(x,3,8)Out[88]:array([3, 3, 3, 5, 6, 7, 8, 8])也就...

2019-12-11 11:51:56

度量学习中的马氏距离(Mahalanobis Distance)

对马氏距离的定义:马氏距离是由印度统计学家马哈拉诺比斯(P. C. Mahalanobis)提出的,表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的)并且是尺度无关的(scale-invariant),即独立于测量尺度。 对于一个均值为,协方差矩阵为Σ...

2019-11-25 18:53:08

python numpy-tile函数

查看help文档help(numpy.tile)Help on function tile in module numpy.lib.shape_base:tile(A, reps) Construct an array by repeating A the number of times given by reps. If `reps` has length...

2019-11-25 14:49:20

sklearn分类评估参数 average

参数解释average: string, [None, ‘micro’, ‘macro’(default), ‘samples’, ‘weighted’]将一个二分类matrics拓展到多分类或多标签问题时,我们可以将数据看成多个二分类问题的集合,每个类都是一个二分类。接着,我们可以通过跨多个分类计算每个二分类metrics得分的均值,这在一些情况下很有用。你可以使用average参数来...

2019-11-22 11:28:54

Oracle数据库访问性能优化

目录一、百万级数据库优化方案二、oracle数据库两个基本概念三、数据库访问优化法则详解1、减少数据访问1.1、创建并使用正确的索引1.2、只通过索引访问数据1.3、优化SQL执行计划2、返回更少的数据2.1、数据分页处理2.2、只返回需要的字段3、减少交互次数3.1、batch DML3.2、In List3.3、设置Fetch Size...

2019-11-18 13:53:23

变量选择之VARCLUS

1 变量选择过程介绍对于数据挖掘来说,变量选择是一个很重要的过程,使用维归约来进行变量选择的好处是在能不降低预测能力的前提下,减少侯选变量的个数。本文将讲一下维归约的过程、维归约的方法以及实现这些方法的SAS过程步,主要包括VARCLUS,factor,princomp三个过程步,通过这三个过程步,我们可以将变量进行分组,然后通过选择组里几个重要的变量来代替整个组的变量,从而达到既减少侯...

2019-11-14 16:58:08

Levenshtein莱文斯坦计算相似度距离

https://github.com/ztane/python-Levenshtein/https://pypi.org/project/python-Levenshtein/Levenshtein.distance(str1,str2)1.百度百科介绍:Levenshtein 距离,又称编辑距离,指的是两个字符串之间,由一个转换成另一个所需的最少编辑操作次数。许可的编辑操作包...

2019-11-13 14:43:50

None vs NaN要点总结

在pandas中, 如果其他的数据都是数值类型, pandas会把None自动替换成NaN, 甚至能将s[s.isnull()]= None,和s.replace(NaN, None)操作的效果无效化。 这时需要用where函数才能进行替换s.where(s.notnull(), None)。 None能够直接被导入数据库作为空值处理, 包含NaN的数据导入时会报错。 numpy和pandas...

2019-11-13 11:37:38

orc格式和parquet格式对比

相比传统的方式存储引擎,列式存储引擎具有更高的压缩比,更少的IO操作而备受青睐,尤其是在数据列column数很多,单词操作仅针对若干列的情景,列式存储引擎的性价比更高.在互联网数据应用场景下,大部分情况下,数据很大且数据字段很多,但每次查询数据只针对其中的少数几行,这时候列式存储是极佳的选择,目前在开源实现中,最有名的列式存储引擎parquet 和orc ,在最近一年内,他们都晋升apache顶...

2019-11-12 11:23:46

Spark在Windows下的环境搭建

一、JDK的安装1、1 下载JDK  首先需要安装JDK,并且将环境变量配置好,如果已经安装了的老司机可以忽略。JDK(全称是JavaTM Platform Standard Edition Development Kit)的安装,去Oracle官网下载,下载地址是Java SE Downloads。  上图中两个用红色标记的地方都是可以点击的,点击进去之后可以看到这个最新版本的...

2019-11-08 14:25:21

jetbrains官网不能访问

登陆不上http://www.jetbrains.com/可能是由于以前修改过 C:\Windows\System32\drivers\etc 下的hosts文件可用notepad++将这两行注释掉

2019-11-08 13:11:27

一致性哈希算法应用与分析

一致性哈希算法主要使用在分布式数据存储系统中,按照一定的策略将数据尽可能均匀分布到所有的存储节点上去,使得系统具有良好的负载均衡性能和扩展性。感觉一致性哈希与数据结构中的“循环队列”还是有一点联系的。1.简单哈希算法  哈希(hash)计箅是常见的数据分布技术,其通过求模运算来计算哈希值,然后据此将数据映射到存储空间中。由于只是采用了简单的求模运算.使得简单哈希计算存在很多不足:  1)...

2019-11-05 18:00:59

提升指数、提升表和提升图

1. 什么是Lift?I) Lift(提升指数)是评估一个预测模型是否有效的一个度量;这个比值由运用和不运用这个模型所得来的结果计算而来。II) 一个简单的数字例子:i. 比如说你要向选定的1000人邮寄调查问卷。以往的经验告诉你大概20%的人会把填好的问卷寄回给你,即1000人中有200人会对你的问卷作出回应(response),用统计学的术语,我们说baseline respons...

2019-10-25 11:10:18

阿里之完整空间多任务模型ESMM介绍

论文地址:https://arxiv.org/abs/1804.07931在正式开篇之前,我们先介绍一下几个名词:impression:用户观察到曝光的产品click:用户对impression的点击行为conversion:用户点击之后对物品的购买行为CTR:从impression到click的比例CVR:从click到conversion的比例CTCVR:从impression到conve...

2019-10-21 17:53:35

Multi task learning(MTL)多任务学习介绍

1、定义及与其他机器学习任务的区别1.1 单任务学习与多任务学习既然要介绍多任务学习,那么就必须要提到与之对应的单任务学习。我们平时接触最多的那些机器学习算法基本都是单任务学习,即专注于一个学习目标。如上图所示,有4个独立的神经网络,每个网络针对同样的输入只有一个输出函数(优化目标),这四个网络之间没有任何连接,所以每个网络之间的表示层是独立的,彼此训练的隐层对其他网络的训练没有任...

2019-10-21 11:27:31

机器学习中的多标签分类

多标签分类的算法,通常改变算法或数据,最常用的方法如下:改造成二分类比如,y标签一共有L个分类,那么就建立L个分类器,分别对应L个分类标签,进行训练。标签排序+二分类使用“成对比较”(pairwise comparison),获得L(L-1)/2个分类器。在训练这些分类器后,利用投票方式得到标签的排序。然后,利用二分类来对标签排序的投票结果进行补充,提高准确性。随机k标签从...

2019-10-21 10:51:24

使用Scala-IDE构建Maven项目

前置环境安装并配置好:Java、spark、Hadoop、scala1. 下载Scala IDE通过以下链接下载Scala IDE:http://scala-ide.org/download/sdk.html根据自己的平台选择自己相应版本下载。下载完成之后解压,如下:选择eclipse.exe启动即可。2. 安装插件原生的Maven插件在Eclipse中,不能应用到sc...

2019-10-17 13:52:12

学习博客收藏

http://www.csuldw.com/https://github.com/zhpmatrix/nlp-competitions-list-reviewWide & Deep与DeepFM模型https://www.zhihu.com/people/wang-ming-hui-38/postshttp://wd1900.github.io/#bloghttps:/...

2019-10-16 10:40:26

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。