自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

Sake360的博客

原创聚类算法.

聚类算法1. 为什么学习聚类算法在没有具体类别标签列或结果的前提下，我们还希望对已有的数据进行分类，这时候就需要使用聚类方法。1.1 聚类方法案例引入（1）两个人在话筒前面同时说话，录音后发现这两个人的声音混杂在一起。因此我们需要区分两个人的声音，这时候我们依靠声音的频谱不同对声音进行不同的区分，当然如果实现并不知道每个人声音的特点的话，那么需要利用人们的声音数据进行训练，这就可以利用监督学习方式来实现。（2）我们试想下面场景：不同客户的有不同的特点和需求，针对每个客户的特点选定不同的销售策略。我

2021-10-12 09:02:44 1302 2

原创集成学习基础与实战

集成学习基础与实战1. 为什么学习集成学习单颗决策树算法容易产生过拟合，所以我们提出集成学习，其中的随机森林算法，可以通过多棵树的方案解决单颗树的过拟合问题，解决实际工作中常见分类问题。2. 什么是集成学习传统机器学习算法 (例如：决策树，逻辑回归等) 的目标都是寻找一个最优分类器尽可能的将训练数据分开。集成学习 (Ensemble Learning) 算法的基本思想就是将多个分类器组合，从而实现一个预测效果更好的集成分类器。集成算法可以说从一方面验证了中国的一句老话：三个臭皮匠，赛过诸葛亮[外链

2021-10-11 09:55:44 907

原创线性回归简介

2.1 线性回归简介学习目标了解线性回归的应用场景知道线性回归的定义1 线性回归应用场景房价预测销售额预测贷款额度预测线性关系举例：2 什么是线性回归2.1 定义与公式线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。特点：只有一个自变量的情况称为单变量回归，多于一个自变量情况的叫做多元回归。通用公式 h(w)=w1x1+w2x2+w3x3+...+b=wTx

2021-10-09 18:24:37 71393

原创决策树算法

决策树算法简介1 概念决策树思想的来源非常朴素，程序设计中的条件分支结构就是if-else结构，最早的决策树就是利用这类结构分割数据的一种分类学习方法。决策树：怎么理解这句话？通过一个对话例子：“闺女，我又给你找了个合适的对象，今天要不要见一面?”“多大？ ” “26岁。”“长得帅吗？ ” “还可以，不算太帅。”“工资高么？ ” “略高于平均水平。”“会写代码吗？ ” “人家是程序员，代码写得棒着呢！”“好，那把他联系方式发来吧，我抽空见一面。”上述图右侧部分，女儿最多通过四次判断，就

2021-10-08 19:36:14 1414

原创逻辑回归介绍

逻辑回归介绍学习目标了解逻辑回归的应用场景知道逻辑回归的原理掌握逻辑回归的损失函数和优化方案逻辑回归（Logistic Regression）是机器学习中的一种分类模型，逻辑回归是一种分类算法，虽然名字中带有回归。由于算法的简单和高效，在实际中应用非常广泛。1 逻辑回归的应用场景广告点击率是否为垃圾邮件是否患病金融诈骗虚假账号看到上面的例子，我们可以发现其中的特点，那就是都属于两个类别之间的判断。逻辑回归就是解决二分类问题的利器2 逻辑回归的原理要想掌握逻辑回归，必须掌

2021-09-29 08:59:07 1383

原创 K-近邻算法

K-近邻算法1.1 什么是K-近邻（KNN）算法学习目标知道什么是K近邻算法，及其特点掌握K-近邻算法的基本原理1 K近邻算法的特点k-近邻算法，也叫KNN算法(K-Nearest Neihbor，KNN)，是一个非常适合入门的算法，拥有如下特性：适用于分类问题，尤其是二分类，当然也可以用来预测回归问题思想极度简单，应用数学知识少(近乎为零)对于很多不擅长数学的小伙伴十分友好，KNN算法几乎用不到数学专业知识机器学习算法的hello world算法效果好虽然算法简单，

2021-09-28 09:02:29 890

原创机器学习基础

机器学习基础学习目标掌握机器学习相关概念掌握机器学习如何构建机器学习模型过程1. 为什么学习机器学习？随着技术的不断发展, 我们使用的分析方式也在不断发展和变化。过去，企业专注于收集有关其客户和产品的数据进行描述性、诊断性分析。但越来越多地，我们希望从收集的数据中进行预测性和规范性分析。1.1 什么是预测分析？数据分析四个层次: 描述性分析、诊断性分析、预测性分析、规范性分析[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-d2oeTN3T-16326472

2021-09-26 17:07:50 2269

原创游戏数据分析

游戏数据分析学习目标知道游戏行业关键数据指标掌握ARPU， ARPPU等指标的计算方法一、游戏行业关键数据指标1.1 运营数据激活数据总激活码发放量、总激活量、总登录账号数激活率、激活登录率激活率 = 激活量 / 安装量(激活码的)激活率 = 激活量 / 激活码发放量(激活码的)激活且登录率 = 激活且登录量 / 激活码激活量激活且登录率应用场景激活且登录率是非常常用的转化率指标之一，广泛用于端游、手游。大多数游戏公司在游戏封测期间(不管是端游还是手游)为

2021-09-25 10:02:05 3303

原创用户评论文本挖掘

用户评论文本挖掘学习目标知道评论文本挖掘的作用掌握使用nltk和gensim来进行基本NLP处理一、评论文本挖掘介绍文本挖掘就是从文本信息中挖掘我们感兴趣的内容数据分析师为什么要关注文本数据在我们日常的产品和运营工作中，经常接触的数据分析方法、形式绝大部分是基于对数字（值）的描述性分析。这些又被称为结构化数据除此之外，图片，文字，视频，这些统称为非结构化数据非结构化数据蕴含信息量大，特别是文本信息（用户评论）是用户对产品、服务是否满意的重要了解手段在产品和运营的实际工作中，发掘

2021-09-24 16:05:10 1856 1

原创商品库存分析

商品库存分析学习目标知道库存管理的ABC模型知道库存管理的XYZ模型完成ABC-XYZ建模案例无论是传统零售还是电商领域，关键产品的缺货会对销售和营销成本产生巨大的负面影响。在目前这个流量越来越贵的时代，好多流量都是付费购买来的，当我们用真金白银换来了用户的访问，应该尽量避免产品缺货。缺货会给用户带来很差的产品体验，并且会使用户流向竞品，导致用户流失。虽然我们可以通过保持一个过量库存的方式避免缺货情况，但是这会导致库存周转率较低，带来更大的资金和仓储成本，我们可以通过一套库存管理

2021-09-19 11:44:45 1480

原创用户行为分析

用户行为分析学习目标知道用户行为分析的常用方法知道AARRR模型的含义掌握使用Python代码进行用户行为分析1、什么是用户行为分析在产品运营中，如何及时准确的获得用户对产品的反馈十分重要，我们可以根据用户的反馈，及时改进产品，从而保持竞争优势。用户行为是指用户在产品上产生的行为，比如登陆，浏览商品，加购物车，收藏，点赞，分享，视频完播，划走视频等等2、如何进行用户行为分析2.1 事件分析行为事件分析的作用：研究某行为事件的发生对产品产生的影响以及影响程度。如用户注册

2021-09-17 15:29:54 1187

原创 2021-09-16数据推断

用户标签学习目标掌握用户标签的作用使用SQL实现用户标签案例0、精细化运营随着流量红利的消失，获取流量的成本逐渐升高，企业为追求更高的 ROI（(Return On Investment 投资汇报率），企业运营重心已经被迫从拉新流量转移至存量用户——对用户进行精细的分群，并配以细分的运营策略，将合适的产品精准推送给用户。什么是精细化运营和精细化运营相对的是粗放式运营，也就是在流量红利还在的时候，采用固定几种运营方式，大家看到的东西都是一样的，根据大众最终的实验效果去反馈

2021-09-16 08:54:42 89

原创多场景业务-数据推断

数据推断学习目标知道数据推断的使用场景使用SQL完成关键指标推断逻辑1 业务背景：缺失关键指标疫情期间，一家印度外卖餐厅想通过数据分析，数据挖掘提升销量，但是在历史数据中缺少了很重要的一个维度，用餐人数每单客人的就餐人数这一信息对于我们优化服务流程，设计套餐都有很大的指导意义从现在开始改造出餐系统，添加就餐人数字段，但是涉及工作量较大（前后端开发，数据库调整），并且改造完成后需要几个月之后积累了一定的数据量可以进行进一步分析从现有的数据中可以推理出每单的就餐人数，虽然会存在一

2021-09-15 08:44:21 174

原创 2021-09-14指标计算

指标计算学习目标掌握数据指标的概念知道常见的业务指标含义掌握常用数据指标计算方法在之前的课程中,我们学习了Excel, Tableau, SQL, Python, 机器学习，它们都属于数据分析要用到的工具，接下来我们就要结合业务场景，综合运用这些工具，来完成一些具体任务。数据分析/大数据分析的目的是为了用数据驱动运营，用数据驱动业务增长（数据驱动设计，数据驱动决策，数据驱动XXX……），我们之前也提到过数据分析的几个层次，描述性分析→诊断性分析→预测分析→规范分析。要做到数据驱

2021-09-14 13:32:35 1048

原创 6999999

datetime 数据类型学习目标应用Pandas来处理日期时间类型数据1 Python的datetime对象Python内置了datetime对象，可以在datetime库中找到from datetime import datetimenow = datetime.now()now显示结果：datetime.datetime(2020, 6, 17, 19, 47, 56, 965416)还可以手动创建datetimet1 = datetime.now()t2

2021-09-13 08:47:38 146

原创 0254345

数据透视表学习目标知道什么是透视表掌握Pandas透视表（pivot_table）的使用方法1 Pandas 透视表概述透视表是一种可以对数据动态排布并且分类汇总的表格格式。或许大多数人都在Excel使用过数据透视表，也体会到它的强大功能，而在pandas中它被称作pivot_table。数据透视表（Pivot Table）是一种交互式的表，可以进行某些计算，如求和与计数等。所进行的计算与数据，和数据透视表中的排列有关。之所以称为数据透视表，是因为可以动态地改变它们的版面布置，以便按照

2021-09-12 09:59:30 942

原创 4534534

分组操作学习目标应用groupby 进行分组,并对分组数据进行聚合,转换和过滤应用自定义函数处理分组之后的数据1 aggregate聚合在SQL中我们经常使用 GROUP BY 将某个字段,按不同的取值进行分组, 在pandas中也有groupby函数分组之后,每组都会有至少1条数据, 将这些数据进一步处理返回单个值的过程就是聚合,比如分组之后计算算术平均值, 或者分组之后计算频数,都属于聚合1.1 单变量分组聚合需求：加载data/gapminder数据集，计算每一年的平

2021-09-10 08:52:26 368

原创 5464564

apply自定义函数学习目标掌握apply的用法知道如何创建向量化函数1 简介pandas 的 apply() 函数可以作用于 Series 或者整个 DataFrame，功能也是自动遍历整个 Series 或者 DataFrame, 对每一个元素运行指定的函数。Pandas提供了很多数据处理的API,但当提供的API不能满足需求的时候,需要自己编写数据处理函数, 这个时候可以使用apply函数apply函数可以接收一个自定义函数, 可以将DataFrame的行/列数据传递给自定义函数

2021-09-09 08:48:35 183

原创 4534534

Pandas 数据类型学习目标了解Numpy的特点应用Pandas 数据类型转换掌握Pandas 分类数据类型使用方法1 Pandas数据类型简介1.1 Numpy 介绍Numpy（Numerical Python）是一个开源的Python科学计算库，用于快速处理任意维度的数组。Numpy支持常见的数组和矩阵操作。对于同样的数值计算任务，使用Numpy比直接使用Python要简洁的多。Numpy使用ndarray对象来处理多维数组，该对象是一个快速而灵活的大数据容器。比如我们

2021-09-08 10:09:11 114

原创 61651566

整理数据学习目标掌握melt函数整理数据的方法掌握stack、unstack的用法掌握wide_to_long函数的用法1 melt整理数据1.1 宽数据集变为长数据集加载美国收入与宗教信仰数据import pandas as pdpew = pd.read_csv('data/pew.csv')pew# 输出结果如下图[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-CHryjogG-1630976159977)(./img/整理数据-01.p

2021-09-07 08:56:14 139

原创 0215648

缺失数据处理学习目标知道什么是缺失值，为什么会产生缺失值熟练掌握缺失值处理的方式1 NaN简介好多数据集都含缺失数据。缺失数据有多重表现形式数据库中，缺失数据表示为NULL在某些编程语言中用NA或None表示缺失值也可能是空字符串''或数值 0在Pandas中使用NaN表示缺失值Pandas中的NaN值来自NumPy库，NumPy中缺失值有几种表示形式：NaN，NAN，nan，他们都一样缺失值和其它类型的数据不同，它毫无意义，NaN不等于0，也不等于空字符串fr

2021-09-06 14:59:57 893

原创 66666

数据组合学习目标熟练使用Pandas连接数据熟练使用Pandas合并数据集1 简介在动手进行数据分析工作之前，需要进行数据清理工作，数据清理的主要目标是每个观测值成一行每个变量成一列每种观测单元构成一张表格数据整理好之后，可能需要多张表格组合到一起才能进行某些问题的分析一张表保存公司名称，另一张表保存股票价格单个数据集也可能会分割成多个，比如时间序列数据，每个日期可能再一个单独的文件中2 数据连接组合数据的一种方法是使用“连接”（concatenation)

2021-09-04 09:54:16 232

原创 2725266

Pandas 数据分析入门学习目标掌握在Pandas中计算常用统计量的方法初步使用pandas进行简单排序、分组、聚合等计算1 计算常用统计值加载数据之后，可以通过之前学习的内容计算最大值，最小值，平均值，分位数，方差等方式对数据的分布情况做基本了解，这里就不再重复讲解import pandas as pdcollege = pd.read_csv('data/college.csv')college.head()# 输出结果如下INSTNMCITYSTABBR

2021-09-03 08:51:47 255

原创 321654

Pandas DataFrame 入门学习目标掌握DataFrame加载数据文件的方法知道如何加载部分数据知道如何对数据进行简单的分组聚合操作1 Pandas的DataFrame简介Pandas是用于数据分析的开源Python库，可以实现数据加载，清洗，转换，统计处理，可视化等功能DataFrame和Series是Pandas最基本的两种数据结构DataFrame用来处理结构化数据（SQL数据表，Excel表格）Series用来处理单列数据，也可以把DataFrame看作由Serie

2021-09-02 15:47:58 329

原创 3648766

1. Python数据分析介绍及环境搭建1.1python数据分析简介【了解】1.1.1 python做数据分析的优势可以独立完成数据分析的各种任务功能强大,有海量的开源包(pandas,numpy…)处理海量数据效率高开源免费1.1.2 常用python数据分析开源库numpy:用于数组计算pandas:分析结构化数据的工具集series:类似一维数组的对象(一行数据或者一列数据)dataframe:表格型数据结构(有行有列的数据)matplotlib,seab

2021-09-01 08:48:21 102

原创 2021-08-31

Python数据分析简介学习目标了解Python做数据分析的优势知道Python数据分析常用开源库1 为什么使用Python进行数据分析1.1 使用Python进行数据分析的优势Python作为当下最为流行的编程语言之一，可以独立完成数据分析的各种任务功能强大，在数据分析领域里有海量开源库，并持续更新是当下热点——机器学习/深度学习领域最热门的编程语言除数据分析领域外，在爬虫，Web开发等领域均有应用与Excel，PowerBI，Tableau等软件比较

2021-08-31 14:20:08 65

原创 2021-08-27

miniweb开发#web界面# 1、导入模块import socketimport threadingimport framework# 2、定义一个HTTPWebServer类class HttpWebServer(object): # 3、定义__init__初始化方法 def __init__(self): # 4、创建套接字对象 tcp_server_socket = socket.socket(socket.AF_INET, so

2021-08-27 08:43:26 73

原创 2021-08-26

#6.静态Web服务器面向对象版本import socketimport threadingclass HttpWebServer(object):# 1、定义一个__init__()魔术方法，用于初始化socket套接字对象def init(self):# 2、创建套接字对象tcp_server_socket = socket.socket(socket.AF_INET, socket.SOCK_STREAM)# 设置端口复用tcp_server_socket.setsockopt(so

2021-08-26 08:45:23 37

原创 1153132

5.静态Web服务器多任务版本import socketimport threadingdef handle_client_request(conn_socket):# 6、接收客户端发送过来的请求数据recv_client_data = conn_socket.recv(4096)if len(recv_client_data) > 0:# 把客户端的请求数据转码recv_client_content = recv_client_data.decode(‘utf-8’)# prin

2021-08-24 15:44:01 43

原创 132313

3.TCP客户端应用开发‘’’要用到的知识点：encode()方法，decode()方法encode(编码格式)方法：把字符串类型的数据转换为bytes字节流数据，编码格式可以是gbk或utf-8decode()方法：把bytes字节流数据转换为字符串类型的数据‘’’import socket1、创建套接字对象（IPV4/TCP协议）tcp_client_socket = socket.socket(socket.AF_INET, socket.SOCK_STREAM)2、和服务器端套接字

2021-08-22 10:34:44 69

原创 123123

2.多线程任务‘’’Python中多线程实现多任务的三步走：① 导入模块② 创建子线程③ 启动线程线程之间共享全局变量，但是要注意资源竞争的问题，解决办法: 线程同步‘’’import threadingimport time定义一个全局变量（数字）g_num = 0定义一个函数（循环100万次，循环累加）def sum_num1():for i in range(1000000):global g_numg_num += 1print(“sum1:”, g_num)定义

2021-08-21 08:50:01 193

原创 2021-08-20

'''多进程实现多任务一共分为三步走：① 导入多进程模块② 创建子进程③ 启动进程'''import multiprocessingimport time# 1、创建一个music函数def music(count): for i in range(count): print('听音乐') time.sleep(0.2)# 2、创建一个coding函数```pythondef coding(count): for i in ran

2021-08-20 10:42:02 35

原创 2021-08-16

进程与线程的对比1.线程不能够独立执行，必须依存在进程中。2.多进程开发稳定性强，某个进程挂掉不会影响其它进程。3.进程是操作系统资源分配的基本单位，线程是CPU调度的基本单位。4.进程：优点：可以用多核；缺点：资源开销大。线程：优点：资源开销小；缺点：不能使用多核。5.进程之间不共享全局变量。线程之间共享全局变量，但是要注意资源竞争的问题，解决办法: 线程同步。...

2021-08-16 08:48:29 35

原创 00000005

1、在子类中调用父类方法super（）.方法名（）类名.方法名（self）spuer（要从哪一个类的上一级类开始查找， self）.方法名（）子类调用父类方法时，一般都是想对父类方法进行扩展class Person(object): def __init__(self, name, age): self.name = name self.age = age def driver(self): print('开车太好玩了 ,10迈

2021-08-13 18:19:45 76

原创 00000004

1、实例属性的添加和获取在类的外部添加和获取实例属性添加：对象名.属性名 = 值获取：对象名.属性名创建对象后，我们对其中一个对象添加实例属性，其他对象不发生变化# 在类的外部可以添加或获取实例属性# 格式:# 实例属性添加:对象.属性名 = 值# 实例属性获取:对象.属性名# 定义类class Person(object): def eat(self): print('早饭吃了油条和包子,血糖110')# 实例化属性p1 = Person()

2021-08-13 18:19:01 76

原创 00000003

1、文件的基本操作文件打开的格式：file = open（文件路径，读写模式）文件路径：可以写相对路径，也可以写绝对路径读写模式：r（读取） w（写入） a（追加）文件打开后，必须关闭，否则持续消耗服务器性能。# 文件读写,在使用的时候和我们正常使用文件一样# 1.打开文件# 2.操作文件# 3.关闭文件# 打开文件使用open函数即可# 格式: open(file_name(文件路径), mode(读写模式)) 使用该函数会返回一个文件对象# 文件路径:可以写相对

2021-08-13 18:18:10 97

原创 00000002

1、不定长参数位置不定长参数（*args）：多余的位置参数，可以被args接收,并且打包为一个元组，保存在args当中。# 不定长参数主要就是在定义函数时,不确定参数的个数时即可进行不定长参数的书写'''位置不定长参数的定义格式:def 参数名(*args): 函数体'''# def func(*args):# print(*args) # 相当于书写内容为 print(1,2,3)### func(1, 2, 3)# print(1, 2, 3)#

2021-08-13 18:10:35 107

原创 00000001

1、公共方法+加法运算适用于所有的基础数据类型（int float bool）加法运算所有两侧要是同种数据类型加法运算再容器类型中是拼接的意思，不是相加计算值# +法运算,都可以用于哪些数据类型之间# int float bool 肯定可以用于加法运算,不再赘述print(1 + 12.3) # 13.3# str 可以相加么? 可以str1 = 'hello'str2 = ' python'# 字符串相加,可以快速将字符串进行拼接print(str1 + str

2021-08-11 19:37:51 82

原创 0000000

1、列表的查询index：从左至右查询元素在列表中所处的位置，如果查询到该元素返回其第一次出现所在位置的正向下标，如果不存在则报错count：查询指定元素在列表中出现的次数in：查询指定元素是否在列表中not in：查询指定元素是否不在列表中# 索引查询name_list = ['Bob', 'Jack', 'Rose']# print(name_list[0]) # Bob# print(name_list[1]) # Jack# print(name_list[2]) #

2021-08-10 21:17:15 245

原创 00000231

1、循环介绍有条件的重复做相似的事情Python中循环分为while 和for2、while循环的使用格式： while 条件：循环体while 循环的三个必要元素while 关键字循环条件循环体构造循环要想的四件事初始状态循环条件要重复做的事情循环控制案例# 需求:求1-100的累加和# 初始状态i = 1sum1 = 0while i <= 100: # 求累加和 # sum1 = sum1 + i sum1 +

2021-08-10 09:00:06 61

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

天浊海 CSDN认证博客专家 CSDN认证企业博客

码龄5年

IP 属地：江西省

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

43: 原创

12万+: 周排名

195万+: 总排名

9万+: 访问

: 等级

438: 积分

8: 粉丝

4: 获赞

3: 评论

74: 收藏

私信

关注

热门文章

最新评论

用户评论文本挖掘
weixin_42167876: review.csv 数据源能否分享一下？谢谢。
聚类算法.
CSDN-Ada助手: 非常感谢您分享关于聚类算法的博客，我觉得这个主题非常有意思。作为一名技术爱好者，我希望您能继续深入探讨聚类算法的应用场景和实现方法，或是介绍一些新的聚类算法。因为了解聚类算法对于数据挖掘和机器学习非常重要，希望您能分享更多的经验和技巧，让更多的读者受益。因此，我建议您写一篇关于“基于密度的聚类算法”的技术博文，介绍其原理、优缺点以及实现方法，相信这篇文章会受到很多读者的欢迎和赞赏。期待您的下一篇博客！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
聚类算法.
造化圣者: 别再隐藏实力了大佬

最新文章

提示

确定要删除当前文章？

取消删除