自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

微信号:RunsenLiu

不喜欢搞学术和技术,喜欢money更多点

  • 博客(1349)
  • 资源 (171)
  • 问答 (12)
  • 收藏
  • 关注

原创 Tensorflow深度学习系列专栏简介

在深度学习系列专栏中,我们将深入探讨TensorFlow两个领先的深度学习框架,为读者提供全面而实用的知识。专栏始于深度学习的基础概念,包括神经网络结构、前馈与反向传播等核心知识,为初学者提供坚实的基础。通过这一系列,我们旨在为读者提供一个全面的学习路径,帮助初学者建立深度学习的基础,同时为有经验的开发者提供深入探讨框架内部机制的机会。我们相信这个专栏将为深度学习爱好者和从业者提供有价值的学习资源,助力大家更好地理解和应用深度学习技术。

2024-02-26 06:49:57 709 2

原创 9 | Tensorflow io流和 tfrecord读取操作

tf.io模块是 TensorFlow 中用于处理输入输出(I/O)操作的工具模块,提供了许多常见的函数,用于读写文件、处理图像、序列化和反序列化数据等。以下是一些常见的tf.io这些函数提供了在 TensorFlow 中进行常见 I/O 操作所需的工具。具体的使用方式可以根据你的任务和数据类型进行调整。

2024-01-19 08:27:58 260

原创 8 | Tensorflow中的batch批处理

TensorFlow支持批处理(batch processing)。批处理是指同时处理多个样本或数据点而不是单个样本。在深度学习中,批处理通常用于提高训练的效率和稳定性。在TensorFlow中,可以使用 API来设置和处理批处理数据。这允许以批处理的方式加载和处理数据,适用于训练神经网络模型。以下是一个简单的TensorFlow批处理的示例代码:这个例子中, 用于将输入数据切片成小批次,然后通过 和 方法进行打乱和批处理。常见的批处理操作主要涉及 TensorFlow 中的 类和相关函数,用于处理

2024-01-16 07:31:42 259

原创 13 | 使用代理ip爬取安居客房源信息

在上述代码中,通过调用代理API获取代理IP,然后在爬虫请求中使用这些代理IP,从而达到绕过反爬虫机制、提高稳定性和保护隐私的目的。需要注意的是,在使用代理IP时,应确保遵守相关法规和网站的使用条款,以免引起不必要的法律问题。该爬虫使用了代理IP来绕过可能的封禁,并提供了一些基本的信息抽取功能。通过使用代理IP,可以更换请求的源IP,减少被封锁的风险。通过使用代理IP,可以模拟不同地理位置的访问,获取更全面的数据。代理IP服务商通常提供稳定的网络连接和高质量的IP地址,可以提高爬虫的稳定性和可靠性。

2024-01-14 20:56:42 402

原创 19 | spark 统计 每列的数据非缺失值

计算CSV文件中每列的数据覆盖率(非缺失值的百分比)时,您可以使用提供的Java代码来完成这项任务。

2023-09-05 23:32:18 695

原创 18 | Spark 实现学生等级划分

你有一个包含学生信息的数据集,每个学生都有姓名、年龄和分数。你希望通过Spark进行学生成绩分析。

2023-09-04 21:38:48 322

原创 17 | Spark中的map、flatMap、mapToPair mapvalues 的区别

是用于对RDD(Resilient Distributed Dataset)进行转换的不同操作。这些操作可以用来处理分布式数据集中的元素,但它们的用途和行为略有不同。操作,并输出了相应的结果。请确保您的Spark环境已正确配置,并且Spark依赖已包含在项目中,以使上述代码能够运行。以下是完整的Apache Spark Java代码示例,包括创建SparkContext和RDD,并使用。请注意,这些示例仅用于演示目的,需要根据您的环境和数据进行适当调整。上述代码创建了一个Spark应用程序,依次执行了。

2023-09-04 20:57:20 868

原创 在Jupyter 中 from XXX import * 报错

通过执行 sys.path.append(‘./’) 这行代码,您将当前目录(即’./')添加到 sys.path 中。这意味着 Python 程序会在当前目录中查找模块,以便能够正确导入在当前目录下的模块文件。这在某些情况下很有用,特别是当您的 Python 脚本或程序需要导入同一目录下的自定义模块时。通过将当前目录添加到 sys.path 中,您可以确保Python可以找到并正确导入当前目录下的模块。但是 XXX.py 确实在同一个目录下,但是无法导入XXX中的XX方法。解决问题是 : 麻烦添加。

2023-09-03 16:25:08 1077 1

原创 16 | Spark SQL 的 UDF(用户自定义函数)

UDF允许您定义自己的函数,以便在DataFrame或SQL查询中使用。在本教程中,我们将演示如何创建一个UDF,该UDF将字符串的长度作为输入,并返回该字符串的长度作为输出。UDF允许您定义自己的函数,并将其应用于Spark DataFrame或Dataset。:在DataFrame操作或SQL查询中,您可以使用注册的UDF函数。方法将UDF函数注册到SparkSession中,以便后续可以在SQL查询或DataFrame操作中使用。:您需要创建一个包含要应用UDF的数据的DataFrame。

2023-09-03 13:45:04 1140

原创 15 | Spark SQL 的 SQL API 操作

Spark SQL 允许使用标准 SQL 语句来查询和分析数据。用户可以通过 SparkSession 执行 SQL 查询,并将结果返回为 DataFrame。这使得熟悉 SQL 的用户能够方便地使用 Spark SQL 进行数据处理。

2023-09-03 13:19:23 921

原创 14 | Spark SQL 的 DataFrame API 读取CSV 操作

在这个需求中,我们将使用 Apache Spark 的 DataFrame API 对包含销售数据的 CSV 文件进行不同类型的数据操作。当使用 Spark SQL 的 DataFrame API 读取 CSV 文件时,你可以按照以下步骤进行操作。从包含销售数据的 CSV 文件中加载数据,并创建一个 DataFrame 来存储它。方法显示 DataFrame 的前几行数据,以便查看数据的内容。将包含多个值的列拆分成多个列,以便更细粒度地处理数据。将多个列的值合并成一个新的列,以便创建更有用的信息。

2023-09-03 13:14:29 1795 2

原创 13 | Spark SQL 的 DataFrame API

DataFrame 是 Spark SQL 中的核心数据结构,它是一个分布式的带有命名列的数据集,类似于传统数据库表或 Pandas 数据帧。DataFrame API 提供了多种操作和转换方法,包括选择、过滤、分组、聚合、连接等,用于处理和分析数据。:将数据按照一个或多个列进行分组,然后对每个组进行聚合操作(如计数、平均值、总和等)。:连接两个或多个 DataFrame,可以进行内连接、外连接等不同类型的连接操作。:选择一个或多个列以构建新的 DataFrame。:将多个列的值合并成一个新的列。

2023-09-03 10:30:28 738

原创 12 | 使用 Spark SQL执行CURL

SparkSession 是 Spark SQL 2.0 引入的一个关键概念,它是 Spark 2.0 之后的版本中取代了旧版的 SparkConf、SparkContext 和 SQLContext 的核心入口点。:Spark SQL 是一个用于处理结构化数据的 Spark 组件,它结合了 Spark 引擎的强大性能和 SQL 查询的表达力,允许用户在大规模数据上执行 SQL 查询和数据分析。在这个教程中,我们将介绍Spark SQL的基本概念和示例代码,帮助你入门Spark SQL的使用。

2023-09-03 09:33:45 840 1

原创 Exception in thread “main“ java.lang.NoSuchMethodError: scala.util.Properties$.coloredOutputEnabled(

这个错误是由于Spark项目使用的Scala版本与你的项目中使用的Scala版本不兼容所引起的。Scala在不同版本之间可能会引入不同的方法和特性,因此如果你的Spark项目和你的项目使用了不同版本的Scala,就可能会导致这种类型的错误。在执行 Java spark 任务中 ,出现。查看本地的scala版本,发现不一致。

2023-09-03 09:25:09 289

原创 11 | Spark计算数据文件中每行数值的平均值

需求:计算数据文件中的数值的平均值。

2023-09-02 21:31:07 925

原创 10 | Spark 查找每个单词的最大行号

假设你有一个包含文本行号和文本内容的RDD,现在你想找出每个单词出现在哪些行,并计算它们出现的最大行号。需求是从包含文本行号和文本内容的RDD中找出每个单词出现在哪些行,并计算它们出现的最大行号。代码首先将每行文本内容拆分成单词,并将每个单词与其所在的行号映射为键值对(单词, 行号)。代码从一个包含文本行号和文本内容的RDD中读取数据,示例数据包括四行文本。分析文本数据,找出每个单词在文本中的位置,然后找出每个单词出现的最大行号。操作对相同单词的行号进行聚合,并找出每个单词出现的最大行号。

2023-09-02 11:06:39 565

原创 9 | 求出不同性别和不同科目的学生平均分数

我们有一组学生的成绩数据,其中包括学生的姓名、性别和科目,我们需要分析不同性别和不同科目的学生平均分数。

2023-09-02 10:54:36 240

原创 8 | Spark计算学生的平均分数

我们有一组学生的姓名和分数数据,我们需要计算每个学生的平均分数。

2023-09-02 10:47:21 417

原创 7 | 计算每个键对应的平均值,并按降序排序

假设您有一个包含销售订单的RDD,其中每个元素是一个键值对,其中键表示产品名称,值表示销售数量。是一个Spark转换操作,它用于将一个键值对RDD中的每个元素映射到另一个键值对RDD,同时可以对元素进行转换或重新排列。操作将每行数据转换为键值对形式的RDD,其中键是CSV文件的第一列,值是CSV文件的第二列。操作的作用是将原始RDD中的元素转换成键值对,然后返回一个新的键值对RDD。中的每个元素进行转换,将每个键(String类型)映射到一个新的键值对。操作中进行聚合,以计算每个键对应的总和和计数。

2023-09-01 23:30:33 800

原创 6 | 从文本文件中读取单词并输出不重复的单词列表

Transformation 操作是用于从一个 RDD(Resilient Distributed Dataset)创建一个新的 RDD,通常是通过对原始 RDD 的元素进行映射、筛选、分组等操作来实现的。Transformation 操作不会立即执行,而是惰性计算,只有在 Action 操作触发时才会真正执行。Action 操作会导致 Spark 集群上的计算任务立即执行。在一个数据处理项目中,我们需要从一个文本文件中提取单词,并生成一个包含不重复单词的列表,以进行进一步的分析或处理。

2023-09-01 21:41:41 532

原创 5 | Java Spark WordCount打成Jar 包测试

使用 Maven 或 Gradle 等构建工具,将您的项目编译并打包成一个包含依赖项的 JAR 文件。这个 JAR 文件将包含您的 WordCount 代码以及 Spark 依赖项。运行此命令将在 Spark 集群上启动 WordCount 作业,它将读取指定的输入文件,执行 WordCount 操作,然后将结果打印到控制台。首先,确保 编写了 WordCount 代码,已经提供了正确的输入文件路径。将生成的 JAR 文件上传到您的 Spark 集群中,然后使用。

2023-09-01 21:09:01 1013

原创 4 | Java Spark实现 WordCount

简单的 Java Spark 实现 WordCount 的教程,它将教您如何使用 Apache Spark 来统计文本文件中每个单词的出现次数。首先,确保您已经安装了 Apache Spark 并设置了运行环境。您需要准备一个包含文本内容的文本文件,以便对其进行 WordCount 分析。

2023-09-01 19:56:47 1308

原创 3 | Java Spark 配置和 数据筛选

下面将演示如何使用 Apache Spark 的 Java API 来加载数据、筛选出偶数,并计算它们的总和。Apache Spark 是一个强大的分布式计算框架,适用于大规模数据处理任务。

2023-09-01 19:19:35 708

原创 2 | Window 搭建单机 Hadoop 和Spark

搭建单机 Hadoop 和 Spark 环境可以学习和测试大数据处理的基础知识。在开始之前,请确保你已经安装了 Java 开发工具包(JDK),并且已经下载了 Hadoop 和 Spark 的最新版本。你可以从官方网站或镜像站点获取它们。

2023-09-01 18:47:55 723

原创 66 | RMF细分聚类案例

RFM模型基于三个关键指标,即最近购买时间(Recency)、购买频率(Frequency)和消费金额(Monetary),通过这些指标分析客户的购买行为,将客户划分为不同的价值层级。随着电子商务的迅速发展,企业面临着巨大的竞争压力,为了有效地满足不同客户群体的需求,提高市场份额,更深入地了解客户的消费行为变得至关重要。使用不同的符号(五角星、圆点、三角形)代表不同价值类别的用户,绘制了F值与M值的散点图,以展示客户的分布情况。统计了每个用户的总购买金额(消费金额),计算了M值,并绘制了M值的分布直方图。

2023-08-21 21:32:28 197

原创 65 | 增长模型案例

增长模型代表了一种综合性的方法论,旨在通过深入了解用户行为、市场趋势和数据洞察,来指导企业制定有效的增长战略。这种方法突破了传统的经验主义,将决策过程建立在数据驱动和实验的基础之上。增长模型不仅仅是一种理论,更是一种实际操作的框架,帮助企业在各个层面实现业务增长。

2023-08-21 21:09:07 213

原创 64 | A/B测试案例

A/B测试(又称为分割测试或对照测试)是一种实验性的方法,用于比较两个或多个变体(例如不同的网页设计、广告文案、功能等)在特定指标上的性能,从而确定哪个变体在某个目标上表现更好。通过随机将用户分配到不同变体的组中,收集数据并进行统计分析,你可以做出更准确的决策,以优化产品、服务或内容。为什么要使用A/B测试?A/B测试是基于实际数据和统计分析的方法,它可以帮助你避免主观判断和假设,从而做出更可靠的决策。通过A/B测试,你可以确定某个变化是否会显著影响用户行为,从而有效地改进产品或内容,提升业务指标。

2023-08-21 20:56:45 117 1

原创 63 | 留存分析案例

通过数据驱动的方法,我们可以识别影响留存率的因素,制定更精准的留存策略。随着信息时代的到来,企业面临着更多机会和挑战,通过科技手段收集和分析数据,深入了解客户行为和需求,成为了提升留存率的重要策略之一。然后,我们使用Kaplan-Meier生存分析方法绘制了整体的留存曲线,从中可以看出会员的留存率随着入会月数的增加逐渐下降,这提醒我们需要关注新会员的留存情况。例如,不同的会费支付方式和会员卡类型对留存率产生了不同的影响,这提示我们可以针对不同的客户群体制定不同的留存策略。

2023-08-21 20:28:22 128

原创 62 | 漏斗分析案例

首先,明确您想要分析的过程。比如,一个电子商务网站的漏斗可以包括浏览商品、加入购物车、结算等步骤。

2023-08-20 14:48:35 164

原创 61 | 归因渠道分析案例

将所有功劳归于最后一个引导客户转化的渠道。这种模型简单直接,但可能忽略了其他渠道的影响。

2023-08-19 12:12:01 226

原创 60 | 用户画像案例

用户画像是一种分析和描述目标受众特征的方法,可以帮助您更深入地了解您的受众群体,揭示他们的兴趣、需求和行为。首先,您需要收集有关用户的数据,这可以包括用户的基本信息(如年龄、性别、地理位置)、在线行为(如浏览历史、购买记录)、社交媒体活动等。使用数据分析工具(如Python、R、Excel等),对数据进行探索性分析。查看用户的特征分布,比如年龄分布、性别比例等。对每个用户群组进行更详细的分析,进一步了解他们的兴趣、需求和行为。例如,分析特定群组的购买偏好、浏览内容等。根据监测结果,优化和调整您的营销策略。

2023-08-19 12:04:28 247

原创 59 | RFM模型实战案例

RFM模型是一种用于客户分析和营销策略制定的工具,其名称来源于三个关键指标:最近一次购买(Recency)、购买频率(Frequency)和购买金额(Monetary)。RFM模型的核心思想是通过分析客户在这三个方面的行为,将客户划分为不同的分群,以便更好地了解客户的价值和行为特征,并制定针对性的营销计划。这个指标衡量了客户最近一次购买产品或服务的时间。一般来说,最近购买的客户可能更有可能继续购买,因此他们的价值相对较高。这个指标表示在一段时间内客户购买产品或服务的次数。

2023-08-19 11:43:15 160

原创 30 | 聚类算法

图像压缩时用较少的数据量来表示原有的像素矩阵的过程,该过程称为图像编码,但是数字图像的数据量庞大,需要占用很大的存储空间,给存储、计算、传输等带来不小的资源消耗,因此会预先对数字图像进行压缩,压缩的方法之一就是聚类算法。聚类也是进行异常检测的方法之一,常用的便是基于距离的异常检测方法,该方法包含并拓展了基于统计的思想,即使数据集不满足任何特定分布模型,仍能有小弟发现离群点,特别是当空间维度数目较高时,算法的效率比基于密度的高很多。常用的聚类算法分为基于划分、层次、密度、网络、统计学、模型等类型的算法。

2023-08-19 10:27:56 193

原创 58 | 小红书产品体验报告

用户基数大且价值高2022 年小红书最新数据显示,目前小红书有超 2 亿月活用户, 用户基数非常大。其中 72%为 90 后,50%分布在一二线城市。用户可分为六大人群标签:Z 世代、新锐白领、都市潮人、单身贵族、精致妈妈 和享乐一族。可以看出,这类用户普遍生活质量偏高且具有较高的消费潜能。这为小红薯平台提供了巨大 的获利的“客源”。为消费者提供决策用户通过浏览笔记来种草、拔草想要的或者相关的商品,通过笔记更好的了解商品是否是真的满足自己的 期望要求和需要,来为自己的消费更好的决策。

2023-08-19 09:27:46 356

原创 57 | TAPTAP客户端分析

前面已经说过,游戏爱好者更倾向于玩“好玩”的游戏,在TapTap游戏库中选择游戏时,每款游戏的标签和评分也会显示,玩家除了自己主观判断外,可以根据标签和评分来选择是否点击这款游戏,这点是非常好的。发帖是用户之间交流的重要方式,但taptap客户端发帖却仅仅只限于文字和图片,我认为在传播信息方面,文字是不如图片的,图片是不如视频的,特别是对于游戏这种交互性极强的产品,视频其实很大程度上比图片文字传达信息效果好。进入论坛后,taptap采用了点聚式的交互方式,无论你在浏览何处的帖子,你都可以直接点击然后发帖。

2023-08-19 08:53:36 259

原创 56 | 国内游戏直播竞品分析

综上所述, 斗鱼最为全面但更注重于社交类,不仅有丰富的弹幕互动形式, 更建立了鱼吧, 用户可以畅所欲言, 不仅主播可以创造平台内容, 观众也可以发 挥自己的想象力去引进流量。熊猫则注重娱乐(星秀直播和自创节目), 引进一系列的明星,吸引粉丝跟 进潮流。同时自创一系列节目, 培养平台的粉丝而不是主播的粉丝。(与斗鱼不 同,不能自发的创造内容而引进流量)。因此,如果一个用户需求在于社交,那么斗鱼将是很好的选择;如果用户对 社交不太敏感,只关注于娱乐,那么熊猫直播对于他而言则更加适合。

2023-08-19 08:46:17 557

原创 55 | 商品数据化运营

商品是指狭义上的实物商品,不包含有偿服务、虚拟商品等。商品和产品在很多场合下可以互用,但在互联网领域,产品也可用来表示与用户交互的载体,例如app、网站等。但这类产品的概念非以下所讨论的商品范畴之内。

2023-08-18 18:37:36 127

原创 54 | 会员数据化运营概述

RFM模型是根据会员最近一次购买时间R(Recency),购买频率F(Frequency),购买金额M(Monetary)计算得出RFM得分,通过这3个维度来评估客户的订单活跃价值,常。针对营销活动展开的,通常在做会员营销活动之前,通过营销响应预测模型分析,找到可能响应活动的会员特征及整体响应的用户比例、数量和可能带来的销售额。在该模型中,不要求用户发生交易,因此可做未发生登陆、注册等匿名用户的行为价值分析,也可以做实名用户分析。用于评估用户的价值情况,是区分会员价值的重要模型和参考依据,也是。

2023-08-18 18:36:48 213

原创 53 | 金融行业股票销售指标分析

通过深入分析交易量、成交金额、涨跌幅等关键指标,投资者可以更好地了解市场趋势、投资者情绪以及投资风险,从而做出更明智的投资决策。同时,合理运用数据分析工具和技术,能够提高分析的效率和准确性,为金融行业的投资者和相关机构提供更全面的市场洞察。通过深入分析关键的销售指标,投资者、金融机构和交易平台可以更好地了解市场趋势,作出明智的投资决策,优化交易策略。考察市场中的重要事件,如公司公告、政策变化等,看它们是否与涨跌幅和交易活跃度的波动相关。考察市场中的重要事件,如宏观经济因素、公司业绩等,分析其对指标的影响。

2023-08-17 12:42:20 633

原创 52 | 电商行业销售指标分析

通过这样的分析案例,电商公司可以获得更深入的洞察,制定更明智的决策,以提升业务绩效和竞争力。请注意,具体案例可能因公司规模、市场情况和数据可用性而有所不同。电商公司A是一家在线零售商,销售各种商品,包括服装、家居用品和电子产品。该公司在过去一年内进行了一系列营销活动和扩展计划。通过对电商公司A的综合业绩进行分析,了解其销售趋势、市场份额、客户满意度和盈利能力。

2023-08-17 12:34:01 162

基于YOLO5细胞检测实战.zip

在进行基于YOLOv5的细胞检测实战时,完成以下的事情: 1. **数据采集与标注**:详细描述如何采集细胞图像数据,并进行标注。说明采集设备、图像分辨率、标注工具以及标注过程中的质量控制措施。 2. **数据预处理**:解释在输入模型之前对数据进行的预处理步骤,例如图像尺寸的调整、归一化和数据增强方法的选择。强调预处理的重要性以及如何影响模型的性能。 3. **模型选择与调优**:描述为什么选择YOLOv5作为细胞检测的模型,并说明如何调整模型的超参数以适应特定的细胞检测任务。可以讨论模型的架构、损失函数选择以及训练策略。 4. **训练过程**:详细说明模型的训练过程,包括数据集的划分、训练参数的设置、学习率调度方法以及监控训练过程中的性能指标。可以提供训练代码片段或脚本。

2024-02-19

天池-新闻推荐 推荐系统

零基础入门推荐系统 - 新闻推荐 赛题以新闻APP中的新闻推荐为背景,要求选手根据用户历史浏览点击新闻文章的数据信息预测用户未来点击行为,即用户的最后一次点击的新闻文章,测试集对最后一次点击行为进行了剔除。通过这道赛题来引导大家了解推荐系统中的一些业务背景,解决实际问题,帮助竞赛新人进行自我练习、自我提高。

2024-02-19

27 - Titanic 乘客生存决策树预测

Titanic 乘客生存预测流程 数据获取 --> 数据探索 --> 数据清理 --> 特征选择 --> 决策树模型 --> 模型预测和评估 --> 决策树可视化

2024-02-19

SVM对文档进行分类:

## SVM对文档进行分类: `流程:` 文档输入 --> 对文档进行分词 --> 加载停用词 --> 计算单词权重 (准备阶段) --> 生成分类器 --> 分类器做预测 --> 计算正确率 (分类阶段)

2024-02-19

16 - Pytorch​​构建Logistic二分类模型

在逻辑回归中预测的目标变量不是连续的,而是离散的。可以应用逻辑回归的一个示例是电子邮件分类:标识为垃圾邮件或非垃圾邮件。图片分类、文字分类都属于这一类。

2024-02-03

11 - Tensorflow实现卷积神经网络

11 | Tensorflow实现卷积神经网络

2024-02-03

13 - 使用代理ip爬取安居客房源信息

这段Python爬虫代码旨在从安居客网站爬取房地产信息。其中使用了代理IP的技术,主要目的是应对反爬虫机制、提高隐私保护、伪装地理位置、避免频率限制和提升稳定性。

2024-01-14

手动爬取天天基金网基民评论与东方财富网股市行情的资讯,从基民评论、重仓股票、市场行情三个方面LDA模型进行分析

这是一个基金评论与股票市场的情感分析项目,目的是手动爬取天天基金网基民评论与东方财富网股市行情的资讯,从基民评论、重仓股票、市场行情三个方面出发,使用情感词典与LDA模型进行分析,从而做出是否值的购买基金的决策。带有标签clean的是清洗后的爬虫数据,没有带标签的是原始数据或者某个分析后的结果。具体的工作代码放在了“基于情感词典与LDA模型的基金文本研究.ipynb”中,使用的是python 的jupyter notebook。

2023-11-03

03.04 Requests豆瓣.ipynb

对豆瓣单个电影页面元数据进行获取 元数据结构:<br> 1. 导演 2. 编剧 3. 主演 4. 类型 5. 制片国家/地区 6. 语言 7. 上映日期 8. 片长 9. 又名 10. IMDb 11. 豆瓣评分 - 评分 - 评价人数 - 5星评价占比 - 4星评价占比 - 3星评价占比 - 2星评价占比 - 1星评价占比 12. 好于 13. 好于 ## Step 1 找到250部电影的页面 依次解析 具体的页面 爬取1292052...;爬取1292052成功 爬取1291546...;爬取1291546成功 爬取1292720...;爬取1292720成功 爬取1292722...;爬取1292722成功 爬取1295644...;爬取1295644成功 爬取1291561...;爬取1291561成功 爬取1292063...;爬取1292063成功 爬

2023-11-01

SpringBoot+Mybatius图书管理系统 语言:Java 开发工具:IntelliJIDEA-2019.3 JDK版

SpringBoot+Mybatis图书管理系统是一个用于管理图书信息的Web应用程序。它使用Java作为编程语言,IntelliJ IDEA作为开发工具,JDK 8作为Java开发环境,Maven用于项目管理,MySQL数据库用于存储数据,前端使用HTML、CSS、jQuery、Layui和Vue,后端采用Spring Boot、Mybatis以及TkMapper框架。 下面将描述一些主要功能和组件以帮助你更好地理解这个系统: **主要功能:** 1. **图书管理**:用户可以添加、编辑、删除图书信息,包括书名、作者、出版日期等。 2. **借阅管理**:用户可以借阅图书并设置还书日期,系统会自动跟踪图书的借阅状态。 3. **用户管理**:管理系统用户,包括添加、编辑、删除用户信息,以及分配权限等。 4. **搜索和过滤**:提供搜索功能,可以根据关键字搜索图书信息,并可以根据不同条件进行过滤。 5. **权限管理**:不同用户具有不同的权限,例如管理员和普通用户,管理员可以管理图书和用户,而普通用户只能借阅图书。

2023-10-30

通用的Java工具类,主要包括基础工具类(时间、正则表达式、字符串、随机数等等),excel解析生成、word解析生成、文件操作

通用的Java工具类,主要包括基础工具类(时间、正则表达式、字符串、随机数等等),excel解析生成、word解析 生成、文件操作

2023-10-22

基于Java的学生管理系统,旨在提供学生信息的管理和查询功能

这项目是一个基于Java的学生管理系统,旨在提供学生信息的管理和查询功能。 **1. 数据库连接和初始化:** - 项目使用Java数据库连接(JDBC)来建立与数据库的连接。 - 在系统初始化时,通过`DatabaseConnector`类创建了一个数据库连接,以便执行数据库操作。 **2. 添加学生信息:** - 系统提供了添加学生信息的功能。 - 用户可以输入学生的ID、姓名和年龄,然后系统将这些信息插入到数据库的`student`表中。 - 成功插入后,系统会显示学生已被添加的消息。 **3. 查找学生信息:** - 学生管理系统允许用户根据学生的ID来查找学生信息。 - 用户输入要查找的学生ID,系统执行SQL查询操作,如果找到匹配的学生,将显示学生的ID、姓名和年龄。 - 如果未找到匹配的学生,系统会显示未找到的消息。 **4. 更新学生信息:** - 系统允许用户根据学生ID更新学生信息。 - 用户输入学生ID,然后输入新的姓名和年龄,系统执行SQL更新操作,将学生信息更新为新提

2023-10-22

基于Python编程的RFM细分聚类案例

本文将深入探讨一个基于Python编程的RFM细分聚类案例。通过代码实现,我们将学习如何加载和预处理电商历史订单数据,计算RFM指标,使用KMeans算法进行聚类分析,以及如何将用户分为不同的价值层级。最终,我们将通过可视化展示来解释不同价值层级用户的分布情况,帮助企业更好地理解其客户群体,为未来的决策提供更多见解。

2023-08-21

65 - python增长模型案例

在一个具体的案例中,我们使用了一个关于用户行为的数据集,探讨了如何利用增长模型来优化业务决策。通过数据分析、可视化和机器学习建模,我们深入挖掘了用户的操作历史、设备类型、城市类型以及其他特征。我们通过构建预测模型,预测了用户是否会对不同类型的促销方式做出响应,从而实现了精准的目标用户选择。 在实际操作中,我们不仅关注转化率的提升,还需要考虑成本与效益的平衡。我们将重点放在那些有潜力的用户身上,通过合理的营销策略来提升他们的转化率,从而在有限的资源下实现业务增长。

2023-08-21

A/B测试 展示如何运用Python进行数据分析、可视化和统计显著性检验

探讨A/B测试的概念、原理以及其在实际业务中的应用。 通过一个案例,详细展示如何运用Python进行数据分析、可视化和统计显著性检验,以揭示不同页面版本在用户购买转化率方面的差异。通过对比新旧页面的转化率,我们将探讨如何从统计学的角度评估这些差异是否具有显著性。从而,读者将深入了解如何通过A/B测试来为业务决策提供有力的数据支持,进而优化用户体验和提升业务成果。

2023-08-21

63 - 留存分析在现代商业中的关键作用 python 案例

我们以一个案例为例,展示了如何通过数据驱动的方法识别影响留存率的因素。首先,我们载入了一个会员数据集,对数据进行了预处理,包括转换字段、处理缺失值等。然后,我们使用Kaplan-Meier生存分析方法绘制了整体的留存曲线,从中可以看出会员的留存率随着入会月数的增加逐渐下降,这提醒我们需要关注新会员的留存情况。 接着,我们对不同因素进行了分析,比如会费支付方式、会员卡类型以及性别对留存率的影响。通过绘制不同分类的Kaplan-Meier曲线,我们可以看到这些因素对留存率的影响情况。例如,不同的会费支付方式和会员卡类型对留存率产生了不同的影响,这提示我们可以针对不同的客户群体制定不同的留存策略。 接着,我们采用Cox比例风险模型来进行生存分析,这种方法可以同时考虑多个因素对留存的影响。通过打印模型的摘要信息,我们可以得到不同因素的系数,从而了解每个因素对留存的影响程度。此外,我们还绘制了系数和置信区间的图表,更直观地展示了各因素的影响情况。 最后,我们展示了如何使用逻辑回归模型对留存进行预测。通过构建特征集和标签集,我们将数据集拆分为训练集和测试集,然后使用逻辑回归模型进行拟合和预测

2023-08-21

62 - Python 漏斗分析案例

漏斗分析是一种重要的数据分析方法,用于跟踪和优化用户在某个过程中的转化率。无论是在线购物、注册流程还是应用下载,漏斗分析都能帮助您了解用户在不同阶段的行为,找出瓶颈,优化用户体验。

2023-08-20

61 - 归因渠道分析案例 python

归因分析(Attribution Analysis)是一种用于评估不同营销渠道推广效果的方法,它的主要目标是合理地将转化路径中的功劳分配给各个接触点,也就是不同的营销渠道。这帮助营销人员更准确地了解各个渠道对最终转化所产生的影响,从而更有效地分配资源和优化营销策略。

2023-08-20

60 - python 用户画像案例

python 用户画像案例. 用户画像是一种分析和描述目标受众特征的方法,可以帮助您更深入地了解您的受众群体,揭示他们的兴趣、需求和行为。通过用户画像,您可以更好地定制营销策略、产品设计以及提供更个性化的用户体验。

2023-08-19

59 - RFM模型实战案例 python

从上面结果,我们可以快速得到一些推断: 客户流失情况严峻,高消费唤回客户、流失客户占比超过50%,怎么样制定针对性唤回策略迫在眉睫。 重要价值客户占比仅2.97%,还有三个客户占比甚至不足2%,我们模型打分可能不够科学,可以进一步调整打分区间进行优化。 再结合金额进行分析: 高消费唤回客户人数占比28.87%,金额占比上升到了38.11%,这部分客户是消费的中流砥柱,他们为什么流失,应结合订单和购买行为数据进一步展开挖掘。 频次深耕客户金额占比紧随其后,这部分客户的特征是近期有消费、消费频次低、消费金额高,和高消费唤回客户仅有购买时间上的不同,如何避免这部分客户向高消费唤回客户的流转是我们要思考的主要命题。 流失客户人数占比26.28%,金额占比仅12.66%,这部分客户中有多少是褥羊毛用户,有多少是目标用户,对我们引流策略能够进行怎么样的指导和调整?

2023-08-19

代码实操:Python聚类分析

代码实操:Python聚类分析 SKLean中有专门的聚类库:cluster,其包含了很多的聚类算法。 本例将使用一份无标签的数据集做聚类分析,以得到不同类别的特征和分布状态等。 对于聚类模型结果的评估,主要考虑如下三个方面: 1. 对于没有任何聚类真实结果指标的,由于无法使用真实数据做对比,智能使用聚类距离指标做评估; 2. 对于有分类真实结果做对照的,则可以使用真实标签与预测标签的相似、重复、完整性等度量计算,但是需要注意的是,聚类结果的标签值与其真实类别的标签值没有关系,结果只关注数据点是否属于同一类; 3. 业务类的评估,包括不同类别间的特征是否有显著差异,类内部是否具有能代表类别的显著性特征。

2023-08-19

58 - 小红书产品体验报告

58 | 小红书产品体验报告

2023-08-19

57 - TAPTAP客户端分析

TAPTAP客户端分析

2023-08-19

56 - 国内游戏直播竞品分析

国内游戏直播竞品分析 PPT 加文档

2023-08-19

50 - 国产商业漫画分析

本文是关于当前国产商业漫画市场的小研究,分析所用数据都是从漫画网站上直接爬取的。这里我选择的数据来源有两个,一个是当前收录商业化国漫最多的快看漫画,另一个是使用用户最多、以日漫为主的动漫之家。 在这篇分析里,我想从作品和作者两个角度,看国漫当前的流行趋势以及读者偏好。分析大纲大致如下: 1. 从作品看 * 题材:当前流行的题材有哪些,这些题材里真正能获得大人气的作品比例有多少? * 趋势:从快看App 2014年上架至今,国漫作品数量还保持着高增长吗?抑或已经趋于平缓? * 对比日漫:国内读者对日漫的口味与国漫相比有何不同?国漫在哪些题材上还有发展潜力? 2. 从作者看 * 个人作者 vs 工作室:当前国漫创作哪种模式用得更多?比起早几年漫画工作室井喷式的发展,现在是否已经开始收敛?

2023-08-16

49 - python公司销售数据分析

公司销售数据分析报告 本数据是2012~2014年间一家生产体育类产品的全球销售订单数据,分别按时间、产品类别、销售国家统计产品销售情况,分析销售额和利润额统计各产品市场占有份额,为下一步生产计划提供有价值的建议。 数据大小:88475 行, 11 列 Retailer country 销售国家 Order method type 订单方式 Retailer type 销售方式 Product line 产品线 Product type 产品名称 Year 年 Quarter 季度 Revenue 销售额 Quantity 销售量 Gross margin 毛利润

2023-08-14

48 - python电子产品销售分析

python电子产品销售分析 # 一、数据信息 数据来源:电子产品销售分析.csv **该文件包含2020年4月至2020年11月从大型家用电器和电子产品在线商店购买的数据** 说明:数据量:564169 原始字段:12 ## 字段介绍: Unnamed: 行号 event_time:下单时间 order_id:订单编号 product_id:产品标号 category_id :类别编号 category_code :类别 brand :品牌 price :价格 user_id :用户编号 age :年龄 sex :性别 local:省份

2023-08-14

44 - 酒店预订及取消的数据分析

酒店预订及取消的数据分析 python

2023-08-14

抖音大V数据进行绘图与分析

抖音大V数据进行绘图与分析

2023-08-14

42 - python 航空公司客户价值分析

python 航空公司客户价值分析

2023-08-13

41 - 京东商家书籍评论数据分析

京东作为中国领先的电子商务平台,积累了大量商品评论数据,这些数据蕴含了丰富的信息。通过文本数据分析,我们可以了解用户对产品的态度、评价的关键词、消费者的需求等,从而有助于商家优化产品和服务,以及消费者作出更明智的购买决策。 本文将详细阐述如何获取京东商家评论数据,使用自然语言处理技术对评论文本进行分词、情感分析等处理,以及如何通过数据可视化工具呈现分析结果。我们将从数据的收集、预处理,到情感分析和关键词提取,逐步展示如何利用现代数据分析方法,从大规模的文本数据中提取有价值的信息。 在本文的后续内容中,我们将通过实际的案例,深入探讨如何利用Python编程语言和相应的数据分析库,对京东商家评论数据进行处理和分析。通过这个案例,读者将能够更好地了解如何利用文本数据分析方法,从而在商业决策、市场调研等方面做出更加准确和有力的决策。

2023-08-13

40 - NBA球员信息数据分析

本文将以NBA球员薪资数据并进行数据分析为例,展示如何获取网络上的数据资源,并通过数据处理和可视化方法揭示有关NBA球员薪资的信息。我们将使用提供的URL(www.espn.com/nba/salaries)来抓取NBA球员薪资数据,然后运用数据分析工具,对数据进行清洗、整理和计算,最终通过条形图的形式呈现薪资水平的分布和差异。

2023-08-13

38 - 浦发银行股票分析案例

本文将通过一个浦发银行股票分析案例,探讨如何从多个维度对股票进行分析,包括基本面、技术面和市场环境等因素。我们将深入挖掘浦发银行的财务数据、业务模式以及市场定位,以了解其内在价值和潜在风险。同时,我们还将考察技术面的指标,如价格走势、均线形态等,以揭示市场情绪和趋势。

2023-08-13

37 - 电影数据分析案例

电影的创作、制作、发行和市场表现受到诸多因素的影响,如电影类型、发行年份、制作成本、票房收入、观众评分等。为了更好地理解电影产业的动态变化和相关影响因素,数据分析在这一领域发挥了重要作用。通过对大量电影数据的挖掘和分析,我们可以揭示出电影市场的趋势、受众偏好以及不同因素之间的关联关系。

2023-08-13

36 - 银行贷款数据分析

本文将以银行贷款数据分析为主题,深入探讨如何运用数据科学的方法,揭示银行贷款领域的内在规律和趋势。通过对贷款数据的分析,我们能够洞察不同类型贷款的分布情况、贷款金额的变化趋势,以及借款人的特征和还款情况等关键信息。 通过运用Python编程语言及相关的数据分析工具和库,本文将指导读者完成数据预处理、探索性分析、可视化等环节。我们将从数据集的收集和清洗开始,逐步分析银行贷款数据的特点和变化,为读者提供深入了解银行贷款市场的机会。

2023-08-13

【数据分析实例】 2021年十万条厦门招聘数据分析

在这个数据分析实例中,我们将运用数据科学的方法,使用Python编程语言和相关库进行数据处理、分析和可视化。通过对大量的招聘数据进行挖掘,我们将揭示厦门市招聘市场的动态,探索不同行业的就业趋势,以及人才的薪资待遇等关键信息。通过这一深入的分析,我们可以为求职者提供就业市场的实际情况,为企业提供人才招聘的指导,同时也为决策者提供更准确的市场洞察力。

2023-08-13

34 - 某欧洲电商公司行为分析

收购完之后,公司第一步需要对这家公司的销售情况进行摸底,这个重任自然就落在了在数据分析部门任职的你身上。你需要从这家电商公司的原始订单数据中分析出公司的业务是在变好还是变差,公司哪些产品最受欢迎,以及主要的销售区域和有哪些优质的用户等信息,以提供给公司的战投部门做进一步的经营策略制定。

2023-08-13

33 - 美国总统数据分析 python

在这个数据分析项目中,作者利用Pandas等Python库对美国2020年7月22日至2020年8月20日期间的超过75万条捐赠数据进行了深入的探索和分析。通过这一分析,他们揭示了这段时间内美国选民对总统候选人的偏好和捐款情况。以下是对文章中的主要步骤和内容的进一步描述: 1. **数据集处理:** 作者首先加载候选人信息、候选人和委员会关系、个人捐赠数据等多个数据集。他们使用Pandas库创建DataFrame对象,并对数据集的列名进行了指定,以确保数据按照预期的格式加载。 2. **关联数据表:** 作者通过候选人和委员会关系表,将候选人信息与个人捐赠数据进行关联。通过候选人和委员会的标识(CMTE_ID和CAND_ID),他们将捐赠数据与候选人的相关信息连接起来,以便后续分析。 3. **数据探索和清洗:** 在关联后的数据中,作者进行了一系列的探索性数据分析。他们统计了各州的捐款总额,并使用Matplotlib创建了美国地图的热度图,将各州的捐款情况以不同颜色展示在地图上,使读者能够直观地了解捐款分布情况。 4. **候选人捐赠趋势分析:** 为了深入了解获得捐赠额最多

2023-08-13

32 - 全球新冠肺炎确诊病例趋势分析

python全球新冠肺炎确诊病例趋势分析

2023-08-13

31 - 独角兽企业数据分析

31 | 独角兽企业数据分析

2023-08-11

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除