冷月半明-CSDN博客

原创 24应届生求职中QAQ

最近一直在BOOS上找工作，但是结果不太理想，一直没有找到满意的工作，有没有大佬帮忙内推一下，有的话请私信我QAQ。有没有大佬给个机会帮忙内推一下啊，找工作太难了QAQ。

2024-04-16 18:24:32 235

原创爬虫机试题-爬取新闻网站

之前投简历时遇到了这样的一个笔试。本以为会是数据结构算法之类的没想到直接发了一个word直接提需求，感觉挺有意思就写了这篇文章，感兴趣的朋友可以看看。

2024-04-15 17:53:39 736

原创爬取日本常用汉字秘籍

昨天投简历时遇到了这样的一个笔试。本以为会是数据结构算法之类的没想到直接发了一个word直接提需求，感觉挺有意思就写了这篇文章，感兴趣的朋友可以看看。

2024-04-08 17:05:25 712

最近我遇到了一个有趣的问题，我的导师想要提前将下一届的学生分配给各位老师。这听起来似乎没什么大不了的，但实际上，这可是个挺头疼的事情。想象一下，你作为一名导师，要负责领导一群研究生。你希望这些学生和你的研究方向相符，又能发挥他们的潜力。但问题是，如果分配不公平，可能会导致资源浪费，甚至影响到学生的学习和研究。所以，我决定动手写一个随机分配的脚本来解决这个问题。这样一来，分配就不会受到个人喜好或偏见的影响，而是完全随机的，公平而且透明。在这篇博客里，我将和大家分享我的思路和实现过程。

2024-04-08 17:03:39 844

原创深入浅出SQL排序与函数

在 MySQL 中，可以使用语句来创建自定义函数。BEGIN-- 函数体END;是自定义函数的名称。parameter1parameter2, … 是函数的参数，可以有零个或多个。是函数的返回类型。是可选的关键字，用于指定函数是否是确定性的。是指定函数使用的语言，通常为 SQL。是指定函数的执行权限，可以是定义者（DEFINER）或调用者（INVOKER）。创建自定义函数后，可以像使用内置函数一样在 SQL 查询中调用它们。-- 返回结果为 8。

2024-04-02 09:56:26 546

原创停用词究竟有何妙用：优化分词、精进LDA模型

在自然语言处理领域，文本数据的处理是一项至关重要的任务。而在处理文本数据时，分词是一个必不可少的步骤，它将文本拆分成有意义的词语或短语，为后续的文本分析和挖掘奠定了基础。然而，传统的分词方法往往会将一些并不具备实质信息的词语也一并纳入考量，而这些词语往往被称为停用词。停用词是指在文本处理过程中被忽略的词语，因为它们通常是高频出现且缺乏实际含义的词汇，如“的”、“了”、“和”等。在构建文本分析模型时，停用词的存在可能会干扰模型的准确性和效率，影响到对文本数据的深入理解和挖掘。

2024-03-31 10:15:44 947

原创精准定制：利用本地词库优化Jieba分词，提升景区评论数据LDA建模效果

在进行景区评论数据的LDA建模时，精确的分词是至关重要的。然而，通用的分词工具在处理特定领域的文本时可能表现不佳。针对这一挑战，本文探讨了如何利用本地词库，特别是搜狗词库中关于旅游领域的专业词汇，对Jieba分词进行精细化调整。通过这种方式，我们可以实现对景区评论数据的更精准、更有效的LDA建模，从而揭示出更深层次的见解和洞察。本文将探讨如何结合本地词库定制词典，优化分词过程，从而提升LDA模型的表现，为景区评论数据的分析与应用提供更可靠的基础。

2024-03-30 16:45:33 313

原创解析旅游者心声：用PySpark和SnowNLP揭秘景区评论的情感秘密

在本文中，我们使用了PySpark和SnowNLP工具对大规模旅游评论数据进行了情感分析。通过连接到Hive数据库，并利用PySpark从中提取数据，我们能够处理大规模的数据集。SnowNLP作为自然语言处理工具，帮助我们进行情感分析，从而揭示了评论中的情感倾向和趋势。我们通过计算每条评论的平均情感值，并将结果存储到新的数据表中。通过合并不同数据表的信息，我们得到了综合的情感分析结果，并进行了展示和持久化存储。

2024-03-29 10:33:38 1313

原创 SmartChart的部署以及可能遇见的报错解决方案

数据可视化是一种将数据转化为图形的技术，可以帮助人们更好地理解和分析数据。但是，传统的数据可视化开发往往需要编写大量的代码，或者使用复杂的拖拽工具，不仅耗时耗力，而且难以实现个性化的需求。有没有一种更简单、更灵活、更智能的数据可视化开发方式呢？本文将介绍一款基于Python + Django + Echarts的数据可视化解决方案——SmartChart。

2024-03-29 10:31:47 1133

原创深入Spark与LDA：大规模文本主题分析实战

本篇博客介绍了如何使用LDA（潜在狄利克雷分配）模型和Spark进行文本主题分析。我们的目标是从大量的用户评论中提取出主题。

2024-03-28 23:53:32 740

原创 pyhive入门介绍和实例分析（探索票价与景点评分之间是否存在相关性）

是一组 Python DB-API 和 SQLAlchemy 接口，可用于 Presto 和 Hive。它为 Python 提供了一个与 Presto 和 Hive 进行交互的平台，使得数据分析师和工程师可以更方便地进行数据处理和分析。以下是使用如果你想安装：使用连接 Hive 数据库非常简单。：使用：如果你更喜欢使用进行数据分析，可以将查询结果转换为。

2024-03-27 00:23:42 734

原创使用Apache Hive进行大数据分析的关键配置详解

Apache Hive是一个在Hadoop上构建的数据仓库工具，它允许用户通过类似SQL的语言（HiveQL）进行数据查询和分析。在使用Hive进行大数据分析之前，需要配置一些重要的参数以确保系统正常运行并满足特定需求。本文将重点介绍Apache Hive的关键配置属性，涵盖了元数据存储、临时目录、日志设置以及HiveServer2连接等方面。

2024-03-25 15:27:46 388

原创使用 PySpark 进行数据清洗与 JSON 格式转换的实践详解（保姆级编码教程）

PySpark 是 Apache Spark 的 Python API，可用于处理大规模数据集。它提供了丰富的功能和库，使得数据清洗和转换变得更加高效和便捷。本文介绍了使用 PySpark 对数据进行清洗和 JSON 格式转换的过程。通过上述步骤，我们可以连接到远程 Spark 服务器，加载数据，应用自定义函数对数据进行清洗和格式转换，并最终保存清洗后的数据。这个流程展示了 PySpark 在数据处理中的强大功能，特别是在大规模数据集的处理和转换方面的优势。

2023-12-20 10:41:30 1489

原创 Sqoop入门：如何下载、配置和使用

Sqoop是Apache的一个开源工具，主要用于在Hadoop和关系数据库之间传输数据。：你可以从Apache的官方网站下载Sqoop。大多数企业使用的Sqoop版本是Sqoop1，例如sqoop-1.4.6或sqoop-1.4.7。需注意的是要确定下载的版本和你的Hadoop版本兼容。：将下载的Sqoop tar.gz文件解压到指定目录。：将MySQL的JDBC驱动包（例如mysql-connector-java-5.1.40-bin.jar）添加到Sqoop的lib目录下。可以从。

2023-12-20 10:38:01 1245

原创解决 Hive 外部表分隔符问题的实用指南

在使用 Hive 外部表时，分隔符设置不当可能导致数据导入和查询过程中的问题。本文将详细介绍如何解决在 Hive 外部表中正确设置分隔符的步骤。

2023-12-19 10:47:28 669

原创 scrapy_redis实战去哪儿旅游信息爬虫(分布式爬虫实例）

Scrapy-Redis 是 Scrapy 框架的一个扩展，用于实现分布式爬取。它基于 Redis 数据库实现了 Scrapy 的调度器、去重集和队列，使得多个爬虫节点可以共享相同的信息，并能够高效地协作。分布式爬取：Scrapy-Redis 允许多个 Scrapy 爬虫实例之间共享爬取队列和去重集合，使得爬取任务可以被多台机器分担，提高爬取效率和速度。基于 Redis 实现的调度器和去重集。

2023-12-19 10:45:23 2510

原创 Scrapy+Selenium项目实战--携程旅游信息爬虫

携程（you.ctrip.com）是一个提供旅游信息的网站，但它的部分内容可能是动态加载的，难以直接通过Scrapy获取。这时就需要借助Selenium这样的工具，模拟浏览器行为进行数据的获取和处理。通过Scrapy和Selenium的结合，我们可以构建一个能够有效获取旅游信息的爬虫。但是需要注意，爬虫在实际应用中需要遵守网站的规则，避免对网站造成过大压力或触发反爬机制。以上就是利用Scrapy和Selenium构建旅游信息爬虫的基本流程和实现方法。

2023-12-18 13:15:55 1609

原创深入了解 Scrapy 中的 Pipelines 和 Item

在Scrapy中定义Item类很简单，通常在项目中的items.py文件中创建。# 添加其他字段...

2023-12-13 10:37:13 250

原创探索Scrapy-spider：构建高效网络爬虫

除了以上常用的钩子函数外，我们还可以定义其他自定义的回调函数，用于处理特定页面的响应。例如，可以根据不同类型的页面定义不同的回调函数，以便从中提取数据或执行特定操作。假如我们对于一条数据的提取需要逐条发送多个请求，我们可以这样写：并使用meta存储传递信息。最终的收集完本条数据后返还item去给pip管道处理收集到的信息。

2023-12-07 22:00:04 313

原创 SmartChart：一站式数据可视化解决方案

SmartChart是一个全面的前后端数据可视化、大屏、报表和数据中台低代码开发平台。它的设计理念是简单、敏捷、高效、通用化和高度可定制化，可以让你的项目瞬间提升档次。SmartChart的目标是让每一个使用者都能够轻松地创建和分享美观、有洞察力的图表和仪表板。

2023-12-07 19:15:59 815

原创探索Scrapy中间件：自定义Selenium中间件实例解析

Scrapy中间件是在Scrapy引擎处理请求和响应的过程中，允许你在特定的点上自定义处理逻辑的组件。它们在整个爬取过程中能够拦截并处理Scrapy引擎发送和接收的请求和响应。全局性处理请求和响应：中间件可以截取所有请求和响应，允许你对它们进行全局性的修改，例如添加自定义的请求头、代理设置或处理响应数据等。自定义爬取过程：通过中间件，你可以自定义爬取的逻辑。例如，在请求被发送之前，可以通过中间件对请求进行处理，或者在收到响应后对响应进行预处理，以适应特定需求或网站的要求。

2023-11-17 17:45:59 1110 2

原创初识Scrapy：Python中的网页抓取神器

Scrapy是一个基于Python的快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。它广泛应用于数据挖掘、监测和自动化测试等领域。Scrapy的强大之处在于它是一个框架，可以根据实际需求进行修改和扩展。

2023-11-17 17:44:15 192

原创探索主题建模：使用LDA分析文本主题

主题建模是一种用于从文本数据中提取主题或话题的技术。主题可以被视为文本数据的概括性描述，它们涵盖了文本中的关键概念。主题建模可以应用于各种领域，如文档分类、信息检索、推荐系统等。主题建模是文本挖掘领域的重要技术，可以自动发现文本数据中的主题。LDA是一种常用的主题建模方法，可以通过Python和Gensim库进行实现。通过文本预处理、模型训练和结果分析，可以有效地提取文本数据中的隐藏主题，用于各种应用。

2023-11-03 18:05:44 2730

原创在Flask中实现文件上传七牛云中并下载

文件上传是Web应用中常见的功能之一，而七牛云则提供了强大的云存储服务，使得文件存储和管理变得更加便捷。在本篇博客中，我们将学习如何在Flask应用中实现文件上传，并将上传的文件保存到七牛云。

2023-11-03 18:02:47 495

原创深入理解Promise.all和Promise.race

theme: fancy在现代的JavaScript编程中，处理异步操作是一个常见的任务。为了更加优雅地处理异步代码，ES6引入了Promise这一概念，它是一种用于处理异步操作的设计模式，提供了一种更结构化、更可靠的方式来处理异步任务。本文将深入探讨JavaScript中的Promise以及其两个常用方法：Promise.race() 和 Promise.all()。1. Promi...

2023-08-23 12:43:54 777

原创 C语言和JavaScript中的默认排序行为对比

今天在js里使用sort时遇见了一个不理解的现象即使用sort默认排序后 9 从排序前的第一位被排到了最后一位.一开始我对js sort的理解和c一样，然后通过查阅后发现并不是这样.

2023-08-21 22:28:25 607

原创踩坑经验：JavaScript 中的 for...of 和 for...in 循环

在 JavaScript 编程中，for...of和for...in是常用的循环语法，但它们在使用时可能会引发一些意想不到的问题。本文将分享我在使用这两种循环时所遇到的坑和经验。

2023-08-17 19:36:13 372

原创解决Element Plus中Select在El Dialog里层级过低的问题（修改select选项框样式）

在使用Element Plus的``组件时，很多情况下我们需要在对话框内部使用``组件，以提供用户选择的功能。然而，由于``会创建一个新的层级（z-index）上下文，而``默认的z-index值较低，可能导致下拉选项框被其他元素覆盖，无法正确显示。最近遇见了这个问题后通过查阅最终解决，特此分享.

2023-08-06 20:37:28 2361 2

原创在Vue中使用深度选择器定制Element Plus组件样式

在Vue.js开发中，我们经常使用Element Plus作为UI组件库，它提供了丰富的组件供我们使用。然而，有时候我们希望对Element Plus的组件样式进行一些定制，比如调整字体大小、改变颜色等。在这篇博客中，我们将介绍如何使用深度选择器::v-deep和:deep来实现在Vue项目中定制Element Plus组件样式的方法。

2023-07-31 15:40:29 744

原创 vue3访问子组件的 DOM 元素的方法总结

在 Vue 3 中，访问子组件的 DOM 元素是一个常见的需求。本文将介绍如何在 Vue 3 中使用不同的方法来获取子组件的 DOM 元素。

2023-07-03 13:43:07 4116

原创 Vuex入门教程：状态管理库的安装、使用和实例演示

Vuex是Vue.js的官方状态管理库，用于管理应用程序的状态。本篇博客将介绍如何安装Vuex、创建Vuex Store，并在Vue应用中使用Vuex来访问和修改状态。同时，我们将提供一个实例演示，以更具体地展示Vuex的用法。

2023-06-26 19:25:34 807

原创 HTML5通过api实现拖拽讲解和实例分析

在现代Web开发中，实现拖拽功能是一项常见而强大的需求。HTML5引入了拖放API（Drag and Drop API），为我们提供了一种简单而高效的方式来实现拖拽操作。其中，e.dataTransfer是该API中的一个重要属性，用于在拖拽操作中传递数据，并控制拖放的效果和行为。本篇博客将深入探索e.dataTransfer的使用，帮助你更好地理解和应用HTML5拖放功能。e.dataTransfer是HTML5拖放API中的关键属性，它是一个DataTransfer对象，提供了一组方法和属性，用于在拖拽

2023-06-26 19:06:37 2140

原创广电用户画像分析之使用SVM预测用户是否挽留

在本篇博客中，将介绍如何使用支持向量机（SVM）模型来预测用户是否挽留。我们将使用Spark的ML库来实现这一目标，并通过构建和训练SVM模型，以及对测试集进行预测和评估，来解决这个分类问题。

2023-06-25 18:34:22 598

原创广电用户画像分析之根据用户行为数据进行筛选与标签添加

在数据处理和分析领域，我们经常需要根据用户的行为数据进行筛选和标签添加，以便更好地理解用户行为和偏好。在本篇博客中，我们将介绍两个示例，展示如何根据用户的收视行为数据和订单信息进行数据处理和分析。

2023-06-25 18:30:34 1034

原创深入理解 Promise、async、回调函数和 AJAX

简介：本篇博客将介绍 Promise、async、回调函数和 AJAX，这些是在 JavaScript 中处理异步编程和数据交换的关键技术。我们将通过代码示例和解释来详细说明它们的基本用法和优势。

2023-06-22 22:20:58 2272 2

原创广电用户画像分析之根据客户消费内容添加标签

本篇博客将介绍如何添加用户消费标签和用户消费等级标签.建议阅读之前先阅读数据预处理的博客再读本篇博客.相关前提：https://blog.csdn.net/kilig_CSM/article/details/131299347?spm=1001.2014.3001.5501该类的目的是创建一个消费者标签（Consumer Label）。它通过读取名为mmconsume_billevents的表中的数据，根据字段"phone_no"和"fee_code"进行去重，然后使用自定义的函数consumerLa

2023-06-21 08:34:42 702

原创广电用户画像分析之数据基本分析与预处理

本文介绍了使用Spark进行媒体数据分析和预处理的基本方法。通过对用户收视行为数据表的分析，我们可以了解用户的观看时间范围和无效观看记录。同时，通过对各个表中指定字段的数据进行分析，我们可以获取有关观看时长和其他字段的统计信息。最后，我们对数据进行了清洗和筛选，并将处理后的结果保存到Hive表中，以便后续的分析和使用。

2023-06-20 08:47:45 2303

原创广电用户画像分析之探索各个表中的记录数和字段phone_no的空值数

首先我们需要搭建大数据环境，详情可参考下文。

2023-06-19 09:45:49 1023 3

原创构建大数据环境：Hadoop、MySQL、Hive、Scala和Spark的安装与配置

安装Hadoop 首先，从Apache Hadoop的官方网站下载所需的Hadoop发行版。选择适合你系统的二进制发行版，下载完成后解压缩到安装目录。然后配置环境变量，并修改Hadoop的配置文件，根据需要进行修改。安装MySQL 安装MySQL服务器是搭建大数据环境的重要一步。更新包管理器后，执行命令安装MySQL服务器，并配置MySQL允许通过网络连接。编辑MySQL的配置文件，并重启MySQL服务，最后验证安装是否成功。安装Hive仓库 Hive是一个用于处理和分析大规模数据集的数据仓库工具。

2023-06-18 20:01:29 2729

原创磁盘调度算法及其应用

磁盘调度是计算机系统中的重要问题之一。在多个进程同时访问磁盘时，合理的磁盘调度算法可以优化磁盘访问顺序，提高系统性能。本文将介绍磁盘调度算法的基本思想，并通过一个实验来模拟不同调度算法的运行过程。

2023-06-17 13:54:19 1381

数据工程综合课设报告-创建广电用户画像

资源内含:大数据环境搭建,数据集分析,数据存储,数据探索与预处理,用户画像标签计算,SVM预测用户是否挽留. 《数据工程综合课设》是继《分布式计算基础》、《大数据应用开发》课程的后续实践课程，本次课程设计围绕Hadoop、Hive、Spark等教学内容，搭建大数据集群环境，通过挖掘分析用户相关数据，对用户数据进行标签化，建立一个用户画像模型，利用SVM算法建立分类模型，预测用户是否值得挽留，并将预测结果作为用户画像的一个标签。通过本课程的学习与实践，掌握Spark工具进行数据统计分析的方法和步骤.

2023-10-11

车票查票查询系统相关数据库

2023-01-06

数据采集课设报告（网络爬虫-Python，Kafka与MySQL的组合使用-Java）

一.网络爬虫二.Kafka与MySQL的组合使用访问豆瓣电影Top250，将获取到的信息保存至本地文件中或者数据库中，访问微博热搜榜，并将获取到的数据通过邮件的形式，每20秒发送一次到个人邮箱中。读取student表的数据内容，将其转为JSON格式，发送给Kafka；再从Kafka中获取到JSON格式数据，打印出来。编写生产者程序，将json文件数据发送给Kafka；编写消费者程序，读取Kafka的json文件数据，并手动提交偏移量。编写生产者程序，以通用唯一标识符UUID作为消息，发送给主题assign_topic；编写消费者程序1，订阅主题的分区0，只消费分区0数据；编写消费者程序2，订阅主题的分区1，只消费分区1数据；

2022-12-28

数据工程基础课设报告（MapReduce+hive）

本报告包含课设目的，开发环境，任务描述，需求分析，设计思路，实现过程，调试过程及运行结果。乘用车辆和商用车辆的销售数量和比例分析、分析山西省2013年每个月的汽车销售数量比例、分析买车的男女比例和男女对车的品牌的选择、HDFS统计每种车型的购买数量、统计不同类型的汽车用途、统计各种车型各个年龄段的不同性别的购买情况、统计各种小麦育种者信息。

2022-12-17

Spark RDD弹性分布式数据集

RDD简介 RDD创建方式 RDD的处理过程转换算子行动算子 RDD（Resilient Distributed Datasets弹性分布式数据集）是一个容错的、并行的数据结构，可以简单的把RDD理解成一个提供了许多操作接口的数据集合，和一般数据集不同的是，其实际数据分布存储于一批机器中（内存或磁盘中）。 RDD可以让用户显式地将数据存储到磁盘和内存中，并且还能控制数据的分区。每个RDD都具有五大特征，具体如下。它是集群节点上的不可改变的、已分区的集合对象；通过并行转换的方式来创建如（map、filter、join等）；失败自动重建（不是从开始点重建，可以从上一步重建）；可以控制存储级别（内存、磁盘等）来进行重用；必须是可序列化的；在内存不足时可自动降级为磁盘存储，把RDD存储于磁盘上，这时性能有大的下降但不会差于现在的MapReduce；对于丢失部分数据分区只需要根据它的lineage就可重新计算出来，而不需要做特定的checkpoint；

2022-09-28

TA关注的人

数据工程综合课设报告-创建广电用户画像

车票查票查询系统相关数据库

数据采集课设报告（网络爬虫-Python，Kafka与MySQL的组合使用-Java）

数据工程基础课设报告（MapReduce+hive）

Spark RDD弹性分布式数据集

spark基础,关于spark的安装和几种模式的部署

java课程设计实验报告(1).doc

Python课设实验报告.docx

gongjiao.txt

pyspark查询处理两个hive表出错

vue-router4路由报Vue Router warn]: No match found for location with path，进页面组件也没有成功添加进去基础路由，如何解决？

为什么我的select在其他地方就能用,放在el-dialog弹窗里就不渲染可选项?

element plus里 .el-form-item__label无法更改样式，如何解决？

引入weui steps报错not found是怎么回事啊？

微信小程序 使用weui mp-uploader渲染层报错，如何解决？(语言-javascript)

微信小程序发送post请求参数获取时出问题.

微信小程序进行条件渲染时出错.

云环境运行Python flask框架出错

springboot框架中想要将redis中缓存的数据发送到接口中,但是不知道为什么报错了.

scala链接redis报错.

vue调用api报错找不到函数.

在vue中 我想用::after伪类选择器给文本后边加一个动态的信息.

微信小程序js 把多个信息存放到一个列表变量时出错.

微信小程序修改云数据库信息失败.

微信小程序里想要用js实现数组去重.使用set的时候不知道为什么报错.

微信小程序从缓存里获取信息提示that is not defined.

微信小程序 图片电脑模拟器时显示但实机测试时却不显示.

python selenium库添加cookie,登录时还是没有登录上，如何解决？

后端用request.setAttribute传入了一个自定义类的list,前段该怎样接收并输出?

Servlet的数据该怎么转发到客户端的jsp页面?

Python 在没有换行的情况下直接获取缓冲区键入的数据，如何解决？

Python爬虫的时候,该怎样分析搜索栏的内容并利用requests.post()提交信息.

Python sqlist 基础条件查询语句出错

Hadoop 分布式系统中 yarn集群启动时报错 node03: ERROR: Cannot set priority of resourcemanager process 1615

c++里边string类用数组的形式输入为什么无法用cout输出？

微信小程序使用weui mp-uploader渲染层报错，如何解决？(语言-javascript)

在vue中我想用::after伪类选择器给文本后边加一个动态的信息.

微信小程序图片电脑模拟器时显示但实机测试时却不显示.