爱做梦的鱼-CSDN博客

原创大数据项目开发进度（实时更新）

文章目录前言项目概述项目进度第一周0525-0529：第二周0601-0605：前言如果你从本文中学习到丝毫知识，那么请您点点关注、点赞、评论和收藏大家好，我是爱做梦的鱼，我是东北大学大数据实验班大三的小菜鸡，非常渴望优秀，羡慕优秀的人。从5月25号我们开始了为期两个月的实习，我们需要做一个大型大数据项目，一个项目由三个学生+一个企业的项目经理完成。请大家持续关注我的专栏，我会每天更新。专栏：大数据案例实战——大三春招大数据开发专栏：Spark官方文档解读【Spark2.4.5中英双语】博客地

2020-06-05 16:29:14 15514 88

原创 kaggle竞赛使用TPU对104种花朵进行分类第二十一次尝试 99.9%准确率中文注释【深度学习TPU+Keras+Tensorflow+EfficientNetB7】

目录前言版本更新情况1. 安装efficientnet2. 导入需要的包3. 检测TPU和GPU4. 配置TPU、访问路径等5. 各种函数5.1. 可视化函数5.2. 数据集函数5.3. 模型函数6. 数据集可视化7. 训练模型7.1. 创建模型并加载到TPU7.2. 训练模型7.3. 绘制损失和准确率曲线7.4. 绘制混淆矩阵8. 预测9. 视觉上进行一下验证，看下预测效果前言大家好，我是...

2020-05-07 18:10:34 32253 155

原创【JAVA】第十一届蓝桥杯省模拟赛答案（高职专科组）

目录一、十六进制数1949对应的十进制数是多少要点结果代码二、与19000互质的数的个数是多少？要点答案代码怎么求19000的质数？三、70044与113148的最大公约数要点答案手写代码四、一棵10层的二叉树，最多包含多少个结点？要点答案手写代码五、洁净数要点代码六、递增序列要点代码七、最大的元素距离要点代码八、元音字母辅音字母的数量要点代码九、梅花桩要点代码十、小明的城堡要点代码# 一、十六进制数1949对应的　　请问十六进制数1949对应的十进制数是多少？请特别注意给定的是十六进制，求的是十进制。

2020-04-21 21:29:29 19693 72

原创【JAVA】第十一届蓝桥杯省模拟赛答案（本科组）

目录一、无向连通图包含多少条边题解答案二、字母重新排列题解答案三、在计算机存储中，12.5MB是多少字节？题解答案四、合法括号序列题解手算，极其不推荐，太容易漏了代码答案五、凯撒密码代码六、反倍数代码七、螺旋矩阵代码八、摆动序列题解答案九、小明植树题解答案十、全国户户通电题解答案一个包含有2019个结点的无向连通图，最少包含多少条边？将LANQIAO中的字母重新排列，可以得到不同的单词，如LANQIAO、AAILNOQ等，注意这7个字母都要被用上，单词不一定有具体的英文意义。

2020-04-18 12:55:55 15452 54

原创各种机械键盘轴的区别，我到底该用什么轴？

==**一般认为：游戏玩家：黑轴＞茶轴＞红轴＞青轴办公打字：青轴＞红轴＞茶轴＞黑轴**==温馨提示：1. 如果不知道买什么轴，一般买青轴或茶轴，都不会失望。黑轴的压力大，红轴没什么特色，白轴压力更大而且停产了。2. 轴并不是决定机械键盘的唯一因素，还要考虑键盘设计。比如F键区离得很远的机械键盘，就不适合玩即时战略游戏，但玩设计、音乐类却很合适。另外据称80%键盘给游戏操作留下更大空间，更适合激烈游戏中的大幅度动作。

2020-04-05 13:09:30 23401 45

原创 python编写关不掉的流氓表白软件——快去找你爱的他表白吧

python编写关不掉的流氓表白软件——快去找你爱的他表白吧部分结果演示：源代码cc.png部分结果演示：源代码from tkinter import *from tkinter import messageboxdef closeallwindow(): window.destroy( )def closeWindow(): messagebox.show...

2020-02-16 15:56:28 22530 100

原创【Python sklearn】kaggle Titanic生死预测--0.81准确率--python超详细数据分析--附源代码和报告的下载地址

kaggle Titanic生存率预测数据分析1912年4月15日，泰坦尼克号在首次航行期间撞上冰山后沉没，2224名乘客和机组人员中有1502人遇难。沉船导致大量伤亡的原因之一是没有足够的救生艇给乘客和船员。虽然幸存下来有一些运气因素，但有一些人比其他人更有可能生存，比如妇女，儿童和上层阶级。在本文中将对哪些人可能生存作出分析，特别是运用Python和机器学习的相关模型工具来预测哪些乘客幸免于难，最后提交结果。从kaggle泰坦尼克生存预测项目下载相关数据。

2019-11-05 17:11:20 17895 79

原创 5. 状态

initializeState 包括了第一次自定义函数初始化和从之前的 checkpoint 恢复，因此，initializeState 中不仅要定义初始化的逻辑，还要定义状态恢复的逻辑。**BroadcastState：**广播状态是一种特殊类型的 OperatorState，它用于当下流任务都需要同一份上流的 state 的情形。**OperateState：**算子状态的作用范围限定为算子任务，只有一种数据结构：ListState。不能依赖于流中元素到达的顺序。

2023-09-09 12:44:10 218

原创 4. 广播变量

类似于Spark广播变量，广播的数据是Dataset，接收广播的也是Dataset。分区规则是把元素广播给所有的分区，数据会被重复处理。

2023-09-09 12:43:36 475

原创 3. 自定义datasource

自定义DataSource有两大类：单线程的DataSource和多线程的DataSource单线程：继承 SourceFunction多线程：继承 ParallelSourceFunction，继承 RichParallelSourceFunction（可以有其他的很多操作）//1. 单线程count += 1//2. 多线程count += 1/**3. 多线程使用RichFunction的方式* 提供了open和close方法，可以用于打开和释放资源*/count += 1。

2023-09-09 12:42:33 245

原创 1. Flink简述

Spark 的数据模型是，很多时候 RDD 可以实现为分布式共享内存或者完全虚拟化（即有的中间结果 RDD 当下游处理完全在本地时可以直接优化省略掉）。这样可以省掉很多不必要的 I/O。 Spark用 RDD上的变换（算子）来描述数据处理。每个算子生成一个新的 RDD。所有的算子组成一个DAG， Spark 比较简单地把边分为宽依赖和窄依赖，，这时上游的结果 RDD 可以省略。 Flink 的基本数据模型是，即 Event 序列。流可以是无边界的的无限流，即一般意义上的流处理。

2023-09-09 12:28:12 629

原创初识ClickHouse

ClickHouse是一款MPP架构的列式存储数据库，它是一个 OLAP 数据库同时也是关系型数据库。与传统的数据库的最大区别是其采用的是列式存储，这种结构在做统计分析，聚类分析的时候有天然的优势，。按列存储与按行存储相比，前者可以有效减少查询时所需扫描的数据量，这一点可以用一个示例简单说明。假设一张数据表A拥有60个字段A1～A60，以及1000行数据。如果数据按行存储，数据库首先会逐行扫描，并获取每行数据的所有60个字段，再从每一行数据中返回A1～A5这5个字段。

2023-08-27 20:36:59 673

原创 Zookeeper 脑裂问题

假死：由于心跳超时（网络原因导致的）认为leader死了，但其实leader还存活着。脑裂：由于假死会发起新的leader选举，选举出一个新的leader，但旧的leader网络又通了，导致出现了两个leader ，有的客户端连接到老的leader，而有的客户端则连接到新的leader。

2023-08-27 20:36:25 1249

原创 redis管道

Redis的事务是部分事务。Redis使用MULTI、EXEC、WATCH等命令来实现事务功能。MULTI用于开始事务，EXEC用于执行事务。DISCARD用于取消事务，WATCH用于监视key。MULTI命令后可以输入多个命令，Redis不会立即执行这些命令，而是将它们放到队列中。当调用EXEC命令时，会执行队列中的所有命令。单个Redis命令的执行是原子性的，但Redis在事务上没有增加任何维持原子性的机制。

2023-08-27 20:36:04 463

原创 ByteBuf

Netty是一个基于Java NIO的网络编程框架，提供了简单而强大的API，用于快速开发可扩展的网络服务器和客户端应用程序。Netty的设计目标是提供一个高性能、可维护、可扩展的网络编程框架。它的核心思想是通过提供异步事件驱动的网络应用程序开发模型，使得开发者可以轻松地构建高性能的网络应用程序。

2023-08-13 13:08:46 237 1

原创 Netty服务端源码解析

2023-08-13 13:04:23 267 1

原创 Netty客户端源码分析

2023-08-13 12:59:40 254 1

原创 Arrays.asList

先总结要点，接下来详细讲解返回由指定数组支持的长度不可变的列表，可以看做是传入数组的 list 视图，对 list 的修改其实是在修改该数组，所以 list 中元素可以修改，但是不可以增加或删除元素返回的列表是可序列化的，并实现 RandomAccess 可以随机访问。此方法与 collection.toArray 结合，充当基于数组和基于集合的 API 之间的桥梁。

2023-07-21 21:21:39 348

原创原码反码补码

> 在计算机中，负数都是以补码的形式存放的，> 正数的源码、反码、补码完全一致。

2023-02-16 16:31:01 1953 1

原创【JAVA】自除数——力扣每日一题（九）（2022.03.31）

力扣每日一题（2022.03.31）——728. 自除数

2022-03-31 22:07:21 893 1

原创【JAVA】找到处理最多请求的服务器——力扣每日一题（八）（2022.03.30）

力扣每日一题（2022.03.31）——1606. 找到处理最多请求的服务器

2022-03-31 21:01:57 1072

原创道德引擎——灾难来临，你够资格登上诺亚方舟？墨尔本大学《java面向对象》结辩作业

目录写在前面介绍前言：面向对象设计项目设置带有标志的程序启动Print HelpEthicalEngine.java 类决策算法主菜单读取配置文件解析配置文件处理无效数据行1. 无效的数据格式2. 数字格式无效3. 无效的字段值判断场景1. 收集用户同意2. 当前场景角色属性人类动物场景属性随机场景生成3. 显示统计4. 保存判断的场景5. 重复或返回运行模拟历史审计文档UML图Javadoc写在前面做完这个作业，我有点心态崩了，本题目大意世界末日来了，谁能上亚诺方舟，是医生这种高级职业？还是小孩妇女？

2021-10-25 14:46:44 6728 1

原创 Linux安装python3.8

一、首先，官网下载python3的所需版本（1）登录https://www.python.org/downloads/source/，找到对应版本（我们以Python 3.8.12为例）如图：（2）文件上传将文件上传到Linux系统的某个目录下，根据自己情况上传（3）解压执行tar -zxvf Python-3.8.12.tgz命令，将文件解压到当前目录，如图：二、创建文件安装的路径mkdir /usr/local/python3三、下载python3编译的依赖包yum install

2021-09-09 16:54:56 7380 2

原创（翻译）A Deep Learning-Based Approach to Progressive Vehicle Re-identification for Urban Surveillance

废话（建议直接跳过）：我的毕设是做汽车重识别这几天写毕设论文（其实就是打开word，然后玩手机，嘿嘿），明天需要交初稿给大家见识一下啥叫一个晚上，一个电脑，一个奇迹。有人说我骚的不行，我只想说那确实。甲：您是做什么工作？乙：做机器学习。甲：哦哦哦，机器学习好啊。诶，我有一个问题，关于机器学习的，想请教您。乙：啊，您请讲。甲：请问在做机器学习的时候，是你找数据库，还是机器找数据库？乙：我找数据库。甲：做机器学习的时候，是你写代码，还是机器写代码？乙：我写代码。甲：调参数是机器调参.

2021-05-24 20:08:48 5402 15

原创 error: pathspec ‘v0.11.1‘ did not match any file(s) known to git.

解决方法1.首先我们看一下分支情况:git branch -a2.如果没有看到你想要的分支,先获取所有分支:git fetch3、切换到远程master分支:git checkout origin/master参考Git使用之(pathspec master did not match any file(s) known to git)...

2021-05-11 19:28:12 948

原创实现隐私计算的相关技术

目录一、隐私计算（Privacy Computing）二、实现隐私计算的相关技术1. 多方安全计算（Secure Multi-Party Computation MPC）2. 联邦学习(Federated machine learning/Federated Learning)3. 可信执行环境（TEE）参考一、隐私计算（Privacy Computing）隐私计算，广义上是指面向隐私保护的计算系统与技术，涵盖数据的产生、存储、计算、应用、销毁等信息流程全过程，想要达成的效果是使数据在各个环节中 “可用

2021-01-10 23:19:30 13582 3

原创如何在Jupyter Notebook中使用Python虚拟环境？

打开命令行，输入以下命令conda install nb_conda结果：

2020-12-20 11:06:47 2228 1

原创【JAVA】1008 数组元素循环右移问题 (20分) PAT乙级 PAT (Basic Level) Practice (中文)

你是最棒的前言题目：1008 数组元素循环右移问题 (20分)要点：M可能大于N代码一：暴力代码二：反转代码三：投机取巧（输入的时候使用循环队列的思想：）代码四：优化，减少交换次数，但是比较难前言学得越多，不会得越多种一颗树的最佳时间是十年前，其次就是现在pat所有题解代码都会陆续上传到Github，请好兄弟们自行下载：https://github.com/233zzh/PATqq交流群：1107710098题目：1008 数组元素循环右移问题 (20分)题目链接：https://

2020-11-27 18:14:31 1859 4

原创【JAVA】1007 素数对猜想 (20分) PAT乙级 PAT (Basic Level) Practice (中文)

你是最棒的前言题目：1007 素数对猜想 (20分)要点：代码前言学得越多，不会得越多种一颗树的最佳时间是十年前，其次就是现在pat所有题解代码都会陆续上传到Github，请好兄弟们自行下载：https://github.com/233zzh/PATqq交流群：1107710098题目：1007 素数对猜想 (20分)题目链接：https://pintia.cn/problem-sets/994805260223102976/problems/994805317546655744

2020-11-27 17:03:59 1248 1

原创【JAVA】1006 换个格式输出整数 (15分) PAT乙级 PAT (Basic Level) Practice (中文)

你是最棒的前言题目：1006 换个格式输出整数 (15分)代码前言学得越多，不会得越多种一颗树的最佳时间是十年前，其次就是现在pat所有题解代码都会陆续上传到Github，请好兄弟们自行下载：https://github.com/233zzh/PATqq交流群：1107710098题目：1006 换个格式输出整数 (15分)让我们用字母 B 来表示“百”、字母 S 表示“十”，用 12…n 来表示不为零的个位数字 n（<10），换个格式来输出任一个不超过 3 位的正整数。例如

2020-11-26 22:35:23 944 1

原创【JAVA】1005 继续(3n+1)猜想 (25分) PAT乙级 PAT (Basic Level)Practice (中文)

前言学得越多，不会得越多种一颗树的最佳时间是十年前，其次就是现在pat所有题解代码都会陆续上传到Github，请好兄弟们自行下载：https://github.com/233zzh/PATqq交流群：1107710098题目：1005 继续(3n+1)猜想 (25分)卡拉兹(Callatz)猜想已经在1001中给出了描述。在这个题目里，情况稍微有些复杂。当我们验证卡拉兹猜想的时候，为了避免重复计算，可以记录下递推过程中遇到的每一个数。例如对 n=3 进行验证的时候，我们需要计算 3、

2020-11-26 21:33:03 807

原创【JAVA】1004 成绩排名 (20分) PAT乙级 PAT (Basic Level) Practice（中文）

前言学得越多，不会得越多种一颗树的最佳时间是十年前，其次就是现在pat所有题解代码都会陆续上传到Github，请好兄弟们自行下载：https://github.com/233zzh/PATqq交流群：1107710098题目：1004 成绩排名 (20分)读入 n（>0）名学生的姓名、学号、成绩，分别输出成绩最高和成绩最低学生的姓名和学号。输入格式：每个测试输入包含 1 个测试用例，格式为第 1 行：正整数 n第 2 行：第 1 个学生的姓名学号成绩第 3 行：第

2020-11-26 21:30:48 842

原创【JAVA】1003 我要通过！(20分) PAT乙级 PAT (Basic Level)Practice (中文)

题目：1003 我要通过！ (20分)“答案正确”是自动判题系统给出的最令人欢喜的回复。本题属于 PAT 的“答案正确”大派送 —— 只要读入的字符串满足下列条件，系统就输出“答案正确”，否则输出“答案错误”。得到“答案正确”的条件是：字符串中必须仅有 P、 A、 T这三种字符，不可以包含其它字符；任意形如 xPATx 的字符串都可以获得“答案正确”，其中 x 或者是空字符串，或者是仅由字母 A 组成的字符串；如果 aPbTc 是正确的，那么 aPbATca 也是正确的，其中 a、 b、 c 均

2020-11-26 17:28:37 2689 42

原创 21届本科大数据菜鸡：我是怎么在互联网寒冬拿到腾讯、华为、京东、美团、快手等大厂offer的？

YOU CAN前言正文不要自卑，去提升实力互联网行业谁技术牛谁是爹你这么聪明，你会被游戏控制？朋友是你在玩它。前言学得越多，不会得越多活着就是为了改变世界下一阶段目标：工作第一年攒10w，在老家买房子付首付程序员真得非常容易改变阶级啊（简单说就是你会有很多钱，而且赚的钱基本和你的实力努力成正比，而且我们行业不看脸，哈哈哈????????????）博主以前一直标榜自己是只写技术干货的硬核博主，博主第一次写水文（软文），就想和大家分享一下自己的个人经历（我知道我的心得、我的经历对别人一文不值，

2020-10-24 20:21:08 36872 617

原创【JAVA】滴滴-2021校招在线笔试-DE数据开发试卷-0913

目录前言一、D星群岛（全A，A了0.82的人考虑一下：四个岛，现在有两条桥1-2 3-4）代码：二、毕业旅行（全A）代码：前言兄弟们都会有offer的，不要慌，奥力给一、D星群岛（全A，A了0.82的人考虑一下：四个岛，现在有两条桥1-2 3-4）时间限制： 3000MS内存限制： 589824KB题目描述：D星群岛由n个小岛组成。为了加强小岛居民之间的交流，头目决定启动一个造桥工程，将全部n个岛连接到一起。由于受到金融危机的影响，头目要求造桥的总成本要最少，并且还规定每一座桥的成本都不

2020-09-13 21:06:00 6453 6

原创【JAVA】vivo2021届秋季校招笔试在线编程

前言都会有offer的，不要慌，奥力给一、游戏地图路径（没尝试，时间不够，我对最短路径问题不熟）二、回文字符串（A0.8，逻辑混乱了）package vivo;import java.util.Scanner;/** * Created by IntelliJ IDEA. * * @Author: * @Email: * @Date: 2020/9/12 * @Time: 20:31 * @Version: 1.0 * @Description: Description

2020-09-12 22:00:05 5364 10

原创【JAVA】360-2021校招笔试-技术综合A卷-0911

一、企业管理（A0.64）时间限制： 3000MS内存限制： 786432KB题目描述：企业管理是一个难题，特别是对于上下班打卡系统来说。小A所在的公司的打卡器坏了，所以打卡机只记录了今天一段连续的时间内所有的打卡记录。小A是企业的老板，他从来都是第一个上班，最晚下班的人。今天他恰好忘记了自己的号码。现在，小A只有一张按时间顺序但记录不全的上下班记录表。他希望使用这一张表，看出自己的工号是几号。请你帮助小A计算自己的工号，如果有多组解，从小到大按顺序输出。请注意，公司管理规定上班下班必须有打卡

2020-09-11 22:12:59 7884 21

原创【JAVA】有赞2021校招数据笔试（B卷）——都是牛客原题

前言兄弟们都会有心仪的offer一、LRUpackage youzan;package youzan;import java.util.ArrayList;import java.util.Arrays;import java.util.Iterator;import java.util.LinkedHashMap;/** * Created by IntelliJ IDEA. * * @Author: * @Email: * @Date: 2020/9/11 * @T

2020-09-11 16:03:29 2685 1

原创 BIGOJava开发工程师【2021届校招】B卷

前言兄弟们都会有心仪的offer！！！！！一、服务器部署应用程序——典型背包问题二、泛型实现快排package bigo;/** * Created by IntelliJ IDEA. * * @Author: * @Email: * @Date: 2020/9/10 * @Time: 19:44 * @Version: 1.0 * @Description: Description */import java.util.Arrays;public class S

2020-09-10 20:49:11 1252 1

原创【JAVA】【华为校园招聘笔试-软件】2020-09-09

前言华为三道题，100+200+300，100及格，大家做对第一题就好了，祝大家全都有心仪的offer，不要慌，不要焦虑一、完美排列——玩具（注意：题目中说：如果不是完美排列，则输出0，没注意这种情况的应该A0.6或0.7）代码：暴力就完事了package huawei0909;import java.util.Scanner;/** * Created by IntelliJ IDEA. * * @Author: * @Email: * @Date: 2020/9/9 *

2020-09-09 21:09:10 22889 20

数据——东北大学大数据班数据挖掘实训四.zip

博客《【Python】随机森林算法——东北大学大数据班数据挖掘实训四》的数据利用train.csv中的数据，通过H2O框架中的随机森林算法构建分类模型，然后利用模型对test.csv中的数据进行预测，并计算分类的准确度进而评价模型的分类效果；通过调节参数，观察分类准确度的变化情况。注：准确度＝预测正确的数与样本总数的比【注：可以做一些特征选择的工作，来提高准确度】

2020-05-03

数据——东北大学数据挖掘实训三.zip

《【Python】决策树算法(DecisionTreeClassifier)——东北大学数据挖掘实训三》的数据

2020-05-03

波士顿房价数据集(boston_housing.npz)

本节将要预测 20 世纪 70 年代中期波士顿郊区房屋价格的中位数，已知当时郊区的一些数据点，比如犯罪率、当地房产税率等。本节用到的数据集与前面两个例子有一个有趣的区别。它包含的数据点相对较少，只有 506 个，分为 404 个训练样本和 102 个测试样本。输入数据的每个特征（比如犯罪率）都有不同的取值范围。例如，有些特性是比例，取值范围为 01；有的取值范围为 112；还有的取值范围为 0~100，等等。

2020-04-27

reuters.npz和reuters_word_index.json.zip

路透社数据集，它包含许多短新闻及其对应的主题，由路透社在 1986 年发布。它是一个简单的、广泛使用的文本分类数据集。它包括 46 个不同的主题：某些主题的样本更多，但训练集中每个主题都有至少 10 个样本。与 IMDB 和 MNIST 类似，路透社数据集也内置为 Keras 的一部分。

2020-04-26

mnist完整手写数字集

mnist.npz 我们将使用 MNIST 数据集，它是机器学习领域的一个经典数据集，其历史几乎和这个领域一样长，而且已被人们深入研究。这个数据集包含 60 000 张训练图像和 10 000 张测试图像，由美国国家标准与技术研究院（National Institute of Standards and Technology，即 MNIST 中的 NIST）在 20 世纪 80 年代收集得到。你可以将“解决”MNIST 问题看作深度学习的“Hello

2020-04-25

imdb完整的数据集

imdb.npz和imdb_word_index.json 互联网电影资料库（Internet Movie Database，简称IMDb）是一个关于电影演员、电影、电视节目、电视明星和电影制作的在线数据库。

2020-04-25

pandasTrain.html python-pandas的一些小练习——东北大学大数据班数据挖掘实训Python基础二（2）

python-pandas的一些小练习——东北大学大数据班数据挖掘实训Python基础二（2）实训练习：练习使用pandas 包中的dataframe和方法。 1将数据读取为dataframe类型，命名为df 2查看数据的形状[了解数据有多少行、多少列] 3查看数据的最开始的7条数据和尾部的3条数据 4查看数据的各字段的类型 5查看数据是否有缺失值 6如果有缺失值，进行补0操作 7从df中按字段取出‘ date’’dist’和‘ flight’形成新的df1 8从df中按位置选取行为3和4，列为0,1的数据形成新的df2 9在df中添加一列‘ low_dest’，内容是‘ dest’这列的字符串的小写形式 10从df中选取‘ dist’大于1000并且小于1200的数据作为一个新的df3 11从df中选取‘ time’大于100的数据做为新的df4 12将df3和df4合并为一个dataframe，命名为df5 13取出df3中的‘ time’,‘dist’ 这两列做为df6，求出df6中每列中最大值与最小值的差值（运用lambda函数的方式进行求解） 14将df根据“ dest”分组，统计各目的地，都有多少条数据，命名为“ dest_count”，然后将“ dest”和“ dest_count”组成新的dataframe命名为df7 15根据dep_delay不为0，统计df中有多少次航班起飞延误 16利用plane字段，统计df中不同航班的飞行次数，以plane和plane_cout格式保存为df8 17利用carrier字段，计算df中carrier字段不同属性数据的数据量的比值（如：XE的数据量与MQ的数据量的比值） 18分别将df7和 df8保存到本地文件，文件名分别为df7.csv和df8.csv

2020-03-29

numpyTrain (1).html 练习使用python-numpy的方法——东北大学大数据班数据挖掘Python基础二（1）

练习使用python-numpy的方法——东北大学大数据班数据挖掘Python基础二（1）实训项目:练习使用numpy的方法。（1）用0~19的数字生成(4,5)的数组命名为a,查看a的维度；查看a的轴的个数；查看a元素的总个数; （2）创建元素为1,2,3,4的(2,2)的数组 b，查看b中元素类型。（3）创建一个全1的（4,4）的数组c;创建一个内容随机的(3,2)数组d，并打印d。（4）用0~11的数，创建一个3*4的数组n1，计算每一列的和；计算每一行的最小值。（5）生成一个3个元素的数组n2,通过常用函数计算每个元素的平方根；每个元素的标准差。（6）生成一个9个（可以从0~8）元素的数组n3,计算每个元素的平方根；取出位置2的元素；取出位置2至5之间的元素。（7）随机生成2个3*3的数组n4和n5，将n4和n5进行垂直合并形成n6;将n4和n5进行水平合并形成n7。（8）创建一个2行3列的零矩阵命名为z,将z的2行3列的位置值置成1。（9）生成4*4的对角矩阵，以[1,2,3,4]为对角线,其他位置用0填充，命名为z1 。（10）用0~8的数，创建成`3*3`的矩阵，命名为z2;用随机数，创建`4*4`的矩阵，命名为z3。（11）读取iris数据集中的数据。（12）获取数据中的花萼长度数据。（13）对花萼长度数据进行排序。（14）对花萼长度数据进行去重。（15）对花萼长度数据进行求和。（16）对花萼长度数据进行求均值。（17）对花萼长度数据求累计和。（18）对花萼长度数据求标准差。（19）对花萼长度数据求方差。（20）对花萼长度数据求最大值、最小值。

2020-03-29

matplotlibTrain (1).html python-matplotlib的一些小练习——东北大学大数据班数据挖掘实训Python基础三

python-matplotlib的一些小练习——东北大学大数据班数据挖掘实训Python基础三题目：练习使用matplotlib 包中的方法绘图。 1.通过pandas包将数据scmd_CalculationData.csv读入，从中取出winddirection和windspeed1这2个字段，绘制风速与风向的散点图（风向为横轴，风速为y轴）。（要求：有标题(风速与风向的函数)、横纵坐标的标题、设置网格，保存图片文件命名为1风速与风向的函数.png） 2.通过pandas包将数据scmd_CalculationData.csv读入，从中取出windspeed1、power_max、power_min、power和power_dev这5个字段，绘制功率特性的散点图（风速为x轴，其他为y轴）。（要求：有标题(功率特性散点图)、横纵坐标的标题、图例、设置网格，保存图片文件命名为2功率特性散点图.png） 3.通过pandas包将数据bz_df_wt.csv读入，从中取出bin_bz_fs<=20的数据，然后取出实际风速bin_bz_fs和实际功率bin_bz_power；再读入bzglqx.csv取出保证风速fs和保证功率gl，绘制功率曲线的对比图（一张图中绘制，横轴为风速，纵轴为功率）。（要求：有标题(实测与设计功率曲线对比)、横纵坐标的标题、图例、设置网格，保存图片文件命名为3实测与设计功率曲线对比.png）

2020-03-29

东北大学Linux实验报告及代码sk.zip

东北大学软件学院Linux实验报告及代码老师是sk 东北大学软件学院Linux实验报告及代码老师是sk

2020-02-04

泰坦尼克号0.81准确率python源代码.py

这是kaggle泰坦尼克号准确率0.81的python数据分析超级详细的源代码这是传说中的泰坦尼克机器学习比赛-对你来说最好的，第一次挑战，让你潜入机器学习比赛，熟悉Kaggle平台的工作原理。竞争很简单：使用机器学习来创建一个模型，预测哪些乘客在泰坦尼克号沉船事故中幸存下来。

2019-11-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人