自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

子浩的博客

一个大二的臭弟弟在慢慢努力,在做着自己的梦,希望他能用行动证明自己,而不是就嘴上说说

  • 博客(243)
  • 资源 (13)
  • 收藏
  • 关注

原创 大数据项目开发进度(实时更新)

文章目录前言项目概述项目进度第一周0525-0529:第二周0601-0605:前言如果你从本文中学习到丝毫知识,那么请您点点关注、点赞、评论和收藏大家好,我是爱做梦的鱼,我是东北大学大数据实验班大三的小菜鸡,非常渴望优秀,羡慕优秀的人。从5月25号我们开始了为期两个月的实习,我们需要做一个大型大数据项目,一个项目由三个学生+一个企业的项目经理完成。请大家持续关注我的专栏,我会每天更新。专栏:大数据案例实战——大三春招大数据开发专栏:Spark官方文档解读【Spark2.4.5中英双语】博客地

2020-06-05 16:29:14 15514 88

原创 kaggle竞赛 使用TPU对104种花朵进行分类 第二十一次尝试 99.9%准确率 中文注释【深度学习TPU+Keras+Tensorflow+EfficientNetB7】

目录前言版本更新情况1. 安装efficientnet2. 导入需要的包3. 检测TPU和GPU4. 配置TPU、访问路径等5. 各种函数5.1. 可视化函数5.2. 数据集函数5.3. 模型函数6. 数据集可视化7. 训练模型7.1. 创建模型并加载到TPU7.2. 训练模型7.3. 绘制损失和准确率曲线7.4. 绘制混淆矩阵8. 预测9. 视觉上进行一下验证,看下预测效果前言大家好,我是...

2020-05-07 18:10:34 32253 155

原创 【JAVA】第十一届蓝桥杯省模拟赛答案(高职专科组)

目录一、十六进制数1949对应的十进制数是多少要点结果代码二、与19000互质的数的个数是多少?要点答案代码怎么求19000的质数?三、70044与113148的最大公约数要点答案手写代码四、一棵10层的二叉树,最多包含多少个结点?要点答案手写代码五、洁净数要点代码六、递增序列要点代码七、最大的元素距离要点代码八、元音字母辅音字母的数量要点代码九、梅花桩要点代码十、小明的城堡要点代码# 一、十六进制数1949对应的  请问十六进制数1949对应的十进制数是多少?请特别注意给定的是十六进制,求的是十进制。

2020-04-21 21:29:29 19693 72

原创 【JAVA】第十一届蓝桥杯省模拟赛答案(本科组)

目录一、无向连通图包含多少条边题解答案二、字母重新排列题解答案三、在计算机存储中,12.5MB是多少字节?题解答案四、合法括号序列题解手算,极其不推荐,太容易漏了代码答案五、凯撒密码代码六、反倍数代码七、螺旋矩阵代码八、摆动序列题解答案九、小明植树题解答案十、全国户户通电题解答案一个包含有2019个结点的无向连通图,最少包含多少条边?将LANQIAO中的字母重新排列,可以得到不同的单词,如LANQIAO、AAILNOQ等,注意这7个字母都要被用上,单词不一定有具体的英文意义。

2020-04-18 12:55:55 15452 54

原创 各种机械键盘轴的区别,我到底该用什么轴?

==**一般认为:游戏玩家:黑轴>茶轴>红轴>青轴办公打字:青轴>红轴>茶轴>黑轴**==温馨提示:1. 如果不知道买什么轴,一般买青轴或茶轴,都不会失望。黑轴的压力大,红轴没什么特色,白轴压力更大而且停产了。2. 轴并不是决定机械键盘的唯一因素,还要考虑键盘设计。比如F键区离得很远的机械键盘,就不适合玩即时战略游戏,但玩设计、音乐类却很合适。另外据称80%键盘给游戏操作留下更大空间,更适合激烈游戏中的大幅度动作。

2020-04-05 13:09:30 23401 45

原创 python编写关不掉的流氓表白软件——快去找你爱的他表白吧

python编写关不掉的流氓表白软件——快去找你爱的他表白吧部分结果演示:源代码cc.png部分结果演示:源代码from tkinter import *from tkinter import messageboxdef closeallwindow(): window.destroy( )def closeWindow(): messagebox.show...

2020-02-16 15:56:28 22530 100

原创 【Python sklearn】kaggle Titanic生死预测--0.81准确率--python超详细数据分析--附源代码和报告的下载地址

kaggle Titanic生存率预测数据分析1912年4月15日,泰坦尼克号在首次航行期间撞上冰山后沉没,2224名乘客和机组人员中有1502人遇难。沉船导致大量伤亡的原因之一是没有足够的救生艇给乘客和船员。虽然幸存下来有一些运气因素,但有一些人比其他人更有可能生存,比如妇女,儿童和上层阶级。在本文中将对哪些人可能生存作出分析,特别是运用Python和机器学习的相关模型工具来预测哪些乘客幸免于难,最后提交结果。从kaggle泰坦尼克生存预测项目下载相关数据。

2019-11-05 17:11:20 17895 79

原创 5. 状态

initializeState 包括了第一次自定义函数初始化和从之前的 checkpoint 恢复,因此,initializeState 中不仅要定义初始化的逻辑,还要定义状态恢复的逻辑。**BroadcastState:**广播状态是一种特殊类型的 OperatorState,它用于当下流任务都需要同一份上流的 state 的情形。**OperateState:**算子状态的作用范围限定为算子任务,只有一种数据结构:ListState。不能依赖于流中元素到达的顺序。

2023-09-09 12:44:10 218

原创 4. 广播变量

​ 类似于Spark广播变量,广播的数据是Dataset,接收广播的也是Dataset。​ 分区规则是把元素广播给所有的分区,数据会被重复处理。

2023-09-09 12:43:36 475

原创 3. 自定义datasource

​ 自定义DataSource有两大类:单线程的DataSource和多线程的DataSource单线程:继承 SourceFunction多线程:继承 ParallelSourceFunction,继承 RichParallelSourceFunction(可以有其他的很多操作)//1. 单线程count += 1//2. 多线程count += 1/**3. 多线程使用RichFunction的方式* 提供了open和close方法,可以用于打开和释放资源*/count += 1。

2023-09-09 12:42:33 245

原创 1. Flink简述

​ Spark 的数据模型是,很多时候 RDD 可以实现为分布式共享内存或者完全虚拟化(即有的中间结果 RDD 当下游处理完全在本地时可以直接优化省略掉)。这样可以省掉很多不必要的 I/O。​ Spark用 RDD上的变换(算子)来描述数据处理。每个算子生成一个新的 RDD。所有的算子组成一个DAG, Spark 比较简单地把边分为宽依赖和窄依赖,,这时上游的结果 RDD 可以省略。​ Flink 的基本数据模型是,即 Event 序列。流可以是无边界的的无限流,即一般意义上的流处理。

2023-09-09 12:28:12 629

原创 初识ClickHouse

ClickHouse是一款MPP架构的列式存储数据库,它是一个 OLAP 数据库同时也是关系型数据库。与传统的数据库的最大区别是其采用的是列式存储,这种结构在做统计分析,聚类分析的时候有天然的优势,。按列存储与按行存储相比,前者可以有效减少查询时所需扫描的数据量,这一点可以用一个示例简单说明。假设一张数据表A拥有60个字段A1~A60,以及1000行数据。如果数据按行存储,数据库首先会逐行扫描,并获取每行数据的所有60个字段,再从每一行数据中返回A1~A5这5个字段。

2023-08-27 20:36:59 673

原创 Zookeeper 脑裂问题

假死:由于心跳超时(网络原因导致的)认为leader死了,但其实leader还存活着。脑裂:由于假死会发起新的leader选举,选举出一个新的leader,但旧的leader网络又通了,导致出现了两个leader ,有的客户端连接到老的leader,而有的客户端则连接到新的leader。

2023-08-27 20:36:25 1249

原创 redis管道

Redis的事务是部分事务。Redis使用MULTI、EXEC、WATCH等命令来实现事务功能。MULTI用于开始事务,EXEC用于执行事务。DISCARD用于取消事务,WATCH用于监视key。MULTI命令后可以输入多个命令,Redis不会立即执行这些命令,而是将它们放到队列中。当调用EXEC命令时,会执行队列中的所有命令。单个Redis命令的执行是原子性的,但Redis在事务上没有增加任何维持原子性的机制。

2023-08-27 20:36:04 463

原创 ByteBuf

Netty是一个基于Java NIO的网络编程框架,提供了简单而强大的API,用于快速开发可扩展的网络服务器和客户端应用程序。Netty的设计目标是提供一个高性能、可维护、可扩展的网络编程框架。它的核心思想是通过提供异步事件驱动的网络应用程序开发模型,使得开发者可以轻松地构建高性能的网络应用程序。

2023-08-13 13:08:46 237 1

原创 Netty服务端源码解析

Netty是一个基于Java NIO的网络编程框架,提供了简单而强大的API,用于快速开发可扩展的网络服务器和客户端应用程序。Netty的设计目标是提供一个高性能、可维护、可扩展的网络编程框架。它的核心思想是通过提供异步事件驱动的网络应用程序开发模型,使得开发者可以轻松地构建高性能的网络应用程序。

2023-08-13 13:04:23 267 1

原创 Netty客户端源码分析

Netty是一个基于Java NIO的网络编程框架,提供了简单而强大的API,用于快速开发可扩展的网络服务器和客户端应用程序。Netty的设计目标是提供一个高性能、可维护、可扩展的网络编程框架。它的核心思想是通过提供异步事件驱动的网络应用程序开发模型,使得开发者可以轻松地构建高性能的网络应用程序。

2023-08-13 12:59:40 254 1

原创 Arrays.asList

先总结要点,接下来详细讲解返回由指定数组支持的长度不可变的列表,可以看做是传入数组的 list 视图,对 list 的修改其实是在修改该数组,所以 list 中元素可以修改,但是不可以增加或删除元素返回的列表是可序列化的,并实现 RandomAccess 可以随机访问。此方法与 collection.toArray 结合,充当基于数组和基于集合的 API 之间的桥梁。

2023-07-21 21:21:39 348

原创 原码反码补码

> 在计算机中,负数都是以补码的形式存放的,> 正数的源码、反码、补码完全一致。

2023-02-16 16:31:01 1953 1

原创 【JAVA】自除数——力扣每日一题(九)(2022.03.31)

力扣每日一题(2022.03.31)——728. 自除数

2022-03-31 22:07:21 893 1

原创 【JAVA】找到处理最多请求的服务器——力扣每日一题(八)(2022.03.30)

力扣每日一题(2022.03.31)——1606. 找到处理最多请求的服务器

2022-03-31 21:01:57 1072

原创 道德引擎——灾难来临,你够资格登上诺亚方舟?墨尔本大学《java面向对象》结辩作业

目录写在前面介绍前言:面向对象设计项目设置带有标志的程序启动Print HelpEthicalEngine.java 类决策算法主菜单读取配置文件解析配置文件处理无效数据行1. 无效的数据格式2. 数字格式无效3. 无效的字段值判断场景1. 收集用户同意2. 当前场景角色属性人类动物场景属性随机场景生成3. 显示统计4. 保存判断的场景5. 重复或返回运行模拟历史审计文档UML图Javadoc写在前面做完这个作业,我有点心态崩了,本题目大意世界末日来了,谁能上亚诺方舟,是医生这种高级职业?还是小孩妇女?

2021-10-25 14:46:44 6728 1

原创 Linux安装python3.8

一、首先,官网下载python3的所需版本(1)登录https://www.python.org/downloads/source/,找到对应版本(我们以Python 3.8.12为例)如图:(2)文件上传将文件上传到Linux系统的某个目录下,根据自己情况上传(3)解压执行tar -zxvf Python-3.8.12.tgz命令,将文件解压到当前目录,如图:二、创建文件安装的路径mkdir /usr/local/python3三、下载python3编译的依赖包yum install

2021-09-09 16:54:56 7380 2

原创 (翻译)A Deep Learning-Based Approach to Progressive Vehicle Re-identification for Urban Surveillance

废话(建议直接跳过):我的毕设是做汽车重识别这几天写毕设论文(其实就是打开word,然后玩手机,嘿嘿),明天需要交初稿给大家见识一下啥叫一个晚上,一个电脑,一个奇迹。有人说我骚的不行,我只想说那确实。甲:您是做什么工作?乙:做机器学习。甲:哦哦哦,机器学习好啊。诶,我有一个问题,关于机器学习的,想请教您。乙:啊,您请讲。甲:请问在做机器学习的时候,是你找数据库,还是机器找数据库?乙:我找数据库。甲:做机器学习的时候,是你写代码,还是机器写代码?乙:我写代码。甲:调参数是机器调参.

2021-05-24 20:08:48 5402 15

原创 error: pathspec ‘v0.11.1‘ did not match any file(s) known to git.

解决方法1.首先我们看一下分支情况:git branch -a2.如果没有看到你想要的分支,先获取所有分支:git fetch3、切换到远程master分支:git checkout origin/master参考Git使用之(pathspec master did not match any file(s) known to git)...

2021-05-11 19:28:12 948

原创 实现隐私计算的相关技术

目录一、隐私计算(Privacy Computing)二、实现隐私计算的相关技术1. 多方安全计算(Secure Multi-Party Computation MPC)2. 联邦学习(Federated machine learning/Federated Learning)3. 可信执行环境(TEE)参考一、隐私计算(Privacy Computing)隐私计算,广义上是指面向隐私保护的计算系统与技术,涵盖数据的产生、存储、计算、应用、销毁等信息流程全过程,想要达成的效果是使数据在各个环节中 “可用

2021-01-10 23:19:30 13582 3

原创 如何在Jupyter Notebook中使用Python虚拟环境?

打开命令行,输入以下命令conda install nb_conda结果:

2020-12-20 11:06:47 2228 1

原创 【JAVA】1008 数组元素循环右移问题 (20分) PAT乙级 PAT (Basic Level) Practice (中文)

你是最棒的前言题目:1008 数组元素循环右移问题 (20分)要点:M可能大于N代码一:暴力代码二:反转代码三:投机取巧(输入的时候使用循环队列的思想:)代码四:优化,减少交换次数,但是比较难前言学得越多,不会得越多种一颗树的最佳时间是十年前,其次就是现在pat所有题解代码都会陆续上传到Github,请好兄弟们自行下载:https://github.com/233zzh/PATqq交流群:1107710098题目:1008 数组元素循环右移问题 (20分)题目链接:https://

2020-11-27 18:14:31 1859 4

原创 【JAVA】1007 素数对猜想 (20分) PAT乙级 PAT (Basic Level) Practice (中文)

你是最棒的前言题目:1007 素数对猜想 (20分)要点:代码前言学得越多,不会得越多种一颗树的最佳时间是十年前,其次就是现在pat所有题解代码都会陆续上传到Github,请好兄弟们自行下载:https://github.com/233zzh/PATqq交流群:1107710098题目:1007 素数对猜想 (20分)题目链接:https://pintia.cn/problem-sets/994805260223102976/problems/994805317546655744

2020-11-27 17:03:59 1248 1

原创 【JAVA】1006 换个格式输出整数 (15分) PAT乙级 PAT (Basic Level) Practice (中文)

你是最棒的前言题目:1006 换个格式输出整数 (15分)代码前言学得越多,不会得越多种一颗树的最佳时间是十年前,其次就是现在pat所有题解代码都会陆续上传到Github,请好兄弟们自行下载:https://github.com/233zzh/PATqq交流群:1107710098题目:1006 换个格式输出整数 (15分)让我们用字母 B 来表示“百”、字母 S 表示“十”,用 12…n 来表示不为零的个位数字 n(<10),换个格式来输出任一个不超过 3 位的正整数。例如

2020-11-26 22:35:23 944 1

原创 【JAVA】1005 继续(3n+1)猜想 (25分) PAT乙级 PAT (Basic Level)Practice (中文)

前言学得越多,不会得越多种一颗树的最佳时间是十年前,其次就是现在pat所有题解代码都会陆续上传到Github,请好兄弟们自行下载:https://github.com/233zzh/PATqq交流群:1107710098题目:1005 继续(3n+1)猜想 (25分)卡拉兹(Callatz)猜想已经在1001中给出了描述。在这个题目里,情况稍微有些复杂。当我们验证卡拉兹猜想的时候,为了避免重复计算,可以记录下递推过程中遇到的每一个数。例如对 n=3 进行验证的时候,我们需要计算 3、

2020-11-26 21:33:03 807

原创 【JAVA】1004 成绩排名 (20分) PAT乙级 PAT (Basic Level) Practice(中文)

前言学得越多,不会得越多种一颗树的最佳时间是十年前,其次就是现在pat所有题解代码都会陆续上传到Github,请好兄弟们自行下载:https://github.com/233zzh/PATqq交流群:1107710098题目:1004 成绩排名 (20分)读入 n(>0)名学生的姓名、学号、成绩,分别输出成绩最高和成绩最低学生的姓名和学号。输入格式:每个测试输入包含 1 个测试用例,格式为第 1 行:正整数 n第 2 行:第 1 个学生的姓名 学号 成绩第 3 行:第

2020-11-26 21:30:48 842

原创 【JAVA】1003 我要通过!(20分) PAT乙级 PAT (Basic Level)Practice (中文)

题目:1003 我要通过! (20分)“答案正确”是自动判题系统给出的最令人欢喜的回复。本题属于 PAT 的“答案正确”大派送 —— 只要读入的字符串满足下列条件,系统就输出“答案正确”,否则输出“答案错误”。得到“答案正确”的条件是:字符串中必须仅有 P、 A、 T这三种字符,不可以包含其它字符;任意形如 xPATx 的字符串都可以获得“答案正确”,其中 x 或者是空字符串,或者是仅由字母 A 组成的字符串;如果 aPbTc 是正确的,那么 aPbATca 也是正确的,其中 a、 b、 c 均

2020-11-26 17:28:37 2689 42

原创 21届本科大数据菜鸡:我是怎么在互联网寒冬拿到腾讯、华为、京东、美团、快手等大厂offer的?

YOU CAN前言正文不要自卑,去提升实力互联网行业谁技术牛谁是爹你这么聪明,你会被游戏控制?朋友是你在玩它。前言学得越多,不会得越多活着就是为了改变世界下一阶段目标:工作第一年攒10w,在老家买房子付首付程序员真得非常容易改变阶级啊(简单说就是你会有很多钱,而且赚的钱基本和你的实力努力成正比,而且我们行业不看脸,哈哈哈????????????)博主以前一直标榜自己是只写技术干货的硬核博主,博主第一次写水文(软文),就想和大家分享一下自己的个人经历(我知道我的心得、我的经历对别人一文不值,

2020-10-24 20:21:08 36872 617

原创 【JAVA】滴滴-2021校招在线笔试-DE数据开发试卷-0913

目录前言一、D星群岛(全A,A了0.82的人考虑一下:四个岛,现在有两条桥1-2 3-4)代码:二、毕业旅行(全A)代码:前言兄弟们都会有offer的,不要慌,奥力给一、D星群岛(全A,A了0.82的人考虑一下:四个岛,现在有两条桥1-2 3-4)时间限制: 3000MS内存限制: 589824KB题目描述:D星群岛由n个小岛组成。为了加强小岛居民之间的交流,头目决定启动一个造桥工程,将全部n个岛连接到一起。由于受到金融危机的影响,头目要求造桥的总成本要最少,并且还规定每一座桥的成本都不

2020-09-13 21:06:00 6453 6

原创 【JAVA】vivo2021届秋季校招笔试在线编程

前言都会有offer的,不要慌,奥力给一、游戏地图路径(没尝试,时间不够,我对最短路径问题不熟)二、回文字符串(A0.8,逻辑混乱了)package vivo;import java.util.Scanner;/** * Created by IntelliJ IDEA. * * @Author: * @Email: * @Date: 2020/9/12 * @Time: 20:31 * @Version: 1.0 * @Description: Description

2020-09-12 22:00:05 5364 10

原创 【JAVA】360-2021校招笔试-技术综合A卷-0911

一、企业管理(A0.64)时间限制: 3000MS内存限制: 786432KB题目描述:企业管理是一个难题,特别是对于上下班打卡系统来说。小A所在的公司的打卡器坏了,所以打卡机只记录了今天一段连续的时间内所有的打卡记录。 小A是企业的老板,他从来都是第一个上班,最晚下班的人。今天他恰好忘记了自己的号码。现在,小A只有一张按时间顺序但记录不全的上下班记录表。他希望使用这一张表,看出自己的工号是几号。 请你帮助小A计算自己的工号,如果有多组解,从小到大按顺序输出。请注意,公司管理规定上班下班必须有打卡

2020-09-11 22:12:59 7884 21

原创 【JAVA】有赞2021校招数据笔试(B卷)——都是牛客原题

前言兄弟们都会有心仪的offer一、LRUpackage youzan;package youzan;import java.util.ArrayList;import java.util.Arrays;import java.util.Iterator;import java.util.LinkedHashMap;/** * Created by IntelliJ IDEA. * * @Author: * @Email: * @Date: 2020/9/11 * @T

2020-09-11 16:03:29 2685 1

原创 BIGOJava开发工程师【2021届校招】B卷

前言兄弟们都会有心仪的offer!!!!!一、服务器部署应用程序——典型背包问题二、泛型实现快排package bigo;/** * Created by IntelliJ IDEA. * * @Author: * @Email: * @Date: 2020/9/10 * @Time: 19:44 * @Version: 1.0 * @Description: Description */import java.util.Arrays;public class S

2020-09-10 20:49:11 1252 1

原创 【JAVA】【华为校园招聘笔试-软件】2020-09-09

前言华为三道题,100+200+300,100及格,大家做对第一题就好了,祝大家全都有心仪的offer,不要慌,不要焦虑一、完美排列——玩具(注意:题目中说:如果不是完美排列,则输出0,没注意这种情况的应该A0.6或0.7)代码:暴力就完事了package huawei0909;import java.util.Scanner;/** * Created by IntelliJ IDEA. * * @Author: * @Email: * @Date: 2020/9/9 *

2020-09-09 21:09:10 22889 20

数据——东北大学大数据班数据挖掘实训四.zip

博客《【Python】随机森林算法——东北大学大数据班数据挖掘实训四》的数据 利用train.csv中的数据,通过H2O框架中的随机森林算法构建分类模型,然后利用模型对test.csv中的数据进行预测,并计算分类的准确度进而评价模型的分类效果;通过调节参数,观察分类准确度的变化情况。注:准确度=预测正确的数与样本总数的比【注:可以做一些特征选择的工作,来提高准确度】

2020-05-03

数据——东北大学数据挖掘实训三.zip

《【Python】决策树算法(DecisionTreeClassifier)——东北大学数据挖掘实训三》的数据

2020-05-03

波士顿房价数据集(boston_housing.npz)

本节将要预测 20 世纪 70 年代中期波士顿郊区房屋价格的中位数,已知当时郊区的一些数据点,比如犯罪率、当地房产税率等。 本节用到的数据集与前面两个例子有一个有趣的区别。它包含的数据点相对较少,只有 506 个,分为 404 个训练样本和 102 个测试样本。输入数据的每个特征(比如犯罪率)都有不同的取值范围。例如,有些特性是比例,取值范围为 01;有的取值范围为 112;还有的取值范围为 0~100,等等。

2020-04-27

reuters.npz和reuters_word_index.json.zip

路透社数据集,它包含许多短新闻及其对应的主题,由路透社在 1986 年发布。它 是一个简单的、广泛使用的文本分类数据集。它包括 46 个不同的主题:某些主题的样本更多, 但训练集中每个主题都有至少 10 个样本。 与 IMDB 和 MNIST 类似,路透社数据集也内置为 Keras 的一部分。

2020-04-26

mnist完整手写数字集

mnist.npz 我们将使用 MNIST 数据集,它是机器学习领域的一个经典数据集,其历史几乎和这 个领域一样长,而且已被人们深入研究。这个数据集包含 60 000 张训练图像和 10 000 张测试图 像,由美国国家标准与技术研究院(National Institute of Standards and Technology,即 MNIST 中 的 NIST)在 20 世纪 80 年代收集得到。你可以将“解决”MNIST 问题看作深度学习的“Hello

2020-04-25

imdb完整的数据集

imdb.npz和imdb_word_index.json 互联网电影资料库(Internet Movie Database,简称IMDb)是一个关于电影演员、电影、电视节目、电视明星和电影制作的在线数据库。

2020-04-25

pandasTrain.html python-pandas的一些小练习——东北大学大数据班数据挖掘实训Python基础二(2)

python-pandas的一些小练习——东北大学大数据班数据挖掘实训Python基础二(2) 实训练习:练习使用pandas 包中的dataframe和方法。 1将数据读取为dataframe类型,命名为df 2查看数据的形状[了解数据有多少行、多少列] 3查看数据的最开始的7条数据和尾部的3条数据 4查看数据的各字段的类型 5查看数据是否有缺失值 6如果有缺失值,进行补0操作 7从df中按字段取出‘ date’’dist’和‘ flight’形成新的df1 8从df中按位置选取行为3和4,列为0,1的数据形成新的df2 9在df中添加一列‘ low_dest’,内容是‘ dest’这列的字符串的小写形式 10从df中选取‘ dist’大于1000并且小于1200的数据作为一个新的df3 11从df中选取‘ time’大于100的数据做为新的df4 12将df3和df4合并为一个dataframe,命名为df5 13取出df3中的‘ time’,‘dist’ 这两列做为df6, 求出df6中每列中最大值与最小值的差值(运用lambda函数的方式进行求解 ) 14将df根据“ dest”分组,统计各目的地,都有多少条数据,命名为“ dest_count”,然后将“ dest”和“ dest_count”组成新的dataframe命名为df7 15根据dep_delay不为0,统计df中有多少次航班起飞延误 16利用plane字段,统计df中不同航班的飞行次数,以plane和plane_cout格式保存为df8 17利用carrier字段,计算df中carrier字段不同属性数据的数据量的比值(如:XE的数据量与MQ的数据量的比值) 18分别将df7和 df8保存到本地文件,文件名分别为df7.csv和df8.csv

2020-03-29

numpyTrain (1).html 练习使用python-numpy的方法——东北大学大数据班数据挖掘Python基础二(1)

练习使用python-numpy的方法——东北大学大数据班数据挖掘Python基础二(1) 实训项目:练习使用numpy的方法。 (1)用0~19的数字生成(4,5)的数组命名为a,查看a的维度;查看a的轴的个数;查看a元素的总个数; (2)创建元素为1,2,3,4的(2,2)的数组 b,查看b中元素类型。 (3)创建一个全1的(4,4)的数组c;创建一个内容随机的(3,2)数组d,并打印d。 (4)用0~11的数,创建一个3*4的数组n1,计算每一列的和;计算每一行的最小值。 (5)生成一个3个元素的数组n2,通过常用函数计算每个元素的平方根;每个元素的标准差。 (6)生成一个9个(可以从0~8)元素的数组n3,计算每个元素的平方根;取出位置2的元素;取出位置2至5之间的元素。 (7)随机生成2个3*3的数组n4和n5,将n4和n5进行垂直合并形成n6;将n4和n5进行水平合并形成n7。 (8)创建一个2行3列的零矩阵命名为z,将z的2行3列的位置值置成1。 (9)生成4*4的对角矩阵,以[1,2,3,4]为对角线,其他位置用0填充,命名为z1 。 (10)用0~8的数,创建成`3*3`的矩阵,命名为z2;用随机数,创建`4*4`的矩阵,命名为z3。 (11)读取iris数据集中的数据。 (12)获取数据中的花萼长度数据。 (13)对花萼长度数据进行排序。 (14)对花萼长度数据进行去重。 (15)对花萼长度数据进行求和。 (16)对花萼长度数据进行求均值。 (17)对花萼长度数据求累计和。 (18)对花萼长度数据求标准差。 (19)对花萼长度数据求方差 。 (20)对花萼长度数据求最大值、最小值。

2020-03-29

matplotlibTrain (1).html python-matplotlib的一些小练习——东北大学大数据班数据挖掘实训Python基础三

python-matplotlib的一些小练习——东北大学大数据班数据挖掘实训Python基础三 题目:练习使用matplotlib 包中的方法绘图。 1.通过pandas包将数据scmd_CalculationData.csv读入,从中取出winddirection和windspeed1这2个字段,绘制风速与风向的散点图(风向为横轴,风速为y轴)。(要求:有标题(风速与风向的函数)、横纵坐标的标题、设置网格,保存图片文件命名为1风速与风向的函数.png) 2.通过pandas包将数据scmd_CalculationData.csv读入,从中取出windspeed1、power_max、power_min、power和power_dev这5个字段,绘制功率特性的散点图(风速为x轴,其他为y轴)。(要求:有标题(功率特性散点图)、横纵坐标的标题、图例、设置网格,保存图片文件命名为2功率特性散点图.png) 3.通过pandas包将数据bz_df_wt.csv读入,从中取出bin_bz_fs<=20的数据,然后取出实际风速bin_bz_fs和实际功率bin_bz_power;再读入bzglqx.csv取出保证风速fs和保证功率gl,绘制功率曲线的对比图(一张图中绘制,横轴为风速,纵轴为功率)。(要求:有标题(实测与设计功率曲线对比)、横纵坐标的标题、图例、设置网格,保存图片文件命名为3实测与设计功率曲线对比.png)

2020-03-29

东北大学Linux实验报告及代码sk.zip

东北大学软件学院Linux实验报告及代码 老师是sk 东北大学软件学院Linux实验报告及代码 老师是sk

2020-02-04

泰坦尼克号0.81准确率python源代码.py

这是kaggle泰坦尼克号准确率0.81的python数据分析超级详细的源代码 这是传说中的泰坦尼克机器学习比赛-对你来说最好的,第一次挑战,让你潜入机器学习比赛,熟悉Kaggle平台的工作原理。 竞争很简单:使用机器学习来创建一个模型,预测哪些乘客在泰坦尼克号沉船事故中幸存下来。

2019-11-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除