粉尘伴终生-CSDN博客

原创 pandas之DataFrame的几个注意点总结

一，创建时df=pd.DataFrame({'first':dh,'second':dt})dfdf=pd.DataFrame(zip(dh,dt),index=dh.index)df

2020-10-03 17:40:11 138

【实验目的】利用Kettle的“Excel输入”，“表输出”，“Microsoft Excel 输出”组件和“Error handing of step”跳，实现异常数据的分流。【实验原理】通过“Excel输入”读入表格的记录，其中，日期格式为多种格式的。然后通过“表输出”保存日期格式正确的记录，再通过“Error handing of step”跳和“Microsoft Excel 输出”组件，把日期格式不正确的记录输出到Excel表格。【实验步骤】一、创建转换1．点击，在下拉菜单

2020-11-01 19:40:57 970 1

原创数据预处理之文件转换kettle：字段的拆分、合并、值映射

【实验目的】利用Kettle的“拆分字段”，“字段选择”，“值映射”“JavaScript代码”组件，实现字段的拆分、合并、值映射。【实验原理】利用“拆分字段”将表格的<课程大类>字段拆分为<课程大类>和<课程大类>两个字段；【实验步骤】一、创建转换1．点击，在下拉菜单中点击选择，这样创建了一个转换文件。我们点击，重命名该转换文件，保存在某个指定的路径。2．我们在新建的转换文件上开始可视化编程。需要的组件如下图所示。选择好组件好，按下图所示

2020-11-01 19:40:44 3161

原创数据预处理之文件转换kettle：字符串操作（去空，值替换，补位）

【实验目的】利用Kettle的“过滤记录”，“字符串替换”，“字符串操作”组件，实现记录的过滤，字符串替换及字符串的去空格功能。【实验原理】通过“过滤记录”对单元格为空的记录进行过滤，然后通过“字符串替换”指定替换单元格中某些特定内容，再通过“字符串操作”实现字符串的去空格功能。【实验步骤】一、创建转换1．点击，在下拉菜单中点击选择，这样创建了一个转换文件。我们点击，重命名该转换文件，保存在某个指定的路径。2．我们在新建的转换文件上开始可视化编程。需要的组件如下图所示。选择好

2020-11-01 19:40:21 6229

原创数据预处理之文件转换kettle：数据质量统计

【实验目的】利用Kettle的“分组”，“JavaScript代码”，“字段选择”组件，实现数据质量统计。【实验原理】过“JavaScript代码”对表格的记录进行质量分类，然后通过“字段选择”生成带质量标志位字段的数据，再通过“分组”统计数据的质量问题。【实验步骤】一、创建转换1．点击，在下拉菜单中点击选择，这样创建了一个转换文件。我们点击，重命名该转换文件，保存在某个指定的路径。2．我们在新建的转换文件上开始可视化编程。需要的组件如下图所示。选择好组件好，按下图所示连接好

2020-10-30 21:16:02 674

原创数据预处理之文件转换kettle：使用参照表清理数据

【实验目的】利用Kettle的“自定义常量数据”，“流查询”，“计算器”“ Microsoft Excel 输出”组件，实现参照表清理数据。【实验原理】利用“流查询”将对比参照表和源数据，再利用“计算器”计算出相似度；【实验步骤】一、创建转换1．点击，在下拉菜单中点击选择，这样创建了一个转换文件。我们点击，重命名该转换文件，保存在某个指定的路径。2．我们在新建的转换文件上开始可视化编程。需要的组件如下图所示。选择好组件好，按下图所示连接好组件。主要组件为“自定义常量数据”，“

2020-10-30 20:58:55 822

原创数据预处理之文件转换kettle：去除重复的数据

【实验目的】利用Kettle的“去除重复记录”组件，实现去除重复数据。【实验原理】通过“阻塞数据直到步骤都完成”对多张表格的外键进行排序，然后通过“记录集连接”进行多表连接，再通过“字段选择”选择合适的字段输出到表格。【实验步骤】一、创建转换1．点击，在下拉菜单中点击选择，这样创建了一个转换文件。我们点击，重命名该转换文件，保存在某个指定的路径2．我们在新建的转换文件上开始可视化编程。需要的组件如下图所示。选择好组件好，按下图所示连接好组件。主要组件为excel input，

2020-10-30 20:51:51 2427 1

原创数据预处理之文件转换kettle：没有数据流入时停止操作

【实验目的】利用Kettle的“阻塞数据直到步骤都完成”，“检测空流”，“中止”等组件，实现Kettle转换流程的控制。【实验原理】“检测空流”组件可以检测所在转换的输入数据，如果整个转换没有输入数据，通过“中止”组件终止整个转换的流程。在存在数据输入的情况，为了能让数据输出，需要和“阻塞数据直到步骤都完成”配合使用。当所有数据都已经从上个步骤“字段选择”读取完毕后，通过“阻塞数据直到步骤都完成”使能打开数据通道，进入到“Microsoft Excel 输出”输出数据到表格。【实验步骤】

2020-10-30 20:17:18 2113 3

原创数据预处理之文件转换kettle：多数据源合并

【实验目的】利用Kettle的“追加流”等组件，完成多个数据源的合并。【实验原理】通过“字段选择”选择要最终输出的字段到下一个步骤“追加流”（实验中必须保证每个数据源经过字段选择后，输出的字段都是一致的），再通过“追加流”设置2个数据源的合并顺序，然后通过“追加流”进行多个据源的合并。【实验步骤】一、创建转换1．点击，在下拉菜单中点击选择，这样创建了一个转换文件。我们点击，重命名该转换文件，保存在某个指定的路径。2．我们在新建的转换文件上开始可视化编程。需要的组件如下图.

2020-10-30 20:07:33 1898

原创数据预处理之文件转换kettle：用Kettle生成测试数据

【实验目的】利用Kettle的“生成随机数”，“JavaScript代码”组件，生成测试数据。【实验原理】通过“生成随机数”生成随机0~1的小数，随机的字符串，随机的整数。再利用“JavaScript代码”编写代码处理随机的数或字符串，输出一定范围的小数，日期和有一定规律形式的整数。【实验环境】操作系统：Windows10 kettle版本：7.0.1或以上版本【实验步骤】一、创建转换1．点击，在下拉菜单中点击选择，这样创建了一个转换文件。我们点击，重命名该转换文件，保存

2020-10-30 19:58:31 1125

原创数据预处理之文件转换kettle：数据全量、增量、比较更新

【实验目的】利用Kettle的“表输入”，“表输入出”，”JavaScript代码”组件，实现数据全量更新【实验原理】通过“表输入”对mySQL表格的数据读入，然后通过“JavaScript代码”更新抽取数据的时间，再通过“表输入出”保存表格到mySQL数据库。【实验环境】操作系统：Windows10 kettle版本：7.0.1或以上版本【实验步骤】一、创建转换1．点击，在下拉菜单中点击选择，这样创建了一个转换文件。我们点击，重命名该转换文件，保存在某个指定的路径。

2020-10-30 19:50:53 1455

原创数据预处理之文件转换kettle：基于触发器的CDC--delete

【实验目的】利用Kettle的“表输入”，“表输入出”，”删除”，“插入/更新”组件，实现数据更新。【实验原理】通过“表输入”对mySQL表格的数据读入，然后通过“删除”删除数据，再通过“插入更新”改变处理标志为“已处理”。【实验环境】操作系统：Windows10 kettle版本：7.0.1或以上版本【实验步骤】一、创建转换1．点击，在下拉菜单中点击选择，这样创建了一个转换文件。我们点击，重命名该转换文件，保存在某个指定的路径。2．我们在新建的转换文件上开始可视

2020-10-30 19:38:00 573

原创数据预处理之文件转换kettle：基于触发器的CDC--insert

【实验目的】利用Kettle的“表输入”，“插入/更新”，组件，实现数据更新。【实验原理】通过“表输入”对mySQL表格的数据读入，然后通过“表输入”找到变化数据，再通过“插入/更新”保存表格到mySQL数据库。【实验环境】操作系统：Windows10 kettle版本：7.0.1或以上版本【实验步骤】一、创建转换1．点击，在下拉菜单中点击选择，这样创建了一个转换文件。我们点击，重命名该转换文件，保存在某个指定的路径。2．我们在新建的转换文件上开始可视化编程。需要

2020-10-30 19:30:53 918

原创数据预处理之文件转换kettle：HTML数据的导入与导出

【实验目的】利用Kettle的自定义常量数据，HTTP client，文本文件输出组件，导出html文件。【实验原理】将要导出的网址形成自定义常量，利用http client将其加载到kettle中，最后以html文件输出。【实验环境】操作系统：Windows10 kettle版本：7.0.1或以上版本【实验步骤】一、创建转换1．点击，在下拉菜单中点击选择，这样创建了一个转换文件。我们点击，重命名该转换文件，保存在某个指定的路径。2．我们在新建的转换文件上开始可视化编程。

2020-10-30 19:21:26 1222

原创数据预处理之文件转换kettle：基于web的导入导出：http post api 接口

数据转换图;配置：

2020-10-06 13:30:47 551

原创数据预处理之文件转换kettle：合并多个excel文件

通过使用正则表达式配置“Excel输入”组件中的通配符，实现多个Excel文件合并。

2020-10-02 22:13:31 3899

原创数据预处理之文件转换kettle：复杂表头的Excel数据源处理

通过“Excel输入”选择要最终输出的字段到下一个步骤“追加流”（实验中必须保证每个数据源经过字段选择后，输出的字段都是一致的），再通过“追加流”设置2个数据源的合并顺序，然后通过“追加流”进行多个据源的合并。

2020-10-02 21:57:18 2096 4

原创数据预处理kettle：定时器设置

1.新建批处理文件bat，内容如下:cd E:\pdi-ce-7.1.0.0-12\data-integration e:pan /file=C:\Users\luy\Desktop\index.ktr /level=Detailed /logfile=C:\Users\luy\Desktop\1.log0 在Windows系统下设计定时器。右键单击“此电脑”，选择管理，再单击任务管理器。选择创建基本任务，创建kettle定时器。依次设置触发器，操作，完成。

2020-10-02 21:25:42 297

原创数据预处理之数据转换kettle：mysql表导入excel

掌握kettle的使用方法；熟练掌握mysql表导入excel的方法。创建转换运行spoon.bat-->新建一个转换-->保存转换-->画设计图-->配置输入输出定时器创建bat文件-->写入命令-->设置定时器-->测试【实验环境】操作系统：Windows10 kettle版本：7.0.1或以上版本一、创建转换1．运行spoon.bat后，kettle将启动spoon，进入可视化编程界面。2．新建一个转换并保存，点击转

2020-10-02 20:33:48 367

原创 python面向对象练习：构建python的栈结构

需求：1. 用列表作为栈的存储容器，实现栈的压栈和出栈操作。2. 栈可以表示自己的大小和当前存储了多少元素。3. 判断栈是否空栈，判断栈是否满栈。4. 显示栈有多少个元素，还有多少个存储空间。5. 将栈制为空栈。

2020-09-24 21:21:30 302

原创 python面向对象练习：士兵开枪问题

需求：1. 士兵瑞恩有一把AK47 2. 士兵可以开火(士兵开火扣动的是扳机) 3. 枪能够发射子弹--把子弹发射出去4. 枪能够装填子弹--增加子弹的数量分析：1.由于士兵瑞恩有一把AK47，士兵可以开火。故需要先创建枪类2.枪类（Gun）：（1）属性：型号（model），子弹数目（bullet_count）（2）方法：发射子弹（shoot），装填子弹（add_bullet）3.士兵类（Soldier）（1）属性：姓名（name），枪名（Gun）

2020-09-24 20:11:17 3689

原创 python面向对象：家居放置问题

需求：1.房子有户型，总面积和家具名称列表，新房子没有任何的家具2.家具有名字和占地面积，其中：床：占4平米衣柜：占2平面餐桌：占1.5平米3.将以上三件家具添加到房子中4.打印房子时，要求输出:户型，总面积，剩余面积，家具名称列表

2020-09-24 20:06:58 1789

原创使用python的tkinter编写一个界面，例子如下：能够通过xml标准库读写xml文件：country.xml中指定国家的rank和year属性。

country.xml结构如下：<data> <country name="Panama"> <rank>67</rank> <year>20142</year> <gdppc>13600</gdppc> <neighbor direction="W" name="Costa Rica" /> <neighbor direction="E" name="Colombia" /&g.

2020-09-24 20:00:54 365

原创使用tkinter来编写一个计算器小程序，实现+、-、*、\、\\等基本功能。

思路： .考虑用类来包裹整个计算器，用类的属性存储界面对象、数据与运算符等。 .考虑使用eval（）函数来执行一个字符串表达式，并返回表达式的值。 import tkinter as tk# 先有整体框架，输入计算框，各种按键。class App: def __init__(self, master): # 基本界面 self.master = master # 输入组件 self.initWidget

2020-09-24 19:54:18 532

原创在线图书信息入库程序开发（三）

目的：图书编辑、删除、查询功能；1、编写后端服务（views.py）“编辑功能”代码如下：1 def edit(request,): 2 if request.method=='POST': 3 isbn=request.POST.get("isbn") 4 bk=book.objects.filter(isbn=isbn)[0] 5 name=request.POST.get("name") 6 author=requ

2020-06-29 08:55:50 151

原创在线图书信息入库程序开发（二）

目的：集成mongoengine，添加查看图书列表、添加图书功能；一、创建应用在命令行中输入下面指令创建home应用 1 python manage.py startapp home 命令执行完毕后，会在项目目录中生成home文件夹，二、安装mongoengine插件打开命令行输入下面指令安装插件。 1pip install mongoengine 三、修改配置打开book目录下的settings.py文件，修改DATABASES选项，添加mongodb相关信息，因为此处mon

2020-06-29 08:48:27 215

原创在线图书信息入库程序开发（一）

目的：创建Django web项目Django是一个python开发的web应用程序开发框架。1、安装django框架 1 pip install django2、创建django项目1）使用cmd命令进入到磁盘合适位置，在命令行中输入下面命令创建项目（book）： 1django‐admin startproject book2）通过上述命令即可在对应的文件夹中生成book项目文件夹，并在相应的文件夹内生成了部分代码文件，如下图所示：3 、加载项目到IDE 此处选择vscode集成

2020-06-29 08:35:06 299

原创 zookeeper三种访问方式

（1）shell方式分类命令描述帮助help查看帮助创建节点createcreate [-s] [-e] path data acl 其中，-s或-e分别指定节点特性，顺序或临时节点，若不指定，则表示持久节点；acl用来进行权限控制读取节点lsls path [watch] 列出节点下的子节点getget path [watch] 读取某个节点ls2ls2 path [watch] 查询某个节点下有哪些子节点，带属性信息

2020-05-22 12:19:03 4272

原创 Zookeeper的安装，单机模式和集群模式

1、下载zookeeper-3.4.13.tar.gz2、安装Zookeeper（可选择任意一种安装模式进行安装）ZooKeeper有两种安装模式，最简单的方式是单机模式（standalone mode），它只需要在一台机器上面运行，另一种方式是集群模式，集群模式需要多台服务器部署。单机模式第一次安装尝试使用ZooKeeper时，最简单的方式就是在一台ZooKeeper服务器上以单机模式运行。因为，在单机模式下配置和使用相对来说要简单许多，并且有助于帮助大家理解ZooKeeper的工作原..

2020-05-22 12:10:11 239

原创地理信息快速检索实验，Python操作MongoDB的方法。

地理信息快速检索实验实验目的：本实验旨在掌握Python操作MongoDB的方法。数据来源：北京市2013年5月1日出租车轨迹数据数据说明原始数据为用逗号隔开的txt格式文件，示例数据如下表所示：IDUTC时间经度纬度行驶方向行驶速度GPS状态282813673411991163010340041403330.01GPS状态用0、1、16、17表示，不同数字对应的含义如下：0：表示空车，GPS定位无效1：表示空车，GPS定位有效16：表示重车，

2020-05-22 11:05:24 263

原创 python实现mysql数据导入HBase

原理以学生课程成绩为例，将实体和实体间的关系都存在MySQL数据库中，实体有学生和课程，分别对应学生信息表studentInfo和课程信息表courseInfo，实体之间的关系为选课及成绩，对应成绩表gradeInfo，这三张表的结构如图所示。如果还是以三张表的形式存储数据到HBase中并没有任何意义，因为HBase有列族的概念，可以将三张表的数据整合到HBase的一张表中，HBase中表的逻辑结构如图所示。HBase表将MySQL三张表的数据聚合到一张表中，studentInfo表映射到HB.

2020-05-19 19:33:36 2255 6

原创爬取链家房价信息存储并分析——mongodb存储和聚合查询

介绍mongodbMongoDB是文档数据库，采用BSON的结构来存储数据。在文档中可嵌套其他文档类型，使得MongoDB具有很强的数据描述能力。原理解释本节案例使用的数据为链家的租房信息，源数据来自于链家网站，所以首先要获取网页数据并解析出本案例所需要的房源信息，然后将解析后的数据存储到MongoDB中，最后基于这些数据进行城市租房信息的查询和聚合分析等。所用环境：OS：Ubuntu16.04Python3MongoDB：v3.4.20准备安装本实验所需依赖库下载方式.

2020-05-15 21:02:52 4270 16

原创印象笔记怎么调整安装盘的位置

https://jingyan.baidu.com/article/b87fe19e5c8d5d52183568ab.html

2020-05-12 09:54:00 344

原创 Redis安装、使用与编程

一、安装与使用Redis1)sudo apt-get update2)sudo apt-get install redis-server3)启动serverredis-server4)启动clientredis-cli5)存储数据写法：set key value示例：set name xiaoming6)获取数据写法:get key示例：get name7)订阅消息写法：subscribe 主题示例：subscribe chat8)发布消息写法：publish 主题

2020-05-10 21:37:32 84

原创 Python xml.etree.ElementTree解析XML文件

https://blog.csdn.net/weixin_36279318/article/details/79176475

2020-05-09 20:50:51 91

原创利用IDEA创建maven项目实现Pig用户自定义函数

一、什么时候需要用户自定义函数呢？和其他语言一样，当你希望简化程序结构或者需要重用程序代码时，函数就是你的不二选择。Pig的用户自定义函数可以用Java编写，也可以用Python或Javascript编写。下面我们以Java为例进行介绍。1、利用IDEA创建maven项目，并在Pom.xml中添加依赖如下<dependencies> <dependency>...

2020-04-29 20:16:20 438

原创利用IDEA创建maven项目实现Hive用户定义函数练习

一、有时要用的查询无法直接使用Hive提供的内置函数来表示。通过编写用户定义函数（User-Defined Function，UDF），Hive可以方便地插入用户写的处理代理并在查询中调用它们。1、利用IDEA创建maven项目，并在Pom.xml中添加依赖如下<dependencies> <!-- 添加依赖组件，根据上方配置的版本参数和repository知识库下...

2020-04-29 18:43:58 994

原创 5. 使用多个文件练习：分别在当前目录中手动创建4个文本文件，名字分别命名为：毕业的日子.txt，最平凡处最美丽.txt，花开如笑.txt。分别读取每一个文本文件，统计文件中的句子数量。使用异常模块来

for filename in ["zuoye/wenjian/毕业的日子.txt", "zuoye/wenjian/花开如笑.txt", "zuoye/wenjian/最平凡处最美丽.txt"]: with open(filename, "r") as file: count = 0 comment = file.read() for i...

2020-04-27 17:32:28 258

原创 4. 在当前目录新建目录img, 里面包含100个文件,100个文件名各不相同(X4G5.png)，将当前img目录所有以.png结尾的后缀名改为.jpg。

def gen_code(len=4): # 随机生成4位验证码 li = random.sample(string.ascii_letters+string.digits, len) # 拼接为字符串 return "".join(li)def create_files(): # 随机生成100个验证码 li = [gen_code() f...

2020-04-26 21:49:59 585

原创 3. 生成一个大文件ips.txt,要求1200行，每行随机为172.25.254.0/24段的ip；读取ips.txt文件统计这个文件中ip出现频率排1的ip;

filename = "zuoye/wenjian/ips.txt"with open(filename, "w", encoding="UTF-8") as file: for i in range(1200): file.write("172.25.254."+str(random.randint(0, 255))+"\n")with open(filename, "r", ...

2020-04-26 16:16:43 843

数据可视化案列 电影租赁可视化

在线考试管理系统 java web 课程设计

教研管理系统 java web 课程设计

高校宿舍管理系统的设计与实现 java web

neo4j-java-driver-1.4.1 (1).jar

空空如也

数据可视化案列电影租赁可视化