自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 资源 (9)
  • 收藏
  • 关注

原创 机器学习中数据预处理的几种方法

由于实际收集到的机器学习数据集不可避免的会存在数据缺、数据集不平衡和数据集中各类数据非同一量级等情况,对缺失数据进行补全和对异常数据进行清洗、均衡化处理防止类别不平衡和数据标准化处理对于机器学习模型至关重要。1数据补全方法 有效地恢复缺失的数据是进行机器学习建模的重要前期准备工作。一方面可使得数据更完整,便于后续进一步的分析研究,另一方面,数据补全本身就是对信息进行挖掘的一种方式。 常见的数据补全方法包括均值补全、回归填补法、期望最大化填补法、高斯混合模型(Ga...

2021-08-28 20:35:47 5116

原创 将同一文件夹内的所有txt文件内容合并到一个txt中

# -*- coding:utf-8*-import osimport os.pathimport timetime1=time.time()##########################合并同一个文件夹下多个txt################def MergeTxt(filepath,outfile): k = open(filepath+outfile, 'a+',encoding='utf8',) for parent, dirnames, filenames in .

2020-10-16 15:36:16 1782

原创 csv转numpy

import csvimport numpy as npcsv_file = open('iris.csv')csv_reader_lines = csv.reader(csv_file)data = []n = 0for one_line in csv_reader_lines: data.append(one_line) n = n+1np.save('iris.npy',data)a = np.load('ilda_clu.npy')print(a)prin.

2020-06-01 11:03:25 1427

原创 python 画支持向量机分类图(svm)

import numpy as npimport pylab as pl #画图用from sklearn import svmimport matplotlib.pyplot as pltfrom sklearn import svmnp.random.seed(0)X = np.r_[np.random.randn(20, 2) - [2, 2], np.random.randn(20, 2) + [2, 2]]Y = [0] * 20 + [1] * 20# fit the .

2020-06-01 10:51:20 6186

原创 python 批量修改图片名字(可改后缀)

import os# 存放图片的目录path = r"C:\Users\great\Desktop\111\\"# 获取该目录下所有文件,存入列表中fileList = os.listdir(path)n = 0for i in fileList: # 设置旧文件名(就是路径+文件名) oldname = path + os.sep + fileList[n] # os.sep添加系统分隔符 # 设置新文件名 newname = path + os.sep.

2020-06-01 10:48:02 543

原创 六种常用的文本聚类算法介绍

文本聚类算法介绍分类和聚类都是文本挖掘中常使用的方法,他们的目的都是将相似度高的对象归类,不同点在于分类是采用监督学习,分类算法按照已经定义好的类别来识别一篇文本,而聚类是将若干文本进行相似度比较,最后将相似度高的归为一类。在分类算法中,训练集为已经标注好的数据集,但是微博文本具有的大数据特性及不确定性决定了标注数据的难度,因此本文选择聚类算法对大量且随机的微博文本进行处理。大量文本建模后还需要对主题分布进行聚类以得到更精确简洁的话题,因此文本聚类在话题检测技术中具有重要意义。聚类是一种无监督学习方

2020-05-17 23:21:34 9733

原创 4种常用的文本表示模型

2020-05-17 23:15:06 2960

原创 Word2vec工作原理

1 词向量人类的语言在计算机中是无法直接被识别的,只能换算成二进制代码组成的机器语言计算机才能识别,并对其进行相关操作。因此要实现对语言文本的处理,首要条件就是对文本建立模型以使得机器能够识别处理。1986年,Hinton首次提出了分布式表达(Distributed Representation,DR)概念,简称词向量(Word Embedding)[30]。词向量是将大量的文本集中进行训练并统计,之后将文本组成的语料库中的每个词映射在一个向量空间上,这个向量空间通常都是凝聚度较高、维度较低的具有实际.

2020-05-17 23:03:05 1051

原创 完整实现利用keras训练自己的图片数据集

本实验可以实现使用卷积神经网络对自己的数据集(图片)进行训练并得出训练时的准确率与loss图,并利用测试集得到混淆矩阵、ROC曲线图和AUC。编程环境为python3.7.4代码文件结构如下:Dataset文件夹用来存放数据集Log文件夹用来存放准确率和loss曲线图Model文件夹用来存放训练好的卷积神经网络模型,训练好后以后使用可以直接调用模型,不必每次都训练Main为主程序Dataset文件夹里面有训练集train和测试集test两个文件夹,train文件夹数据用来训练

2020-04-12 13:25:52 4463 2

csv文件转npy文件

文件类型转换,也可以转excel文件,保存位置可自己设定

2019-01-23

批量修改图片大小与改RBG为灰度

修改文件夹位置即可使用,简单方便。python语言,注释完美

2018-07-19

基于tensorflow的手写体识别代码

tensorflow官网给出的代码,适用于tensorflow的1.8版本,最新版

2018-07-17

一级直线倒立摆的LQR控制

对一级倒立摆进行LQR控制的MATLAB仿真实验,可以得到摆杆的角度与小车的位置图,另有完整的word讲解,公式都是用公式编辑器编辑的

2018-07-02

白噪声及有色噪声序列的产生

用MATLAB编程实现产生白噪声与有色噪声序列,代码可读性高,注释到位

2018-06-01

基于Bang-Bang原理的时间最优控制问题求解

基于Bang-Bang原理的时间最优控制问题求解

2018-05-26

一阶直线倒立摆线性化及固有特性分析

倒立摆作为一种实验设备,在教学和科研过程中发挥着重要的作用。它以其自身的非线性、强耦合、多变量和自然不稳定特性,成为检验各种控制理论和方法的理想模型,是长期以来国内外控制领域研究的一个典型问题。在本文中,针对一阶直线倒立摆,对其进行线性化并分析其特性。

2018-05-18

布冯投针实验MATLAB代码

用MATLAB实现布冯投针实验的原理,动态显示投针的过程。

2018-04-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除