科研小站-CSDN博客

原创机器学习中数据预处理的几种方法

由于实际收集到的机器学习数据集不可避免的会存在数据缺、数据集不平衡和数据集中各类数据非同一量级等情况，对缺失数据进行补全和对异常数据进行清洗、均衡化处理防止类别不平衡和数据标准化处理对于机器学习模型至关重要。1数据补全方法有效地恢复缺失的数据是进行机器学习建模的重要前期准备工作。一方面可使得数据更完整，便于后续进一步的分析研究，另一方面，数据补全本身就是对信息进行挖掘的一种方式。常见的数据补全方法包括均值补全、回归填补法、期望最大化填补法、高斯混合模型（Ga...

2021-08-28 20:35:47 5116

原创将同一文件夹内的所有txt文件内容合并到一个txt中

# -*- coding:utf-8*-import osimport os.pathimport timetime1=time.time()##########################合并同一个文件夹下多个txt################def MergeTxt(filepath,outfile): k = open(filepath+outfile, 'a+',encoding='utf8',) for parent, dirnames, filenames in .

2020-10-16 15:36:16 1782

原创 csv转numpy

import csvimport numpy as npcsv_file = open('iris.csv')csv_reader_lines = csv.reader(csv_file)data = []n = 0for one_line in csv_reader_lines: data.append(one_line) n = n+1np.save('iris.npy',data)a = np.load('ilda_clu.npy')print(a)prin.

2020-06-01 11:03:25 1427

原创 python 画支持向量机分类图（svm）

import numpy as npimport pylab as pl #画图用from sklearn import svmimport matplotlib.pyplot as pltfrom sklearn import svmnp.random.seed(0)X = np.r_[np.random.randn(20, 2) - [2, 2], np.random.randn(20, 2) + [2, 2]]Y = [0] * 20 + [1] * 20# fit the .

2020-06-01 10:51:20 6186

原创 python 批量修改图片名字（可改后缀）

import os# 存放图片的目录path = r"C:\Users\great\Desktop\111\\"# 获取该目录下所有文件，存入列表中fileList = os.listdir(path)n = 0for i in fileList: # 设置旧文件名（就是路径+文件名） oldname = path + os.sep + fileList[n] # os.sep添加系统分隔符 # 设置新文件名 newname = path + os.sep.

2020-06-01 10:48:02 543

原创六种常用的文本聚类算法介绍

文本聚类算法介绍分类和聚类都是文本挖掘中常使用的方法，他们的目的都是将相似度高的对象归类，不同点在于分类是采用监督学习，分类算法按照已经定义好的类别来识别一篇文本，而聚类是将若干文本进行相似度比较，最后将相似度高的归为一类。在分类算法中，训练集为已经标注好的数据集，但是微博文本具有的大数据特性及不确定性决定了标注数据的难度，因此本文选择聚类算法对大量且随机的微博文本进行处理。大量文本建模后还需要对主题分布进行聚类以得到更精确简洁的话题，因此文本聚类在话题检测技术中具有重要意义。聚类是一种无监督学习方

2020-05-17 23:21:34 9733

原创 4种常用的文本表示模型

2020-05-17 23:15:06 2960

原创 Word2vec工作原理

1 词向量人类的语言在计算机中是无法直接被识别的，只能换算成二进制代码组成的机器语言计算机才能识别，并对其进行相关操作。因此要实现对语言文本的处理，首要条件就是对文本建立模型以使得机器能够识别处理。1986年，Hinton首次提出了分布式表达（Distributed Representation，DR）概念，简称词向量（Word Embedding）[30]。词向量是将大量的文本集中进行训练并统计，之后将文本组成的语料库中的每个词映射在一个向量空间上，这个向量空间通常都是凝聚度较高、维度较低的具有实际.

2020-05-17 23:03:05 1051

原创完整实现利用keras训练自己的图片数据集

本实验可以实现使用卷积神经网络对自己的数据集（图片）进行训练并得出训练时的准确率与loss图，并利用测试集得到混淆矩阵、ROC曲线图和AUC。编程环境为python3.7.4代码文件结构如下：Dataset文件夹用来存放数据集Log文件夹用来存放准确率和loss曲线图Model文件夹用来存放训练好的卷积神经网络模型，训练好后以后使用可以直接调用模型，不必每次都训练Main为主程序Dataset文件夹里面有训练集train和测试集test两个文件夹，train文件夹数据用来训练

2020-04-12 13:25:52 4463 2