自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 收藏
  • 关注

原创 twitter sentiment analysis

二、数据预处理一开始还是导入需要用到的包#导包import numpy as npimport pandas as pdimport sysfrom gensim.models import word2vecimport osimport gensimfrom gensim.models.word2vec import LineSentence#读数据data = pd.read_csv('./data.csv')data数据集中,y是我们最后确定的新分类类...

2021-04-30 11:50:51 559

原创 工业软测量-基于时序性数据的回归问题

CNN orRNN(LSTM)一、背景这次项目是导师的一个课题,大概需求是在工厂内,有许多生产设备,其设备的产出率与利润直接挂钩。因此,保证设备稳定的高产率是节约成本、提高利润的重要工作。而通常管理设备、依照当前状态,实时调整电压、电流等各相关指数通常是由专业技术人员负责,培养一个专业调控人员的成本是很高的,因此就需要一个模型能够代替人工对设备进行实时相控以保证高产率。在本次项目里...

2020-07-22 08:51:54 1570 4

原创 基于协同半监督学习的交通事故文本分类

Keras、Numpy、Pandas、Sklearn一、背景前面所作工作:利用Pandas、Numpy对多数据表之间相互匹配并创建交通数据集交通事故文本多分类——做一个快乐的调包侠(传统机器学习)利用word2vec、textCNN、jieba对事故文本多分类及致因修复(三维向量)在之前的建模中,存在一个比较大的问题就是数据量太少,真正匹配出来有对应label的文本仅仅20...

2020-07-22 08:51:24 926 3

原创 利用word2vec、textCNN、jieba对事故文本多分类及致因修复(三维向量)

中文分词 + 数据集三维向量化+ TextCNN一、背景经过几天的测试及模拟建模训练,尝试了机器学习中的一些常用模型,例如Lasso、LR、SVM、XGBoost、GBTD等,发现效果并不如人意,最好最好的结果也是刚刚超过60%的准确率。思考了一下原因,发现主要还是因为在传统机器学习模型中,输入的是一条一条的行向量,正如之前文章中用到的方式,将一个文本先分词,得到一个词组,在把词组中...

2020-07-22 08:51:09 1354 4

原创 交通事故文本多分类——做一个快乐的调包侠

jieba+word2vec+GDBT+oneVsRestClassifier一、背景经过俩天的数据处理,现在勉强得到了1k+条事故描述-事故原因这种格式的数据,剩下的未处理的数据同组的小伙伴们还在加班加点的做,为了不浪费时间,今天就先搭个壳子出来,看看初步效果。二、数据预处理和之前俩篇文章一样,采取去停用词、分词、句子向量化等操作。#导包import numpy as n...

2020-07-22 08:50:07 623 3

原创 利用k-means、jieba、word2vec对交通事故原因进行聚类分析

中文文本向量化 + 聚类分析一、背景因为这段时间正好在和朋友准备比赛,赛题大概是基于交通事故的事故描述,进行文本多分类。实现将数据库中已有的原因分类不明确的事故进行重分类,修复数据。也为未来交警判责提供参考信息。一直以来都没有真正做过nlp方向的建模,借此机会也把比赛过程记录一下,一方面分享给有需要的朋友,另一方面也可以在以后能够方便复习。也希望各位大佬可以指出不好的地方,让小弟...

2020-07-22 08:49:33 3170 7

原创 利用Pandas、Numpy对多数据表之间相互匹配并创建交通数据集

Series + DataFrame一、背景接着上篇文章,现在通过某些渠道拿到了事故数据,但是存在几个问题。如上图所示,分别有三个数据文件:data_ms、data_reason、reason_type三个文件的字段如下:如上述三表,第一个表是案情描述-编号、第二个表是编号-事故原因描述、第三个表是事故原因描述-事故原因新类别。因为存在不匹配的问题,就需要进行预处理...

2020-07-22 08:48:47 1531

原创 软件过程与改进复习

复习的时候手打了一遍,为了不浪费正好发出来。学弟学妹们...可以参考一下了懂的都懂。。第一章 软件过程基础(10分)几位质量管理大师的主要贡献经典软件过程及其特点(看ppt吧)第二章 PSP(25分)PSP中的基本度量项时间、缺陷、规模PROBE估算的流程概要设计、代理识别、估算并调整程序规模(时间)、计算预测区间使用线性回归方法估算程序规模和...

2019-04-22 22:21:39 881

原创 无悔大学

      说实话,这个题目,自以为是没有资格来讨论的。因为,在已经过去的俩年大学生活中,其实是发生了太多让自己后悔的事。惋惜、伤心、痛苦、哀嚎、最后回归平淡。曾经的一幕幕,在打字的时候接连浮现在脑海中,回想起来,除了一声叹息,也无言以对。也罢,就让我这个过来人,通过自己的反例,讲一讲怎样,能够帮助大家不留遗憾。      学习上。或许大家刚刚才经历完高考,享受了十多年来最无忧无虑,最自由的一...

2018-08-19 16:08:58 350 2

原创 重拾概率论-1-基本概念

1.3 古典概型设E是一个试验,满足:(1)只有有限多个样本点(2)每个样本点发生的可能性相同若 Ω = {w1, w2, ... , wn}则p(A) = A事件所包含基本事件个数 / 基本事件总数            = A的有利场合数 / 样本点的总和排列组合(1)加法原理S类,第i类又有ri种方法完成, i = 1,2,3,4,...... ,S总...

2018-07-25 14:53:40 320

原创 Python-Pandas入门

Pandas入门Numpy 和 Pandas有什么不同Numpy是列表形式的,没有index标签,而Pandas则类似于字典,会带标签。Pandas是基于Numpy构建的。Pandas主要有俩个数据结构:Series和DataFrameSeries<<< import pandas as pd<<< import numpy as np<<< ...

2018-07-01 17:14:33 168

原创 Python-Numpy模块入门

Numpy使用入门为什么要使用Numpy? numpy是采用c语言编写的数据分析模块,消耗资源少、采用的是矩阵运算,比python自带的字典或者列表快很多。Numpy应该怎么安装呢? 一般通过命令行即可安装: sudo pip3 install numpy(采用python3版本) sudo pip install numpy(采用python2版本)Numpy基本属性:ndim、shape、si...

2018-06-30 21:02:15 414

原创 深度学习-卷积神经网络初识-2

卷积神经网络(二)技交部 潘震宇一、 卷积步长从之前的了解中,我们初步知道了卷积运算的含义。也知道了滤波器的作用。在此前,我们在将滤波器盖在矩阵上,进行边移动边计算的时候,移动步长都是默认的一步,那或许有些人就会问了,能不能一次走俩步、三步、甚至更多步呢?答案当然是可以的。在这个矩阵中,我们可以发现,将步长stride设置为2后,每一次移动都是俩步。不论是左右还是上下。

2017-12-25 21:41:33 355

原创 深度学习-卷积神经网络初识-1

卷积神经网络技交部 潘震宇一、计算机视觉在计算机视觉领域中,存在着许多问题,各类领域基本都包含着这俩种基础问题: 1、 图像分类2、 目标检测除上述之外,最近有一种新颖的技术,也出现在大众的面前——风格迁移。那么,为什么我们学习卷积神经网络,为什么要提及计算机视觉呢?卷积神经网络又有什么用呢?我们可以参考一个例子来说明:       如上图所示,这是

2017-12-24 17:04:44 399

原创 深度学习中机器学习策略的应用 Projects-2

利用机器学习策略改善深度神经网络                                                                                    技交部 潘震宇一、  进行误差分析首先,咱们以上图为例。假设咱们今天又开发一个猫咪辨别器,目前的准确率是90%,错误率为10%,这离我们目标可差的老远了。所以,我们必须得想个法子来改善

2017-12-24 13:37:14 560

原创 深度学习中机器学习策略的运用 Projects-1

1、介绍机器学习策略一开局,吴老大便由一个例子解释为什么要使用机器学习策略。假设:在一个猫咪识别网络中,目前的正确率为90%,该怎么继续改善呢?·收集更多的数据·收集不同姿势的猫咪图片,以增大多样性,扩大数据集·增加训练网络时的迭代次数·用Adam来取代梯度下降算法·使用规模更大的网络结构·使用dropout/L2正则化处理·修改网络结构    ·修

2017-12-18 16:47:09 423

原创 编程珠玑译-Column 1:开篇

这个程序的问题是简单的,“我该怎么样给你个磁盘文件做排序?”  在我告诉你我是怎么犯下我第一个错误之前,让我给你一个机会去做得比我还好。你会怎么回答?1.1 一次友好的谈话    我的错误就是回答了他的这个问题。为给了他一个关于怎么在磁盘上实行归并排序的缩略图草图。我建议他深入研究一下这个会让他遇见比一时的热情更少错误的算法文本 ——他更关心如何解决这个问题而不是深入他的学习。接着我告诉了

2017-08-15 18:38:49 313

原创 Linux 正则表达式与文件格式化处理

正则表达式    处理字符串的方法,通过一些特殊符号的辅助,让用户轻易达到查找、删除、替换某特定字符串的处理程序。  1.特殊符号:    [:alnum:] 代表英文大小写字符与数字 即 [a-zA-Z0-9]    [:alpha:] 代表任何英文大小写字符,即[a-zA-Z]    [:blank:] 代表空格键与『tab』按键    [:cntrl:] 代表键盘上面

2017-08-10 08:45:04 325

转载 Linux Python3.5安装

本文来自linux公社CentOS 7下安装Python3.5•安装python3.5可能使用的依赖yum install openssl-devel bzip2-devel expat-devel gdbm-devel readline-devel sqlite-devel•到python官网找到下载路径, 用wget下载wget https://

2017-08-05 18:34:50 294

原创 mysql学习4—插入、查询、删除

CREATETABLE users(idSMALLINT UNSIGNED PRIMARY KEY AUTO_INCREMENT,usernameVARCHAR(20) NOT NULL,passwordVARCHAR(20) NOT NULL,ageTINYINT UNSIGNED NOT NULL DEFAULT 10,sexBOOLEAN);*在表中,若为

2017-08-05 18:07:45 242

转载 Linux MPlayer编译与安装

使用自带的totem基本上都无法播放视频,各种格式都不支持,令人无语。想到了MPlayer,为了看片,决定编译安装,过程真的是折腾。如图是自带的Totem播放提示,安装了解码还是无法播放,反正要找其他播放器了,也没兴趣去管他是什么原因。需要用到的东西在MPlayer官网上都有,就一个页面可以把所有东西都下载好http://mplayerhq.hu/design7/dload.html0

2017-08-04 17:47:07 2729 2

原创 mysql学习3—修改数据表

删除列:ALTER TABLE tb1_name DROP[COLUMN] col_name;删除多列:ALTER TABLE tb1_name DROP[COLUMN] col_name1,DROP[COLUMN2] col_name2;添加多列:ALTER TABLE tb1_name ADD[COLUMN] (col_name column_definition,...);添

2017-07-26 22:52:12 327

原创 mysql学习2—外键约束的参照操作

在本次学习中,了解到了外键约束的一般参照操作。    在外键约束当中,在实际的开发过程中,我们很少使用物理的外键约束,很多都去使用逻辑的外键约束,因为物理的外键约束只有INNODB这种引擎才会支持,像我们另外的一种引擎MYISAM的引擎则不支持,反过来说,如果我想创建的数据表,假设存储引擎为MYISAM,而且又想使用外键约束的话,其实是不可能实现的,所以说,我们在实际的项目开发中,我们

2017-07-26 22:14:02 562

转载 JavaWeb学习-1 Tomcat安装与配置

No.1。JDK的安装与环境变量的配置          jdk的下载地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html      下载完毕后安装,一直next、next、next。      配置环境变量:右击计算机—属性—高级系统设置—环境变量,如图

2017-07-15 16:20:10 215

原创 使用了未定义的类_解决方法

在游戏类的编写中,遇到了一个导入工程后运行出现”使用了未定义的类“的错误。绞尽脑汁也没搞懂是哪里出现了问题,看了其他人的blog后才发现了问题所在:类定义的顺序第一次错误代码如下:class Hp : public res{private: int hpValue; //the value of hp this kind of medicine can provide; int n

2017-07-09 02:52:42 9904 2

原创 一般树与二叉树的相互转换

一般来说,直接对一般树做一些相关操作非常对不方便。因此,将一般树转换为二叉树,操作完成后逆转为一般树成为了大部分人对付一般树的方法。一般树转换二叉树:1)将每一个结点与他的兄弟结点之间连一条线。2)对每一个双亲结点,只保留它与第一个子结点的连线,删除与其余结点的连线。3)整理,左右摆齐。       a

2017-06-10 16:51:22 10210

原创 二叉树的递归遍历与非递归遍历

二叉树的遍历方式分别有三种:先序,后序,中序。而每种遍历都分别有俩种方式:递归与非递归。递归算法很短:先序: void preorder(){ cout << data << " "; if(lchild != NULL){ lchild->preorder(); } if(rchild != NULL){ rchild-

2017-06-10 15:38:28 904

转载 广度优先搜索的实现

广度优先搜索(Breadth-First-Search,简称 BFS)。这是一种连通图的常用遍历策略,通常用于求起点到各点的最短路径,以及求两点之间的最优路径等问题。

2017-05-28 16:25:33 1310

原创 二叉搜索树之蒜头君的新技能

蒜头君刚学会一项新技能——数据结构之二叉查找树。蒜头君想复习下刚学的知识,于是他找来一个序列,从序列第一个数开始,依次插入到二叉查找树里。蒜头君一边回忆刚学的知识,按照左孩子权值小,右孩子权值大的口诀,不一会儿就建立起了一棵二叉查找树。现在蒜头君想来考考聪明的你:每个结点的左右孩子权值分别是什么?

2017-01-30 00:20:54 412

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除