beautiful_well-CSDN博客

原创零基础入门nlp--基于深度学习的文本分类-2

学习目标学习Word2Vec的使用和基础原理。学习使用TextCNN、TextRNN进行文本表示。学习使用HAN网络结构完成文本分类。

2020-08-02 16:00:42 244

与传统机器学习不同，深度学习既提供特征提取功能，也可以完成分类的功能。从本章开始我们将学习如何使用深度学习来完成文本表示。学习目标学习FastText的使用和基础原理学会使用验证集进行调参FastTextFastText是一种典型的深度学习词向量的表示方法，它非常简单通过Embedding层将单词映射到稠密空间，然后将句子中所有的单词在Embedding空间中进行平均，进而完成分类操作。所以FastText是一个三层的神经网络，输入层、隐含层和输出层。如何使用验证集调参在使

2020-07-29 15:38:12 232

原创零基础入门nlp--基于机器学习的文本分类

本章侧重使用传统机器学习--朴素贝叶斯算法分类1、学习目标：学会TF-IDF的原理和使用使用sklearn的机器学习模型完成文本分类2、TF-IDF算法3、sklearn分词的关键sklearn输出格式为矩阵，直接为后续的sklearn建模服务。需要先使用背景语料库进行模型训练。结果中给出的是字典ID而不是具体词条，直接阅读结果比较困难。class sklearn.feature_extraction.text.TfidfTransformer()...

2020-07-27 21:11:19 263 1

原创零基础入门nlp--数据读取与数据分析

1、通过pandas的read_csv读取数据#读取数据import pandas as pdtrain_df = pd.read_csv(r'Data/nlp/train_set.csv', sep='\t', nrows=100)显示前5条数据2、数据分析的三个目标:赛题数据中，新闻文本的长度是多少？赛题数据的类别分布是怎么样的，哪些类别比较多？赛题数据中，字符分布是怎么样的？句子长度分析在赛题数据中每行句子的字符使用空格进行隔开，所以可以直接统计单词的个数来得到

2020-07-21 14:43:26 302

原创零基础入门nlp--赛题理解

赛题题目：新闻文本分类赛题以新闻数据为赛题数据，数据集报名后可见并可下载。赛题数据为新闻文本，并按照字符级别进行匿名处理。赛题数据背景：整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。赛题数据由以下几个部分构成：训练集20w条样本，测试集A包括5w条样本，测试集B包括5w条样本。为了预防选手人工标注测试集的情况，我们将比赛数据的文本按照字符级别进行了匿名处理。评价标准：评价标准为类别f1_s...

2020-07-19 20:50:44 302

原创总结关于Docker的一些资料

1、顺利安装DockerCentOS Docker 安装和个人问题解决总结https://blog.csdn.net/liaobairen/article/details/845627462、解决Docker Pull 速度慢https://www.cnblogs.com/BillyYoung/p/11113914.html

2020-07-10 23:19:18 188

原创零基础入门数据挖掘 - 二手车交易价格预测模型融合

基于几个单模型进行模型融合，1、stackingstacking的第二层无须用

2020-04-06 20:33:50 404

原创零基础入门数据挖掘 - 二手车交易价格预测建模调参

2020-04-01 21:02:36 204

原创零基础入门数据挖掘 - 二手车交易价格预测数据的特征工程

特征工程(Feature Engineering)：将数据转换为能更好地表示潜在问题的特征，从而提高机器学习性能。1、数据理解；2、数据清洗；3、特征构造；4、特征选择；5、类别不平衡。数据理解的主要目的:1、定序数据：描述性质 a)定类：按名称分类---血型、城市。 ...

2020-03-31 13:20:12 922

原创零基础入门数据挖掘 - 二手车交易价格预测赛题理解和EDA

这个是DataWhale在本次数据挖掘竞赛提供的学习思路图。

2020-03-30 19:17:06 833

原创 Android全埋点解决方案--读书笔记4

Accessibility,即辅助功能，许多Android用户有不同的能力(限制)。这些限制包括视力、肢体、年龄等，这些限制可能会阻碍他们看到或充分使用触摸屏，而用户的听力丧失，有可能会让他们无法感知声音信息和警报信息。Android系统提供了辅助功能的特效和服务，可以帮助这些用户更容易的使用他们Android设备，这些功能包括语音合成、触觉反馈、手势导航、轨迹球和方向键导航等。And...

2019-12-18 23:14:09 331

原创可视化小目标--如何提升数据可视化的表现效果

影响数据可视化最终效果的因素，分为两个层面：一是非数据层面。不受数据影响可视化效果的情况包括：比如说整个页面的布局；图表的辅助元素，如图表背景、网格线、外边框；交互方式的设计等。→不受数据影响的情况，是我们在可视化设计阶段就可以把控的，比如说页面的整体布局、图表的设计（包含网格线、背景、颜色的选取等）、交互的设计等。二是数据层面。受数据影响...

2019-12-18 21:38:20 1142

原创可视化小目标--常用图表对比

通过一些来源于实际业务场景的数据集实例，来进行不同的可视化方案对比，从而总结出根据可视化目的、数据集特征，去选择图表类型的一般套路。图表对比部分，会选择一些常见的，且比较容易混淆的图表类型来做对比，以「可视化目标→数据集准备→图表选择和对比→经验总结」的方式来行文。柱状图vs条形图相同点：柱状图和条形图的数据结构是相同的，都是由「一个分类字段+一个连续数值字段」构成。 ...

2019-12-11 16:26:19 824

原创可视化小目标--如何对进度、关系、地理信息进行可视化

区间型数据：了解区间型数据的特点，熟练使用「条形进度图、仪表盘、环形进度图」表示数据的进度和定量指标的定性化；关系型数据：了解数据之间常见的关系类型，能熟练地根据数据之间的关系类型进行图表选型，掌握不同图表的特点、可视化原理和制作方法；地理信息数据：了解地理信息数据的特点，掌握地理数据常用的可视化方案选型；条形进度图https://www.jb51.net/a...

2019-12-11 16:17:49 159

原创 Android全埋点解决方案--读书笔记3

$代理Window.Callback全埋点方案是Window.Callback是Window类的一个内部接口。当Window接收到外界状态改变的通知，就会回调其中的相应方法。比如，当用户点击某个控件时，就会回调Window.Callback中的dispatchTouchEvent(MontionEvent event)方法。在应用程序自定义的Application的onCreate()方法...

2019-12-11 15:07:29 224

原创 Android全埋点解决方案--读书笔记2

$AppViewScreen全埋点方案$AppViewScreen事件，即页面浏览事件。在Android系统中，页面浏览其实就是指切换不同的Activity或Fragment。对于一个Activity，它的哪个生命周期执行了，代表该页面显示出来了呢？通过对Activity执行到onsume(Activity activity)生命周期时，也就代表该页面已经显示出来了，即该页面被浏览了。我们只要...

2019-11-27 19:11:34 206

原创可视化小目标--对比型和分布型数据图表

不同的数据类型、不同的阐述目的，决定了数据可视化展现形式的差异。因此，今天这篇文章，主要是分享两类不同的可视化目的及其可选择的图表形式。「对比型数据」：对比两组或两组以上数据的差异。「分布型数据」：研究数据分布的集中趋势、离散程度、偏态和峰度等。在实际工作中，我们经常需要对比多组数据之间的差异，而这些差异通常是通过不同的标记和视觉通道体现出来。高度差异/宽度差异：...

2019-11-27 18:27:49 310

原创机器学习小目标--简单线性回归&最小二乘法 &多元线性回归

线性回归（又名普通最小二乘法）线性回归，或者普通最小二乘法，是回归问题最简单也是最经典的线性方法。线性回归寻找参数w和b，使得对训练集的预测值与真实的回归目标值y之间的均方误差最小。均方误差是预测值与真实值之差的平方和除以样本数。线性回归没有参数，这是一个优点。import matplotlib.pyplot as plt #导入matplotlib库import numpy as ...

2019-11-27 16:25:57 1035

原创智能信息融合与目标识别方法

推荐书籍：《智能信息融合与目标识别方法》胡玉兰郝博王东明等著这本书目录清晰，适合毕业论文撰写的参考首先分析特征级融合目标识别的基本理论，然后研究了多源图像的预处理、结合阈值分割的分水岭算法、结合聚类分割的分水岭、目标特征提取方法。对于特征融合方法、基于改进免疫遗传的特征融合方法、基于独立分量的特征融合、对典型相关分析特征融合方法的改进。最后介绍了基于优化改进的反向传播神经网络目标识别...

2019-11-26 14:01:34 2848 2

原创多属性决策的理论与方法

推荐两本书《移动云计算-——资源共享技术》李波著、《多属性决策的理论与方法》徐玖平吴巍编著。关注这个点是因为：《移动云计算-——资源共享技术》关于基于多属性决策的垂直切换。是指在考虑多个属性的情况下，选择最优备选方案或进行方案排序的决策问题。多属性决策一般包括两部分内容：1、获取决策信息，一般包括属性权重和属性值，其中属性权重的确定是多属性决策的一个重要内容；2、通过一定的方式对决策信息进...

2019-11-24 23:15:25 7550

原创机器学习小目标--数据表示与特征工程

知识点描述：简单的数据预处理和特征工程我们的学习目标有四个：无量纲化：最值归一化、均值方差归一化及sklearn中的Scaler 缺失值处理处理分类型特征：编码与哑变量处理连续型特征：二值化与分段一种特征常见的特征类型就是分类特征(categorical feature)，也叫离散特征(discrete feature)。one-hot编码(...

2019-11-20 17:01:02 367

原创可视化小目标--时序数据可视化与比例型数据可视化

时序数据，是指任何随着时间而变化的数据，如一天中气温随时间的变化。要进行时序数据的可视化，我们首先需要了解「时间」所具有的特征：有序性：时间都是有序的，事件之间有先后顺序。周期性：许多自然或商业现象都具有循环规律，如季节等周期性的循环。结构性：时间的尺度可以按照年、季度、月、日、小时、分钟、秒等去切割。「时间数据」按是否连续可分为：离散型时间和连续型时...

2019-11-19 21:22:06 2082

原创智能数据挖掘--面向不确定数据的频繁模式

推荐书籍《智能数据挖掘--面向不确定数据的频繁模式》于晓梅王红著推荐著名开源数据挖掘软件SPMFhttp://www.philippe-fournier-viger.com/spmf/与传统确定数据的表示方式不同，不确定数据的特点是每个数据对象不是单个数据点，而是按照概率在多个数据点上出现。线虽然，数据的不确定性对挖掘结果产生了不可忽视的影响。目前，关于不确定数据挖掘技术的研究包括...

2019-11-17 23:28:08 826

原创 Android全埋点解决方案--读书笔记1

推荐书籍《Android全埋点解决方案》作者：王灼洲推荐序：为了实现对数据的采集，可以使用三种方式：代码埋点、工具导入和全埋点。这三种方式都是手段，并且各有优缺点，选择需要完全基于实际的业务需求和现状来设计。埋点方式多种多样，按照埋点位置不同，可以分为前端(客户端)埋点与后端（服务器端）埋点。其中全埋点是目前较为留下的前端埋点方式之一。全埋点采用“全部采集，按需选取”的形式，对页面中所有交互...

2019-11-16 15:26:21 495

原创可视化小目标--解构数据可视化

学习目标了解数据可视化的基本流程，牢记4个关键步骤熟悉可视化视觉映射的基本原理及其三要素一个完整的数据可视化过程，主要包括以下4个步骤：确定数据可视化的主题；提炼可视化主题的数据；根据数据关系确定图表；进行可视化布局及设计；可视化过程的第一步：确定数据主题，即确定需要可视化的数据是围绕什么主题或者目的来组织的。业务运营...

2019-11-13 23:07:24 1778

原创机器学习小目标--模型评估与选择

学习目标有三个：数据拆分：训练数据集&测试数据集评价分类结果：精准度、混淆矩阵、精准率、召回率、F1 Score、ROC曲线等评价回归结果：MSE、RMSE、MAE、R Squared 1.1 训练数据集&测试数据集将原始数据中的一部分作为训练数据、另一部分作为测试数据。使用训练数据训练模型，再用测试数据看好坏。即通过测试数据判断模型好坏，...

2019-11-13 22:54:25 354

原创最优理论与技术--动态规划问题

动态规划问题：主要指多阶段决策过程。基本概念：阶段、状态、决策、策略、状态转移方程、指标函数和最优值函数..动态规划（Dynamic Programming）是解决多阶段决策过程最优化的一种方法。美国数学家贝尔曼（R. E. Bellman）等人在50年代初提出了解决多阶段决策问题的“最优性原理” 。全局来讲是最优的决策:当每个阶段的决策确定以后，全部过程的决策就是这些阶段决策所组成的一个决策...

2019-11-12 13:36:15 1498

原创人人都懂设计模式--Everybody Know Design Patterns : How to comprehend Design Patterns from daily life

推荐书籍《人人都懂设计模式》从生活中领悟设计模式 python实现罗伟富著介绍有趣的设计模式，便于代码设计。监听模式，又名观察者模式。顾名思义就是观察与被观察的关系。比如，在烧开水的时候看它开没有开。你就是观察者，水就是被观察者。其核心思想: 被观察者与观察者之间建立一种自动触发关系。观察者模式是对象的行为模式，又叫发布/订阅模式、模型/视图模式、源/监听器模式或者是从属者模式。...

2019-11-11 18:04:25 717

原创机器学习小目标---K-近邻算法

目标：了解KNN算法的思想及其原理使用python手动实现KNN算法，并在sklearn中调用KNN算法了解监督学习和非监督学习的概念K-最近邻(K-Nearest Neighbor,KNN)算法有3个基本要素:距离度量，k值的选择和分类决策规则。K近邻的思想很简单，即在一个数据集上，给定一个新样本，找到与新样本距离最近的k个实例，在这些实例中属于多数的...

2019-11-04 09:24:38 297

原创用Excel玩转深度学习的数学知识-第三章:神经网络的最优化、第四章:神经网络和误差反向传播法、第五章:深度学习和卷积神经网络

推荐图灵书:《深度学习的数学》作者:[日]涌井良幸、涌井贞美杨瑞龙译从数学上看，神经网络是一种用于数据分析的模型，这个模型是由权重和偏置确定的。像权重和偏置这种确定数学模型的常数称为模型的参数。在神经网络中，权重w1、w2、w3与偏置b为参数，输入x1、x2、x3、加权输入z1、神经单元的输出a1为变量，变量的值根据学校数据的学习实例而变化。确定数学模型的参数是回归系数p和截距q，求使得表...

2019-11-01 16:26:10 742

原创用Excel玩转深度学习的数学知识-第二章:神经网络的数学基础

推荐图灵书:《深度学习的数学》作者:[日]涌井良幸、涌井贞美杨瑞龙译梳理神经网络中频繁出现的函数：一次函数 (a、b为常数，) ，a为斜率，b称为截距。当然，一次函数关系也同样适用于多个自变量的情形。有两个变量x1、x2，当它们满足下列关系，称y和x1、x2是一次函数关系：（a,b,c为常数，）。在神经网络中，神经单元的加权输入可以表示为一次函数关系。例如，神经单元有三个来自下层的输...

2019-11-01 14:32:56 1103

原创用Excel玩转深度学习的数学知识-第一章:神经网络的思想

推荐图灵书:《深度学习的数学》作者:[日]涌井良幸、涌井贞美杨瑞龙译神经元点火的结构：来自其他多个神经元的信号之和成为神经元的信号之和成为神经元的输入。如果这个信号之和超过神经元固有的阈值，则点火。神经元的输出信号可以用数字信号0和1来表示。即使有多个输出端，其值也是同一个。用数学公式表示输入信号,由于输入信号是来自相邻神经元的输出信号，所以根据3，输入信号也可以用“有”，“...

2019-10-31 21:55:47 2399

原创最优理论与技术--多目标规划问题

目标规划的产生：线性规划的局限性—— 目标单一性，不能处理多目标问题。但现在很多问题都有多个目标，希望能获得综合的最优，但目标之间往往存在一定的矛盾，如利润最高、成本最低、产量高、质量好、用工最少等。传统的线性规划很难同时处理？对于这种多目标的问题，如何解决？目标规划可统筹兼顾的处理多种目标的关系。•三个目标要求，如何得到集中体现？• 是否需要建立三个目标函数？• 传统线性规划一般...

2019-10-25 16:36:31 7808

原创粗糙集的思考

粗糙集理论与方法能有效地处理复杂系统中的数据和信息，已成为一种处理模糊和不精确问题的新型数学工具。它与模糊集方法、证据理论方法和概率方法等其他处理不确定性问题理论的显著区别在于无须提供所处理数据之外的任何先验信息。粗糙集理论的主要任务是近似分类、知识约简(属性和属性值约简)、属性相依性分析、根据决策表产生最优或次优决策控制算法等。对它的研究主要集中在两个方面:一是理论研究方面:粗糙集代数、粗糙...

2019-10-15 20:42:56 528

原创最优理论与技术--线性规划及单纯形法

掌握的知识点: 1、掌握线性规划的图解法及其几何意义。2、理解线性规划的标准型和规范型。3、掌握单纯形法原理 4、掌握运用单纯形表计算线性规划问题的步骤及解法。5、能运用两阶段和大M法求解线性规划问题，以及运用人工变量法求解非规范型的线性规范问题。6、掌握任何基可行解原表及单纯形表...

2019-09-29 18:45:56 313

转载 github上如何下载单个文件

一般情况下，在github中，需要下载整个项目时，可以点击右边的clone or download按钮但是，当我们只需要某个项目当中的一个小文件时，该怎么做呢？方法：找到所需下载的文件，选择RAW -》右键-》从连接另存未见为。即可下载...

2019-08-24 20:26:09 209

原创 12天summer----数据挖掘实战-模型融合

Stacking 是一种集合学习技术，通过元分类器组合多个分类模型。基于完整训练集训练各个分类模型; 然后，基于整体中的各个分类模型的输出 - 元特征来拟合元分类器。元分类器可以根据预测类标签或来自集合的概率进行训练。参考:https://blog.csdn.net/github_35965351/article/details/60763606参考:http://rasbt.github...

2019-08-19 17:52:38 203

原创 12天summer----数据挖掘实战-模型调优

模型调参-利器 GridSearchCV（网格搜索）参考：https://blog.csdn.net/weixin_41988628/article/details/83098130由于带交叉验证的网格搜索是一种常用的调参方法，因此 scikit-learn 提供了GridSearchCV 类，它以估计器（estimator）的形式实现了这...

2019-08-18 23:50:55 128

原创 12天summer----数据挖掘实战-模型评估

记录5个模型（逻辑回归、SVM、决策树、随机森林、XGBoost）关于accuracy、precision，recall和F1-score、auc值的评分表格，并画出ROC曲线。参考：https://www.jianshu.com/p/5df19746daf9https://blog.csdn.net/huacha__/article/details/81029680先定义评估函数#...

2019-08-18 21:56:18 170

原创 12天summer----数据挖掘实战- 建模

使用逻辑回归、svm和决策树；随机森林和XGBoost进行模型构建。逻辑回归：是机器学习分类算法的一种，它在线性回归模型的基础上加入类别映射，从而实现分类问题。支持向量机：主要讲特征空间通过非线性变换的方式映射到一个高维(甚至无限维)的特征空间，并在这个高维空间中找到最优线性分界超平面的一种方法。不仅需要这个分界超平面能够把两个类别的数据正确分割开，还需要使这两类数据之间的分类间隔达到最大...

2019-08-18 19:22:38 131

oracle体系结构

ER模型学习

空空如也