Florida20-CSDN博客

原创 Mac系统安装xgboost

Abstract：Xgboost是大规模并行boosted tree的工具，本文是关于在Mac系统下如何安装XGBoost。XGBOOSTeXtreme Gradient BoostingXgboost是大规模并行boosted tree的工具，它是目前最快最好的开源boosted tree工具包，比常见的工具包快10倍以上。安装步骤1.安装homebrew (Mac系统下一个非常优秀的包管理工具...

2018-05-27 10:37:18 965

原创 PyTorch安装、使用、学习指南

Abstract：PyTorch是一个python优先的非常优秀的深度学习框架，本文是个人总结的关于如何安装、使用和学习PyTorch的指南。1.PYTORCH介绍Torch是一个科学计算框架，广泛支持机器学习算法，将GPU放在第一位。由于使用简单快速的脚本语言LuaJIT以及底层的C / CUDA实现，因此易于使用和高效。核心功能：一个强大的N维数组许多例行索引，切片，转置，...通过LuaJ...

2018-05-27 10:37:15 3175 1

原创 SEO|解析关键词密度与分布

Abstract：关键词密度和分布是SEO中的一对基础概念，是搜索引擎决定网页排名的重要衡量标准。网页合理的关键词密度可以让网页在搜索引擎中获得较高的排名位置，但是如果操作不当，也会引起搜索引擎对网页的降权处理。合理的关键词布局也有助于网页在搜索引擎中排名的提升。本文从含义、意义、测量方法、应用四个方面分别阐释关键词密度和关键词分布是什么。1.关键词密度（KEYWORD DENSITY）1.涵义：...

2018-05-27 10:37:11 2740

原创 Sublime x Anancoda 机器学习开发配置

Abstract: 关于如何使用Sublime和Anaconda插件进行机器学习开发配置。ERROR在使用sublime编译python文件时，出现无法import已安装在系统中的tensorflow等工具包的情况，报错如下： ModuleNotFoundError: No module named 'tensorflow'SOLUTION报错缘由应该是sublime原有的python编译环境使...

2018-05-27 10:37:09 535

原创计算机组成原理复习笔记-1

Abstract: 计算机组成原理期末复习知识点总结（一版）~ 1.计算机概述基本组成：存储器:　实现记忆功能的部件用来存放计算程序及参与运算的各种数据运算器:　负责数据的算术运算和逻辑运算即数据的加工处理控制器: 负责对程序规定的控制信息进行分析,控制并协调输入,输出操作或内存访问输入设备:实现计算程序和原始数据的输入输出设备:实现计算结果输出计算机的工作过程:用户打开程序系统把程序代码段和数...

2018-05-27 10:37:06 2129 1

原创计算机组成原理复习笔记-2

Abstract: 计算机组成原理期末复习知识点总结 ~ 1.基础概念硬件和软件等效原理：任何可以利用软件实现的工作可以利用硬件来实现，反之，任何可以通过硬件来实现的事件也同样可以利用软件来实现。此原理说明，可以用不同的选择来实现相同的计算机功能如对于微波炉的控制系统，一个简单的嵌入式系统会比一个复杂的计算机程序性能好的多。计算机体系结构：硬件系统 + 指令集体系结构（ISA）ISA: 在机器上运...

2018-05-27 10:37:04 9736 1

原创离散数学：理解图论

Abstract: 机器学习中我们希望从数据中挖掘隐含信息或模型，若将图中的结点作为随机变量，连接作为相关性关系，那么我们就能构造出图模型，并期望解决这一问题。而构造这样的概率图模型需要一定的图论知识。本文就总结了图论的基本概念、以及与ML的关系。图论：以图为研究对象，描述某些事物间的特定关系。由结点与边组成，G = {V，E}。有向边与无向边。有向图与无向图。树型结构：树是图的一种；从根节点开始...

2018-05-27 10:36:59 7596

原创理解递归思想

什么是递归递归（Recursion），指在函数的定义中使用函数自身的方法，即程序的自身调用。递归一词还较常用于描述以自相似方法重复事物的过程。例如，当两面镜子相互之间近似平行时，镜中嵌套的图像是以无限递归的形式出现的。也可以理解为自我复制的过程。  递归算法的特点递归就是方法里调用自身。出口：在使用递增归策略时，必须有一个明确的递归结束条...

2018-05-27 10:36:55 8216

原创理解内存地址

物理内存和物理地址物理内存：内存条实际提供的内存空间内存寻址：在内存上找到正确的位置以便进行存取的过程  内存地址：在内存空间中描述位置的方法物理内存地址：无符号的整数编号，以byte划分，从0开始编号，逐渐线性增大硬编码：通过物理地址操作物理内存的写码方式线性内存和线性地址线性内存和物理内存：相似点：从0...

2018-05-27 10:36:53 1357

原创理解算法的时间和空间复杂度

Abstract：算法分析包括事后统计和事前分析估算。事后统计由于依赖于计算机软硬件环境等因素故不太好。事前分析估算是以估算算法的时间复杂度的方式来衡量算法优劣。时间复杂度T(n) = O(f(n))，计算结果只需关注n的最高次幂的数量级即可。而算法的空间复杂度则是对算法在运行过程中临时占用存储空间大小的量度。算法分析证明算法正确性分析算法时间复杂度：反映算法优劣，通过依据该算法编制的程序在计...

2018-05-27 10:36:00 591

原创离散数学：格与布尔代数

Abstract：逻辑代数实质是符号逻辑，布尔代数即逻辑代数，核心是类的演算。偏序关系是格的先修知识。当<P, ≤>偏序集里的所有子集都有最大下界和最小上界时，称<P, ≤>为格。其中有补分配格称为布尔代数（有补，分配，有界）。布尔代数初导逻辑代数实质是符号逻辑，德摩根与布尔算是逻辑代数的创始人，布尔代数即逻辑代数。德摩根定律：德摩根定律：一个组(aggregate)的反面...

2018-05-26 08:37:17 12495 1

原创并行计算与SIMD

摘要：并行计算是为了解决大批量数据的处理问题，使用时间并行或空间并行的方式实现数据的并行处理。而SIMD是通过采用单控制器控制多处理器从而实现空间并行的技术。流水线化是SIMD的重要思想，但其过程中可能会发生分支跳转问题，分支预测可通过预测分支是否会跳转从而较好地解决这一问题。一、并行计算PARALLEL COMPUTING许多指令同时进行的模式，化整为零以并发方式解决。分类时间并行：流水线技术；...

2018-05-26 08:34:59 5626

原创 pandas基础命令总结笔记

Abstract: pandas基础命令总结笔记。1.简介pandas和numpy是用Python做数据分析最基础且最核心的库2.缩写解释 & 库的导入df --- 任意的pandas DataFrame(数据框)对象s --- 任意的pandas Series(数组)对象 import pandas as pd # 导入pandas库并简写为pd import numpy as n...

2018-05-26 08:32:20 828

原创 numpy实战小练习集锦附代码

Abstract：Numpy是Python做数据分析所必须要掌握的基础库之一。这篇练习通过89道题目带你快速玩转Numpy。介绍Numpy是Python做数据分析所必须要掌握的基础库之一。这篇练习通过89道题目带你快速玩转Numpy。练习 # coding:utf-8 import numpy as np import pandas as pd # 1.Print the...

2018-05-26 08:29:59 1465

原创 numpy入门实战教程（进阶篇）

Abstract：numpy入门实战教程进阶篇，附代码。1.广播法则（BROADCAST RULE）广播法则能使通用函数有意义地处理不具有相同形状的输入。第一法则：若所有的输入数组维度不都相同，一个“1”将被重复地添加在维度较小的数组上直至所有数据都拥有相同的维度第二法则：确定长度为1的数组沿着特殊方向表现地好像它有沿着那个方向最大形状的大小。对数组来说，沿着那个维度的数组元素的值理应相同。应用...

2018-05-26 08:28:58 799

原创 numpy入门实战教程（基础篇）

Abstract：numpy入门实战教程，附代码。1.概览numpy的主要对象是同种元素的多维数组。这是一个所有元素都是同一种类型、通过同一个正整数元组索引的元素表格（通常元素是数字）维度（dimensions）：轴轴的个数：秩（rank）例如，在3D空间一个点的坐标[1, 2, 3]是一个秩为1的数组，因为它只有一个轴。那个轴长度为3.又例如，在以下例子中，数组的秩为2(它有两个维度).第一个维...

2018-05-26 08:26:49 1844

原创 matplotlib入门实战全教程

Abstract：matplotlib入门实战全教程，教你如何绘制条形图、饼图、箱线图，附代码和相关学习资料。1.MATPLOTLIBMatplotlib的设计理念是能够用轻松简单的方式生成强大的可视化效果，是Python学习过程中核心库之一。用在python中绘制数组的2D图形库matplotlib代码在概念上分为3个部分：1.pylab接口是由matplotlib.pylab提供的函数集，允许...

2018-05-26 08:25:10 27334 1

原创 Mac系统jupyter notebook报错解决方法

Abstract：Mac系统jupyter notebook报错解决方法，Error为execution error。ERROR: EXECUTION ERROR安装jupyter notebook，执行jupyter notebook命令后，出现报错信息： 0:42:execution error: “"http://localhost:8891/tree"”不理解“open location...

2018-05-26 08:23:42 3179 1

原创 Jupyter Notebook新手使用教程

Abstract：jupyter notebook新手入门指南。入门指南1.终端运行jupyter notebook命令，会自动打开网页2.新建一个notebook：点击new，选择你希望启动的notebook类型（本文新建一个.py文件为例）3.在单元格中可输入任意代码并执行，如输入1+2并按下shift+Enter，则单元格中的代码会被计算，光标也会被移动到一个新的单元格中4.插入其他类型的...

2018-05-26 08:22:19 8382

原创 IMDB电影数据分析实践

Abstract: IMDB电影数据分析练习。1.项目简介数据集包含来自MovieLens 电影推荐服务的5星评分和文本标记数据和来自IMDB1950-2012年IMDB TOP10000排行榜数据MovieLens数据集包含27278部电影的20000263份评分和465564次标签应用实践内容1.什么样题材的电影评分会相对较高（较低）2.电影时长对评分是否有影响3.不同年代什么类型电影较受欢...

2018-05-26 08:13:52 6576 3

原创数据库系统概论复习笔记

Abstract: 数据库系统概论期末复习笔记 ~btw：欢迎关注 ~ Github： https://github.com/ScarlettYellow个人博客：https://scarletthuang.cn/PART1 数据库概述关系模型的构成：关系数据结构、关系操作集合、关系完整性约束。1.1 数据库发展1.数据库发展过程：2.三个时期的比较：1.2 基本概念1.数据模型三个要求：真实模拟...

2018-05-26 08:11:02 27019 5

原创 Mac上使用sublime编辑LaTex

Abstract：LaTex是科技论文排版利器，sublime是一款轻量级编辑器，本文是关于如何在Mac上使用sublime编辑LaTex。介绍sublime Text：一款简洁优雅的跨平台编辑器LaTex一款权威的科技论文排版软件，可写论文、处理文档工作、做幻灯片相比Word，LaTeX最大的优势是对于复杂公式的编辑与排版非常漂亮。并且用简单的命令就可以生成脚注、索引、目录和参考文献等复杂的结...

2018-05-25 23:41:13 2858 1

原创 C++求平方根和立方根中遇到的问题

Abstract: C++求平方根和立方根中遇到的问题: 函数参数不能为负数，否则会输出Nan。PROBLEM & SOLUTION平方根函数：sqrt(x)立方根函数：1.cbrt(x)2.pow(x, 1.0/3.0)注意：平方根和立方根函数的参数都只限于正数和0，若输入的参数为负数则会报错。改进方法：分段求，对于x<0, 语句可写为：-pow(-x,1.0/3.0) 、-cbr...

2018-05-25 23:39:45 3174 1

原创阅读笔记：《Python机器学习及实战》

Abstract：这本书面向的是对机器学习和数据挖掘实践及竞赛感兴趣的读者，以python为基础从零开始，在不涉及数学模型和复杂编程知识的前提下，逐步学习和掌握机器学习、数据挖掘、自然语言处理工具，如scikit-learn、NLTK、Pandas、TensorFlow等。全书分为4章：简介篇：机器学习概念和python编程知识基础篇：如何使用scikit-Learn作为基础机器学习工具进阶篇：...

2018-05-25 23:26:08 2110 2

原创详解| Sklearn—GridSearch 调参函数

Abstract：GridSearch是Sklearn里的一个调参函数。本文是对此函数的详细解释。1.参数搜索参数并非从estimators中直接学到的，可以通过设置一个参数搜索空间来找到最佳的cross-validation score。通常示例包括的参数有：SVM分类器的中C、kernel和gamma，Lasso中的alpha等。当构建一个estimator时，提供的参数可以以这种方式进行优化...

2018-05-25 23:23:47 5659

原创今日头条推荐算法原理解析

Abstract：这篇是1月份头条首次公开的算法原理的笔记记录。1.头条推荐算法原理1.1 系统概览1.资讯推荐系统”你关心的，才是头条“本质要解决的问题：用户、环境和资讯的匹配，即实质：推荐系统其实是一个拟合用户对内容满意度的函数，这个函数需要输入3个维度的变量。（内容）：内容形式多元化，不同内容的特征也不同，需要考虑怎样提取不同内容类型的特征做好推荐（用户）：怎样提取用户特征（环境）...

2018-05-25 23:19:15 12957

原创解决方法| “conda command not found”

Abstract：解决“conda:command not found”的方法。1.ERROR安装anaconda后，在终端里运行conda命令，出现Error： conda:command not found2.SOLUTION1.打开.zshrc文件 ls -a # 显示根目录下所有文件(包括隐藏文件) vim .zshrc2.在.zshrc里添加一行代码，并保存文件 ...

2018-05-25 23:16:46 6681 2

原创 NLP|中文分词技术及应用

摘要：中文分词是中文信息处理的重要基础，本文详细阐述了目前主要的几种中文分词算法的技术原理、中文分词目前的瓶颈和评价准则，以及中文分词的具体应用。中文分词指将一个汉字序列切分成一个个单独的词。现有的中文分词算法有五大类：基于词典的方法，基于统计的方法，基于规则的方法，基于字标注的方法，基于人工智能技术（基于理解）的方法。中文分词目前主要有四个瓶颈，分别是分词歧义、未登录词识别、分词粒度问题、错别...

2018-05-25 23:15:40 21064 1

原创解析TF-IDF算法原理：关键词提取，自动摘要，文本相似度计算

Abstract：TF-IDF算法是一种常用的词频统计方法，常被用于关键词提取、文本摘要、文章相似度计算等。1.TF-IDF的算法思路TF词频（Text Frequency）：统计出现次数最多的词IDF逆文档频率（Inverse Document Frequency）：大小与一个词的常见程度成反比；即给某些词分配“重要性”权重（平时比较少见而在这篇文章里多次出现的词应给予较高权重，而平时也很常见的...

2018-05-25 23:14:00 8337 1

原创 Python Numpy 矩阵运算(附实例和学习材料)

Abstract：使用numpy进行矩阵的加减乘除、转置、求逆、求特征向量等运算。1.NUMPY矩阵运算语法import numpy库：import numpy as np创建矩阵：a = np.mat([[x1, x2,…,xn], [y1, y2, …, yn]])矩阵乘法：a * bnp.dot(a, b )：求两数组点积矩阵加减：a - b矩阵转置：a.Ta.transpose()矩阵除...

2018-05-25 23:07:37 8977

ScarlettYellow的博客