qq_39643868-CSDN博客

翻译 python加速技巧

代码优化原则不要过早优化。权衡优化代价忽视不关紧要的部分避免全局变量通过将脚本语句放入到函数中，通常可带来 15% - 30% 的速度提升。避免模块和函数属性访问每次使用.（属性访问操作符时）会触发特定的方法，如__getattribute__()和__getattr__()，这些方法会进行字典操作，因此会带来额外的时间开销。通过from import语句，可以消除属性访问。避免类内属性访问避免.的原则也适用于类内属性，访问self._value的速度会比访问一个局部变量更慢一些。通过

2020-07-31 10:56:12 145

原创 twosum

twosumclass Solution {public: vector<int> twoSum(vector<int>& nums, int target) { unordered_map<int,int> m; const int size=nums.size(); int tmp; ...

2020-01-08 18:21:13 115

翻译使用ExecuteScript，Groovy和Sshoogr在NiFi中执行远程命令

Apache NiFi中已经有一些处理器用于执行命令，例如ExecuteProcess和ExecuteStreamCommand。这些允许通过使用各种参数（例如建立SSH会话时要执行的远程命令）调用操作系统的“ssh”命令来执行远程脚本。通常这是通过编写带有许多ssh命令的bash脚本（或者在末尾使用一长串远程命令的单个ssh命令）来完成的。作为一种不同的方法，您可以使用ExecuteScr...

2019-06-17 16:36:11 884

转载 ETC

ETL缩写：Extract-Transform-Load用来描述将数据从来源端经过萃取（extract）、转置（transform）、加载（load）至目的端的过程与ELT区别ETL所描述的过程，一般常见的作法包含ETL或是ELT（Extract-Load-Transform），并且混合使用。通常愈大量的数据、复杂的转换逻辑、目的端为较强运算能力的数据库，愈偏向使用ELT，以便运用目的端数...

2019-06-17 16:13:44 142

转载常用网站

https://github.com/apachecn/awesome-algorithmhttps://github.com/charmingmichelle

2019-05-15 19:17:19 81

翻译处理文本数据

文本是常用的序列数据之一可理解为字符序列或单词序列映射书面语言的统计结构文本向量化：将文本转换成数值张量的过程实现方法文本分割成单词/字符，并转换为一个向量提取单词或字符的n-gram,将每个n-gram转换成一个向量n-gram是多个连续单词/字符的集合（n-gram之间可重合）将文本分解成单元叫做标记（token）将文本分解成标记的过程叫做分词（tokenization）...

2019-05-03 22:08:24 372

转载 0欢迎使用CSDN-markdown编辑器

这里写自s定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用M...

2019-04-28 20:46:14 241

原创 svd简化

SVD,Singular Value Decomposition奇异值分解提取信息方法可看成是从噪声中抽取信息信息检索：隐性语义检索LSI，Latent Semantic Indexing隐形语义分析LSA,Latent Semantic Analysis推荐系统利用SVD从数据中构建一个主题空间再利用其空间下构建相似度（高维->低维，低维空间中计算相似度，提升RS效...

2019-04-28 15:29:02 323

原创笔记3-tensorflow

数据流图：构建计算的方式节点/边组成节点代表数值操作（加法减法卷积池化）边代表流动的张量张量tf中所有数据表示一个N维数组零维标量 scalar一维向量 vector二维矩阵 matrix操作计算操作通过操作operation来进行数据流图中的一个结点对张量进行操作会话控制数据流图执行的对象运行session.run()执行运算获得结果数据流图需...

2019-04-26 22:09:35 73

原创笔记2-cnn/rnn

受视觉启发，考虑视觉空间结构卷继层：核心图层提取局部区域特征通常有多个不同的卷积核局部区域和卷积核通过卷积运算生成不同特征不同卷积核可看成不同特征提取器池化层子采样层通常用在连续卷积之间类似于特征选择减少特征和参数数量，减少计算量，控制过拟合在每个通道上独立执行沿着高宽下采样RNN序列模型的一种变体循环性序列的每个时刻执行相同的任务每个时刻的输出依赖于当前时刻...

2019-04-26 21:42:35 118

原创笔记1-神经网络基础

深度学习是使用深层架构的机器学习方法神经元也叫感知器神经网络：按一定规则连接起来的神经元按层布局同层间无连接第N-1层的输出是第N层的输入每个连接都有权值反向传播神经网络中，样本输入/权重参数通过前向传播得到输出值一般与预测值差异很大，由于权重是随机初始化的为校正网络权重，引入反向传播算法，修正权重参数，使输出值逼近目标值最小化损失函数值基于微积分链式求导的递归算法网...

2019-04-26 16:08:24 127

转载深度学习小结

局部极小值处理办法调节学习速率合理初始化权重，常用的：高斯分布初始化权重，均匀分布。。。。浅层NN可以拟合任何函数，数据量巨大深层可以用更少的数量更好的拟合，前提：空间中的元素可迭代而来防止过拟合L2正则化dropout每个epoch之后shuffle训练数据设置early-stopping加batch normalization（标准化所有的sample的统计分布，...

2019-04-26 11:46:58 142

转载排序算法

冒泡def bubbleSort(lists): #外层循环：重复走访数据次数 for i in range(len(lists)-1): flag=False #内层循环：每次走访数据时，相邻数据对比次数 for j in range(len(lists)-i-1): if value[j]>value[j+1]: value[j],value[j+1]=val...

2019-04-25 18:12:16 80

转载 svm清单

2019-04-25 16:34:33 100

翻译 Mongodb

最流行的nosql数据库之一数据类型为BSON(类似JSON)python连接Mongodb需要用PyMongo驱动安装python3 -m pip3 install pymongo创建数据量#创建数据库需要使用MongoClient对象，并指定连接的URL地址和要创建的数据量名import pymongomyclient=pymongo.PymongoClient("mong...

2019-04-24 11:56:20 66

翻译 - mysql-connector

mysql-connector 是 MySQL 官方提供的驱动器安装python -m pip install mysql-connector测试是否安装成功import mysql-connector连接数据库import mysql-connectormydb=mysql.connector.connect( host='localhost' #数据库主机地...

2019-04-24 11:00:23 2586

翻译 shell

定义：命令语言解释器，翻译命令给内核，内核转交给CPU执行用户/内核间的接口程序无论GUI/CLI，一切输入先由shell解释再传给内核bash shellshell的版本有sh、bash、csh、ksh等其中bash是Linux世界使用最广泛的shell，也是很多Linux发行版的默认shell获取当前系统可用shell[root@localhost ~]...

2019-04-20 18:00:38 186

转载 SQL

https://mp.weixin.qq.com/s/6rsKdc-b2J4E_Uj1WYpSYQ数据库（Database）：按照数据结构来组织、存储和管理数据的仓库。RDBMS：(Relational Database Management System)关系数据库管理系统，存储和操作关系数据库表中排列的数据的软件。SQL：Structured Query Lanuage（结构化查询语言...

2019-04-05 22:30:19 117

翻译 cnn

层级网络，只是层的功能和形式做了变化架构卷积神经网络能够接受多个特征图作为输入，而不是向量输入层input layer去均值：输入数据各个维度都中心化为0，目的是把样本的中心拉回到坐标系原点上归一化：幅度归一化到同样的范围，减少各维度数据取值范围的差异而带来的干扰，比如，两个维度的特征A和B，A范围是0到10，B是0到10000，归一化后A和B的数据都变为0到1的范围。...

2019-04-05 19:17:54 371

翻译 git/GitHub

Git是一个开源的分布式版本控制系统GitHub本质上是一个代码托管平台，它提供的是基于 Git 的代码托管服务版本控制系统最主要的任务是追踪文件的变更，无论是应用系统源代码、项目配置文件，还是项目过程的开发文档，甚至是网站界面图片、Logo，都可以且应该被版本控制系统所管理起来，以方便在项目的生命各周期能够追踪、查看到软件系统的变更和演进。另一个重要的作用是方便开发者进行协同开...

2019-04-05 18:31:12 82

转载调参

范围核心调参1：提高准确率"：num_leaves, max_depth, learning_rate调参2：降低过拟合 max_bin min_data_in_leaf调参3：降低过拟合正则化L1, L2调参4：降低过拟合数据抽样列抽样调参方向：处理过拟合（过拟合和准确率往往相反）使用较小的 max_bin使用较小的 num_leaves使用 min_data_in...

2019-04-04 10:40:54 230

转载 XGBoost和LightGBM

通用参数boostergbtree 采用树结构gblinear基于线性模型silent：静默模式，为1时模型运行不输出nthread:使用线程数，一般设成-1,使用所有线程。如果有需要，我们设置成多少就是用多少线程。Booster参数n_estimator:也作num_boosting_rounds这是生成的最大树的数目，也是最大的迭代次数...

2019-04-04 10:33:17 433

转载 bp算法

神经网络结构隐藏层大于三可以称为深度学习输入层：接收原始输入输出层：决策输出隐藏层：相当于对数据做一次特征提取把前一层向量变成新的向量（平移、旋转、伸缩）神经网络换着坐标空间玩数据，根据需要，可降维，可升维，可大，可小，可圆可扁，就是这么“无敌”激励传播正向传播：将训练输入送入网络以获得激励响应反向传播将激励响应同训练输入对应的目标输出求差，从而获得...

2019-04-03 18:33:41 193

翻译 mysql:

发展顺序：网状、层次、关系、面向对象

2019-04-03 15:45:12 90

转载 LSTM情感分析实战

https://blog.csdn.net/LIUSHAO123456789/article/details/78991581

2019-04-03 10:56:44 728

转载 dnn总结

Backpropagation求解损失函数通过链式法则对参数进行一层一层的求导前向传播计算出所有节点的激活值和输出值z(l+1)=W(l)a(l)+b(l)a(l+1)=f(z(l+1))z^{(l+1)}=W^{(l)}a^{(l)}+b^{(l)}\\a^{(l+1)}=f(z^{(l+1)})z(l+1)=W(l)a(l)+b(l)a(l+1)=f(z(l+1))计算整体损...

2019-04-03 10:55:53 260

翻译 nlp6666

词干提取将词语去除变化、衍生形式，转换为词干、原型形式的过程目标是将相关词语还原为同样的词干词形还原将一组词语还原为词源或或词典的词目形式的过程还原过程考虑到了POS问题，即，词语在句中的语义，词语对相邻语句的语义词向量化用一组实数构成的向量代表自然语言通过词向量化，词\短语用定位向量表示词性标注对句子中词语标注名词、动词。。。之类的过程命名...

2019-04-02 16:45:36 76

转载 kg-dl

大数据时代的到来，为人工智能的飞速发展带来前所未有的数据红利。在大数据的“喂养”下，人工智能技术获得了前所未有的长足进步。其进展突出体现在以知识图谱为代表的知识工程以及深度学习为代表的机器学习等相关领域。随着深度学习对于大数据的红利消耗殆尽，深度学习模型效果的天花板日益迫近。另一方面大量知识图谱不断涌现，这些蕴含人类大量先验知识的宝库却尚未被深度学习有效利用。融合知识图谱与深度学习，已然成为进一步...

2019-03-29 14:10:06 268

翻译 word2vec

Google 于 2013 年开源推出的一个用于获取 word vector 的工具包（word2vec），其中的两个训练模型（Skip-gram，CBOW）两种加速的方法（Hierarchical Softmax，Negative Sampling）作用:将所有词语投影到K维的向量空间，每个词语都可以用一个K维向量表示。由于它简洁，高效的特点，引起了人们的广泛关注，并应用在很多NLP...

2019-03-29 10:49:41 177

翻译 NLP电影情感分析

情感分析也叫观点挖掘，是基于人们对产品、服务、组织、个人、问题、事件、话题和属性等文本资料挖掘人们的观点、倾向、情绪、态度和评价的一种分析方法。基于语料粒度的不同，可以将情感分析细分到文档级、语句级和 aspect level。文档级的情感分析以整个文档为单位，但前提是文档需要有明确的态度，即观点要鲜明。语句级的情感分析则是对文档内的语句单独进行情感分析。aspect level 情感分...

2019-03-29 09:52:16 834

翻译 svm

参考：https://zhuanlan.zhihu.com/p/41952687线性SVM先看下线性可分的二分类问题(a)是已有的数据，红色和蓝色分别代表两个不同的类别。数据显然是线性可分的，但是将两类数据点分开的直线显然不止一条。(b)和©分别给出了两种不同的分类方案，其中黑色实线为分界线，术语称为“决策面”。每个决策面对应了一个线性分类器。虽然从分类结果上看，两种分类器的效果是相同...

2019-03-28 19:37:28 262

翻译 Searching

原文：https://mp.weixin.qq.com/s?src=11&timestamp=1553758315&ver=1511&signature=mG08QxOefQs7L4AN3Aa0XzFPYkoNUjT15DWapgzfG4vF4krarQX8qb7YNOOxNO9zTVFWo7*FAMzhkyVdVIl6opLqadT4gaph0u466-7dDTAM8nT...

2019-03-28 16:40:27 212

翻译 logistics regression

线性模型f(x)=wTx f(\bm{x}) = \bm{w}^T\bm{x} f(x)=wTx值域是(−∞,∞) (-\infty,\infty)(−∞,∞)sigmoid函数表达式为：σ(x)=11+e−x \sigma(x) =\frac{1}{1+e^{-x}}σ(x)=1+e−x1把线性回归模型的输出作为sigmoid函数的输入变成了逻辑回归模型：y=σ(f(x))=σ(wTx...

2019-03-28 15:05:34 136

翻译知识图谱小结

1.知识图谱：人工智能的重要分支技术结构化形式描述客观世界中概念、实体及其之间的关系将互联网信息表达成接近人认知世界的形式，提供更好地组织、管理和理解海量信息的能力两种：通用知识图谱、特定领域知识图谱。多关系图（multi-relation gragh）,通常包含类型的边和节点知识的承载体实体:具有可区别性且独立存在的某种事物。如某一个人、某一座城市、某一种植物、某一件商品等等。...

2019-03-24 17:55:33 834

翻译《推荐系统与深度学习》笔记1

神经网络基础深度学习：使用深层架构（比如深度神经网络）的机器学习方法神经元：也叫感知器组成：1.输入权值：一个感知器可接受多个输入，每个输入上由于提供权值，还有偏置项b2.激活函数3.输出神经网络：按一定规则连接多个神经元按层布局同层无连接每个连接都有一个权值反向传播：为矫正网络权重，修正权重参数，使输出值逼近目标值通常采样反向传播更新梯度，达到最小化...

2019-03-20 22:00:28 192

翻译 rs与kg的简单结合

CKEZhang F, Yuan N J, Lian D, et al. Collaborative knowledge base embedding for recommender systems[C]// KDD, 2016: 353-362.问题：给用户推荐一个商品列表，评价指标是使用Map@K: Recall@K 。总览使用item各种外部辅助信息来融合到CF中，包含:结...

2019-03-20 20:53:40 518

翻译树模型

决策树基本分类与回归方法一棵树表示整个决策过程根节点包含整个样本集，叶节点对应决策结果，内部节点对应决策过程（属性测试）根节点到叶节点对应判定测试序列熵：随机变量不确定性P(X=xi)=pi,i=1,..n,H(X)=−∑i=1npilog(pi) P(X=x_i)=p_i,i=1,..n,\\H(X)=- \sum_{i=1}^np_ilog(p_i)P(X=xi)=pi,i=...

2019-03-20 16:44:10 292

翻译模板

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...

2019-03-19 19:01:27 115

翻译机器学习的数学基础之线代

参考：https://zhuanlan.zhihu.com/p/25197792概述：以计算机为工具和平台，以数据为研究对象，以学习方法为中心；是概率论、线性代数、数值计算、信息论、最优化理论和计算机科学等多个领域的交叉学科线代标量：一个单独的数，一般用小写的的变量名称表示向量：一列数，这些数是有序排列的。用过次序中的索引，我们可以确定每个单独的数。通常会赋予向量粗体的小写名称。矩阵：...

2019-03-19 18:57:39 247

翻译 (速记系列)机器学习

分类（classification）：将实例数据划分到合适的类别中。应用实例：判断网站是否被黑客入侵（二分类），手写数字的自动识别（多分类）回归（regression）：主要用于预测数值型数据。应用实例：股票价格波动的预测，房屋价格的预测等。监督学习必须确定目标变量的值，以便机器学习算法可以发现特征和目标变量之间的关系。在监督学习中，给定一组数据，我们知道正确的...

2019-03-19 18:39:04 244

空空如也

空空如也