DASEason-CSDN博客

原创农业领域的知识图谱构建（Agriculture_KnowledgeGraph）

Agriculture_KnowledgeGraphdemo：http://ecnukg.vicp.io github：https://github.com/qq547276542/Agriculture_KnowledgeGraph 欢迎star&fork~命名实体识别进入主页面，输入文本，即可看到以下命名实体和分词的结果（确保django和neo4j都处于开启状态）...

2019-11-29 20:32:48 22780 13

原创与信息熵相关的概念梳理(条件熵/互信息/相对熵/交叉熵)

香农信息量信息量表示不确定性的大小。信息量的单位是比特（bit）。香农信息量=log1p=−logp(以2为底)香农信息量=\log\frac{1}{p}=-\log p\quad(以2为底)上式中，p越小，则不确定性越大，包含的信息量就越多。比如32支球队，在无任何先验信息的前提下，用二分法猜冠军队伍，最多猜5次，那么信息量就是log132=5\log \frac{1}{32}=5。信息熵（En

2019-11-29 20:29:07 5635 1

原创共轭梯度法的推导与完整算法

共轭梯度法学习自知乎：https://www.zhihu.com/question/27157047和非线性规划课程简介在数值线性代数中，共轭梯度法是一种求解对称正定线性方程组Ax=b的迭代方法。事实上，求解Ax=b等价于求解： min||Ax−b||22min||Ax-b||_2^2 ,将其展开后可以得到：minxTATAx−bTAx+bTbmin \quad x^TA^TAx-b^TAx+b^T

2019-11-29 20:28:07 41662 10

原创 Codeforces Round #551 (Div. 2) D. Serval and Rooted Tree (树形dp)

https://codeforces.com/contest/1153/problem/D思路: 用dp[i]表示，结点i最少要有dp[i]个最大的结点肯定被忽略掉（因为题目要求最大化，因此我们希望被忽略掉的最大点尽可能少，所以dp表示的是“最少”的个数）。那么对于整个树，根节点的dp[1]即为整颗树最少要丢弃的结点个数，因此最终答案为k-dp[1]+1（因为我们要选中一个答案，所以少丢弃一个...

2019-04-14 22:37:02 346 2

原创 Tensorflow 利用高阶API Estimater.predict 实现实时预测，避免reload计算图

Estimater.predict是tensorflow的高阶API，但是在使用中常常会遇到如下情况：单次预测一个大文件的速度正常，但是想做成接口来实时预测速度却缓慢：因为每次预测都会重新reload一遍计算图。那么这个问题是否有解呢？答案：yes。可以在Estimater的层面，实现tensorflow Estimater.predict 的实时预测，将计算图只读取一遍后常驻内存（这里吐槽一...

2018-12-18 21:22:43 13373 29

原创 CentOS7下修改docker镜像源（解决TSL timeout问题）

问题是这样的： 4e1bafcdbc6f: Waiting bafbeb6b464b: Waiting c0e0660d6638: Waiting 269e6f7314e4: Waiting 05fd6d8029a7: Waiting 0aab41d51f2d: Waiting error pulling image configuration: Get...

2018-03-20 14:14:32 4327 2

原创 GreenPlum数据仓库快速配置，通过python连接

GreenPlum数据仓库快速配置，通过python连接数据库期末作业要用GP开发一个项目，弄的蛋疼，这里总结下我的快速配置过程…1.docker官网下载docker客户端，安装官网链接：点击这里2.拉取GP的docker镜像，挂载按照这个来https://yq.aliyun.com/articles/57656#1，照做1.1~4.3步(5.1开始的就不一样了，版本

2018-01-14 19:01:20 4259

原创解决fasttext内存不足无法读取模型的问题

fasttext是个好东西，是由facebook在2016年推出的一个训练词向量的模型。相比于之前Google的word2vec，fasttext可以解决out of vocabulary的问题。更赞的是，facebook提供了200多种语言的预训练模型和词向量。然而，在安装完fasttext后，当我读取了3GB的中文模型时，却出了下面的问题：Traceback (most recent cal

2017-12-15 21:56:13 6114 1

原创解决Linux下同时使用有线和无线网络时，网络连接的优先级问题

问题是这样的：本人自己用一台Linux服务器，平时当FTP和爬虫用。还有一台mac开发用，经常需要用网线和linux通过网线直连来传输数据和控制服务器。蛋疼的事发生了：Linux服务器一旦插上网线，网络流量就只能经过有线网络了，导致Linux服务器不能上网。查了很多资料，在我的服务器上都行不通。最后终于用route路由表配置默认网关解决了。具体方法很简单，如下：1.查看当前网关信息 ip rou

2017-12-04 21:10:18 32409 12

原创知识图谱构建技术综述

知识图谱的定义与架构知识图谱的定义知识图谱是结构化的语义知识库，用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体-关系-实体”三元组。通过知识图谱，可以实现Web从网页链接向概念链接的转变。知识图谱的架构从逻辑上可以划分为2个层次：数据层和模式层。在知识图谱的数据层，知识以事实（fact）为单位存储在图数据库。图数据中有“实体-关系-实体”或者“实体-属性-属性值”两种三元组，

2017-10-29 17:31:44 20765 2

原创随机森林算法学习(RandomForest)

随机森林算法学习最近在做kaggle的时候，发现随机森林这个算法在分类问题上效果十分的好，大多数情况下效果远要比svm，log回归，knn等算法效果好。因此想琢磨琢磨这个算法的原理。要学随机森林，首先先简单介绍一下集成学习方法和决策树算法。下文仅对该两种方法做简单介绍（具体学习推荐看统计学习方法的第5章和第8章）。Bagging和Boosting的概念与区别该部分主要学习自：http://www.c

2017-10-21 16:24:37 160823 12

原创 NLP中基本概念入门

词向量（Word Embedding）词向量主要用于将自然语言中的词符号数学化，这样才能作为机器学习问题的输入。数学化表示词的方式很多，最简单的有独热编码，即“足球”=[0,0,1,0,0,0,0,…]，“篮球”=[0,0,0,0,0,1,0,…]，向量的长度为总词数。显然，独热编码有以下缺点：1.可能导致维数过大，对深度学习来说复杂度过高。2.两个词的相似程度无法表示。词向量与独热编码

2017-10-18 16:29:44 6358

原创近端梯度法(Proximal Gradient Method, PG)

近端梯度法（Proximal Gradient Method ，PG）算法简介近端梯度法是一种特殊的梯度下降方法，主要用于求解目标函数不可微的最优化问题。如果目标函数在某些点是不可微的，那么该点的梯度无法求解，传统的梯度下降法也就无法使用。PG算法的思想是，使用临近算子作为近似梯度，进行梯度下降。概念定义临近算子（proximity operator）proxf(x)=argminy∈Rnf(y

2017-10-16 17:10:21 31571 2

原创数据库相关理论知识整理复习

什么是DBMS？Database Management System（DBMS）数据库管理系统是一个为存储和管理数据库的软件包。数据库技术发展历史（1）从数据模型的发展来看：无管理（60年代之前）：科学计算文件系统：简单的数据管理数据管理需求不断增长，数据库管理系统应运而生文件系统vsDBMS应用程序负责数据在内存和二级存储设备之间的数据交换（比如缓存、基于页面的存取）不同的查询编写不同

2017-09-28 16:54:02 2522 1

原创最优化问题基础框架学习

局部最优的充分和必要条件∇f(x∗)=0,∇2f(x∗)≻0(Hessian矩阵正定)⇒x∗为局部最优点\nabla f(x^*)=0, \quad \nabla^2 f(x^*)\succ 0 (Hessian矩阵正定) \quad \Rightarrow \quad x^*为局部最优点x∗为局部最优点⇒∇f(x∗)=0,∇2f(x∗)⪰0(Hessian矩阵半正定)x^*为局部最优点\qu

2017-09-26 17:00:49 2726

原创浅析机器学习中各种损失函数及其含义

常见的损失函数1.0-1损失函数(0-1 loss function)L(Y,f(X))={1,Y≠f(X)0,Y=f(X)L(Y,f(X))=\left\{ \begin{aligned}&1,\quad Y\ne f(X)\\& 0,\quad Y=f(X) \end{aligned} \right. 可以看出，该损失函数的意义就是，当预测错误时，损失函数值为1，预测正确时，损失函数值为0

2017-09-14 14:29:15 29040

原创从牛顿法到L-BFGS的算法演变

前言(本文主要学习自该博主的文章：http://blog.csdn.net/itplus，以下是本人的笔记，主要记录了结论部分，省略了推导的部分。对具体推导过程有兴趣的同学请访问原博主的博客~) 拟牛顿法是求解非线性优化问题最有效的方法之一，其中DFP方法，BFGS方法以及L-BFGS方法都是重要的拟牛顿法。我们现在考虑如下无约束的极小化问题： >minxf(x),其中x=(x1,x2

2017-09-10 09:12:22 4259

原创机器学习中常见概念的区别与联系

欠拟合与过拟合L1正则化和L2正则化分类和回归偏差和方差监督学习和无监督学习分类和聚类判别模型和生成模型归一化与标准化协方差和相关系数

2017-09-07 16:33:21 4255

原创灰色预测模型GM(1,1) 与例题分析

灰色预测模型灰色预测的概念（1）灰色系统、白色系统和黑色系统白色系统是指一个系统的内部特征是完全已知的，既系统信息是完全充分的。黑色系统是一个系统的内部信息对外界来说是一无所知的，只能通过它与外界的联系来加以观测研究。灰色系统介于白色和黑色之间，灰色系统内的一部分信息是已知的，另一部分信息是未知的，系统内各因素间有不确定的关系。（2）灰色预测法灰色预测法是一种预测灰色系统的预测方法。灰色

2017-09-06 13:39:28 333174 49

原创动态规划解TSP问题（状态压缩dp）

动态规划解TSP问题（状态压缩dp）TSP问题简述给定图上若干个点，以及他们之间的距离，求一条距离和最小的回路，使得该回路正好经过每个点一次。TSP也叫旅行商问题、货郎担问题。。。状态转移方程用 V’ 表示一个点的集合，假设从顶点 s 出发， d ( i , V’ ) 表示当前到达顶点 i，经过 V’ 集合中所有顶点一次的最小花费。1.当 V’ 为仅包含起点的集合，也就是：d ( s , {

2017-09-04 15:38:03 12635 3

原创遗传算法解决TSP问题(c++实现)

遗传算法遗传算法简介遗传算法(Genetic Algorithms，简称 GA)是一种基于自然选择原理和自然遗传机制的搜索(寻优)算法，它是模拟自然界中的生命进化机制，在人工系统中实现特定目标的优化。遗传算法的实质是通过群体搜索技术，根据适者生存的原则逐代进化，最终得到最优解或准最优解。它必须做以下操作:初始群体的产生、求每一个体的适应度、根据适者生存的原则选择优良个体、被选出的优良个体两两配对

2017-09-02 22:25:45 24937 7

原创模拟退火算法（c++实现）

模拟退火算法算法简介模拟退火算法得益于材料的统计力学的研究成果。统计力学表明材料中粒子的不同结构对应于粒子的不同能量水平。在高温条件下，粒子的能量较高，可以自由运动和重新排列。在低温条件下，粒子能量较低。如果从高温开始，非常缓慢地降温(这个过程被称为退火)，粒子就可以在每个温度下达到热平衡。当系统完全被冷却时，最终形成处于低能状态的晶体。假定我们要解决的问题是一个寻找最小值的优化问题。将物理

2017-09-02 13:46:47 18443 4

原创插值与拟合简介

插值与拟合简介1.插值方法1.1 拉格朗日（Lagrange）多项式插值最基本，求一个至多n次多项式φn(x)=a0+a1x+...+anxn\varphi_n(x)=a_0+a_1x+...+a_nx^n，使其在给定点处与f(x)同值，即满足插值条件φn(xi)=f(xi)=yi(i=0,1,…,n)\varphi_n(x_i)=f(x_i)=y_i \quad(i=0,1,…,n)。

2017-09-01 15:35:24 14023 2

原创层次分析法（AHP）

层次分析法（AHP）问题的提出日常生活中有许多决策问题。决策是指在面临多种方案时需要依据一定的标准选择某一种方案。购物：买钢笔，一般要依据质量、颜色、实用性、价格等方面的因素来选择某一只钢笔。买饭，则要依据色、香、味等方面的因素选择某种饭菜。旅游：选择旅游地的时候，一般会依据景色、费用、食宿条件等因素选择去哪个地方。面临各种各样的方案，要进行比较、判断、评价、最后做出决策。这个过程主观因

2017-08-30 15:54:54 78515 8

原创排队论入门学习（for 数学建模）

排队论入门学习（for 数学建模）文字部分引用了很多浙大数学建模排队论ppt中的内容，本人做个总结和代码实现为什么研究排队论？研究排队问题，就是要把排队的时间控制到一定的程度内，在服务质量的提高和成本的降低之间取得平衡，找到最适当的解。排队系统的组成：1.输入过程：输入过程是说明顾客按照怎样的规律到达系统，分为三个方面：顾客总数：有限与无限顾客到达的方式：单个或者成批顾客相继到达的时间间隔

2017-08-29 22:26:17 55695 5

原创 Java使用poi读取excel数据（excel可能很大，先转换为csv再读取）

————————————配置———————————— jdbc.properties中加入： excelUrl=/……xlsx文件目录路径/ (excelUrl + “xxxx.xlsx” 为完整路径) 导入poi-3.16下的6个jar包，poi-3.16/lib下的5个jar包，poi-3.16/ooxml-lib下的2个jar包

2017-07-26 10:49:13 20170 2

原创浅析机器学习中的模型选择与调参（cross validation + grid search）

对于一个预测问题，同时有多种可用的模型，每种模型有多种可用的参数。如何选择一个最合适的模型？总题过程分为2个部分：1.对于一个模型，如何评估该模型在特定问题上的好坏？2.选择了最好的模型后，如何选择最优的参数？对于模型的评估，我们一般使用交叉验证(cross validation)来进行评估。在这里我们使用了k折叠法，将训练集划分为相等的k份。然后从1

2017-07-20 09:59:58 11396 2

原创 java使用poi读取excel数据（xlsx）

首先要下载poi的jar包：下载地址之后在项目中需要把poi下载目录里的所有jar包导入。然后我自己封装了一个xlsx读取类，输入文件地址，要获取的列。输出二维数组，第一维代表一行数据，第二维代表每一行的单元格数据。import java.io.File;import java.io.FileInputStream;import java.io.IOException;impor

2017-07-15 18:33:41 35820 3

原创 java下的mysql数据库插入越插越慢的问题解决（百万数据量级别）

最近的项目需要导入大量的数据，插入的过程中还需要边查询边插入。插入的数据量在100w左右。一开始觉得100w的数据量不大，于是就插啊插，吃了个饭，回来一看，在插入了50多w条数据后，每秒就只能插10条了。。觉得很奇怪，为啥越插越慢呢？于是就开始分析插入的时间损耗，想到了如下的解决方案：（mysql使用的INNODB引擎）1.分析是否是由主码，外码，索引造成的插入效率降低主码：由于主

2017-07-14 11:02:59 30159 3

原创 Mac下安装hadoop2.x后，ResourceManager无法启动问题解决

starting resourcemanager, logging to /Users/hadoop/hadoop-2.7.3/logs/yarn-hadoop-resourcemanager-MacBook-Pro-2.local.outnohup: can't detach from console: Inappropriate ioctl for deviceMac下的nohup似乎

2017-07-06 15:19:30 4457

原创 Kaggle入门模板：以手写识别Digit Recognizer为例

首先本文参考了点击打开链接这篇博客，然后可能时间有点久远，Kaggle的这道题给的数据文档和之前的不一样了，以及还有一些注意点这篇文章里没有突出。因此这里重新做个总结，希望大家能早点入个门。这里我使用的sklearn中的支持向量机来解决手写识别问题。这里的svm是可以解决多分类问题的。核函数使用的是高斯核（rbf），松弛变量c选择的是5.kaggle这道题一共提供了3个文件：train.

2017-07-05 10:24:03 3384

原创 Mac下 vscode c/c++ 自动编译配置

ps. 现在不用配置这些了，直接装个coderunner插件即可。。本人mac版本10.12.5 ，vscode版本为 1.13步骤很简单，添加好各种与c++有关的插件后，reload一次，重启vscode。在helloworld.cpp所在文件夹下创建.vscode文件夹，在.vscode中创建2个文件：tasks.json , launch.json接着是各个文件的内容：...

2017-06-27 20:48:22 15266 1

原创朴素贝叶斯分类文本 python实现

朴素贝叶斯（naive bayes）模型主要用于文本分类，比如要将邮件分类为正常邮件和带侮辱性词汇邮件对于一封邮件来说其特征可以表示为该邮件中单词出现的情况。比如我们有一个5000个词的词典表，那么邮件的特征可表示成一个特征向量，特征向量的维数等于词典表的单词个数，特征向量每一维的取值空间为0或1（即这个单词是否出现）对于p(x|y),在某一组样本中：p(x1x2...x5000|

2017-04-27 22:10:05 9108 5

原创逻辑回归python实现（随机增量梯度下降，变步长）

关于逻辑回归的学习，建议大家看看这篇blog，讲的很清楚：点击打开链接逻辑回归，实际上就是对线性回归多增加了一个函数映射，使其值域由无穷区间映射到[0,1]区间在线性回归中，估计函数为其中delta是参数向量，x是输入样本的特征向量而在逻辑回归中，估计函数实际上就是在线性回归的基础上，嵌套了一个sigmoid函数。逻辑回归的估计函数为其中，e的指数部分就是线性回归的输

2017-04-25 10:26:30 5994 1

原创社交网络度量---中心性

中心性定义了网络中一个结点的重要性。换句话说，我们要求的是，在社会网络中，谁是中心角色（具有影响力的用户）举个例子，某个明星开通了微博，在短短数小时内，就有几十万的粉丝关注了他的微博。我们可以认为，他的“受欢迎程度”很高。如果把社交网络中的关注行为看做一条有向边，那么受关注的结点一般拥有很高的“入度”，那么我们能够把一个结点的入度看做是结点中心性的度量指标。当然这只是一个最简单的估计方法，还有

2017-04-20 12:46:03 29182

原创 Louvain 社团发现算法学习（我的java实现+数据用例）

为了大家方便，直接把数据放在github了：https://github.com/qq547276542/Louvain算法介绍：Louvain 算法是基于模块度的社区发现算法，该算法在效率和效果上都表现较好，并且能够发现层次性的社区结构，其优化目标是最大化整个社区网络的模块度。社区网络的模块度（Modularity）是评估一个社区网络划分好坏的度量方法，它的含义是社区内节点的连边数与随机情况下的...

2017-04-14 20:22:06 30156 50

原创 hadoop实例(java模板)：数字逆序输出 (自定义mapper，reducer，自定义key2类型，重写compareTo函数,HDFS操作)

主要是整理了mapreduce常用的操作模板主函数（请忽略主类的名字。。忘记改了）：package hadoop.wordCount;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.ap

2017-04-11 13:51:03 3818

原创 Ubuntu下安装MySQLdb(mysql-python)的过程

MySQLdb 是链接python和mysql数据库的工具，Ubuntu 自带了python，但是这个工具还是需要我们自己安装配置的前提：系统安装了python和mysql1：下载MySQLdb：点击链接 http://downloads.sourceforge.net/project/mysql-python/mysql-python-test/1.2.3c1/MySQL-pyth

2017-04-01 18:37:29 5053 2

原创 Linux下切换python2和python3为默认执行版本的方式（也能作用于sublime等编辑器的默认执行方式）

使用 alternate 机制可以自由切换python默认版本，只需要在终端输入简单的几个指令：sudo update-alternatives --install /usr/bin/python python /usr/bin/python2 100sudo update-alternatives --install /usr/bin/python python /usr/bin/py

2017-03-31 11:39:50 8571

原创 Mysql #1366 无法插入中文解决办法（ubuntu，mysql5.7） php中文变量值为？？？的解决

数据表插入不了中文，折腾了1个小时，终于找到错误所在。首先设置数据库的默认字符集：打开终端，输入 mysql -uroot -p ，输入密码，进入mysql命令行输入 status; 查看当前字符集状态Current database:　　order_movie_ticketServer characterset: utf8Db character

2017-03-26 20:54:50 3465

空空如也

空空如也