小鱼儿的博客-CSDN博客

原创大数据三道习题

Lambda 架构设计图Lambda体系架构的优点鲁棒性和容错能力。由于批处理层被设计为追加式，即包含了自开始以来的整体数据集，因此该系统具有一定的容错能力。如果任何数据被损坏，该架构则可以删除从损坏点以来的所有数据，并替换为正确的数据。同时，批处理视图也可以被换成完全被重新计算出的视图。而且速度层可以被丢弃。此外，在生成一组新的批处理视图的同时，该架构可以重置整个系统，使之重新运行。可扩展性。Lambda体系架构的设计层是作为分布式系统被构建的。因此，通过简单地添加更...

2021-11-18 00:58:35 1038 1

原创 spark实现倒排索引

1.需求：读取文件夹下的文件列表，并实现文件索引和词频统计2.思路2.1读取目录下的文件，并生成列表2.2遍历文件，并读取文件类容成成Rdd，结构为（文件名，单词）并将多个Rdd拼接成1个Rdd2.3 构建词频（（文件名，单词），词频）2.4调整输出格式,将（文件名，单词），词频）==》（单词，（文件名，词频）） ==》（单词，（文件名，词频））汇总3.实现package org.jikeimport org.apache.hadoop.fs.{FileSyst...

2021-09-08 08:32:34 1480

原创 HIVE SQL 编程实操

1.需求根据一下三张表完成对应的查询需求表1：hive_sql_test1.t_user观众表共6000+条数据表2：hive_sql_test1.t_movie电影表共3000+条数据表3：hive_sql_test1.t_rating影评表100万+条数据查询1：展示电影ID为2116这部电影各年龄段的平均影评分查询2：找出男性评分最高且评分次数超过50次的10部电影，展示电影名，平均影评分和评分次数2.思路2.1 统计维度：年龄、平均影评分 ...

2021-08-09 01:12:40 401

原创 Java Api 操作 Hbase

1.需求主要实践建表、插入数据、删除数据、查询等功能。要求建立一个如下所示的表：表名：$your_name:student 空白处自行填写, 姓名学号一律填写真实姓名和学号2.思路2.1 建立远程Hbase集群连接 --HbaseInit.javapackage com.jike.bigdata;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfigur.

2021-08-06 01:29:16 829

原创 HadoopRPC调用案例

目录1.需求：2.基本思路2.1首先需用定义一个协议，它描述了服务对外提供了哪些接口或者功能--MyProtocol.java2.2Server端需要实现协议接口，并返回版本号，实现返回学院名称的函数--MyImp.java2.3构建Server，绑定协议的实现类，并启动server--Myserver.java2.4. 构建客户端，并访问add服务以及返回学员名称的服务--MyClient.java3.执行结果4.参考资料1.需求：根据HadoopRPC框...

2021-07-26 16:26:52 166

转载 Mapreduce案例之---统计手机号耗费的总上行流量、下行流量、总流量

1.需求：统计每一个手机号耗费的总上行流量、下行流量、总流量2.数据准备：2.1 输入数据格式：时间戳、电话号码、基站的物理地址、访问网址的ip、网站域名、数据包、接包数、上行/传流量、下行/载流量、响应码2.2 最终输出的数据格式：手机号码上行流量下行流量总流量3.基本思路：3.1 Map阶段：（1）读取一行数据，转换为字符串类型（2）切分字段（3）抽取手机号、上行流量、下行流量（4）以手机号为k...

2021-07-14 14:59:31 1090

原创 pandas 解决 A value is trying to be set on a copy of a slice from a DataFrame的问题

stackoverflow解决方案链接：https://stackoverflow.com/questions/31468176/setting-values-on-a-copy-of-a-slice-from-a-dataframe?rq=1出错代码：def filter_date(date,df): df['start_time'] = pd.to_datetime(df...

2019-08-02 15:48:01 150388 16

原创解决arangodb中AQL: unique constraint violated的问题

在插入新增数据时出现了如下问题：AQLQueryError(u'Error in:\n1: INSERT @doc INTO laipaiya LET newDoc = NEW RETURN newDoc.\n->AQL: unique constraint violated - in index 0 of type primary over ["_key"]; conflict...

2019-06-14 13:59:48 2060

原创深度学习之----循环神经网络(RNN) 基础

目录1.RNN的背景设计RNNs的目的，就是处理序列数据。2.RNN的价值3. RNN的基本结构4. RNN的高级形式4.1 双向RNN (Bidirectional RNN )4.2 LSTM(Long Short-term Memory)4.3 GRU(Gated Recurrent Unit)5. RNN的训练5.1 普通的RNN(simple RNN...

2019-04-28 09:55:20 279

原创深度学习之----TextCNN文本分类

1.卷积神经网络英文名称：(Convolutional Neural Network)，简称CNN。由输入层、卷积层、激活函数、池化层、全连接层组成，即INPUT-CONV-RELU-POOL-FC。是深度学习技术中极具代表的网络结构之一，最早应用在图像处理当中，现在在自然语言处理应用也非常多。卷积神经网络示意图2.构成部分主要由5个部分组成：输入层，卷积层，激活层，池化层...

2019-04-25 21:31:29 3630

原创深度学习之——word2vec

1. 文本表示：从one-hot到word2vec文本表示的意思是把字词处理成向量或矩阵，以便计算机能进行处理。文本表示是自然语言处理的开始环节。文本表示按照细粒度划分，一般可分为字级别、词语级别和句子级别的文本表示。文本表示分为离散表示和分布式表示。离散表示的代表就是词袋模型，one-hot（也叫独热编码）、TF-IDF、n-gram都可以看作是词袋模型。分布式表示也叫做词嵌入（w...

2019-04-23 21:37:16 681

原创深度学习之--神经网络基础

一、前馈神经网络概念：前馈神经网络、网络层数、输入层、隐藏层、输出层、隐藏单元、激活函数前馈神经网络：前馈神经网络是一种最简单的神经网络，各神经元分层排列。每个神经元只与前一层的神经元相连。接收前一层的输出，并输出给下一层．各层间没有反馈。网络层数：一般是指设置或者搭建的模型有多少层。以上图为例，网络层为3。注：一般不包括输入层。输入层：一般指数据输入模型的一层，如图中 Lay...

2019-04-21 21:57:08 1106

原创 LDA文本分类

PLSA与LDA对⽐pLSA跟LDA的本质区别就在于它们去估计未知参数所采⽤的思想不同，前者⽤的是频率派思想，后者⽤的是⻉叶斯派思想。pLSApLSA 模型是有向图模型，将主题作为隐变量，构建了一个简单的贝叶斯网，采用EM算法估计模型参数。相比于 LSA 略显“随意”的SVD，pLSA 的统计基础更为牢固。相比于 LDA 模型里涉及先验分布，pLSA 模型相对简单：观测变量为文档...

2019-04-19 21:29:00 5646 1

原创 svm文本分类

1.SVM应用场景文本分类、图像识别、主要二分类领域2.SVM的优缺点SVM优点1、解决小样本下机器学习问题。2、解决非线性问题。3、无局部极小值问题。（相对于神经网络等算法）4、可以很好的处理高维数据集。5、泛化能力比较强。SVM缺点1、对于核函数的高维映射解释力不强，尤其是径向基函数。2、对缺失数据敏感3.SVM sklearn 参数学习首先介绍下与核函数...

2019-04-17 21:46:17 3924 2

原创朴素贝叶斯模型结合 Tf-idf 算法进行文本分类

一、朴素贝叶斯的原理基于朴素贝叶斯公式，比较出后验概率的最大值来进行分类，后验概率的计算是由先验概率与类条件概率的乘积得出，先验概率和类条件概率要通过训练数据集得出，即为朴素贝叶斯分类模型，将其保存为中间结果，测试文档进行分类时调用这个中间结果得出后验概率。二、朴素贝叶斯应用场景需要一个比较容易解释，而且不同维度之间相关性较小的模型的时候。可以高效处理高维数据，虽然结果可能不尽如...

2019-04-15 21:45:22 3520

原创 TF-IDF特征值

1.TF-IDF简介内容参考百度百科TFIDF实际上是：TF * IDF词频（term frequency，TF）指的是某一个给定的词语在该文件中出现的频率。逆向文件频率（inverse document frequency，IDF）是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目。这边的例子以上述的数学公式来计算。词频 (TF) 是一...

2019-04-13 22:04:59 1511

原创召回率、准确率、ROC曲线、AUC、PR曲线

1 数据集下载THUCNews中文文本分类数据集部分数据下载链接为https://pan.baidu.com/s/1hugrfRu 密码：qfud。完整数据下载方式为：访问 http://thuctc.thunlp.org/message，需要提交个人信息、尊重THUNLP资源使用协议，从而获取正确下载地址。IMDB英文情感分类数据集下载地址为 http://59....

2019-04-09 20:49:42 710

原创 Win10环境+ Anaconda3.6+CUDA9.0 +CUDNN7.0+TensorFlow1.10安装过程全解

Anaconda介绍、安装我之前写的一篇博客https://blog.csdn.net/zaishijizhidian/article/details/81663387Jupyter Notebook安装了Anaconda可以直接在首页登录Jupter Notebookpycharm的安装参考http://www.runoob.com/w3cnote/pychar...

2019-04-06 18:20:54 315

原创 Win10下Tensorflow(GPU版)--趟坑增强版

背景这篇博客是在最火的安装Tensorflow(GPU版)https://blog.csdn.net/weixin_39290638/article/details/80045236的基础上的一些细化版本。按照博主的方法，发现地下评论还是有些小伙伴不能成功安装在安装过程中遇到了一些坑我也说下我的安装过程想分享出来让大家少走弯路。原料Win10上搭建Tenso...

2019-04-06 17:59:44 5179

原创 win10 安装scrapy 出现LINK : fatal error LNK1158: cannot run 'rc.exe' 错误的解决办法

在安装scrapy时出现如下错误： Finished generating code LINK : fatal error LNK1158: cannot run 'rc.exe' error: command 'C:\\Program Files (x86)\\Microsoft Visual Studio 14.0\\VC\\BIN\\x86_amd64\\link...

2019-03-20 17:38:52 8802 19

转载 Xgboost算法梳理

算法分类与回归树的英文是Classfication And Regression Tree，缩写为CART。CART算法采用二分递归分割的技术将当前样本集分为两个子样本集，使得生成的每个非叶子节点都有两个分支。非叶子节点的特征取值为True和False，左分支取值为True，右分支取值为False，因此CART算法生成的决策树是结构简洁的二叉树。CART可以处理连续型变量和离散型变量，利用训练数据...

2019-03-05 20:56:45 6866

原创 GBDT算法总结

前向分布算法负梯度拟合在上一节中，我们介绍了GBDT的基本思路，但是没有解决损失函数拟合方法的问题。针对这个问题，大牛Freidman提出了用损失函数的负梯度来拟合本轮损失的近似值，进而拟合一个CART回归树。第t轮的第i个样本的损失函数的负梯度表示为　　　　利用(xi,rti)(i=1...

2019-03-03 19:36:14 2746

原创随机森林算法总结

随机森林算法个体学习器个体学习器又称为基学习器（base learner），由单个的学习算法训练数据得到，比如“决策树算法”，“神经网络算法”等等。在不正式的说法下，基学习器，弱学习器，弱分类器，个体学习器说的都是一个东西。集成学习常言道：“一个篱笆三个桩，一个好汉三个帮”。集成学习模型便是综合考量多个学习器的预测结果，从而做出决策。集成学习的核心如何产生“好而不同”的个体学习器，并准...

2019-03-01 19:52:39 27980 3

原创 Anaconda3 安装报错 bunzip2: command not found

在linux中安装Anaconda3-5.2.0-Linux-ppc64le.sh:时出现如下错误line 317: bunzip2: command not found原因是没有安装bunzip2 解决办法：yum install -y bzip2

2019-01-24 16:43:49 609

原创解决elasticsearch时报错elasticsearch.exceptions.RequestError:的问题

在将mysql中的数据上传至elasticsearch时出现这样的错误：elasticsearch.exceptions.RequestError: TransportError(400, 'mapper_parsing_exception', 'failed to parse')检查了一下原来是mapping的字段中有数据格式与实际的格式不符查了一下数据库中的数据格式，原...

2019-01-15 15:07:41 33690

原创关于阿里云服务器扩容数据盘 --格式化数据盘的解决方案

配置的云盘空间不够需要扩容，需要在ECS实例上面扩容，仅仅挂载是不够的需要在命令行再做一些操作最需要注意的一点是：重启！重启!! 重启！！！如果不重启，在使用fdisk命令根本没有扩容后的数据盘其他的操作直接就可以根据阿里云的文档直接操作了1.xshell远程链接服务器>>fdisk -l>>fdisk /dev/vdb 【物理服务器就是fd...

2018-10-24 17:57:11 760

原创解决mongodb启动报错ERROR: child process failed, exited with error number 14的问题

在使用mongodb导入数据时，数据库无法链接，关闭service 后仍然无法启动可能的原因：service mongodb restart时启动失败没有正常关闭mongodb引起的，比如直接 kill -9 <pid>导致在插入数据的时候被多线程锁死【可能是数据量过大，空间容量不足】解决办法：找到dbpath里边的mongod.lock文件，并删除mong...

2018-10-24 17:34:38 27472 3

原创解决MySql Host is blocked because of many connection errors 方法

错误：Host is blocked because of many connection errors; unblock with 'mysqladmin flush-hosts' 原因：　　同一个ip在短时间内产生太多（超过mysql数据库max_connection_errors的最大值）中断的数据库连接而导致的阻塞；解决办法2种：到安装bin目录下，使用mys...

2018-10-24 09:25:02 28908 4

原创解决司拍代码无法请求详情页面的问题

爬取司拍的问题：页面一直可以请求，代码没有报错，但是就是无法请求详情页面，找了各种原因，包括debug,重写代码，还是没有找到原因耗费时间：2天解决过程：注释掉其他行代码，只请求请求详细页面，最后在测试过程中发现打印的输出中有这么一行：一拍脑袋，恍然大悟，肯定是司拍的域名地址改了，一看，果然不出所料，原来是‘sf.taobao.com’,现在变为‘sf-item.taobao.com’...

2018-10-17 18:40:42 217

原创 2018年09月第二周复盘

下图为elasticsearch遭受勒索病毒后的截图：大意是需要向某个比特币地址转0.05个比特币，按照现在BTC市场价，折合人民币大概2250元左右，后来考虑到数据有备份，而且即便把钱打过去，拿不回数据的可能性也很高，因为都是匿名的，国家也没有相关法律保护，风险极大，于是只有多耗费点时间，重新上传数据。...

2018-09-25 10:59:38 184

原创 Hanlp词性标注列表

a 形容词 f 方位词 mq 数量词 nn 工作相关名词 ad 副形词 g 学术词汇 n ...

2018-09-24 11:49:46 4327

原创在Hanlp词典和jieba词典中手动添加未登录词

在使用Hanlp词典或者jieba词典进行分词的时候，会出现分词不准的情况，原因是内置词典中并没有收录当前这个词，也就是我们所说的未登录词，只要把这个词加入到内置词典中就可以解决类似问题，如何操作呢，下面我们来看一下：一，在Hanlp词典中添加未登录词1.找到hanlp内置词典目录位于D:\hnlp\hanlp_code\hanlp\data\dictionary\custom...

2018-09-23 16:12:03 881

原创使用python语言安装stanfornlp 和hanlp安装包

安装stanfornlp准备条件 win10 + jdk8(java安装包) + anaconda3• 1）安装stanford nlp自然语言处理包： pip install stanfordcorenlp• 2）下载Stanford CoreNLP文件https://stanfordnlp.github.io/CoreNLP/download.html下载的文件件为：stanf...

2018-09-23 14:29:09 964

原创 2018年09月第一周复盘

附：无讼网爬取可行性分析报告：网站分析无讼网数据来源是裁判文书网，但是反爬措施相对来说少一些，现在文书网做了调整，无讼网每日新增数据只有10条左右，现在可以爬取无讼网的存量数据。无讼网的数据量更全一些。无讼网总量数据是5635W, 浙江省，民事 350W条裁判文书网总量数据是5205W, 浙江省，民事 235W条現存数据库中...

2018-09-10 09:49:26 335

原创 2018年08月第四周复盘

2018-09-03 09:38:58 119

原创 2018年08月第三周复盘

2018-09-03 09:27:48 169

原创 linux 安裝mitmproxy

1.安装mitmproxy下载mitmproxy二进制安装包：https://github.com/mitmproxy/mitmproxy/releases/我下载的版本为mitmproxy-4.0.1-linux.tar.gz下载之后需要解压然后将其配置到环境变量。tar -zxvf mitmproxy-4.0.1-linux.tar.gzsudo mv mitmproxy ...

2018-08-17 16:14:06 5057

原创 scrapy中log日志优化【自动定时优化log输出文件，防止文件过大占用系统资源】

Scrapy运行时会输出log日志到本地，导致日志文件会越来越大,时间一长可能会出现资源大部分被日志文件占用的情况。为了查看运行情况又不能全都删除，其实这个日志有用的部分也就是最后那几百行而已，那我们能不能只保留日志中最后的那几行信息，其他过期的日志定期删除了。当然有，这就是我们接下来要做的所以现在可以写一个脚本，来定时更新日志文件，将最后的100行保存下来就好了。首先在项目文件夹新建...

2018-08-15 13:50:59 2781 2

原创 linux中用crontab命令定时执行scrapy项目

进入文件所在目录为了保证此方法可行，我先在所在的目录创建一个测试小demo的脚本，想知道如何执行scrapy项目可以直接跳到后面vi test.sh编写一个每分钟往当前文件中的test.txt中写入111的脚本编写crontab命令crontab -e*/1 * * * * sh ~/python_file/paimai/PAIMAI/test.sh ...

2018-08-14 18:56:53 2146

原创找出阿里云服务器无法访问淘宝司拍页面原因

博主在本地写好的淘宝司拍代码，在本机可以正常运行但是将代码部署到阿里云服务器后一直报错页面刚获取相应页面就挂掉了，找了各种原因，刚开始以为是服务的环境配置问题，然后建了新的虚拟环境，然并卵，还是无法运行，后来我用shell脚本调试，看看是否能获取响应页面的内容，结果令人大跌眼镜：这到底是什么鬼？？？？我以为是我使用的阿里云使用了代理，那到底是这台服务器本身的问...

2018-08-14 14:27:29 2644 4

kaggle数据分析项目实战视频

2018年最新知识图谱全套视频资料与代码实战

空空如也