薇酱-CSDN博客

原创分布式执行引擎ray入门--（5）Ray Serve

默认在服务在http://127.0.0.1:8000/ 运行。确保server脚本启动。

2024-03-11 23:57:09 297

原创分布式执行引擎ray入门--（4）Ray Tune

使用ray调参一共只需要3步：① 定义目标函数② 定义搜索空间③ 启动一个Tune运行并打印出最佳结果。

2024-03-11 10:00:00 1023

原创分布式执行引擎ray入门--（3）Ray Train

Ray Train中包含4个部分: 包含训练模型逻辑的函数: 用来跑训练的配置: 协调以上三个部分。

2024-03-10 17:13:29 692

原创分布式执行引擎ray入门--（2）Ray Data

今天来带大家一起来学习下ray中对数据的操作，还是非常简洁的。

2024-03-10 16:29:12 786

Ray 是一个高性能的分布式执行引擎，开源的人工智能框架。旨在帮助开发者在原有代码上添加几行代码就可以进行分布式训练。它由如下几个部分构成：1）可扩展的库用于常见的机器学习任务，如数据预处理、分布式训练、超参数调优、强化学习和模型服务。2）Python风格的分布式计算原语用于并行化和扩展Python应用程序。3）集成和实用工具用于将Ray集群与现有工具和基础设施（如Kubernetes、AWS、GCP和Azure）集成和部署。

2024-03-03 16:34:20 350

原创跟着chatgpt一起学|clickhouse入门（4）数据导入和查询

本篇将会带大家尝试下，使用clickhouse客户端工具（clienthouse-client）以及python代码的方式，来进行数据的导入和查询。

2023-12-25 23:54:15 398

原创跟着chatgpt一起学|clickhouse入门（3）MergeTree

使用chatgpt帮我学习clickhouse中的MergeTree引擎

2023-12-10 19:23:38 975

原创跟着chatgpt一起学|2.Clickhouse入门（2）

让chatgpt帮我整理clickhouse的学习路径

2023-12-10 18:01:06 956

原创跟着chatgpt一起学|2.clickhouse入门（1）

上周我们一起学习了spark，这周让chatgpt帮我们规划下clickhouse的学习路径吧！

2023-12-02 21:35:21 825

原创跟着chatgpt一起学|1.spark入门之MLLib

首先找到spark官网里关于MLLib的链接spark内一共有2种支持机器学习的包，一种是spark.ml,基于DataFrame的，也是目前主流的另一种则是spark.mllib,是基于RDD的，在维护，但不增加新特性了所以这一节的学习以spark.ml中的pipeline为主。其他的和sklearn里的非常像，大家可以自己去看。基于DataFrame创建pipeline，对数据进行清洗/转换/训练。

2023-11-26 20:45:31 497

原创跟着chatgpt学习|1.spark入门(2)

总的来说，Spark作业调度器负责将应用程序划分为可执行的任务，并将这些任务分配给可用的执行器进行并行执行。6. 调度器还会考虑数据本地性，尽可能将任务分配给存储有相关数据的工作节点，以减少数据传输的开销。2. 调度器根据应用程序的需求和集群的可用资源，将作业划分为一系列任务（Tasks）。7. 调度器会监控任务的执行状态，并处理失败的任务，例如重新分配或重新执行失败的任务。这种方式通常适用于需要。根据数据的键的范围将数据划分为不同的分区。4. 调度器会根据任务的依赖关系和数据分区，决定任务的执行顺序。

2023-11-26 15:50:25 628

原创跟着chatgpt学习|1.spark入门

总结起来，Cluster Manager负责资源的分配和任务调度，Driver负责解析用户程序并协调任务的执行，而Executor负责实际执行任务并返回计算结果。它们三者一起协作，实现了Spark应用程序的分布式计算。是Spark提供的机器学习库，包含了常见的机器学习算法和工具，用于数据挖掘和模型训练。Cluster Manager（集群管理器）DataFrame和DataSet。弹性分布式数据集（RDD）Executor（执行器）分布式文件系统和数据源支持。Driver（驱动器）

2023-11-26 12:24:17 1209

原创【AIGC|实操】4步带你使用chatgpt做思维导图

那么如何使用chatgpt做思维导图呢？

2023-07-22 17:29:04 398

原创 VALOR:视觉-语音-语言三模态sota

之前介绍了打通文本图像的里程碑之作-clip，今天来介绍下VALOR，使用到了视觉-语音-语言三方面的数据，并且在多个数据集上获得了sota的结果。

2023-07-22 16:37:51 232

原创图片是如何生成的--图像生成模型（GAN、VAE、扩散模型）简介

本文简单介绍了下图像生成相关的一些模型。本来想从吴恩达的deepai课程开始写的，但是感觉还是不够简单，推荐跟着李沐学AI里的DALL·E 2，我个人觉得讲的蛮清楚的。，从28分开始讲解。

2023-06-24 22:49:14 5171 2

原创【经典论文】打通文本图像的里程碑--clip

clip是openai团队在4亿对文本图像对上训练出来的。它的训练方法简单，但效果缺出奇的好。是打通图片文本的里程碑式的模型。

2023-05-21 16:55:00 1625

原创吴恩达|chatgpt 提示词工程师学习笔记。

吴恩达和openai团队共同开发了一款免费的课程，课程是教大家如何更有效地使用prompt来调用chatgpt，整个课程时长1个半小时，也提供了对应的环境和代码，大家可以去学习。

2023-05-14 18:03:16 2514

原创【跟李牧学AI】 ChatGPT是什么？--先看看InstructGPT

最近OpenAI公司的ChatGPT非常火爆，虽然正式的论文还没有发布，但是按照OpenAI一贯的工作思路，基于前期工作进行相应的改造，我们可以跟着沐神一起来看看InstructGPT。大型的语言模型效果虽然很好，但是会产生很多对用户不真实的，带有种族歧视的，甚至是有害的言论。而InstructGPT则是基于GPT3，在人工反馈的数据上训练了一版有监督的模型。效果是：1.3B 参数的 InstructGPT优于175B 参数的GPT-3，可以证明，通过人工反馈进行fine-tune是个有前景的方向。

2023-02-08 16:00:35 4704

原创半监督短语挖掘：autophrase是什么？

半监督短语挖掘方式autophrase介绍

2022-12-03 15:48:35 1175 1

原创 I3D （inflated 3D）是什么？

I3D是除了双流网络视频领域里的另一力作，本文主要的工作有2个方面，一方面就是这个标题名称，inflated，本文提供了一种方法将2D网络膨胀为3D网络，使得视频理解不需要再耗费心神去设计一个专门的网络了，而是可以直接使用图片预训练好的模型甚至是预训练的参数，另一方面是提出了一个Kinetics400数据集（后续还有扩充），大家可以在这个数据集做视频理解的预训练，然后迁移到其他数据集上，也能获得比较好的结果...

2022-06-26 20:42:12 6544

原创双流网络是什么？

目录0.简介：1.结构：空间部分：时间部分：0.简介：双流网络是视频理解里的开山之作，为什么这么说呢？因为在之前的视频理解里，使用深度网络并没有取得很好的结果，甚至说还不如之前手工特征的效果好，而双流网络则证明了，并不是深度网络不好，而是对深度网络的使用方式不对。而双流网络的有效性同时也告诉大家，当深度网络不work的时候，可以尝试引入一些先验信息，这样可以简化任务，得到很好的效果。1.结构：作者认为，视频可以很自然地分解成空间和时间2个部分，空间部分主要是一些外

2022-04-05 15:02:51 5994

原创什么是VIT？

VIT就是Vision Transformer。目录1.Transformer在视觉领域上使用的难点：2.输入序列长度的改进3.VIT对输入的改进1.Transformer在视觉领域上使用的难点在nlp中，输入transformer中的是一个序列，而在视觉领域，需要考虑如何将一个2d图片转化为一个1d的序列，最直观的想法就是将图片中的像素点输入到transformer中，但是这样会有一个问题，因为模型训练中图片的大小是224*224=50176，而正常的bert的序列长度是512，是

2022-02-28 12:00:00 28608 1

原创什么是self-attention？

目录基本原理：相关性的判断：新向量的计算：Multi-head self-attention位置信息（Positional Encoding）：推荐阅读：基本原理：I saw a saw（我看见了一个锯子）如果直接将每个单词丢进fully conneted network里，第一个saw和第二个saw得到的结果必然是一样的。那能否让fc考虑上下文信息呢？由此就引入了self-attention，自注意力机制。self-attention的输入是一堆向量，输出也..

2021-10-30 21:13:18 497

原创什么是Transformer

目录Encoder：Decoder：Decoder-Autoregressivemulti-head attention VSmasked multi-head attentionDecoder-Non-AutoregressiveEncoder和Decoder联合工作Training：训练技巧优化评估指标推荐阅读：整体结构Transformer是一个Sequence to Sequence的模型，主要的结构是encoder和decoder...

2021-10-25 09:30:00 1901

原创 FastText-PVDM，Distributed Representations of Sentences and

https://github.com/aiweiw/fasttext-PVDM

2021-05-30 23:49:48 212

原创 FastText使用指南

官方使用指南：https://fasttext.cc/docs/en/unsupervised-tutorial.html除了word2vec之外，fastText是谷歌开源的另一款计算词向量的工具。性能比肩深度网络且训练速度更快，处理计算词向量之外，它还支持文本分类，引入了子词（subword）概念，对训练样本中未见过的词也能有很好的预测结果。（对于英文来说，前缀或者是后缀相同的词往往有着相近的意思，对于中文lai'sh）一.文本分类训练： ./fasttext supervised -inp

2021-05-23 18:49:11 767 2

原创 Word2vec原理+常见优化手段

官网地址：https://code.google.com/archive/p/word2vec/我觉得原理讲的比较好的：https://www.cnblogs.com/pinard/p/7160330.html最近发现学习知识还是尽量找官网的解释，比较全，别人讲过的会帮助你理解，但是会漏掉一些知识word2vec是训练词向量的一款非常好用的工具，由谷歌发明，主要有：1.2种模型： cbow（连续词袋模型）和skip-gram（跳字模型）2.2种近似训练的方法：层次softmax和naga

2021-05-23 18:31:10 1413

原创 linux下faiss cpu安装问题解决

CondaHTTPError: HTTP 000 CONNECTION FAILED for url <https://conda.anaconda.org/pytorch/linux-64/repodata.json>Elapsed: -An HTTP error occurred when trying to retrieve this URL.HTTP errors are often intermittent, and a simple retry will get you on

2020-10-20 11:22:59 747

原创 WSDM2020_HUP 层次结构的用户画像学习笔记

新版用户画像：层次结构的用户画像HUP1.微行为（其中还包括来源，比如搜索、主页等等）2.Time-LSTM 用来追踪用户的兴趣漂移的情况3.Pyramid Recurrent Neural Networksmicro layer, an itemlayer, and multiple category recurrent neural network layersBehavior-LSTMwhere a behavior gate isdesigned to model the typ

2020-09-28 17:37:58 203

原创 causalml安装记录

1.配置文件，读取国内镜像，下载更快安装时加入参数--default-timeout=2000 ，防止超时配置文件~/.pip/pip.conf[global]index-url = http://mirrors.aliyun.com/pypi/simple/[install]trusted-host = mirrors.aliyun.compip install -r requirements.txtpip install causalml --default-timeou...

2020-09-15 11:18:21 1379 1

原创有图片地址，无需编程，直接在excel中批量展示图片的方法

今天老板给了个任务，拿到商品id，能不能把对应的商品图片展示出来。已知商品id能够关联到商品图片的url，但是放url虽然可以点击链接到图片，但是还是不直观，不行。于是上网百度，相关的回答不是展示链接的，就是用代码编写的，不够简单，搜索的时候，发现了http://club.excelhome.net/thread-1235536-1-1.html这里面有个动图，看了下，我觉得只要找到对应表...

2020-05-04 21:11:36 1998

翻译使用CNN进行句子分类（Convolutional Neural Networks for Sentence Classification）

Yoon Kim在论文(2014 EMNLP) Convolutional Neural Networks for Sentence Classification提出TextCNN。文章地址：https://arxiv.org/pdf/1408.5882.pdf以下是翻译内容摘要：一个简单的CNN需要很少的超参和静态的vector就能够获得很好的结果，如果将静态的vector改为针对任...

2019-07-28 16:43:15 1841

原创用hadoop streaming写map-reduce程序，可使用python，shell等脚本语言

我一般都是用python，shell这些脚本语言来编写程序，由于工作原因，要写mr程序，但是在网上找了找，全部都只有wordcount的代码，不是特别容易理解，就想写一篇文章来讲讲使用时的注意事项。submit.sh:. ./conf/hadoop.conffunction impression_hadoop(){ ${HADOOP} jar ${HADOOP_STRE...

2019-05-14 11:02:02 523

原创 NLP自然语言处理1---使用正则表达式

1.析取使用括号，匹配括号里的任意字符[abc]dee],即匹配 adee,bdee,cdee[Ww]ood,即匹配 Wood和wood使用范围：[a-z] 表示匹配小写字母[A-Z] 表示匹配大写字母2.非析取[^Ss][^A-Z]非大写字母，即匹配小写字母或其他字符。3.更多析取more|less,匹配more或者是lessa|b|c,即[a...

2019-05-04 14:29:05 1191

原创 hive使用count等聚合函数忘记起别名怎么办？

举个例子，如果你建了个表，里面使用到了聚合函数，但是忘记起别名了该怎么办？create table table_b asselect id,count(1) from table_agroup by id;这个时候，出现的列名为 id和 _c2,但是_c2又没办法直接使用，重新起名又比较比较费时，怎么办呢？1.以前比较傻，都是重新建个新表然后在重新导入，create table if ...

2019-03-19 14:33:13 1942 2

翻译当机器学习性能遭遇瓶颈时，如何优化？

原文：https://machinelearningmastery.com/machine-learning-performance-improvement-cheat-sheet/从一个公众号上看来的，尝试精简翻译一下从以下4个方面着手：1.数据2.算法3.算法调忧4.集成这4个方面对于性能提升的效果一般来讲是逐级递减的。一、数据1）获...

2019-01-25 18:20:13 774

原创 hive入门基础

刚毕业的时候，只知道mysql，不懂hive，但是靠着mysql的基础，hive也能写一点。但其实hive和mysql还是有一些区别的1.什么是hive？百度百科： hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。在我看来hive其实就是一个写s...

2018-09-17 16:05:22 300

原创 hive函数--行转列union all &一行拆多行lateral view explode&多行转一行group_concat()

工作几年，越来越发现行列转换非常重要，为了和上篇文章（hive函数--排序row_number,rank over）保持一致，这次继续用学生成绩的例子吧。1.行转列 union all：表result：student_id,class,score学生的语数外物化都在一张表里，每个学生对应有五行数据，如何变成：student_id,chinese_score,math_score,english_s...

2018-04-25 00:20:41 4158

原创 mac TensorFlow升级问题总结

1.安装TensorFlow：直接sudo pip install tensorflow 即可安装TensorFlow，但是直接用pip安装的TensorFlow版本太低，所以我需要更新一下。遇到的问题：1.更新时报错遇到无法卸载 numpy 1.8.0rc1，sudo pip install tensorflow --ignore-installed six2.更新结束之后，发现版本并没有产生变...

2018-02-13 15:45:29 1014

原创 linux下spark scala运行问题记录

问题1.使用maven编译scala文件可以编译成功，但是遇到Exception in thread "main" java.lang.NoSuchMethodError: org.apache.spark.rdd.RDD.coalesce(IZLscala/math/Ordering;)Lorg/apache/spark/rdd/RDD;这个错误，看名字就可以看出这只是个spark上基础的函

2017-11-02 10:45:05 1812 3

numpy-MKL-1.8.2.win-amd64-py2.7

空空如也