自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

薇酱的博客

一只磕磕绊绊妄想成为技术宅的人类的故事=。=

  • 博客(69)
  • 资源 (1)
  • 收藏
  • 关注

原创 分布式执行引擎ray入门--(5)Ray Serve

默认在服务在http://127.0.0.1:8000/ 运行。确保server脚本启动。

2024-03-11 23:57:09 297

原创 分布式执行引擎ray入门--(4)Ray Tune

使用ray调参一共只需要3步:① 定义目标函数② 定义搜索空间③ 启动一个Tune运行并打印出最佳结果。

2024-03-11 10:00:00 1023

原创 分布式执行引擎ray入门--(3)Ray Train

Ray Train中包含4个部分: 包含训练模型逻辑的函数: 用来跑训练的配置: 协调以上三个部分。

2024-03-10 17:13:29 692

原创 分布式执行引擎ray入门--(2)Ray Data

今天来带大家一起来学习下ray中对数据的操作,还是非常简洁的。

2024-03-10 16:29:12 786

原创 分布式执行引擎ray入门--(1)简介

Ray 是一个高性能的分布式执行引擎,开源的人工智能框架。旨在帮助开发者在原有代码上添加几行代码就可以进行分布式训练。它由如下几个部分构成:1)可扩展的库用于常见的机器学习任务,如数据预处理、分布式训练、超参数调优、强化学习和模型服务。2)Python风格的分布式计算原语用于并行化和扩展Python应用程序。3)集成和实用工具用于将Ray集群与现有工具和基础设施(如Kubernetes、AWS、GCP和Azure)集成和部署。

2024-03-03 16:34:20 350

原创 跟着chatgpt一起学|clickhouse入门(4)数据导入和查询

本篇将会带大家尝试下,使用clickhouse客户端工具(clienthouse-client)以及python代码的方式,来进行数据的导入和查询。

2023-12-25 23:54:15 398

原创 跟着chatgpt一起学|clickhouse入门(3)MergeTree

使用chatgpt帮我学习clickhouse中的MergeTree引擎

2023-12-10 19:23:38 975

原创 跟着chatgpt一起学|2.Clickhouse入门(2)

让chatgpt帮我整理clickhouse的学习路径

2023-12-10 18:01:06 956

原创 跟着chatgpt一起学|2.clickhouse入门(1)

上周我们一起学习了spark,这周让chatgpt帮我们规划下clickhouse的学习路径吧!

2023-12-02 21:35:21 825

原创 跟着chatgpt一起学|1.spark入门之MLLib

首先找到spark官网里关于MLLib的链接spark内一共有2种支持机器学习的包,一种是spark.ml,基于DataFrame的,也是目前主流的另一种则是spark.mllib,是基于RDD的,在维护,但不增加新特性了所以这一节的学习以spark.ml中的pipeline为主。其他的和sklearn里的非常像,大家可以自己去看。基于DataFrame创建pipeline,对数据进行清洗/转换/训练。

2023-11-26 20:45:31 497

原创 跟着chatgpt学习|1.spark入门(2)

总的来说,Spark作业调度器负责将应用程序划分为可执行的任务,并将这些任务分配给可用的执行器进行并行执行。6. 调度器还会考虑数据本地性,尽可能将任务分配给存储有相关数据的工作节点,以减少数据传输的开销。2. 调度器根据应用程序的需求和集群的可用资源,将作业划分为一系列任务(Tasks)。7. 调度器会监控任务的执行状态,并处理失败的任务,例如重新分配或重新执行失败的任务。这种方式通常适用于需要。根据数据的键的范围将数据划分为不同的分区。4. 调度器会根据任务的依赖关系和数据分区,决定任务的执行顺序。

2023-11-26 15:50:25 628

原创 跟着chatgpt学习|1.spark入门

总结起来,Cluster Manager负责资源的分配和任务调度,Driver负责解析用户程序并协调任务的执行,而Executor负责实际执行任务并返回计算结果。它们三者一起协作,实现了Spark应用程序的分布式计算。是Spark提供的机器学习库,包含了常见的机器学习算法和工具,用于数据挖掘和模型训练。Cluster Manager(集群管理器)DataFrame和DataSet。弹性分布式数据集(RDD)Executor(执行器)分布式文件系统和数据源支持。Driver(驱动器)

2023-11-26 12:24:17 1209

原创 【AIGC|实操】4步带你使用chatgpt做思维导图

那么如何使用chatgpt做思维导图呢?

2023-07-22 17:29:04 398

原创 VALOR:视觉-语音-语言三模态sota

之前介绍了打通文本图像的里程碑之作-clip,今天来介绍下VALOR,使用到了视觉-语音-语言三方面的数据,并且在多个数据集上获得了sota的结果。

2023-07-22 16:37:51 232

原创 图片是如何生成的--图像生成模型(GAN、VAE、扩散模型)简介

本文简单介绍了下图像生成相关的一些模型。本来想从吴恩达的deepai课程开始写的,但是感觉还是不够简单,推荐跟着李沐学AI里的DALL·E 2,我个人觉得讲的蛮清楚的。,从28分开始讲解。

2023-06-24 22:49:14 5171 2

原创 【经典论文】打通文本图像的里程碑--clip

clip是openai团队在4亿对文本图像对上训练出来的。它的训练方法简单,但效果缺出奇的好。是打通图片文本的里程碑式的模型。

2023-05-21 16:55:00 1625

原创 吴恩达|chatgpt 提示词工程师学习笔记。

吴恩达和openai团队共同开发了一款免费的课程,课程是教大家如何更有效地使用prompt来调用chatgpt,整个课程时长1个半小时,也提供了对应的环境和代码,大家可以去学习。

2023-05-14 18:03:16 2514

原创 【跟李牧学AI】 ChatGPT是什么?--先看看InstructGPT

最近OpenAI公司的ChatGPT非常火爆,虽然正式的论文还没有发布,但是按照OpenAI一贯的工作思路,基于前期工作进行相应的改造,我们可以跟着沐神一起来看看InstructGPT。大型的语言模型效果虽然很好,但是会产生很多对用户不真实的,带有种族歧视的,甚至是有害的言论。而InstructGPT则是基于GPT3,在人工反馈的数据上训练了一版有监督的模型。效果是:1.3B 参数的 InstructGPT优于175B 参数的GPT-3,可以证明,通过人工反馈进行fine-tune是个有前景的方向。

2023-02-08 16:00:35 4704

原创 半监督短语挖掘:autophrase是什么?

半监督短语挖掘方式autophrase介绍

2022-12-03 15:48:35 1175 1

原创 I3D (inflated 3D)是什么?

​I3D是除了双流网络视频领域里的另一力作,本文主要的工作有2个方面,一方面就是这个标题名称,inflated,本文提供了一种方法将2D网络膨胀为3D网络,使得视频理解不需要再耗费心神去设计一个专门的网络了,而是可以直接使用图片预训练好的模型甚至是预训练的参数,另一方面是提出了一个Kinetics400数据集(后续还有扩充),大家可以在这个数据集做视频理解的预训练,然后迁移到其他数据集上,也能获得比较好的结果​...

2022-06-26 20:42:12 6544

原创 双流网络是什么?

目录0.简介:1.结构:空间部分:时间部分:0.简介:双流网络是视频理解里的开山之作,为什么这么说呢?因为在之前的视频理解里,使用深度网络并没有取得很好的结果,甚至说还不如之前手工特征的效果好,而双流网络则证明了,并不是深度网络不好,而是对深度网络的使用方式不对。而双流网络的有效性同时也告诉大家,当深度网络不work的时候,可以尝试引入一些先验信息,这样可以简化任务,得到很好的效果。1.结构:作者认为,视频可以很自然地分解成空间和时间2个部分,空间部分主要是一些外

2022-04-05 15:02:51 5994

原创 什么是VIT?

VIT就是Vision Transformer。目录1.Transformer在视觉领域上使用的难点:2.输入序列长度的改进3.VIT对输入的改进1.Transformer在视觉领域上使用的难点在nlp中,输入transformer中的是一个序列,而在视觉领域,需要考虑如何将一个2d图片转化为一个1d的序列,最直观的想法就是将图片中的像素点输入到transformer中,但是这样会有一个问题,因为模型训练中图片的大小是224*224=50176,而正常的bert的序列长度是512,是

2022-02-28 12:00:00 28608 1

原创 什么是self-attention?

目录基本原理:相关性的判断:新向量的计算:Multi-head self-attention位置信息(Positional Encoding):推荐阅读:基本原理:I saw a saw(我看见了一个锯子)如果直接将每个单词丢进fully conneted network里,第一个saw和第二个saw得到的结果必然是一样的。那能否让fc考虑上下文信息呢?由此就引入了self-attention,自注意力机制。self-attention的输入是一堆向量,输出也..

2021-10-30 21:13:18 497

原创 什么是Transformer

目录​Encoder:Decoder:Decoder-Autoregressivemulti-head attention VSmasked multi-head attentionDecoder-Non-AutoregressiveEncoder和Decoder联合工作Training:训练技巧优化评估指标推荐阅读:整体结构Transformer是一个Sequence to Sequence的模型,主要的结构是encoder和decoder...

2021-10-25 09:30:00 1901

原创 FastText-PVDM,Distributed Representations of Sentences and

https://github.com/aiweiw/fasttext-PVDM

2021-05-30 23:49:48 212

原创 FastText使用指南

官方使用指南:https://fasttext.cc/docs/en/unsupervised-tutorial.html除了word2vec之外,fastText是谷歌开源的另一款计算词向量的工具。性能比肩深度网络且训练速度更快,处理计算词向量之外,它还支持文本分类,引入了子词(subword)概念,对训练样本中未见过的词也能有很好的预测结果。(对于英文来说,前缀或者是后缀相同的词往往有着相近的意思,对于中文lai'sh)一.文本分类训练: ./fasttext supervised -inp

2021-05-23 18:49:11 767 2

原创 Word2vec原理+常见优化手段

官网地址:https://code.google.com/archive/p/word2vec/我觉得原理讲的比较好的:https://www.cnblogs.com/pinard/p/7160330.html最近发现学习知识还是尽量找官网的解释,比较全,别人讲过的会帮助你理解,但是会漏掉一些知识word2vec是训练词向量的一款非常好用的工具,由谷歌发明,主要有:1.2种模型: cbow(连续词袋模型)和skip-gram(跳字模型)2.2种近似训练的方法:层次softmax和naga

2021-05-23 18:31:10 1413

原创 linux下faiss cpu安装问题解决

CondaHTTPError: HTTP 000 CONNECTION FAILED for url <https://conda.anaconda.org/pytorch/linux-64/repodata.json>Elapsed: -An HTTP error occurred when trying to retrieve this URL.HTTP errors are often intermittent, and a simple retry will get you on

2020-10-20 11:22:59 747

原创 WSDM2020_HUP 层次结构的用户画像学习笔记

新版用户画像:层次结构的用户画像HUP1.微行为(其中还包括来源,比如搜索、主页等等)2.Time-LSTM 用来追踪用户的兴趣漂移的情况3.Pyramid Recurrent Neural Networksmicro layer, an itemlayer, and multiple category recurrent neural network layersBehavior-LSTMwhere a behavior gate isdesigned to model the typ

2020-09-28 17:37:58 203

原创 causalml安装记录

1.配置文件,读取国内镜像,下载更快安装时加入参数--default-timeout=2000 ,防止超时配置文件~/.pip/pip.conf[global]index-url = http://mirrors.aliyun.com/pypi/simple/[install]trusted-host = mirrors.aliyun.compip install -r requirements.txtpip install causalml --default-timeou...

2020-09-15 11:18:21 1379 1

原创 有图片地址,无需编程,直接在excel中批量展示图片的方法

今天老板给了个任务,拿到商品id,能不能把对应的商品图片展示出来。已知商品id能够关联到商品图片的url,但是放url虽然可以点击链接到图片,但是还是不直观,不行。于是上网百度,相关的回答不是展示链接的,就是用代码编写的,不够简单,搜索的时候,发现了http://club.excelhome.net/thread-1235536-1-1.html这里面有个动图,看了下,我觉得只要找到对应表...

2020-05-04 21:11:36 1998

翻译 使用CNN进行句子分类(Convolutional Neural Networks for Sentence Classification)

Yoon Kim在论文(2014 EMNLP) Convolutional Neural Networks for Sentence Classification提出TextCNN。文章地址:https://arxiv.org/pdf/1408.5882.pdf以下是翻译内容摘要:一个简单的CNN需要很少的超参和静态的vector就能够获得很好的结果,如果将静态的vector改为针对任...

2019-07-28 16:43:15 1841

原创 用hadoop streaming写map-reduce程序,可使用python,shell等脚本语言

我一般都是用python,shell这些脚本语言来编写程序,由于工作原因,要写mr程序,但是在网上找了找,全部都只有wordcount的代码,不是特别容易理解,就想写一篇文章来讲讲使用时的注意事项。submit.sh:. ./conf/hadoop.conffunction impression_hadoop(){ ${HADOOP} jar ${HADOOP_STRE...

2019-05-14 11:02:02 523

原创 NLP自然语言处理1---使用正则表达式

1.析取使用括号,匹配括号里的任意字符[abc]dee],即匹配 adee,bdee,cdee[Ww]ood,即匹配 Wood和wood使用范围:[a-z] 表示匹配小写字母[A-Z] 表示匹配大写字母2.非析取[^Ss][^A-Z]非大写字母,即匹配小写字母或其他字符。3.更多析取more|less,匹配more或者是lessa|b|c,即[a...

2019-05-04 14:29:05 1191

原创 hive使用count等聚合函数忘记起别名怎么办?

举个例子,如果你建了个表,里面使用到了聚合函数,但是忘记起别名了该怎么办?create table table_b asselect id,count(1) from table_agroup by id;这个时候,出现的列名为 id和 _c2,但是_c2又没办法直接使用,重新起名又比较比较费时,怎么办呢?1.以前比较傻,都是重新建个新表然后在重新导入,create table if ...

2019-03-19 14:33:13 1942 2

翻译 当机器学习性能遭遇瓶颈时,如何优化?

原文:https://machinelearningmastery.com/machine-learning-performance-improvement-cheat-sheet/从一个公众号上看来的,尝试精简翻译一下  从以下4个方面着手:1.数据2.算法3.算法调忧4.集成 这4个方面对于性能提升的效果一般来讲是逐级递减的。 一、数据1)获...

2019-01-25 18:20:13 774

原创 hive入门基础

刚毕业的时候,只知道mysql,不懂hive,但是靠着mysql的基础,hive也能写一点。但其实hive和mysql还是有一些区别的1.什么是hive?    百度百科: hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。    在我看来hive其实就是一个写s...

2018-09-17 16:05:22 300

原创 hive函数--行转列union all &一行拆多行lateral view explode&多行转一行group_concat()

工作几年,越来越发现行列转换非常重要,为了和上篇文章(hive函数--排序row_number,rank over)保持一致,这次继续用学生成绩的例子吧。1.行转列 union all:表result:student_id,class,score学生的语数外物化都在一张表里,每个学生对应有五行数据,如何变成:student_id,chinese_score,math_score,english_s...

2018-04-25 00:20:41 4158

原创 mac TensorFlow升级问题总结

1.安装TensorFlow:直接sudo pip install tensorflow 即可安装TensorFlow,但是直接用pip安装的TensorFlow版本太低,所以我需要更新一下。遇到的问题:1.更新时报错遇到无法卸载 numpy 1.8.0rc1,sudo pip install tensorflow --ignore-installed six2.更新结束之后,发现版本并没有产生变...

2018-02-13 15:45:29 1014

原创 linux下spark scala运行问题记录

问题1.使用maven编译scala文件可以编译成功,但是遇到Exception in thread "main" java.lang.NoSuchMethodError: org.apache.spark.rdd.RDD.coalesce(IZLscala/math/Ordering;)Lorg/apache/spark/rdd/RDD;这个错误,看名字就可以看出这只是个spark上基础的函

2017-11-02 10:45:05 1812 3

numpy-MKL-1.8.2.win-amd64-py2.7

亲测可以适配Python2.7.8版本和Python2.7.9版本,可以正常使用import numpy模块,其余版本未知

2015-05-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除