自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(49)
  • 资源 (1)
  • 收藏
  • 关注

原创 哪个大模型的编程能力更好?DataLearner编程大模型排行榜帮你选择!开源进展神速,前五已经有4个开源模型!

为了方便大家对编程大模型有更清晰的比较,DataLearner也发布了一个编程大模型排行榜页面,方便大家对编程大模型领域的进展有清晰的认识。

2023-08-29 17:07:38 2026

原创 重磅!阿里巴巴开源自家首个MoE技术大模型:Qwen1.5-MoE-A2.7B,性能约等于70亿参数规模的大模型Mistral-7B

阿里巴巴宣布开源其首个基于MoE技术的大规模语言模型——Qwen1.5-MoE-A2.7B,这一举措标志着开源社区在大模型领域的又一次重大进展。

2024-03-29 12:12:18 735 1

原创 马斯克旗下xAI发布Grok-1.5,相比较开源的Grok-1,各项性能大幅提升,接近GPT-4!

继Grok-1开源之后,xAI宣布了Grok-1.5的内测消息,并预告即将全面商用,这一消息无疑为AI技术爱好者和开发者社区带来了新的兴奋点。

2024-03-29 12:07:25 1060

原创 重磅!谷歌宣布发布Gemini 1.5 Pro,距离Gemini发布仅仅一个半月!最高支持1000万上下文长度,GSM8K评测全球第一

本次发布的Gemini 1.5是Pro版本的更新,官方宣传Gemini 1.5 Pro的能力已经接近此前的Gemini Ultra 1.0的水平。按照此前发布的信息看,Gemini Pro的参数量应该是比Gemini Ultra低一个数量级。谷歌官方在介绍Gemini 1.5 Pro的时候非常强调它的超长上下文和多模态能力,它可以直接从402页的阿波罗登月记录中推断对话、事件和其中的细节,展现了非常强大的推理能力和超长上下文的理解能力。

2024-02-16 16:22:48 683

原创 OpenAI发布全新文本生成视频大模型Sora,可以生成无比逼真的最长60秒的视频,且生成的视频尺寸可以任意指定

上图展示了更高层次的Sora方法的原理,通过首先将视频压缩到低维的潜在空间,然后将这些表示分解为时空patches,OpenAI Sora实现了视频到patches的转换。Sora是OpenAI开发的一款先进AI模型,它能根据文本指令创造出高质量、逼真的视频,不仅拓宽了创作的边界,还融合了安全措施和社区的反馈。OpenAI宣布发布全新的Diffusion大模型Sora,这是一个可以生成最长60秒视频的视频生成大模型,最大的特点是可以生成非常逼真的电影画面版的视频。实例2:淘金热期间加利福尼亚州的历史录像。

2024-02-16 16:14:49 896

原创 第二代Qwen大模型发布,阿里巴巴一口气开源了30个不同参数规模的模型

但是现在出来的Qwen-1.5与Qwen2-Beta在评测结果上是差不多的,所以这里的Qwen1.5应该就是Qwen2-Beta改名的结果。而这6个不同参数规模版本的模型,每一个都开源了基础预训练版本、聊天优化版本、Int4量化、Int8量化以及AWQ版本,所以相当于每一个参数规模的模型都有5个版本,因此一共发布了30个版本的模型!这次阿里发布的模型应该有30个,数量非常多包含6个不同参数规模的版本,分别是5亿、18亿、40亿、70亿、140亿和720亿。

2024-02-06 08:52:18 1725

原创 阿里巴巴的第二代通义千问可能即将发布:Qwen2相关信息已经提交HuggingFace官方的transformers库

通义千问是阿里巴巴开源的一系列大语言模型。而昨天,Qwen团队的开发人员向HuggingFace的transformers库上提交了一段代码,包含了Qwen2的相关信息,这意味着Qwen2模型即将到来。从提交的代码信息看,Qwen2系列模型包含了很多不同的尺寸,每一个参数规模的模型都包含基座模型和聊天对齐的chat版本。而目前md文件透露的信息看,70亿参数规模的Qwen2-7B-beta和Qwen-7B-Chat-beta是最早发布的第二代Qwen模型。

2024-01-16 22:29:43 1035

原创 智谱AI发布国产最强大模型GLM4,理解评测与数学能力仅次于Gemini Ultra和GPT-4,编程能力超过Gemini-pro,还有对标GPTs商店的GLMs

这是在智谱AI开发者大会上推出的新一代基座大语言模型,GLM4相比较此前最大的特点是三个变化:性能全面提升、上下文长度更长、支持更强的多模态能力。GLM4(GLM4)详细信息 | 名称、简介、使用方法,开源情况,商用授权信息 | 数据学习 (DataLearner)

2024-01-16 22:28:02 3273

原创 2023年度巨献,一图总结2023年最重要的AI相关的产品和技术~共48个产品或技术上榜

2023年度巨献,一图总结2023年最重要的AI相关的产品和技术~共48个产品或技术上榜 | 数据学习者官方网站(Datalearner)2022年11月底,ChatGPT横空出世,全球都被这样一个“好像”有智能的产品吸引力。随后,工业界、科研机构开始疯狂投入大模型。在2023年,这个被称为大模型元年的年份,有很多令人瞩目的AI产品与模型发布。

2023-12-29 14:23:01 1146

原创 6种大模型的使用方式总结,使用领域数据集持续做无监督预训练可能是一个好选择

本文原文来自DataLearnerAI官方网站:6种大模型的使用方式总结,使用领域数据集持续做无监督预训练可能是一个好选择 | 数据学习者官方网站(Datalearner)Sebastian Raschka是LightningAI的首席科学家,也是前威斯康星大学麦迪逊分校的统计学助理教授。他在大模型领域有非常深的见解,也贡献了许多有价值的内容。在最新的一期推文中,他总结了6种大模型的使用方法,引起了广泛的讨论。

2023-12-29 14:21:52 1522

原创 不同参数规模大语言模型在不同微调方法下所需要的显存总结

这个模型在微调的时候需要的显存大小和450亿参数规模的模型相当。推理现存与微调显存实际上不会有什么优势(根据实际测试,Mixtral 8×7B MoE推理最少也要90多G的显存)。不过,这也会降低一点精度。大模型的微调是当前很多人都在做的事情。微调可以让大语言模型适应特定领域的任务,识别特定的指令等。但是大模型的微调需要的显存较高,而且比较难以估计。与推理不同,微调过程微调方法的选择以及输入序列的长度、批次大小都会影响微调显存的需求。本文根据LLaMA Factory的数据总结一下大模型微调的显存要求。

2023-12-24 14:30:39 1321

原创 准备迎接超级人工智能系统,OpenAI宣布RLHF即将终结!超级对齐技术将接任RLHF,保证超级人工智能系统遵循人类的意志

但是,对于一个几百万行的代码系统,可能需要AI系统根据前面1000行代码的人类评估过程来推广,去自行评估这个几百万行代码的系统是否准确遵从了人类的意图且符合安全要求。同时,OpenAI也宣布投资1000万美元,在全球招募团队做这方面的研究,通过的团队可以获得10万-200万美元的资助,进行超级对齐的研究。为此,OpenAI提出这种超级对齐技术,希望可以用较弱的模型来对齐较强的模型。今天,OpenAI在其官网上发布了一个全新的研究成果:一个利用较弱的模型来引导对齐更强模型的能力的技术,称为由弱到强的泛化。

2023-12-16 10:47:48 949

原创 MistralAI开源全球首个(可能)基于MoE(Mixture of Experts)技术的大模型:预训练下载链接全球直发,但实测表现似乎一般!

MistralAI是一家法国的大模型初创企业,其2023年9月份发布的Mistral-7B模型声称是70亿参数规模模型中最强大的模型,并且由于其商用友好的开源协议,吸引了很多的关注。| 数据学习者官方网站(Datalearner)MistralAI目前没有公布Mistral-7B-MoE这个模型的其它细节,而根据公布的磁力下载链接中的文件夹名称,这个模型目前也被称为。的大模型这是由8个70亿参数规模专家网络组成的混合模型(Mixture of Experts,MoE,混合专家网络)。

2023-12-09 21:16:45 1807

原创 如何提高大模型在超长上下文的表现?Claude实验表明加一句prompt立即提升效果~

如果模型在训练过程中接收到避免错误和不准确声明的强烈信号,它可能会在实际应用中表现出更多的谨慎。Claude 2.1版本的模型上下文长度最高拓展到200K,也是目前商用领域上下文长度支持最长的模型之一。但是,在模型发布不久之后,有人测试发现。而今天,Anthropic官方发布了一个博客解释,这个不是因为Claude模型能力不行,而是测试的方式不太好。可以看到,当文档长度超过20K之后,表现就非常差,与Anthropic官方的说法差别很大。”即可大幅提升模型回答效果,改进模型不愿意回答不相关内容的水平。

2023-12-08 23:30:04 842

原创 来自OpenAI的官方解释:ChatGPT中的GPTs与Assistants API的区别是什么?有什么差异?

简单来说,前者是界面话的操作,后者则是针对开发者提供的接口。OpenAI发布的产品中,有2个产品可以用来将GPT当作一个类似AI Agent工具使用,同时支持接入自定义的接口和数据。那就是GPTs和Assistant API,前者可以在界面直接操作,后者则是一个API,两者功能接近,为了让大家更加清晰理解二者区别,OpenAI官方最近发布了二者的解释。来自OpenAI的官方解释:ChatGPT中的GPTs与Assistants API的区别是什么?它可以非常简单,也可以做的非常复杂。

2023-12-08 08:57:43 2208

原创 ChatGPT可能即将发布新版本,带有debug功能:支持下载原始对话、可视化对话分支等

上图是Debug功能的隐藏开关,并不是所有用户都能看到,而是代码隐藏在网页端复现结果。在对话界面的右上角有一个开关按钮,点击之后会唤起右侧的side bar功能,显示是Debug功能栏。AIPRM的工作人员最近发现ChatGPT的客户端隐藏内置了一个新的debug特性,可以提高ChatGPT对话的问题调试功能。还有一个关于ChatGPT Team版本计划的信息,尽管很早就有截图,但是似乎延迟发布了。不过由于ChatGPT Plus用户已经有128K的GPT了,但是GPT-4的消息额度变少了,那么这个。

2023-12-07 19:18:38 4097

原创 谷歌发布号称超过GPT-4V的大模型Gemini:4个版本,最大的Gemini的MMLU得分90.04,首次超过90的大模型

这部分和OpenAI一样,没有过多的细节,只知道这个模型是Decoder-only的transformer模型,但是针对谷歌的TPU和大规模训练做了优化。这是一系列的多模态的大模型,在各项评分中超过了GPT-4V,可能是目前最强的模型。Gemini-Pro是比Ultra小一点版本的模型,也没有公布参数,据猜测在1000亿以上,在自然语言理解、可视化、分析等方面工作能力较强;Gemini分为三个版本,最大的是Gemini-Ultra,然后是Gemini-Pro,最小的是Gemini-Nano;

2023-12-07 10:24:26 1102

原创 通用基座大模型是否可以超越领域专有大模型?微软最新论文证明这是可以的!微软最新动态Prompt技术——MedPrompt详解

本文来自DataLearnerAI官方网站:通用基座大模型是否可以超越领域专有大模型?微软最新论文证明这是可以的!微软最新动态Prompt技术——MedPrompt详解 | 数据学习者官方网站(Datalearner)在GPT-4这种超大基座模型发布之后,一个非常活跃的方向是专有模型的发展。即一个普遍的观点认为,基座大模型虽然有很好的通用基础知识,但是对于专有的领域如医学、金融领域等,缺少专门的语料训练,因此可能表现并不那么好。

2023-12-06 22:32:26 1099

原创 重磅!苹果官方发布大模型框架:一个可以充分利用苹果统一内存的新的大模型框架MLX,你的MacBook可以一键运行LLaMA了

本文来自DataLearnerAI官方网站:重磅!苹果官方发布大模型框架:一个可以充分利用苹果统一内存的新的大模型框架MLX,你的MacBook可以一键运行LLaMA了 | 数据学习者官方网站(Datalearner)苹果刚刚发布了一个全新的机器学习矿机MLX,这是一个类似NumPy数组的框架,目的是可以在苹果的芯片上更加高效地运行各种机器学习模型,当然最主要的目的是大模型。MLX框架简介。

2023-12-06 22:30:03 1507

原创 李开复创业公司零一万物开源迄今为止最长上下文大模型:Yi-6B和Yi-34B,支持200K超长上下文

这是李开复亲自担任CEO的一家企业,可以说相当地重视。Yi系列模型名称模型参数上下文长度DataLearner模型信息卡地址Yi-6B60亿4K/32KYi-6B(Yi-6B)详细信息 | 名称、简介、使用方法,开源情况,商用授权信息 | 数据学习 (DataLearner)Yi-6B-200K60亿200KYi-6B-200K(Yi-6B-200K)详细信息 | 名称、简介、使用方法,开源情况,商用授权信息 | 数据学习 (DataLearner)Yi-34B340亿4K/32K。

2023-11-09 22:16:56 775

原创 GPT-4-Turbo的128K长度上下文性能如何?超过73K Tokens的数据支持依然不太好!

GPT-4 Turbo是OpenAI最新发布的号称性能超过当前GPT-4的模型。除了速度和质量外,GPT-4 Turbo最吸引人的是支持128K超长上下文输入。但是,实际测试中GPT-4 Turbo对于超过73K tokens文档的理解能力急速下降。图的横坐标是文档的长度,纵坐标是插入的文本在文档的位置。,这意味着,如果你的文档超过了50万单词之后可能GPT-4并不能准确找到你问题的答案位置;在文档7%-50%的位置,那么GPT-4能找到的概率最低。这可能意味着模型对文档开头的信息有更好的记忆能力。

2023-11-09 22:15:11 1866

原创 ChatGPT即将可以读取谷歌和微软的云盘数据为你管理私有数据!

而截止目前为止,OpenAI公开的ChatGPT的订阅计划包含三个:免费版本的ChatGPT-3.5、个人用户付费订阅的ChatGPT Plus以及面向企业的企业版本。而最新的ChatGPT的API接口显示,OpenAI即将推出一个Team版本的计划,是当前ChatGPT Plus版本的升级版!此前,在ChatGPT的js脚本中就隐藏了即将发布的ChatGPT Team计划。ChatGPT的发展速度很快,在前面已经介绍过ChatGPT即将推出的Team订阅计划和新界面,包括对接自定义数据和自定义接口等。

2023-11-05 09:49:48 226

原创 马斯克的X.AI平台即将发布的大模型Grōk AI有哪些能力?新消息泄露该模型支持2.5万个字符上下文!

本文原文来自DataLearnerAI官方网站:马斯克的X.AI平台即将发布的大模型Grōk AI有哪些能力?新消息泄露该模型支持2.5万个字符上下文!| 数据学习者官方网站(Datalearner)马斯克透露xAI即将发布它的首个大模型Grōk AI。而一位老哥已经透露了该模型的一些细节。

2023-11-05 09:47:31 169

原创 最新OpenAI的API透露,ChatGPT Plus外还有升级版的订阅计划:ChatGPT Team!25美元一个月!Plus用户可能没有GPT-4-32K了!

而截止目前为止,OpenAI公开的ChatGPT的订阅计划包含三个:免费版本的ChatGPT-3.5、个人用户付费订阅的ChatGPT Plus以及面向企业的企业版本。而最新的ChatGPT的API接口显示,OpenAI即将推出一个Team版本的计划,是当前ChatGPT Plus版本的升级版!最新OpenAI的API透露,ChatGPT Plus外还有升级版的订阅计划:ChatGPT Team!最新OpenAI的API透露,ChatGPT Plus外还有升级版的订阅计划:ChatGPT Team!

2023-11-02 23:19:41 411

原创 ChatGPT 3.5只有200亿规模的参数?最新微软的论文暴漏OpenAI的ChatGPT的参数规模远低于1750亿!

2022年11月底发布的ChatGPT是基于OpenAI的GPT-3优化得到的可以进行对话的一个产品。直到今年更新到3.5和4之后,官方分为两个产品服务,其中ChatGPT 3.5是基于gpt-3.5-turbo打造,免费试用。因此,几乎所有人都自然认为这是一个与GPT-3具有同等规模参数的大模型,也就是说有1750亿参数规模。但是,在10月26日微软公布的CodeFusion论文的对比中,大家发现,微软的表格里面写的ChatGPT 3.5只有200亿参数规模。

2023-10-31 17:09:51 425

原创 苹果最新的M3系列芯片对于大模型的使用来说未来价值如何?结果可能不太好!M3芯片与A100算力对比!

M3系列芯片是苹果最新发布的芯片。由于苹果的统一内存架构以及它的超大内存,此前很多人发现可以使用苹果的电脑来运行大语言模型。尽管它的运行速度不如英伟达最先进的显卡,但是由于超大的内存(显存),它可以载入非常大规模的模型。尽管它的运行速度不如英伟达最先进的显卡,但是由于超大的内存(显存),它可以载入非常大规模的模型。对于大模型的推理来说,M3系列芯片最大的优势是载入更大的模型,而使用更少的资源。尽管苹果的芯片并不是为了大模型设计,但是苹果的一个所谓的统一内存架构和超高的内存带宽让支撑了较大规模的大模型运行。

2023-10-31 17:08:34 770

原创 可能是史上最强大的AI Agent!OpenAI重磅更新:整合了多模态、外部访问、数据分析后的GPT-4更像是AI Agent了!

目前最强的大语言模型必然是OpenAI的GPT-4模型,此前OpenAI的ChatGPT Plus版本为GPT-4模型提供了多个强大的插件供大家使用,包括基于Bing的带网络浏览的Browse、文本生成图片的DALL·E3、高级数据分析功能等。就在几个小时前,OpenAI的部分用户收到了官方的一个非常重磅的更新,即上传任意文档的分析以及。以网友的实测为例,在新的GPT-4模式下,你可以直接输入如下类似如下内容:让GPT-4查询2023年某个地方的天气,并展示总结这些天气结果,并生成未来类似的天气。

2023-10-29 15:24:50 200

转载 XLNet基本思想简介以及为什么它优于BERT

前几天刚刚发布的XLNet彻底火了,原因是它在20多项任务中超越了BERT。这是一个非常让人惊讶的结果。之前我们也说过,在斯坦福问答系统中,XLNet也取得了目前单模型第一的成绩(总排名第四,前三个模型都是集成模型)。这里介绍了基本思想以及它和BERT的对比https://www.datalearner.com/blog/1051561733099489...

2019-07-05 14:51:33 765

原创 抛弃Spark?Flink会是下一代大数据计算引擎吗?

原文来自:数据学习(DataLearner)——关注大数据、人工智能和编程技术的原创博客Apache Spark是目前应用最广泛、最流行的大数据计算平台之一,在2.X版本中,Apache Spark已经开始摒弃RDD的数据模型,采用Spark SQL的Dataset作为统一的数据模型来构建更加高效的计算框架。然而,2015年成为Apache顶级项目的Apache Flink却被很多人认为是未来...

2018-09-26 11:39:50 4650

原创 《Effective Java 第三版》笔记之二 当构造参数很多的时候考虑使用builder

来源:https://www.datalearner.com/blog/1051525961464023静态工厂和构造方法都有一个缺点:当有很多可选参数的时候,其扩展性并不是很好。例如,考虑这样一个类,它表示食物包装上的营养物质标签。这些标签有一部分是必须的字段——例如分量大小、每个包装容器包含的分量大小、每份物质包含的卡路里等,还有一部分是可选字段——例如总的脂肪含量、饱和脂肪含量、反式脂肪...

2018-09-20 19:56:15 553

原创 《Effective Java 第三版》笔记之一 创建静态工厂方法而不是使用构造器

来源:https://www.datalearner.com/blog/1051525857070904《Effective Java》是一本非常优秀的关于Java编程思想的书籍,第二版出版于2009年,已经过时了。第三版也在2018年推出了,本系列博客讲述第三版中的各项内容。一般情况下,Java类提供实例化的方法是提供一个可以被公共访问的构造方法。但是每个编程的人员都应当了解另一种提供实...

2018-09-20 19:46:32 667

原创 Git的简介和使用

本文来自数据学习网(https://www.datalearner.com),专注于机器学习方法、数据挖掘技术和编程技术,原文地址:https://www.datalearner.com/blog/1051521123408432Git是一个版本控制系统,用来追踪计算机文件的变化的工具,也是一个供多人使用的协同工具。它是一个分布式的版本控制系统,本文将简单介绍如何使用。简单来说,就是你要和你的...

2018-03-16 10:54:14 4373 2

原创 Java爬虫入门简介(四)——抓包工具的使用以及使用HttpClient模拟用户登录的访问

原文地址:http://www.datalearner.com/blog/1051509365677137网络爬虫需要解决的一个重要的问题就是要针对某些需要用户名和密码访问的页面可以模拟用户自动登录。在这一篇博客中我们将介绍如何使用Chrome浏览器自带的抓包工具分析页面并模拟用户自动登录。我们会以CSDN的用户登录为例,讲述如何使用抓包工具获取登录方式并使用HttpClient工具模拟登陆访问。在

2017-10-31 21:11:50 12247 3

原创 给初学者的深度学习简介

深度学习是计算机领域中目前非常火的话题,不仅在学术界有很多论文,在业界也有很多实际运用。本篇博客主要介绍了三种基本的深度学习的架构,并对深度学习的原理作了简单的描述。本篇文章翻译自Medium上一篇入门介绍。深度学习是计算机领域中目前非常火的话题,不仅在学术界有很多论文,在业界也有很多实际运用。

2017-10-16 19:56:50 24826 2

原创 推荐系统之概率矩阵分解的详细推导过程(Probabilistic Matrix Factorization,PMF)

概率矩阵分解是目前在推荐领域很流行的模型。本文主要是讲述详细推导过程。

2017-10-13 09:27:14 13131 4

原创 使用Spring Security进行自动登录验证

在之前的博客使用SpringMVC创建Web工程并使用SpringSecurity进行权限控制的详细配置方法 中,我们描述了如何配置一个基于SpringMVC、SpringSecurity框架的网站系统。在这篇博客中,我们将继续描述如何使用Spring Security进行登录验证。

2017-09-25 14:47:35 4922

原创 使用SpringMVC创建Web工程并使用SpringSecurity进行权限控制的详细配置方法

使用SpringMVC框架搭建Web项目工程是目前非常流行的web项目创建方式。同时Spring Security也为我们提供了登录验证和权限控制等内容。在这篇博客中,我们将详细描述如何从0开始配置一个基于SpringMVC框架和SpringSecurity权限控制的网站。

2017-09-25 10:20:26 5584

原创 Java爬虫入门简介(三)——HttpClient保存使用Cookie登录

在使用HttpClient作为客户端请求数据的时候,我们常常需要以一个用户的身份多次请求一个网站内的多种资源。例如,我一次登录后,后面希望以这个身份继续访问不用重新登录。这里就可以使用cookie了。

2017-09-22 20:03:37 8731 2

原创 Beta分布及其应用

贝塔分布(Beta Distribution)是一个连续的概率分布,它只有两个参数。它最重要的应用是为某项实验的成功概率建模。在本篇博客中,我们简要介绍Beta分布及其相关性质、应用等。

2017-09-20 09:13:54 30574

原创 Android开发入门基础

Android是基于Linux的修改版本的移动操作系统。 大多数Android代码是在开源Apache许可证下发布的。本文将简单介绍Android开发入门知识。

2017-09-18 16:16:08 22429 12

log4j 2使用教程

最新版log4j 2的使用教程,简明扼要,非常好用

2016-01-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除