分类
Uncategorized

五级关卡 阳城布局图

龙的传人 五级关卡 阳城不局部图

QQ群下载: 259012337
网盘下载链接: https://pan.baidu.com/s/1XktcrU0Osq80TXPDx9ydmQ  
提取码: wq1n
分类
Uncategorized

谷歌Gemini 1.5深夜爆炸上线,史诗级多模态硬刚GPT-5!最强MoE首破100万极限上下文纪录

转载:

LLM发展到这个阶段,模型的上下文窗口已经成为了关键的掣肘。

模型的上下文窗口由许多token组成,它们是处理单词、图像、视频、音频、代码这些信息的基础构建。

模型的上下文窗口越大,它处理给定提示时能够接纳的信息就越多——这就使得它的输出更加连贯、相关和实用。

而这次,谷歌通过一系列机器学习的创新,大幅提升了1.5 Pro的上下文窗口容量,从Gemini 1.0的原始32,000 token,直接提升到了惊人的1,000,000 token。

这就意味着,1.5 Pro能够一次性处理海量信息——比如1小时的视频、11小时的音频、超过30,000行的代码库,或是超过700,000个单词。

甚至,谷歌曾经一度成功测试了高达10,000,000的token。

深入理解海量信息

脱胎换骨的Gemini 1.5 Pro,已经可以轻松地分析给定提示中的海量内容!

它能够洞察文档中的对话、事件和细节,展现出对复杂信息的深刻理解。

我们甩给它一份阿波罗11号任务到月球的402页飞行记录,它对于多复杂的信息,都能表现出深刻的理解。

让它从文件中列举出3个喜剧性的时刻,接下来,就是见证奇迹的时刻——

才过了30秒出头,答案就已经生成了!

接下来,看看它的多模态功能。

把这张图输入进去,问它:这是什么时刻?

它会回答,这是阿姆斯特朗迈上月球的一小步,也是人类的一大步。

这次,谷歌还新增了一个功能,允许开发者上传多个文件(比如PDF),并提出问题。

更大的上下文窗口,就让模型能够处理更多信息,从而让输出结果更加一致、相关且实用。

横跨各种不同媒介

与此同时,Gemini 1.5 Pro还能够在视频中展现出深度的理解和推理能力!

得益于Gemini的多模态能力,上传的视频会被拆分成数千个画面(不包括音频),以便执行复杂的推理和问题解决任务。

比如,输入这部44分钟的无声电影——Buster Keaton主演的经典之作《小神探夏洛克》。

模型不仅能够精准地捕捉到电影的各个情节和发展,还能洞察到极易被忽略的细微之处。

我们可以问它:找到一张纸从主角口袋中被拿出的瞬间,然后告诉我关于这个细节的信息。

令人惊喜的是,模型大约用了60秒左右就准确地找出,这个镜头是在电影的12:01,还描述出了相关细节。

高效处理更长代码

不仅如此,Gemini 1.5 Pro在处理长达超过100,000行的代码时,还具备极强的问题解决能力。

面对如此庞大的代码量,它不仅能够深入分析各个示例,提出实用的修改建议,还能详细解释代码的各个部分是如何协同工作的。

开发者可以直接上传新的代码库,利用这个模型快速熟悉、理解代码结构。

高效架构的秘密:MoEGemini 1.5的设计,基于的是谷歌在Transformer和混合专家(MoE)架构方面的前沿研究。

不同于传统的作为一个庞大的神经网络运行的Transformer,MoE模型由众多小型的「专家」神经网络组成。

这些模型可以根据不同的输入类型,学会仅激活最相关的专家网络路径。

这样的专门化,就使得模型效率大幅提升。

而谷歌通过Sparsely-Gated MoE、GShard-Transformer、Switch-Transformer、M4研究,早已成为深度学习领域中MoE技术的领航者。

Gemini 1.5的架构创新带来的,不仅仅是更迅速地掌握复杂任务、保持高质量输出,在训练和部署上也变得更加高效。

因此,团队才能以惊人的速度,不断迭代和推出更先进的Gemini版本。

性能比肩Ultra,大幅超越1.0 Pro在涵盖文本、代码、图像、音频和视频的综合性测试中,1.5 Pro在87%的基准测试上超越了1.0 Pro。

与1.0 Ultra在相同基准测试的比较中,1.5 Pro的表现也相差无几。

Gemini 1.5 Pro在扩大上下文窗口后,依然保持了高水平的性能。在「大海捞针 (NIAH)」测试中,它能够在长达100万token的文本块中,在99%的情况下,准确找出隐藏有特定信息的文本片段。

此外,Gemini 1.5 Pro展现了卓越的「上下文学习」能力,能够仅凭长提示中提供的信息掌握新技能,无需进一步细化调整。

这一能力在「从一本书学习机器翻译 (MTOB)」基准测试中得到了验证,该测试检验了模型学习从未接触过的信息的能力。

对于一本关于全球不足200人使用的Kalamang语的语法手册,模型能够学会将英语翻译成Kalamang,学习效果与人类学习相似。

谷歌的研究者成功地增强了模型处理长文本的能力,而且这种增强并没有影响到模型的其他功能。

虽然这项改进只用了Gemini 1.0 Ultra模型训练时间的一小部分,但1.5 Pro模型在31项性能测试中的17项上超过了1.0 Ultra模型。

与1.0 Pro模型相比,1.5 Pro在31项测试中的27项上,表现更佳。

细节表现如何?

分析和掌握复杂代码库

这款模型能够迅速吸收大型代码库,并解答复杂的问题,这一点非常引人注目。

例如,three.js是一个包含约10万行代码、示例和文档等的3D Javascript库。

借助这个代码库作为背景,系统能够帮助用户深入理解代码,并能够根据人们提出的高层次要求来修改复杂的示例。

比如:「展示一些代码,用于添加一个滑块控制动画速度。采用和其他演示相同的GUI风格。」

或者精确地指出需要修改的代码部分,以改变另一个示例中生成的地形的高度。

浏览庞大而陌生的代码库

并且,模型能够帮我们理解代码,或定位某个特定功能的实现位置。

在这个例子中,模型能够处理整个包含116个文件的JAX代码库(746k token),并协助用户找到实现自动微分反向传播的确切代码位置。

显然,在深入了解一个陌生的代码库或日常工作中使用的代码库时,长上下文处理能力的价值不言而喻。

许多Gemini团队成员已经发现,Gemini 1.5 Pro的长上下文处理功能,对于Gemini 代码库大有裨益。

长篇复杂文档的推理

同时,模型在分析长篇、复杂的文本文档方面也非常出色,例如雨果的五卷本小说《悲惨世界》(共1382页,含732,000个token)。

下面这个简单的实验,就展示了模型的多模态能力:粗略地画出一个场景,并询问「请看这幅图画中的事件发生在书的哪一页?」

模型就能给出准确的答案——1099页!

Kalamang语翻译

报告中一个特别引人注目的例子是关于Kalamang语的翻译。

卡拉曼语是新几内亚西部、印度尼西亚巴布亚东部不足200人使用的语言,几乎未在互联网上留下足迹。

Gemini Pro 1.5通过上下文学习掌握了Kalamang语的知识,其翻译质量可与使用相同材料学习的人相媲美。

在英语到卡拉曼语的翻译中,Gemini Pro 1.5的ChrF达到了58.3,大幅超过了以往最好的模型得分45.8 ChrF,并略高于MTOB论文报告的57.0 ChrF人类基准。

这一成就无疑带来了令人激动的可能性,提升稀有语言的翻译质量。

Gemini 1.5的诞生,意味着性能的阶段飞跃,标志着谷歌在研究和工程创新上,又迈出了登月般的一步。

接下来能跟Gemini 1.5硬刚的,大概就是GPT-5了。

分类
Uncategorized

如何创建您自己的 ChatGPT?

使用ChatGPT制作一个AI鸡尾酒调酒师

明年,OpenAI Inc. 将开设一家数字商店,任何人都可以分发根据用户特定需求定制的 ChatGPT 版本。过去一个月我一直在测试聊天机器人创建工具,最终明确需求是制作一个推荐鸡尾酒配方的工具。

OpenAI 的 GPT 编辑器本身很大程度上就是一个聊天机器人。我用给我的聊天机器人定义了一些规则,同时设置一个选项卡让我切换设置,例如聊天机器人是否应该能够浏览网页。

给聊天机器人选择了一个名字“鸡尾酒调酒师”,并设置了一条欢迎信息:“激发魔力,一次一杯!” 在机器人中添加了向用户显示的示例提示,例如“今天喝什么?” “什么是很棒的不含酒精的饮料?” 我指示聊天机器人以适当的语气与用户进行交流,并建议建议饮料的种类。

最终弄清楚了如何创建一些相当复杂的规则。除了建议奇特的饮料配方之外,真正的考验是饮料的质量如何。机器人并不总是遵守我设定的规则,而且它似乎暗示着数量不寻常的蓝色、奶油状的鸡尾酒,并含有可食用的闪光和棉花糖等装饰物。

独角兽鸡尾酒混合物,是不是很神奇?

我储备了各种原料——椰子奶油、蓝橙酒、苏打水,甚至还有亮片和棉花糖——然后拿出我的鸡尾酒调酒器。

虽然这些食谱听起来不错(或者至少很有趣),但大多数味道都很糟糕。正如我在 ChatGPT 等大型语言模型的其他一些应用中发现的那样,Cocktail Unicorn 擅长 自信地模仿制作饮料的步骤,但并不真正了解成分的正确比例,特别是对于含有酒精的饮料。

我尝试的第一个是果味独角兽朗姆酒鸡尾酒,其中包括百香果利口酒、朗姆酒和酸橙汁。尽管“鸡尾酒工具”向我介绍了如何用勺子背面创造出渐变效果,以便在玻璃杯中分层不同颜色的液体,但这种饮料最终看起来像洗碗水,尝起来像止咳糖浆。

一款以光明节为主题的饮料,一种类似的蓝色闪闪发光的朗姆潘趣酒,也很糟糕。朗姆酒、蓝柑橘、椰子奶油和菠萝汁的组合听起来很吸引人,但尝起来就像含糖的奶油泥。

其中有一个亮点:一种名为“日出独角兽汽水”的非酒精饮料,由葡萄柚汁、橙汁、石榴糖浆、汽水和可食用微光混合而成。我在上面放了棉花糖,然后给了我的孩子们。他们根据无酒精鸡尾酒评分为 9.5 分(满分 10 分)。人工智能是不是很神奇?

分类
Uncategorized

关于 OpenAI

一个公司的创始人,对每个具体业务的理解大概率都是不如下属的,为什么投资人却无比重视创始人本身的特质和素质呢?原因之一是创始人能够提供两个只有 TA 才能提供的价值:远见和信仰。而这两个东西,才是一个公司真正的价值所在,因为它们才是最 distinctive 的,真正独特的东西。

什么是远见(Vision)?就是看到尚未发生但大概率会发生的那个未来,知道世界正在往什么方向演化,以及演化的速度如何。

什么是信仰(Belief)?就是无条件的相信,在考验面前,在困难面前,风雨无阻。

唐僧之所以是唐僧,不仅因为他知道我要去西天取经,这就是他看到的那个未来。更在于他无比的坚定,即使这一路上有无数的妖怪都想吃了他。孙悟空可以没有,但唐僧不能没有,因为没有唐僧,孙悟空即使有,也早就放弃了取经回花果山找紫霞去了。

让我们举两个例子,当然,无论举多少例子,都是极小概率的幸存者偏差,因为创业成功本身就是小概率事件。创业需要运气,但也绝对不是仅有运气就可以成功的。最后我们再来讨论幸存者偏差的问题。

一个比较遥远的例子,张一鸣在创立字节跳动的时候,只有一个远见,就是推荐比搜索好。让机器把一个用户想要的信息推给她,比让她每天自己去搜索要更符合人性。所以这就是一个尚未发生但大概率会发生的那个未来,世界正在向这个方向演化。

但问题是,推荐系统在 2012 年还是非常小众的技术,当时机器学习和后来的深度学习远远不像 2016 年 AlphaGo 之后那样风靡全球。所以当时整个中国懂这项技术的人才非常少。如何才能找到他们呢?找到孙悟空呢?

当时做了非常多的尝试,我只举两个比较有趣的例子。第一,当时一鸣找来了宿华,也就是现任快手的创始人之一。宿华之前在谷歌工作,他所在的张栋的团队是当时国内极少数懂推荐系统的团队,因为当时只有谷歌这样的公司在研究这样的技术。当一鸣的团队听完宿华给他们讲推荐系统时惊为天人,后来一鸣想给 5% 的股份让宿华加入字节,但宿华没同意。后来宿华加入了程一笑创建的快手并成为大股东,帮助快手完成了技术上的飞跃,才超过了一众短视频平台,有了今天的地位。第二,当时有一本即将出版的书,是项亮写的《推荐系统实践》。一鸣在看了文稿之后又力邀项亮加入,但还是被拒绝了,毕竟当时的字节实在太小了。

而我们知道,今天的字节跳动已经是国内甚至全世界最懂推荐系统的公司了,抖音和 TikTok 的大杀四方就是证据。这一切都始于一个远见,和更重要的,一个在困难面前,风雨无阻的信念。

第二个例子,是我真正写这篇文章的目的,就是 OpenAI,因为对 AI 这个领域来说,一切才刚刚开始。

OpenAI 的创始人 Sam 的远见是什么?就是 AGI,通用人工智能。他对 AGI 的定义是,第一,在大多数任务上 AI 的表现都超越人类;第二,可以创造出新的知识,帮助人类进步。

Sam 是这么想的,也是这么做的。让我们从一篇著名的论文聊起。

2017 年,在咱们微博中反复出现的论文 Attention is all you need 横空出世。之前人们在处理自然语言模型 NLP 时,都用 RNN – 循环神经网络,然后再加入注意力机制 – Attention Mechanism。所谓注意力机制,就是让 AI 拥有理解上下文的能力。比如苹果手机的“果”,和苹果的“果”,是拥有不同含义的,前一个和微软更接近,后一个和香蕉更接近(所以我建议我的好友在创业时一定要取名为香蕉,都决定创业了,怎么能不相信玄学呢?)。在注意力机制诞生之前,AI 无法区分这两个“果”的含义。

但 RNN + Attention,会让整个模型的处理速度变得非常非常慢,因为 RNN 是一个词一个词处理的。所以这篇论文就说,我们不要 RNN,只要 Attention,于是就有了题目:Attention is all you need!而这个没有 RNN 只有 Attention 的自然语言模型就是 Transformer – 变形金刚。论文的作者都来自谷歌,他们后来全部去创业了,心疼谷歌一秒,毕竟写出这样的论文,投资人早就把他们家都给拆了。

这个只有 Attention 的模型不再是一个词一个词的处理,而是一个序列一个序列的处理,可以并行计算,所以计算速度大大加快,一下子让训练大模型,超大模型,巨大模型,超巨大模型 …… 成为了可能。

于是 OpenAI 在一年之内开发出了第一代 GPT,Generative Pre-Training 生成式预训练。不用管什么是预训练,关键在于生成式。

GPT 的目标只有一个,就是预测下一个单词。比如输入 i love,它就会输出 Murph,然后自己再把 Murph 当做输入,继续输出下一个单词,比如 Me,然后是 too,然后是 We all are!所以后来大火的 GPT-3 和 ChatGPT 都可以生成大段大段的文字,就像和我们在对话一样。

当然,这篇文章不是写 OpenAI 的发展史哈,写这个 ChatGPT 比我厉害多了。而是要讲远见和信仰的故事。远见已经讲了,创始人 Sam 的远见就是 AGI,通用人工智能。那么信仰呢?信仰只有在考验和困难面前才能彰显力量。考验马上就来了。

看到 GPT 之后,谷歌的人又不淡定了,爆肝两个月做了一个比 GPT 大四倍,拥有 3.4 亿个参数的大模型,就是著名的 BERT,几乎在所有表现上碾压了 GPT。一方面是模型更大,数据量更多,另一方面,是 BERT 用了一个更简单的训练方法,也就是完形填空式的方法。比如输入是 i love Murph. ____, too. We all Are!然后输出是 Me;

显而易见,完形填空比生成式的预测下一个单词要容易的多。所以即使是同样大的模型,同样多的数据,BERT 的训练效果也要比 GPT 好的多。由于碾压级别的表现,BERT 的论文引用量是 GPT 的十倍。

OpenAI 蒙了,被人碾压了,怎么办?抄,还是不抄?这是一个问题。

但别忘了,OpenAI 的远见是做 AGI – 通用人工智能。而 AGI 必须是生成式的,会做完形填空的 AI 能通往 AGI 吗?

(这里要解释下哈,BERT 和 GPT 都是预训练模型,也就是说训练的方法和最终的应用可以是不同的。如果要具体讨论,就不可避免的要加入很多例如 embedding 这样 “书呆子” 才会懂的词汇。不要误解哈,“书呆子” 是这个时代最值钱的人。这里我们只需要知道,如果模型训练时的目标和最终的应用是一样的,那么效果当然会好的多。所以用生成式的任务训练出来的 GPT,当然在生成式的应用上就会效果更好)

所以在 BERT 大火(论文引用量是 GPT 的十倍)的情况下,坚持做生成式模型就成了考验,因为训练一个生成式的模型,它真的很难。面对巨大的不确定性,OpenAI 怎么办?加大投入!收集更多的数据,做更大的模型,期待大力可以出奇迹。

于是就有了后来大火的 GPT-3 和 ChatGPT,那个可以帮我们写论文,写代码,进行多轮对话,能完成各种各样只要是以文字为输出载体的任务的神奇 AI,是当前人类对于 AGI 最大胆的一次尝试。有人估算光训练 GPT-3 就花了 1200-1500 万美金。而在拿到微软 100 亿美金的投资之后,Sam 又可以继续自己改变世界的使命了。

事后来看,这似乎是势所必然的,毕竟砸了这么多钱进去,大力出奇迹。但在事前,没人知道生成式 AI 这条路能否超越 BERT,能否进步到今天这个样子。毕竟如果这么简单就可以判断,那么做出 ChatGPT 的就不是 OpenAI 这家创业公司,而是那些市值万亿美金的大公司们了。毕竟让 OpenAI 这家创业公司砸 1500 万美金需要的勇气和让苹果、谷歌砸 1500 万美金所需要的勇气是完全不同的。

在不确定性面前,是创始人需要做出那个充满了信仰力量的一跃,因为 TA 想实现 TA 所看到的那个未来。这是最让我喜爱 OpenAI 和 Sam 的地方。

本来还想写三件事:

第一,远见到底是如何产生的?因为曾教授说的「没有远见就没有战略」,是我最喜欢的有关战略的一句论述,所以研究战略,关键在于研究如何产生远见,如何看到那个尚未发生但未来大概率会发生的未来。

第二,即使举再多的例子,也不过是极小概率的幸存者偏差。即使拥有了远见和信仰,就能成功吗?这是一个人生哲学的问题,我很想聊一聊呢。

第三,Sam 的另一个远见是多轮对话式的生成式 AI 一定会代替 Google 搜索这种产品形态,我 120% 赞同,哈哈,但要讲清楚为什么还要从商业模式和用户价值这两个维度做深入的讨论。

转发微博. https://weibo.com/u/3978383590