DeepSeek发布V2模型 GPT

歆梦资源网5月7日消息: 在开源MoE（Mixture of Experts）模型领域取得了重要进展，继今年1月份开源国内MoE模型后，现在发布了第二代MoE模型:DeepSeek-V2。这一新模型在多项性能评测中均展现出色的表现，与GPT-4等闭源模型竞争，同时在成本效益上具有显著优势。

模型权重下载:

体验地址：

DeepSeek-V2在主流模型评测榜单中表现卓越，尤其在中文综合能力（AlignBench）和英文综合能力(MT-Bench)上，与闭源模型并驾齐驱。此外，在知识、数学、推理、编程等专业榜单上，DeepSeek-V2也取得了领先位置。

DeepSeek-V2采用了创新的模型结构，提出了MLA（Multi-head Latent Attention）架构，该架构在减少计算量和推理显存方面有显著优势。结合自研的Sparse结构DeepSeekMoE，模型在保持性能的同时，将计算量降至。

DeepSeek-V2以较低的显存消耗实现了高性能，其每token成本大幅降低，使得实际部署在8卡H800机器上的输入吞吐量超过每秒10万tokens，输出超过每秒5万tokens。API定价为每百万tokens输入1元、输出2元，价格极具竞争力。

DeepSeek秉持开源精神，将DeepSeek-V2模型和相关论文完全开源，免费商用，无需申请。模型权重可在Hugging Face平台获取，技术报告则发布在GitHub上。

DeepSeek提供了对话官网和开放平台，用户可以在chat.deepseek.com免费开启对话，而DeepSeek API开放平台则提供注册即赠送大量tokens的优惠，以支持优质项目的发展。

（举报）

毫末发布自动驾驶生成式大模型DriveGPT 中文名"雪湖·海若"

易车讯日前，我们从官方渠道获悉，在第八届HAOMO AI DAY上，毫末智行发布自动驾驶生成式大模型DriveGPT，中文名雪湖·海若。生态方面，毫末官宣取得3个主机厂定点合同，商业化迎来跃升一步；同时毫末推出的中国首个重感知、不依赖高精地图的城市NOH即将量产上车，最先落地北京、上海、保定等城市。

毫末打造的自动驾驶生成式大模型DriveGPT雪湖·海若通过引入驾驶数据建立RLHF（人类反馈强化学习）技术，对自动驾驶认知决策模型进行持续优化，现阶段主要用于解决自动驾驶的认知决策问题，终极目标是实现端到端自动驾驶。

毫末DriveGPT雪湖·海若已开启对限量首批生态伙伴的开放合作，北京交通大学计算机与信息技术学院、高通、火山引擎、华为云、京东科技、四维图新、魏牌新能源、英特尔等高校与企业加入。

产品方面，毫末中国首款可大规模量产落地、重感知城市NOH，将首批落地北京、保定、上海等城市，并开启泛化测试，到2024年有序落地100城。首款搭载HPilot3.0的新摩卡DHT-PHEV即将重磅上市，这也是毫末DriveGPT雪湖·海若的首发落地车型，全面确保毫末城市NOH的行业领先性。

生态层面，毫末乘用车6P开放合作取得重大突破，已与3家主机厂签署定点合同，相关项目正在交付中。这是毫末商业化的重要一跃，全面保障了毫末高速发展态势。

毫末智行董事长张凯判断：“2023年智驾产品进入全线爆发期，大模型开启在车端的落地应用，车主的使用频率和满意度成为产品竞争力的重要衡量标准。毫末不断进步的数据驱动的六大闭环能力将进一步加速毫末进入自动驾驶3.0时代的步伐并形成相应的护城河。”

张凯认为，智驾产品正在进入快速增长的全线爆发期，2023年是非常关键的一年。首先，城市导航辅助驾驶产品在2023年将围绕量产上车发力，主要玩家的城市导航辅助驾驶产品进入到真实用户覆盖和多城市落地的比拼。其次，行泊一体和末端物流自动配送产业商业化将成为自动驾驶公司深耕的重点。在乘用车领域，搭载行泊一体功能的智驾产品将迎来前装量产潮；在末端物流自动配送领域，末端物流自动配送车在商超、快递等场景迎来爆发，2023年将在这些场景实现可持续商业化闭环。

首款搭载HPilot3.0的新摩卡DHT-PHEV即将重磅上市，第二款搭载毫末HPilot3.0的车型魏牌蓝山也将在今年发布。毫末HPilot整体已搭载近20款车型。用户辅助驾驶行驶里程突破4000万公里，HPilot2.0辅助驾驶日均行驶里程使用率达到了12.6%。海外布局方面，搭载毫末HPilot的车辆已运往欧盟、以色列等地区和国家，陆续交付到用户手中，接下来将在中东、南非、澳大利亚等市场陆续投放；同时，毫末HPilot即将量产墨西哥版本及俄罗斯版本。

3月，高工智能汽车研究院在每个年度基于前装量产数据库及定点车型库数据进行综合评估，通过对毫末前装近20款车辆等数据研究，为毫末颁发年度高阶智能驾驶系统量产份额领军奖。第三方数据佐证毫末是中国量产自动驾驶绝对领军者。

其次是“MANA大模型巅峰之战”，中国首个自动驾驶数据智能体系MANA架构已迎来全线升级。到2023年4月，MANA学习时长超56万小时，相当于人类司机6.8万年。毫末DriveGPT雪湖·海若，已经完成基于4000万公里驾驶数据的训练，参数规模达1200亿。

第三是“城市NOH百城大战”，中国首款可大规模量产落地、重感知城市NOH，已在北京、保定、上海等城市开启泛化测试，即将量产上车，到2024年有序落地100城。毫末会以“安全为先、用户为先、规模为先”的原则，加速赢得城市NOH百城大战。

最后是“末端物流自动配送商业之战”，毫末末端物流自动配送车小魔驼已在商超履约、智慧社区、校园配送、餐饮零售、机场巡逻、高校教育、快递接驳、智慧园区、大气环评等九大场景开启运营，加速商业化闭环能力。2023年3月，小魔驼2.0获北京亦庄无人配送车车辆编码，开启亦庄运营。毫末也成为《北京智能网联汽车政策先行区无人配送测试规范》升级后，准许在北京市高级别自动驾驶示范区公开道路进行无人配送车测试的首个公司。

“技术领先是生存根本，毫末鼓励所有技术研发同学投入到技术创新当中。”张凯在演讲中再次强调了毫末对于技术研发投入的坚定决心。截至目前，毫末已获得专利证书164件，国际顶级学术会议论文收录6篇，最新2篇更是分别入选计算机视觉识别领域三大顶会之一的CVPR和全球首个智能车专业期刊IEEE TIV。毫末已将所有论文在GitHub开源，与业内共享。

现场，张凯还向外界公布了毫末6P开放合作的重要进展，目前已与3家主机厂签署定点合同，相关项目正在交付中。“毫末始终认为，自动驾驶是一个共同进退、共享成果的前沿产业。只有健康的生态伙伴才能支持毫末高速发展。”张凯表示。

此外，毫末一直坚持场景化用户体验设计、人工智能技术、技术工程化能力均衡发展，不断以数据驱动闭环的方式完善用户体验。张凯介绍，三个月时间，毫末在数据驱动六大闭环体系上实现多重进展。

用户需求闭环方面，毫末对驾驶场景数据持续分析完善策略，并进行新功能体验反馈；研发效能闭环方面，毫末将数据驱动理念深入到产品需求定义、感知与认知算法开发等产品开发流程，整体开发效率提升30%；数据积累闭环方面，毫末在车端部署诊断服务数据场景标签覆盖92%的驾驶场景。

数据价值闭环方面，毫末大模型正在持续挖掘数据价值解决关键问题；产品自完善闭环方面，毫末实现售后问题处理速度较传统方式的十倍效率提升，实现最快10分钟定位售后问题。两年时间有效挖掘产品提升点，问题闭环率达76%；业务工程化闭环方面，毫末进一步完善了从采集回流、标注训练、系统标定、仿真验证等环节到最终OTA释放环节的产品研发全流程工程化闭环。

毫末DriveGPT雪湖·海若通过引入驾驶数据建立RLHF（人类反馈强化学习）技术，对自动驾驶认知决策模型进行持续优化。它的最终目标是实现端到端自动驾驶，现阶段主要用于解决自动驾驶的认知决策问题，后续持续会将毫末多个大模型的能力整合到DriveGPT。目前，毫末DriveGPT雪湖·海若实现了模型架构与参数规模的升级，参数规模达到1200亿，预训练阶段引入4000万公里量产车驾驶数据，RLHF阶段引入 5万段人工精选的困难场景接管Clips。

DriveGPT雪湖·海若的底层模型采用GPT（Generative Pre-trained Transformer）生成式预训练大模型，与ChatGPT使用自然语言进行输入与输出不同，DriveGPT输入是感知融合后的文本序列，输出是自动驾驶场景文本序列，即将自动驾驶场景Token化，形成“Drive Language”，最终完成自车的决策规控、障碍物预测以及决策逻辑链的输出等任务。

DriveGPT雪湖·海若的实现过程是，首先在预训练阶段通过引入量产驾驶数据，训练初始模型，再通过引入驾驶接管Clips数据完成反馈模型（Reward Model）的训练，然后再通过强化学习的方式，使用反馈模型去不断优化迭代初始模型，形成对自动驾驶认知决策模型的持续优化。同时，DriveGPT雪湖·海若还会根据输入端的提示语以及毫末CSS自动驾驶场景库的决策样本去训练模型，让模型学习推理关系，从而将完整驾驶策略拆分为自动驾驶场景的动态识别过程，完成可理解、可解释的推理逻辑链生成。

现场，毫末宣布DriveGPT雪湖·海若首发车型是新摩卡DHT-PHEV，即将量产上市。顾维灏提到，DriveGPT雪湖·海若可以逐步应用到城市NOH、捷径推荐、智能陪练以及脱困场景中。有了DriveGPT雪湖·海若的加持，车辆行驶会更安全；动作更人性、更丝滑，并有合理的逻辑告诉驾驶者，车辆为何选择这样的决策动作。对于普通用户来说，车辆越来越像老司机，用户对智能产品的信任感会更强，理解到车辆的行为都是可预期、可理解的。

毫末DriveGPT雪湖·海若将携手生态伙伴率先探索四大应用能力，包括智能驾驶、驾驶场景识别、驾驶行为验证、困难场景脱困。当前，毫末在使用数据过程中，逐步建立起一套基于4D Clips驾驶场景识别方案，具备极高性价比。在行业上，给出正确的标注结果，一张图片需要约5元；如果使用DriveGPT雪湖·海若的场景识别服务，一张图片的价格将下降到0.5元。单帧图片整体标注成本仅相当于行业的1/10。接下来，毫末会将图像帧及4D Clips场景识别服务逐步向行业开放使用，这将大幅降低行业使用数据的成本，提高数据质量，从而加速自动驾驶技术的快速发展。

顾维灏介绍，毫末在2023年1月发布的中国自动驾驶行业最大的智算中心MANA OASIS（雪湖· 绿洲）此次从算力优化等层面升级了三大能力，进一步支持DriveGPT雪湖·海若的算力。首先，毫末与火山引擎全新搭建了“全套大模型训练保障框架”，实现了异常任务分钟级捕获和恢复能力，可以保证千卡任务连续训练数个月没有任何非正常中断,有效保证了大模型训练稳定性；其次，毫末研发出以真实数据回传为核心的增量学习技术，并将其推广到了大模型训练，构建了一个大模型持续学习系统，自主研发任务级弹性伸缩调度器，分钟级调度资源，集群计算资源利用率达到95%；最后，MANA OASIS通过提升数据吞吐量来降本增效，满足Transformer大模型训练效率，通过引入火山引擎提供的Lego算子库实现算子融合，端到端吞吐提升84%。

毫末打造的中国首个自动驾驶数据智能体系MANA，在经过一年多的应用迭代后，本次AI DAY也迎来了全面的升级，正式开放赋能。顾维灏介绍，MANA计算基础服务针对大模型训练在参数规模、稳定性和效率方面做了专项优化，并集成到OASIS中；其次，MANA感知和认知相关大模型能力统一整合到DriveGPT雪湖·海若中；第三，增加了使用NeRF技术的数据合成服务，降低Corner Case数据的获取成本；同时针对多种芯片和多种车型的快速交付难题优化了异构部署工具和车型适配工具。

此外，MANA的视觉感知能力持续提升，一方面可同时学习三维空间结构和图片纹理，并将纯视觉测距精度超过了超声波雷达，BEV方案也拥有了更强的通用性和适配性；另一方面可实现单趟和多趟纯视觉NeRF三维重建，道路场景更逼真，肉眼几乎看不出差异。通过NeRF进行场景重建后，可以编辑合成真实环境难以收集到的Corner Case。在原有的全局视角修改、添加光照/天气效果的基础上，新增合成虚拟动态物体的能力，可以在原有设定的运动轨迹上，合成各种Hard Case，模拟城市复杂交通环境，用更低成本测试提升城市NOH能力边界，更好提升应对城市复杂交通环境。

值得一提的是，面对目前行业里最难的视觉任务之一——单目视觉测量，继特斯拉后，毫末也在中国率先开始验证能否使用鱼眼相机代替超声波雷达进行测距，以满足泊车要求。毫末把视觉BEV感知框架引入到了车端鱼眼相机，做到了在15米范围内达到30cm的测量精度，2米内精度高于10cm的视觉精度效果。泊车场景使用纯视觉测距来取代超声波雷达，将进一步降低整体智驾成本。

易车超级评测体系重磅上线！专业、硬核、全面的汽车评测内容云集，易车年度车型榜单新鲜出炉！上易车App搜索“超级评测”，等你来看！

05-ELMo/BERT/GPT-NLP预训练模型

这里可以参考CSDN上的文章-BERT原理和实践：

在解释BERT，ELMO这些预训练模型之前，我们先看一下很久之前的计算机是如何读懂文字的？

每个字都有自己的独特的编码。但是这样是有弊端的，字和字之间的关联关系是无法得知的，比如计算机无法知道dog和cat都是动物，它反而会觉得bag和dog是比较相近的。

所以后来就有了Word Class，将一系列的词进行分类然后让一类词语和一类词语之间更有关联，但是这样的方法太过于粗糙，比如dog，cat，bird是一类，看不出哺乳动物鸟类的区别。

在这个基础之上，我们有了Word Embedding，Word Embedding我们可以想象成是一种soft的word class，每个词都用向量来表示，它的向量维度可能表示这个词汇的某种意思，如图中dog，cat，rabbit的距离相比其他更近。那么word embendding是如何训练出来的，是根据每个词汇的上下文所训练的。

每个句子都有bank的词汇，四个bank是不同的token，但是同样的type。（注：token-词例， type-词型， class-词类 or token是出现的总次数(还有种理解是token是具有一定的句法语义且独立的最小文本成分。 )，type是出现的不同事物的个数。）对于典型的Word Embedding认为，每个词type有一个embedding，所以就算是不同的token只要是一样的type那么word embedding就是一样的，语义也就是一样的。

而事实上并非如此，1,2句bank指的是银行，3,4为水库。所以我们希望让机器给不同意思的token而且type还一致，给予不同的embedding。在这个问题上，之前的做法是从字典中去查找这个词包含几种意思，但是这样的做法显然跟不上现实中词语的一些隐含的含义。比如bank有银行的意思，与money一起是银行的意思，而与blood一起却是血库的意思。

所以我们想让机器今天进一步做到每一个word token都可以有自己的embedding(之前是每个type有一个embedding或者有固定的一个或多个embedding)，那么怎么知道一个word应该有怎样的embedding呢？我们可以取决于该词的上下文，上下文越相近的token它们就会越相近的embedding。比如之前提到的bank，下面两个句子它们的word token的embedding可能是相近的，而和上面的word token的embedding是相远的。

所以我们想使用一种能够基于上下文的Contextual word Embedding来解决一词多义的问题。

这里使用ELMO可以做到这件事情，即每个word token拥有不同的word embedding。(右上角动物是芝麻街(美国公共广播协会（PBS）制作播出的儿童教育电视节目)里的角色)。它是基于RNN的预训练模型，它只需要搜集大量语料(句子)且不需要做任何标注，就可以训练这个基于RNN的语言模型，预测下一个token是什么，学习完了之后就得到了上下文的embedding。因为我们可以将RNN的隐藏层中的某一节点拿出来(图中橙蓝色节点)，它就是输入当前结点的词汇的word embedding。

从当计算识别到<BOS>，模型训练开始。首先输入潮水，然后当作输入输出退了，退了当做输入输出就。

假设当前要得到”退了”这个词的上下文embedding，首先，因为前边的RNN只考虑到了前文而没有考虑到后文，所以这里就使用了同前文一样的反向的RNN。然后，它从句尾开始进行，比如给它喂”知道”，它就要预测”就”，给它喂”就”，它就要预测”退了”。这时候就不仅考虑每个词汇的前文，还会考虑每个词的后文。最后将正向和逆向得到的两个不同的上下文embedding(因为方向不同训练结果也不一样)拼接起来。

现在我们训练的程度都会越来越深度，当层数增加，这样就会产生Deep的RNN，因为很多层，而且每一层都会产生上下文Embedding，那么我们到底应该使用哪一层？每一层这种深度LSTM中的每个层都可以生成潜在表示(方框处)。同一个词在不同的层上会产生不同的Embedding，那么我们应该使用哪一层呢？ELMo的策略是每一层得到的上下文embedding都要。

在上下文embedding的训练模型中，每个词输入进去都会有一个embedding输出来。但是在ELMo中，每个词汇输入进去，都会得到不止一个embedding，因为每层的RNN都会给到一个embedding，ELMo将它们统统加起来一起使用。以图中为例，这里假设ELMo有两层RNN，这里是将α1(黄色，第一层得到的embedding)和α2(绿色，第二层得到embedding)加起来得到蓝色的embedding，并做为接下来要进行不同任务的输入。

但是这里存在一些问题，α1和α2是学习得到的，而且它是根据当前要进行的任务(如QA，POS of tagging )，然后根据接下来要进行的这些任务一起被学习出来。所以就导致不同任务导向下的α1和α2也不一样。

ELMo的论文中提到，在不同任务下(SRL,Coref,SNLI,SQuAD,SST-5)。蓝色的上下文embedding在经过token(这里为没有经过上下文的embedding)，LSTM1，LSTM2后，它在不同阶段需要的weight也不一样。

BERT相当于是Transformer的Encoder部分，它只需要搜集大量的语料去从中学习而不经过标注(不需要label)，就可以将Encoder训练完成。如果之前要训练Encoder，我们需要通过一些任务来驱动学习(如机器翻译)。

BERT就是句子给进去，每个句子给一个embedding。这里可以回忆下，Transformer的Enoder中有self-attention layer，就是给进去一个sequence，输出也得到一个sequence。

虽然图中使用是用词作为单元进行输入，但是在使用BERT进行中文的训练时，字会是一个更好的选择。比如，我们在给BERT进行输入时，用one-hot给词进行编码，但是词在中文中数量庞大，会导致维度过高。但是，字的话相对会少很多，特别是中文(大约几千个，可以穷举)。这样以字为单位进行输入会占很大优势。

共有两种方法，一种是Mask LM遮盖语言模型，另一种是Next Sentence Prediction下一句预测。

下面用上图的例子来理解BERT是怎么样来进行填空的： 1）这里假设在所有句子中的词汇的第2个位置上设置一个<MASK>； 2）接下来把所有的词汇输入BERT，然后每个输入的token都会得到一个embedding； 3）接下来将设置为<MASK>的embedding输入到Linear Multi-class Classifier中中，要求它预测被<MASK>的词汇是哪个词汇？

但是这个Linear Multi-class Classifier它仅仅是一个线性分类器，所以它的能力十分弱，这也就需要在之前的BERT模型中需要将它的层数等参数设计的相当好，然后得到非常出色的representation，便于线性分类器去训练。那么我们怎么知道最后得到的embedding是什么样的呢？如果两个<MASK>下的词汇(输入时设置的<MASK>和最后预测的<MASK>)都放回原来的位置而且没有违和感(就是语句还算通顺)，那它们就有类似的embedding(比如退下和落下)。

如图中，给定两个句子1)醒醒吧和 2)你没有妹妹。其中特殊符号[SEP]是告诉BERT两个句子的分隔点在哪里。

特殊符号[CLS]一般放在句子的开头，它用来告诉BERT从这开始分类任务，[CLS]输入BERT后得到embedding然后通过Linear Binary Classifier得出结果说明：经过BERT预测后现在我们要预测的两个句子是接在一起 or 不应该被接在一起。

这里可能会有疑问，为什么不将[CLS]放在句尾，等BERT训练完两个句子再输出结果？

对于上图中的任务，BERT现在要做的事情就是给定两个句子，让BERT输出结果这两个句子是不是应该接在一起？所以在语料库的大量句子中，我们是知道哪些句子是可以接在一起的，所以也需要我们告诉BERT哪些句子是接在一起的。

Linear Binary Classifier和BERT是一起被训练的，通过预测下一句这个任务，我们就可以把将BERT部分的最优参数训练出来。

现在我们知道了任务一和任务二，在原论文中两种任务是要同时进行的，这样才能将BERT的性能发挥到最佳。

现在我们知道了BERT要做什么事情，那么我们要如何去使用它？共有四种方法。论文中是将【BERT模型和接下来你要进行的任务】结合在一起做训练。

第一种，假设当前任务是Input一个sentence，out一个class，举例来说输入一句话来判断分类。

训练流程：1）将做要分类的句子丢给BERT； 2）需要在句子开始加上分类的特殊符号，这个特殊符号经过BERT输出的embedding经过线性分类器，输出结果为当前的句子属于的类别是真还是假。BERT和Linear Classifier的参数一起进行学习； 3）这里的Linear Classifier是Trained from Scratch是白手起家从头开始，即它的参数随机初始化设置，然后开始训练； 4）而BERT则是加上Fine-tune微调策略(一种迁移学习方式*)，例如Generative Pre-trained Transformer(OpenAI GPT生成型预训练变换器)(Radford等，2018)，引入了最小的任务特定参数，并通过简单地微调预训练参数在下游任务中进行训练。

*这里不得不提一下迁移学习中的Fine-tune，这里可以参考csdn的一篇文章：

() 第二种，假设当前任务是input一个sentence，输出这个句子中的每个词汇属于正例还是负例。举例现在的任务是slot filling填槽任务(填槽指的是为了让用户意图转化为用户明确的指令而补全信息的过程)（另一种解释是从大规模的语料库中抽取给定实体（query）的被明确定义的属性（slot types）的值（slot fillers））(槽可以理解为实体已明确定义的属性)，输入的句子是 arrive Taipei on November 2nd输出的槽是other dest on time time 训练流程： 1）将句子输入BERT，句子中的每个词汇都会映射出一个embedding； 2）每个词汇的embedding输入Linear Classifier，输出结果； 3）Linear Classifier 白手起家和Bert微调的方式一起去做学习。

第三种，假设当前任务是input输入两个句子，输出class。举例现在要进行自然语言预测，让机器根据premise前提，预测这个hypothesis假设是True还是False还是unknown不知道。实际上，我们可以把这个任务当成三分类问题。训练过程： 1）在一个sentence前设置特殊符号[CLS]，然后在要输入的两个sentence中间设置[SEP]分隔符号； 2）将两个sentence连同特殊符号一起输入到BERT中； 3）将[CLS]输入BERT后得到的embedding，再把它输入linear Classifier中，得到class。

如图所示，假设gravity的token序号是17，即，我们现在有一个问题通过QA Model后得到的s=17，e=17，那么答案就是为gravity；同理，假设within a cloud的序号顺序是77到79，即到,我们现在有一个问题通过QA Model后得到的s=77，e=79，那么答案就是为within a cloud。

这张图显示了BERT从0-24层的层数在针对不同的NLP任务上的表现。

而所谓的GPT,它其实就是Transformer的Decoder。

我们简单的描述下GPT的训练过程：这里我们input<BOS>这个token和潮水，想要GPT预测输出“退了”这个词汇。

1）首先输入[BOS]（begin of sentence）和潮水，通过Word Embedding再乘上matrix W变成a 1到a 4，然后把它们丢进self-attention 层中，这时候每一个input都分别乘上3个不同的matrix产生3个不同的vector，分别把它们命名为q，k，v。

q代表的是query (to match others用来去匹配其它的向量) k代表的是key (to be matched用来去被query匹配的向量) v代表的是value(information to be extracted用来被抽取的信息的向量)

2）现在要做的工作就是用每个query q 去对每个 key k做attention（吃2个向量，输出就是告诉你这2个向量有多么匹配或者可以说输入两个向量输出一个分数\alpha（而怎么去吃2个向量output一个分数，有很多不同的做法））。这里要预测潮水的下一个词，所以乘，乘上,乘上再经过soft-max分别得到到。

3)我们用和每一个v相乘，和相乘加上和相乘。以此类推并相加，最终得到。

4)然后经过很多层的self-attention，预测得到”退了”这个词汇。

同理，现在要预测”退了”的下一个词汇，按照前面的流程可以得到，然后经过很多层的self-attention层，得到”就”这个词汇。

GPT的神奇之处在于它可以在完全没有训练数据的情况下，就可以做到阅读理解，摘要，翻译。折线图中显示了它在参数量上升的情况下，F1的值的效果。

的问题： word Embedding 无上下文监督数据太少

解决方法： Contextual Word Embedding

( E mbeddings from L anguages Mo del) - 多层双向的LSTM的NNLM - RNN-based language models(trained from lots of sentences) ELMo的问题： Contextual Word Embedding作为特征不适合特定任务

GPT的改进根据任务Fine-Tuning 使用Transformer替代RNN/LSTM

OpenAI GPT的问题：单向信息流的问题 Pretraining(1)和Fine-Tuning(2)不匹配解决办法： Masked LM NSP Multi-task Learning Encoder again

Tips： -使用中文模型 -max_seq_length可以小一点，提高效率 -内存不够，需要调整train_batch_size -有足够多的领域数据，可以尝试Pretraining

美女体艺术阴道炎的症状有哪些大胆人艺术台湾模特小洁大胆好人体

毫末发布自动驾驶生成式大模型DriveGPT 中文名"雪湖·海若"

05-ELMo/BERT/GPT-NLP预训练模型

取消回复欢迎 你 发表评论:

取消回复欢迎你发表评论: