GPT

2021-07-14

字数：245字 | 预计阅读时长：1分钟

GPT 1.0采取预训练+FineTuning两个阶段，它采取Transformer作为特征抽取器。
预训练阶段采用“单向语言模型”作为训练任务，把语言知识编码到Transformer里。第二阶段，在第一阶段训练好的模型基础上，通过Finetuning来做具体的NLP任务。
Bert基本就是GPT 1.0的结构，除了预训练阶段采取的是“双向语言模型”之外，它们并没什么本质差异。
首先把Transformer模型参数扩容，常规的Transformer Big包含24个叠加的Block，扩容到48层。其次，大量的不同领域的数据，以及数据筛选。之后，GPT 2.0用这些网页做“单向语言模型”。最后，第二阶段的finetune，2.0采用的是无监督地进行下游任务的学习(只是GPT作者想说明在第一阶段Transformer学到了很多通用的包含各个领域的知识)。
BPE输入改动

本文作者： yuqing wang
本文链接： https://satyrswang.github.io/2021/07/14/GPT/
版权声明： 本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。转载请注明出处！