简介
- GPT 1.0采取预训练+FineTuning两个阶段,它采取Transformer作为特征抽取器。
- 预训练阶段采用“单向语言模型”作为训练任务,把语言知识编码到Transformer里。第二阶段,在第一阶段训练好的模型基础上,通过Finetuning来做具体的NLP任务。
- Bert基本就是GPT 1.0的结构,除了预训练阶段采取的是“双向语言模型”之外,它们并没什么本质差异。
- 首先把Transformer模型参数扩容,常规的Transformer Big包含24个叠加的Block,扩容到48层。其次,大量的不同领域的数据,以及数据筛选。之后,GPT 2.0用这些网页做“单向语言模型”。最后,第二阶段的finetune,2.0采用的是无监督地进行下游任务的学习(只是GPT作者想说明在第一阶段Transformer学到了很多通用的包含各个领域的知识)。
- BPE输入改动
本文作者:
yuqing wang
本文链接: https://satyrswang.github.io/2021/07/14/GPT/
版权声明: 本作品采用 知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议 进行许可。转载请注明出处!
本文链接: https://satyrswang.github.io/2021/07/14/GPT/
版权声明: 本作品采用 知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议 进行许可。转载请注明出处!