(转载)深入理解NLP Subword算法:BPE、WordPiece、ULM


原地址

目录

  • 前言
  • Byte Pair Encoding介绍
  • WordPiece Model介绍
  • Unigram Language Model介绍 
  • 直观理解Subword模型处理OOV问题
  • 总结

RoBERTa甚至建立的多达50k的词表。
  • 对于包括中文在内的许多亚洲语言,单词不能用空格分隔。 因此,初始词汇量需要比英语大很多。
  •  

    NLP