XLNet le régressif
- 22 févr.
- 2 min de lecture
XLNet est un modèle de langage auto-régressif qui a fait grand bruit lors de sa sortie en 2019, se positionnant comme un sérieux concurrent aux modèles de type BERT. Il s’appuie sur une technique originale appelée «Permutation Language Modeling», qui consiste à factoriser la probabilité jointe de tokens selon toutes les permutations possibles d’une séquence. Concrètement, plutôt que de prédire la prochaine partie d’une phrase en partant systématiquement de gauche à droite (ou dans un ordre masqué fixe comme BERT), XLNet considère toutes les manières dont les mots peuvent apparaître dans une phrase. Grâce à ce procédé, il réduit les biais liés à l’ordre prédéfini du texte et améliore considérablement ses capacités de modélisation. Cette approche, combinée à des composants de type Transformer, lui permet de mieux saisir la dynamique contextuelle des mots et d’apprendre des représentations plus riches. Par exemple, si vous avez une phrase comme «Le chat dort sur le canapé», XLNet n’essaie pas seulement de prédire «canapé» après «sur le», il tente aussi de comprendre ce que «chat» ou «dort» impliquent dans n’importe quelle permutation. Ainsi, il se dote d’une vision plus globale des dépendances linguistiques, ce qui améliore sa robustesse pour diverses tâches de traitement automatique du langage.
Techniquement, XLNet utilise des segments et des masques pour gérer les permutations. Pour chaque itération d’entraînement, une permutation différente de la séquence originale est générée. Les tokens à prédire dans cette permutation sont masqués, et le modèle est entraîné à deviner ceux-ci à partir du reste. Cela peut sembler coûteux, mais grâce à une astuce baptisée «Two-Stream Attention», XLNet parvient à faire cette permutation sans ré-encoder la séquence pour chaque ordre possible. En effet, le modèle utilise deux flux de calcul de l’attention (d’où le nom Two-Stream) : un flux sert à la contextualisation (c’est-à-dire prendre en compte les mots précédents et suivants), tandis que l’autre flux, plus léger, sert uniquement à la prédiction des tokens. Ainsi, il réduit le coût computationnel qui serait astronomique si l’on devait réellement ré-encoder la phrase pour toutes les permutations existantes. En parallèle, XLNet réutilise la plupart des mécanismes du Transformer, comme les couches multi-têtes d’attention et les feed-forward layers, assurant une bonne efficacité et une grande expressivité.
Un des points étonnants d’XLNet est sa capacité à mieux capturer les dépendances à longue portée. Par exemple, dans des phrases complexes avec de nombreuses propositions, XLNet s’avère souvent plus précis que BERT pour comprendre des liens grammaticaux distants. De plus, les chercheurs ont constaté que la technique de permutation favorise une meilleure exploration du vocabulaire pendant la phase d’entraînement, ce qui conduit à une plus grande diversité de représentations lexicales. On peut même exploiter XLNet pour des tâches créatives comme la génération de texte, la traduction automatique ou la détection de nuances sémantiques fines dans des corpus spécialisés. Cette adaptabilité en fait un choix de prédilection pour des applications avancées telles que l’analyse de sentiments sur des textes peu structurés, la synthèse de réponses complexes dans des chatbots haut de gamme ou encore la recherche d’entités nommées dans d’immenses jeux de données hétérogènes.
Comments