La diversité des modèles

22 févr. 2025
5 min de lecture

Il existe un très grand nombre d’architectures et de modèles de réseaux de neurones. En pratique, il est impossible de toutes les énumérer puisqu’il s’en crée régulièrement de nouvelles ou des variantes de modèles existants. Cependant, on peut les regrouper en grandes familles et citer les architectures les plus courantes, reconnues et influentes. Voici une liste (non exhaustive) organisée par catégories :

1. Réseaux de neurones de base

Perceptron
- Le modèle initial, proposé par Frank Rosenblatt en 1957.
- Base conceptuelle de nombreux réseaux de neurones.
Perceptron multicouche (Multi-Layer Perceptron, MLP)
- Architecture composée de couches denses (fully connected).
- Chaque neurone est connecté à tous les neurones de la couche suivante.
- Utilisée dans de nombreux cas simples de classification ou régression.

2. Réseaux de neurones convolutifs (CNN)

LeNet (1998, Yann LeCun)
- Un des premiers CNN appliqués à la reconnaissance de chiffres manuscrits (MNIST).
AlexNet (2012, Alex Krizhevsky et al.)
- Premier CNN à démontrer une performance révolutionnaire en reconnaissance d’images (ImageNet).
VGG (2014, Simonyan & Zisserman)
- Réseaux profonds utilisant des couches convolutionnelles 3×3 empilées.
GoogLeNet (Inception) (2014, Szegedy et al.)
- Inception modules permettant de mélanger différentes tailles de filtres dans la même couche.
ResNet (2015, He et al.)
- Introduit les connections résiduelles (skip connections) pour faciliter l’apprentissage de réseaux très profonds.
DenseNet (2016, Huang et al.)
- Connections denses entre couches pour encourager la réutilisation des features.
MobileNet (2017, Howard et al.)
- CNN léger pour mobiles et systèmes embarqués (séparations en convolutions depthwise et pointwise).
EfficientNet (2019, Tan & Le)
- Mise à l’échelle (scaling) systématique de la profondeur, de la largeur et de la résolution d’images pour optimiser le rapport performance/complexité.

3. Réseaux de neurones récurrents (RNN)

RNN simples
- Propagation d’information séquentielle grâce à des boucles.
- Peinent parfois avec les longues dépendances temporelles (problème de gradient).
LSTM (Long Short-Term Memory) (1997, Hochreiter & Schmidhuber)
- Introduit des portes (gates) pour résoudre le problème de la dissipation du gradient.
- Très utilisé pour le traitement du langage naturel, la modélisation de séries temporelles.
GRU (Gated Recurrent Unit) (2014, Cho et al.)
- Simplifie la structure de LSTM tout en conservant les performances sur séquences.
Bidirectional RNN, LSTM, GRU
- Traitent les séquences dans les deux sens (passé et futur).

4. Réseaux « Transformers » et variantes

Transformer (2017, Vaswani et al.)
- S’appuie sur un mécanisme d’attention (attention mechanism) pour traiter les séquences, sans récursion ni convolution.
- A révolutionné le traitement du langage naturel (NLP).
BERT (Bidirectional Encoder Representations from Transformers) (2018, Devlin et al.)
- Modèle basé sur le Transformer, entraîné de manière bidirectionnelle pour des tâches de NLP.
GPT (Generative Pre-trained Transformer) (2018, Radford et al., OpenAI)
- Série de modèles (GPT, GPT-2, GPT-3, GPT-3.5, GPT-4, etc.) pour la génération de texte et d’autres tâches.
- Utilisent un transformeur autorégressif unidirectionnel.
RoBERTa, DistilBERT, XLNet, T5, etc.
- Variantes ou améliorations de BERT/GPT, chacune optimisée pour des cas d’usage spécifiques (vitesse, performance, taille, etc.).

5. Réseaux de neurones de type Autoencodeurs

Autoencodeur classique
- Réduit la dimension par un goulot d’étranglement (bottleneck) et essaie de reconstruire l’entrée.
- Utile pour la détection d’anomalies, la compression ou le filtrage de bruits.
Variational Autoencoder (VAE) (2013, Kingma & Welling)
- Approche probabiliste pour modéliser la distribution latente.
- Utilisé en génération d’images, interpolation de données, etc.
Denoising Autoencoder (DAE)
- Apprend à retirer du bruit artificiellement ajouté pour reconstruire l’image propre.
Sparse Autoencoder
- Utilise une pénalité de régularisation pour forcer la sparsité des représentations.
Convolutional Autoencoder
- Autoencodeur appliqué à des images, incluant couches de convolution et deconvolution.

6. Réseaux antagonistes génératifs (Generative Adversarial Networks, GAN)

GAN de base (2014, Goodfellow et al.)
- Deux réseaux (un générateur et un discriminateur) s’entraînent de manière compétitive pour générer des échantillons (images, sons…).
DCGAN (Deep Convolutional GAN)
- Utilisation de convolutions pour le générateur et le discriminateur, particulièrement efficace pour les images.
WGAN (Wasserstein GAN), WGAN-GP
- Introduisent des métriques plus stables (distance de Wasserstein) pour l’entraînement.
CycleGAN (2017, Zhu et al.)
- Permet la traduction d’images non appariées (ex. cheval ↔ zèbre) sans besoin de paires exactes.
StyleGAN (2018, Karras et al.)
- Spécialisé dans la génération d’images de visages ultra-réalistes, en travaillant sur la latente de style.
BigGAN (2018, Brock et al.)
- GAN de grande échelle entraîné sur ImageNet avec d’excellentes performances de génération.

7. Réseaux de neurones pour graphes (Graph Neural Networks, GNN)

Graph Convolutional Network (GCN)
- Convolution adaptée à la structure d’un graphe.
- Utilisé pour la classification de nœuds, la prédiction de liens, etc.
Graph Attention Network (GAT)
- Utilise le mécanisme d’attention pour pondérer l’influence des voisins dans un graphe.
GraphSAGE
- Échantillonne et agrège les voisins pour gérer de très grands graphes.

8. Modèles pour le traitement du signal temporel et séries temporelles

WaveNet (2016, DeepMind)
- Modèle convolutif à dilation pour la génération d’ondes audio (voix, musique).
Temporal Convolutional Network (TCN)
- Approche basée sur des convolutions dilatées pour capturer de longs intervalles temporels.
Transformer appliqué aux séries temporelles
- Extensions du Transformer (Informer, LogTrans, etc.) pour gérer spécifiquement de longues séries temporelles.

9. Réseaux à réservoir et autres approches moins courantes

Echo State Network (ESN)
- Réseau récurrent à réservoir où seule la sortie est entraînée (les poids récurrents restent fixes).
Liquid State Machine (LSM)
- Inspiré par des modèles biologiques de cerveaux (réseaux de neurones à impulsions/spiking).

10. Réseaux de neurones probabilistes et Bayésiens

Bayesian Neural Networks
- Intègrent l’incertitude des poids en utilisant des distributions de probabilité plutôt que des valeurs fixes.
MC Dropout
- Utilisation du dropout en test pour approximer un comportement bayésien.

11. Modèles de diffusion (Diffusion Models)

Denoising Diffusion Probabilistic Model (DDPM)
- Un processus de diffusion noie progressivement l’image dans le bruit, puis apprend à générer l’inverse.
- Adopté pour la génération d’images (par ex. DALL-E 2, Stable Diffusion).
Score-Based Generative Models
- Apprennent une fonction de score pour estimer le gradient du log de la densité de données.
Latent Diffusion Models
- Appliquent la diffusion dans un espace latent (comme Stable Diffusion) pour rendre l’entraînement et la génération plus efficaces.

12. Autres variantes et courants de recherche

Capsule Networks (CapsNets, 2017, Hinton et al.)
- Les « capsules » tentent de modéliser les hiérarchies de parties d’objets.
- Aspect prometteur pour la reconnaissance d’images avec moins de données.
Neural Ordinary Differential Equations (Neural ODEs)
- Interprètent la propagation avant comme la résolution d’une équation différentielle ordinaire.
Siamese Networks
- Deux réseaux (ou plus) partageant les mêmes poids pour comparer des représentations (recherche d’images, reconnaissance d’entités similaires).
Meta-Learning / Few-Shot Learning
- Apprend comment apprendre à partir de quelques échantillons (ex. MAML, Prototypical Networks).
Continual Learning
- Apprentissage par transfert et mise à jour continue des connaissances sans oublier les tâches précédentes.

Conclusion

Il est impossible de dresser une liste exhaustive de « tous » les modèles neuronaux, car le domaine est en évolution permanente.
Les architectures citées représentent les plus grandes familles ou les plus influentes (historiquement ou actuellement).
Chaque famille se décline en de multiples variantes et améliorations qui apparaissent régulièrement.

AI4Cryptos