top of page

La diversité des modèles

  • 22 févr. 2025
  • 5 min de lecture

Il existe un très grand nombre d’architectures et de modèles de réseaux de neurones. En pratique, il est impossible de toutes les énumérer puisqu’il s’en crée régulièrement de nouvelles ou des variantes de modèles existants. Cependant, on peut les regrouper en grandes familles et citer les architectures les plus courantes, reconnues et influentes. Voici une liste (non exhaustive) organisée par catégories :


1. Réseaux de neurones de base

  1. Perceptron

    • Le modèle initial, proposé par Frank Rosenblatt en 1957.

    • Base conceptuelle de nombreux réseaux de neurones.

  2. Perceptron multicouche (Multi-Layer Perceptron, MLP)

    • Architecture composée de couches denses (fully connected).

    • Chaque neurone est connecté à tous les neurones de la couche suivante.

    • Utilisée dans de nombreux cas simples de classification ou régression.

2. Réseaux de neurones convolutifs (CNN)

  1. LeNet (1998, Yann LeCun)

    • Un des premiers CNN appliqués à la reconnaissance de chiffres manuscrits (MNIST).

  2. AlexNet (2012, Alex Krizhevsky et al.)

    • Premier CNN à démontrer une performance révolutionnaire en reconnaissance d’images (ImageNet).

  3. VGG (2014, Simonyan & Zisserman)

    • Réseaux profonds utilisant des couches convolutionnelles 3×3 empilées.

  4. GoogLeNet (Inception) (2014, Szegedy et al.)

    • Inception modules permettant de mélanger différentes tailles de filtres dans la même couche.

  5. ResNet (2015, He et al.)

    • Introduit les connections résiduelles (skip connections) pour faciliter l’apprentissage de réseaux très profonds.

  6. DenseNet (2016, Huang et al.)

    • Connections denses entre couches pour encourager la réutilisation des features.

  7. MobileNet (2017, Howard et al.)

    • CNN léger pour mobiles et systèmes embarqués (séparations en convolutions depthwise et pointwise).

  8. EfficientNet (2019, Tan & Le)

    • Mise à l’échelle (scaling) systématique de la profondeur, de la largeur et de la résolution d’images pour optimiser le rapport performance/complexité.

3. Réseaux de neurones récurrents (RNN)

  1. RNN simples

    • Propagation d’information séquentielle grâce à des boucles.

    • Peinent parfois avec les longues dépendances temporelles (problème de gradient).

  2. LSTM (Long Short-Term Memory) (1997, Hochreiter & Schmidhuber)

    • Introduit des portes (gates) pour résoudre le problème de la dissipation du gradient.

    • Très utilisé pour le traitement du langage naturel, la modélisation de séries temporelles.

  3. GRU (Gated Recurrent Unit) (2014, Cho et al.)

    • Simplifie la structure de LSTM tout en conservant les performances sur séquences.

  4. Bidirectional RNN, LSTM, GRU

    • Traitent les séquences dans les deux sens (passé et futur).

4. Réseaux « Transformers » et variantes

  1. Transformer (2017, Vaswani et al.)

    • S’appuie sur un mécanisme d’attention (attention mechanism) pour traiter les séquences, sans récursion ni convolution.

    • A révolutionné le traitement du langage naturel (NLP).

  2. BERT (Bidirectional Encoder Representations from Transformers) (2018, Devlin et al.)

    • Modèle basé sur le Transformer, entraîné de manière bidirectionnelle pour des tâches de NLP.

  3. GPT (Generative Pre-trained Transformer) (2018, Radford et al., OpenAI)

    • Série de modèles (GPT, GPT-2, GPT-3, GPT-3.5, GPT-4, etc.) pour la génération de texte et d’autres tâches.

    • Utilisent un transformeur autorégressif unidirectionnel.

  4. RoBERTa, DistilBERT, XLNet, T5, etc.

    • Variantes ou améliorations de BERT/GPT, chacune optimisée pour des cas d’usage spécifiques (vitesse, performance, taille, etc.).

5. Réseaux de neurones de type Autoencodeurs

  1. Autoencodeur classique

    • Réduit la dimension par un goulot d’étranglement (bottleneck) et essaie de reconstruire l’entrée.

    • Utile pour la détection d’anomalies, la compression ou le filtrage de bruits.

  2. Variational Autoencoder (VAE) (2013, Kingma & Welling)

    • Approche probabiliste pour modéliser la distribution latente.

    • Utilisé en génération d’images, interpolation de données, etc.

  3. Denoising Autoencoder (DAE)

    • Apprend à retirer du bruit artificiellement ajouté pour reconstruire l’image propre.

  4. Sparse Autoencoder

    • Utilise une pénalité de régularisation pour forcer la sparsité des représentations.

  5. Convolutional Autoencoder

    • Autoencodeur appliqué à des images, incluant couches de convolution et deconvolution.

6. Réseaux antagonistes génératifs (Generative Adversarial Networks, GAN)

  1. GAN de base (2014, Goodfellow et al.)

    • Deux réseaux (un générateur et un discriminateur) s’entraînent de manière compétitive pour générer des échantillons (images, sons…).

  2. DCGAN (Deep Convolutional GAN)

    • Utilisation de convolutions pour le générateur et le discriminateur, particulièrement efficace pour les images.

  3. WGAN (Wasserstein GAN), WGAN-GP

    • Introduisent des métriques plus stables (distance de Wasserstein) pour l’entraînement.

  4. CycleGAN (2017, Zhu et al.)

    • Permet la traduction d’images non appariées (ex. cheval ↔ zèbre) sans besoin de paires exactes.

  5. StyleGAN (2018, Karras et al.)

    • Spécialisé dans la génération d’images de visages ultra-réalistes, en travaillant sur la latente de style.

  6. BigGAN (2018, Brock et al.)

    • GAN de grande échelle entraîné sur ImageNet avec d’excellentes performances de génération.

7. Réseaux de neurones pour graphes (Graph Neural Networks, GNN)

  1. Graph Convolutional Network (GCN)

    • Convolution adaptée à la structure d’un graphe.

    • Utilisé pour la classification de nœuds, la prédiction de liens, etc.

  2. Graph Attention Network (GAT)

    • Utilise le mécanisme d’attention pour pondérer l’influence des voisins dans un graphe.

  3. GraphSAGE

    • Échantillonne et agrège les voisins pour gérer de très grands graphes.

8. Modèles pour le traitement du signal temporel et séries temporelles

  1. WaveNet (2016, DeepMind)

    • Modèle convolutif à dilation pour la génération d’ondes audio (voix, musique).

  2. Temporal Convolutional Network (TCN)

    • Approche basée sur des convolutions dilatées pour capturer de longs intervalles temporels.

  3. Transformer appliqué aux séries temporelles

    • Extensions du Transformer (Informer, LogTrans, etc.) pour gérer spécifiquement de longues séries temporelles.

9. Réseaux à réservoir et autres approches moins courantes

  1. Echo State Network (ESN)

    • Réseau récurrent à réservoir où seule la sortie est entraînée (les poids récurrents restent fixes).

  2. Liquid State Machine (LSM)

    • Inspiré par des modèles biologiques de cerveaux (réseaux de neurones à impulsions/spiking).

10. Réseaux de neurones probabilistes et Bayésiens

  1. Bayesian Neural Networks

    • Intègrent l’incertitude des poids en utilisant des distributions de probabilité plutôt que des valeurs fixes.

  2. MC Dropout

    • Utilisation du dropout en test pour approximer un comportement bayésien.

11. Modèles de diffusion (Diffusion Models)

  1. Denoising Diffusion Probabilistic Model (DDPM)

    • Un processus de diffusion noie progressivement l’image dans le bruit, puis apprend à générer l’inverse.

    • Adopté pour la génération d’images (par ex. DALL-E 2, Stable Diffusion).

  2. Score-Based Generative Models

    • Apprennent une fonction de score pour estimer le gradient du log de la densité de données.

  3. Latent Diffusion Models

    • Appliquent la diffusion dans un espace latent (comme Stable Diffusion) pour rendre l’entraînement et la génération plus efficaces.

12. Autres variantes et courants de recherche

  1. Capsule Networks (CapsNets, 2017, Hinton et al.)

    • Les « capsules » tentent de modéliser les hiérarchies de parties d’objets.

    • Aspect prometteur pour la reconnaissance d’images avec moins de données.

  2. Neural Ordinary Differential Equations (Neural ODEs)

    • Interprètent la propagation avant comme la résolution d’une équation différentielle ordinaire.

  3. Siamese Networks

    • Deux réseaux (ou plus) partageant les mêmes poids pour comparer des représentations (recherche d’images, reconnaissance d’entités similaires).

  4. Meta-Learning / Few-Shot Learning

    • Apprend comment apprendre à partir de quelques échantillons (ex. MAML, Prototypical Networks).

  5. Continual Learning

    • Apprentissage par transfert et mise à jour continue des connaissances sans oublier les tâches précédentes.


Conclusion

  • Il est impossible de dresser une liste exhaustive de « tous » les modèles neuronaux, car le domaine est en évolution permanente.

  • Les architectures citées représentent les plus grandes familles ou les plus influentes (historiquement ou actuellement).

  • Chaque famille se décline en de multiples variantes et améliorations qui apparaissent régulièrement.


Posts récents

Voir tout
Le T5

Le modèle T5 (Text-to-Text Transfer Transformer) de Google a révolutionné l’approche du NLP en proposant un cadre unifié où toutes les...

 
 
 
XLNet le régressif

XLNet est un modèle de langage auto-régressif qui a fait grand bruit lors de sa sortie en 2019, se positionnant comme un sérieux...

 
 
 
DistilBert, le petit frère

DistilBERT est une version allégée mais tout aussi puissante de BERT (Bidirectional Encoder Representations from Transformers) développée...

 
 
 

Commentaires

Noté 0 étoile sur 5.
Pas encore de note

Ajouter une note
AI4C intelligence interficielle trading bot

AI4Cryptos est un logiciel de trading automatisé fonctionnant grâce à une intelligence artificielle. Les informations et fonctionnalités qu’il propose ne constituent en aucun cas un conseil ou une recommandation d’investissement. Vous restez entièrement responsable des fonds que vous investissez et de l’utilisation que vous faites de notre application ; AI4Cryptos ne saurait être tenu responsable de toute perte, dommage ou réclamation résultant directement ou indirectement de son usage. Les cryptomonnaies sont des actifs hautement volatils et il est vivement recommandé de n’investir que des montants dont la perte n’entraînerait pas de difficultés financières. AI4Cryptos ne garantit aucune performance ou réussite d’investissement et décline toute responsabilité en cas de pertes financières. Avant toute prise de décision, il est conseillé de consulter des professionnels, notamment des conseillers financiers, juridiques ou fiscaux. En accédant à nos services, vous reconnaissez avoir pris connaissance de ces informations et vous vous engagez à les respecter.

© 2025 AI4Cryptos. Tous droits réservés.

bottom of page