Statistiques | POS3IDON

Modélisation de distribution de la biodiversité

Nos prestations

Approches statistiques en "deep-learning" :
- Modèles Additifs Généralisés ("GAM")
- Arbres de Regression Boostés ("BRT")
- Régression Multivariée par Spline Adaptative ("MARS")
- Réseaux Neuronaux Artificiels ("ANN")
- Maximum d'Entropie ("MaxEnt")
Statistiques exploratoires multi-dimensionnelles :
- ACP
Reconstitution de données manquantes

Modèles Additif Généralisé (GAM pour "Generalized Additive Models")

Les Modèles Additifs Généralisés (ou GAM) permettent de modéliser une variable à expliquer avec des fonctions de lissage non-linéaires des prédicteurs. Les splines cubiques font partie des fonctions non-linéaires souvent utilisées dans ce contexte.

Exemple d'un GLM (à gauche) et d'un GAM (à droite) appliqués à une même série de points.

Arbres de Régression Boostés (BRT pour "Boosted Regression Trees")

Les modèles BRT correspondent à une combinaison de deux techniques : les algorithmes d'arbre de décision et les méthodes de "boosting". Comme les modèles de forêts aléatoires ("Random Forests"), les BRT s'adaptent à plusieurs reprises à de nombreux arbres de décision pour améliorer la précision du modèle. L'une des différences entre ces deux méthodes est la manière dont les données pour construire les arbres sont sélectionnées. Les deux techniques prennent un sous-ensemble aléatoire de toutes les données pour chaque nouvelle arborescence créée. Tous les sous-ensembles aléatoires ont le même nombre de points de données et sont sélectionnés dans l'ensemble de données complet. Les données utilisées sont replacées dans l'ensemble de données complet et peuvent être sélectionnées dans les arborescences suivantes. Alors que les modèles "Random Forest" utilisent la méthode d'ensachage, ce qui signifie que chaque occurrence a une probabilité égale d'être sélectionnée dans les échantillons suivants, les BRT utilisent la méthode de "boosting" dans laquelle les données d'entrée sont pondérées dans les arbres suivants. Les pondérations sont appliquées de telle manière que les données mal modélisées par les arbres précédents ont une probabilité plus élevée d'être sélectionnées dans le nouvel arbre. Cela signifie qu'après l'ajustement du premier arbre, le modèle tiendra compte de l'erreur de prédiction de cet arbre pour l'ajustement de l'arbre suivant, et ainsi de suite. En tenant compte de l'ajustement des arbres précédents qui sont construits, le modèle essaie continuellement d'améliorer sa précision. Cette approche séquentielle est unique au "boosting". De

Réseaux de Neurones Artificiels (ANN pour "Artificial Neural Network")

Le terme Réseaux de Neurones Artificiels (ANN) fait référence à un grand groupe de modèles qui s'inspirent des réseaux de neurones biologiques, en particulier le cerveau, qui se compose de très grands réseaux de neurones interconnectés pour traiter l'information. De même, les réseaux de neurones artificiels se composent d'un grand nombre de nœuds et de connexions. Celles-ci sont généralement organisées en couches, avec une couche d'entrée dans laquelle les données sont introduites dans le modèle, un certain nombre de couches masquées et la couche de sortie qui représente le résultat du modèle.

La couche d'entrée se compose des données environnementales qui sont placées dans le modèle, chaque nœud d'entrée représentant une variable environnementale. Les informations de chaque nœud de la couche d'entrée sont introduites dans la couche cachée. Les connexions entre les nœuds de la couche d'entrée et les nœuds de la couche cachée peuvent toutes recevoir un poids spécifique en fonction de leur importance. Ces pondérations sont généralement attribuées de manière aléatoire au début du modèle, mais le modèle peut apprendre et optimiser les pondérations lors des exécutions ultérieures du processus de rétropropagation. Plus le poids d'une connexion est élevé, plus ce nœud d'entrée particulier a d'influence. Les nœuds de la couche cachée sont ainsi composés de différentes combinaisons de variables environnementales et reçoivent les informations de la couche d'entrée de manière à ce que l'entrée soit multipliée par le poids de la connexion et sommée. Ce calcul est effectué pour chaque nœud de la couche cachée. Les sommes pondérées dans chacun des nœuds de couche cachés sont transmises dans une soi-disant "fonction d'activation", qui transforme le signal d'entrée pondéré en un signal de sortie compréhensible. Il existe de nombreuses formes différentes de fonctions d'activation, mais une des plus utilisées est la fonction logistique qui produit une courbe sigmoïde avec un résultat compris entre 0 et 1. Le résultat de la fonction d'activation est ensuite transmis à la couche de sortie. Comme pour les connexions entre les couches d'entrée et cachées, les connexions entre les couches cachées et la couche de sortie sont pondérées, et donc la sortie est le résultat de la somme pondérée des nœuds cachés. Dans un modèle de distribution d'espèces, la couche de sortie est la prédiction si une espèce sera présente ou absente à un endroit donné.

Dans le cadre de l'apprentissage du modèle, la sortie est comparée à la sortie souhaitée. Dans un modèle de distribution d'espèces, le résultat souhaité est basé sur les emplacements d'occurrence connus et les conditions environnementales de ces emplacements. La différence entre le résultat prévu du modèle et le résultat souhaité est l'erreur du modèle, ce qui est utilisé pour améliorer le modèle dans le processus de rétropropagation. Dans ce processus, le poids de chaque connexion est recalculé en multipliant les anciens poids par la différence entre la sortie du modèle et la sortie souhaitée. Sur la base de ces nouvelles connexions pondérées, les nœuds de la couche cachée peuvent calculer leur propre erreur et l'utiliser pour ajuster les poids des connexions à la couche d'entrée. Une fois que tous les poids ont été ajustés, le modèle recalcule la sortie dans le sens inverse, recommençant ainsi de la couche d'entrée à la couche cachée jusqu'à la sortie. Ce processus est répété plusieurs fois jusqu'à ce que le modèle atteigne une précision prédéfinie ou un nombre maximum de séries défini.

Etude de peuplements macroalgaux immergés par l’analyse de quadrats.

RETOUR AUX THÉMATIQUES