🛏️ 👨‍💼 🍱 Configuration de la fonction de perte pour un réseau neuronal basée sur des données sismiques 🥂 💃🏾 😦

Dans un article précédent, nous avons décrit une expérience pour déterminer la quantité minimale de sections étiquetées manuellement pour former un réseau neuronal à l'aide de données sismiques. Aujourd'hui, nous continuons ce sujet en choisissant la fonction de perte la plus appropriée.

Deux classes de base de fonctions sont considérées - Entropie croisée binaire et Intersection sur Union - en 6 variantes avec sélection de paramètres, ainsi que des combinaisons de fonctions de différentes classes. De plus, la régularisation de la fonction de perte est envisagée.

Spoiler: a réussi à améliorer considérablement la qualité des prévisions du réseau.

Objectifs de recherche commerciale

Nous ne répéterons pas la description des spécificités du levé sismique, les données obtenues et les tâches de leur interprétation. Tout cela est décrit dans notre article précédent .

L'idée de cette étude est née des résultats du concours pour la recherche de gisements de sel sur des coupes 2D . Selon les participants au concours , pour résoudre ce problème, un zoo entier de diverses fonctions de perte a d'ailleurs été utilisé avec des succès différents.

Par conséquent, nous nous sommes demandé: est-il vraiment possible que de tels problèmes sur de telles données pour sélectionner la fonction de perte puissent donner un gain significatif de qualité? Ou cette caractéristique n'est-elle que pour les conditions de la compétition, quand il y a une lutte pour la quatrième ou la cinquième décimale pour les métriques prédéfinies par les organisateurs?

Typiquement, dans les tâches résolues à l'aide de réseaux de neurones, le réglage du processus d'apprentissage est basé principalement sur l'expérience du chercheur et certaines heuristiques. Par exemple, pour les problèmes de segmentation d'image, les fonctions de perte sont le plus souvent utilisées, basées sur l'évaluation de la coïncidence des formes des zones reconnues, ce que l'on appelle l'intersection sur l'Union.

Intuitivement, basé sur une compréhension du comportement et des résultats de la recherche, ces types de fonctions donneront de meilleurs résultats que ceux qui ne sont pas accentués pour les images, telles que celles à entropie croisée. Néanmoins, les expériences à la recherche de la meilleure option pour ce type de tâche dans son ensemble et chaque tâche individuellement se poursuivent.

Les données sismiques préparées pour l'interprétation ont un certain nombre de caractéristiques qui peuvent avoir un impact significatif sur le comportement de la fonction de perte. Par exemple, les horizons séparant les couches géologiques sont lisses, ne changeant plus fortement que dans les lieux de failles. De plus, les zones distinctes ont une zone suffisamment grande par rapport à l'image, c'est-à-dire les petites taches sur les résultats d'interprétation sont le plus souvent considérées comme une erreur de reconnaissance.

Dans le cadre de cette expérience, nous avons essayé de trouver des réponses aux questions locales suivantes:

La fonction de perte de la classe Intersection over Union est-elle vraiment le meilleur résultat pour le problème considéré ci-dessous? Il semble que la réponse soit évidente, mais laquelle? Et quel est le meilleur d'un point de vue commercial?
Est-il possible d'améliorer les résultats en combinant des fonctions de différentes classes? Par exemple, Intersection sur Union et entropie croisée avec différents poids.
Est-il possible d'améliorer les résultats en ajoutant à la fonction de perte divers ajouts conçus spécifiquement pour les données sismiques?

Et à une question plus globale:

vaut-il la peine de s'occuper de la sélection de la fonction de perte pour les tâches d'interprétation des données sismiques, ou le gain de qualité n'est-il pas comparable à la perte de temps pour mener de telles études? Peut-être que cela vaut la peine de choisir intuitivement une fonction et de consacrer de l'énergie à la sélection de paramètres d'entraînement plus importants?

Description générale de l'expérience et des données utilisées

Pour l'expérience, nous avons pris la même tâche d'isoler des couches géologiques sur des coupes 2D d'un cube sismique (voir figure 1).

Figure 1. Exemple d'une coupe 2D (à gauche) et le résultat du marquage des couches géologiques correspondantes (à droite) ( source )

Et le même ensemble de données entièrement étiquetées du secteur néerlandais de la mer du Nord. Les données sismiques sources sont disponibles sur le site Web Open Seismic Repository: Project Netherlands Offshore F3 Block . Une brève description peut être trouvée dans Silva et al. "Netherlands Dataset: A New Public Dataset for Machine Learning in Seismic Interpretation . "

Puisque dans notre cas nous parlons de tranches 2D, nous n'avons pas utilisé le cube 3D d'origine, mais le «slicing» déjà fait, disponible ici:Pays-Bas F3 Ensemble de données d'interprétation .

Au cours de l'expérience, nous avons résolu les problèmes suivants:

Nous avons examiné les données source et sélectionné les tranches, dont la qualité est la plus proche du marquage manuel (similaire à l'expérience précédente).
Nous avons enregistré l'architecture du réseau neuronal, la méthodologie et les paramètres de la formation, et le principe de sélection des tranches pour la formation et la validation (similaire à l'expérience précédente).
Nous avons choisi les fonctions de perte étudiées.
Nous avons sélectionné les meilleurs paramètres pour les fonctions de perte paramétrées.
Nous avons formé des réseaux de neurones avec différentes fonctions sur le même volume de données et choisi la meilleure fonction.
Nous avons formé des réseaux de neurones avec différentes combinaisons de la fonction sélectionnée avec des fonctions d'une autre classe sur la même quantité de données.
Nous avons formé des réseaux de neurones avec régularisation de la fonction sélectionnée sur la même quantité de données.

À titre de comparaison, nous avons utilisé les résultats d'une expérience précédente dans laquelle la fonction de perte était choisie exclusivement de manière intuitive et était une combinaison de fonctions de différentes classes avec des coefficients également choisis «à l'œil».

Les résultats de cette expérience sous forme de métriques estimées et prédits par les réseaux de masques de tranche sont présentés ci-dessous.

Tâche 1. Sélection des données

Comme données initiales, nous avons utilisé des alignements et des croisements prêts à l'emploi d'un cube sismique du secteur néerlandais de la mer du Nord. Comme dans l'expérience précédente, simulant le travail de l'interprète, pour la formation du réseau, nous n'avons choisi que des masques propres, après avoir regardé toutes les tranches. En conséquence, 700 lignes croisées et 400 lignes à partir d'environ 1600 images sources ont été sélectionnées.

Tâche 2. Fixer les paramètres de l'expérience

Cette section et les sections suivantes sont tout d'abord intéressantes pour les spécialistes de la science des données, par conséquent, une terminologie appropriée sera utilisée.

Pour la formation, nous avons choisi 5% du nombre total de tranches, en outre, des lignes et des lignes croisées en parts égales, c'est-à-dire 40 + 40. Les tranches ont été sélectionnées uniformément dans tout le cube. Pour la validation, 1 tranche a été utilisée entre les images adjacentes de l'échantillon d'apprentissage. Ainsi, l'échantillon de validation était composé de 39 lignes et 39 lignes croisées.

321 en ligne et 621 en ligne sont tombés dans l'échantillon retardé, sur lequel les résultats ont été comparés.

Semblable à l'expérience précédente, le prétraitement des images n'a pas été effectué et la même architecture UNet avec les mêmes paramètres d'apprentissage a été utilisée.

Les masques de tranches cibles étaient représentés comme des cubes binaires de dimension HxLx10, où la dernière dimension correspond au nombre de classes, et chaque valeur du cube est 0 ou 1, selon que ce pixel de l'image appartient ou non à la classe du calque correspondant.

Chaque prévision de réseau était un cube similaire, dont chaque valeur se rapporte à la probabilité qu'un pixel d'image donné appartienne à la classe de la couche correspondante. Dans la plupart des cas, cette valeur a été convertie en probabilité elle-même à l'aide d'un sigmoïde. Cependant, cela ne devrait pas être fait pour toutes les fonctions de perte, donc l'activation n'a pas été utilisée pour la dernière couche du réseau. Au lieu de cela, les conversions correspondantes ont été effectuées dans les fonctions elles-mêmes.

Afin de réduire l'influence du caractère aléatoire du choix des poids initiaux sur les résultats, le réseau a été formé pendant 1 ère avec l'entropie croisée binaire en fonction des pertes. Toutes les autres formations ont commencé avec ces poids reçus.

Tâche 3. Le choix des fonctions de perte

Pour l'expérience, 2 classes de base de fonctions ont été sélectionnées en 6 variantes:

Entropie croisée binaire :

entropie croisée binaire;
entropie croisée binaire pondérée;
entropie croisée binaire équilibrée.

Intersection sur l'Union :

Perte de Jaccard;
Perte Tversky;
Perte de Lovász.

Une brève description des fonctions répertoriées avec le code pour Keras est donnée dans l' article . Nous présentons ici les plus importants avec des liens (si possible) vers une description détaillée de chaque fonction.

Pour notre expérience, la cohérence de la fonction utilisée pendant la formation est importante avec la métrique par laquelle nous évaluons le résultat de la prévision du réseau sur l'échantillon retardé. Par conséquent, nous avons utilisé notre code implémenté sur TensorFlow et Numpy, écrit directement en utilisant les formules ci-dessous.

La notation suivante est utilisée dans les formules:

pt - pour le masque cible binaire (Ground Truth);
pp - pour le masque de prédiction de réseau.

Pour toutes les fonctions, sauf indication contraire, il est supposé que le masque de prédiction de réseau contient des probabilités pour chaque pixel de l'image, c'est-à-dire valeurs dans l'intervalle (0, 1).

Entropie croisée binaire

Description: https://towardsdatascience.com/understanding-binary-cross-entropy-log-loss-a-visual-explanation-a3ac6025181a .

Cette fonction vise à rapprocher la distribution des prévisions du réseau de la cible, pénalisant non seulement les prédictions erronées, mais aussi incertaines.

Entropie croisée binaire pondérée

Cette fonction coïncide avec une entropie croisée binaire avec une valeur bêta de 1. Elle est recommandée pour les forts déséquilibres de classe. Pour la version bêta> 1, le nombre de prévisions fausses négatives (faux négatifs) diminue et l'exhaustivité (rappel) augmente, pour la version bêta <1, le nombre de prévisions fausses positives (faux positifs) diminue et la précision augmente (précision).

Entropie croisée binaire équilibrée

Cette fonction est similaire à l'entropie croisée pondérée, mais elle corrige la contribution non seulement des valeurs simples, mais également nulles du masque cible. Coïncide (jusqu'à une constante) avec une entropie croisée binaire à une valeur de coefficient bêta = 0,5.

Perte de Jaccard

Le coefficient Jacquard (alias Intersection over Union, IoU) détermine la mesure de la «similitude» des deux zones. L'indice Dice fait la même chose:

cela n'a aucun sens de considérer ces deux fonctions. Nous avons choisi Jacquard.

Dans le cas où les deux zones sont spécifiées à l'aide de masques binaires, la formule ci-dessus peut être facilement réécrite en termes de valeurs des masques:

pour les prévisions non binaires, l'optimisation du coefficient Jacquard est une tâche non triviale. Nous utiliserons la même formule pour les probabilités dans le masque de prévision comme une certaine imitation du coefficient initial et, par conséquent, la fonction de perte suivante:

Perte Tversky

Description: https://arxiv.org/pdf/1706.05721.pdf

Cette fonction est une version paramétrée de l'optimisation du coefficient Jacquard qui coïncide avec lui à alpha = beta = 1 et avec l'indice de dés à alpha = beta = 0.5. Pour d'autres valeurs non nulles et non coïncidentes, nous pouvons déplacer l'accent vers la précision ou l'exhaustivité de la même manière que dans les fonctions d'entropie croisée pondérée et équilibrée.

Le problème de décalage d'accentuation peut être réécrit en utilisant un seul coefficient situé dans l'intervalle (0, 1). La fonction de perte résultante ressemblera à ceci:

Perte de Lovász

Il est difficile de donner une formule pour cette fonction, car c'est une option pour optimiser le coefficient Jacquard par un algorithme basé sur des erreurs triées.

Vous pouvez voir la description de la fonction ici , l'une des options de code est ici .

Explication importante!

Pour simplifier la comparaison des valeurs et des graphiques ci-après, sous le terme "coefficient de Jacquard", nous comprendrons davantage l'unité moins le coefficient lui-même. La perte de Jaccard est un moyen d'optimiser ce ratio, avec la perte de Tversky et la perte de Lovász.

Tâche 4. Choix des meilleurs paramètres pour les fonctions de perte paramétrées

Pour sélectionner la meilleure fonction de perte sur le même ensemble de données, un critère d'évaluation est nécessaire. Dans sa qualité, nous avons choisi le nombre moyen / médian de composants connectés sur les masques résultants. De plus, nous avons utilisé le coefficient Jacquard pour les masques prédictifs convertis en argmax monocouche et à nouveau divisés en couches binarisées.

Le nombre de composants connectés (c'est-à-dire des taches solides de la même couleur) sur chaque prévision obtenue est un critère indirect pour évaluer le volume de son affinement ultérieur par l'interprète. Si cette valeur est 10, alors les couches sont sélectionnées correctement et nous parlons d'un maximum de correction d'horizon mineure. S'il n'y en a pas beaucoup plus, il vous suffit de "nettoyer" de petites zones de l'image. S'il y en a beaucoup plus, tout est mauvais et peut même nécessiter une réorganisation complète.

Le coefficient Jacquard, à son tour, caractérise la coïncidence des zones d'image attribuées à une classe et leurs limites.