Configuration de la fonction de perte pour un réseau neuronal basée sur des données sismiques

Dans un article précédent, nous avons décrit une expérience pour déterminer la quantité minimale de sections étiquetées manuellement pour former un réseau neuronal à l'aide de données sismiques. Aujourd'hui, nous continuons ce sujet en choisissant la fonction de perte la plus appropriée.

Deux classes de base de fonctions sont considérées - Entropie croisée binaire et Intersection sur Union - en 6 variantes avec sélection de paramÚtres, ainsi que des combinaisons de fonctions de différentes classes. De plus, la régularisation de la fonction de perte est envisagée.

Spoiler: a réussi à améliorer considérablement la qualité des prévisions du réseau.



Objectifs de recherche commerciale


Nous ne répéterons pas la description des spécificités du levé sismique, les données obtenues et les tùches de leur interprétation. Tout cela est décrit dans notre article précédent .

L'idée de cette étude est née des résultats du concours pour la recherche de gisements de sel sur des coupes 2D . Selon les participants au concours , pour résoudre ce problÚme, un zoo entier de diverses fonctions de perte a d'ailleurs été utilisé avec des succÚs différents.

Par conséquent, nous nous sommes demandé: est-il vraiment possible que de tels problÚmes sur de telles données pour sélectionner la fonction de perte puissent donner un gain significatif de qualité? Ou cette caractéristique n'est-elle que pour les conditions de la compétition, quand il y a une lutte pour la quatriÚme ou la cinquiÚme décimale pour les métriques prédéfinies par les organisateurs?

Typiquement, dans les tùches résolues à l'aide de réseaux de neurones, le réglage du processus d'apprentissage est basé principalement sur l'expérience du chercheur et certaines heuristiques. Par exemple, pour les problÚmes de segmentation d'image, les fonctions de perte sont le plus souvent utilisées, basées sur l'évaluation de la coïncidence des formes des zones reconnues, ce que l'on appelle l'intersection sur l'Union.

Intuitivement, basé sur une compréhension du comportement et des résultats de la recherche, ces types de fonctions donneront de meilleurs résultats que ceux qui ne sont pas accentués pour les images, telles que celles à entropie croisée. Néanmoins, les expériences à la recherche de la meilleure option pour ce type de tùche dans son ensemble et chaque tùche individuellement se poursuivent.

Les données sismiques préparées pour l'interprétation ont un certain nombre de caractéristiques qui peuvent avoir un impact significatif sur le comportement de la fonction de perte. Par exemple, les horizons séparant les couches géologiques sont lisses, ne changeant plus fortement que dans les lieux de failles. De plus, les zones distinctes ont une zone suffisamment grande par rapport à l'image, c'est-à-dire les petites taches sur les résultats d'interprétation sont le plus souvent considérées comme une erreur de reconnaissance.

Dans le cadre de cette expérience, nous avons essayé de trouver des réponses aux questions locales suivantes:

  1. La fonction de perte de la classe Intersection over Union est-elle vraiment le meilleur résultat pour le problÚme considéré ci-dessous? Il semble que la réponse soit évidente, mais laquelle? Et quel est le meilleur d'un point de vue commercial?
  2. Est-il possible d'améliorer les résultats en combinant des fonctions de différentes classes? Par exemple, Intersection sur Union et entropie croisée avec différents poids.
  3. Est-il possible d'améliorer les résultats en ajoutant à la fonction de perte divers ajouts conçus spécifiquement pour les données sismiques?

Et Ă  une question plus globale:

vaut-il la peine de s'occuper de la sĂ©lection de la fonction de perte pour les tĂąches d'interprĂ©tation des donnĂ©es sismiques, ou le gain de qualitĂ© n'est-il pas comparable Ă  la perte de temps pour mener de telles Ă©tudes? Peut-ĂȘtre que cela vaut la peine de choisir intuitivement une fonction et de consacrer de l'Ă©nergie Ă  la sĂ©lection de paramĂštres d'entraĂźnement plus importants?

Description générale de l'expérience et des données utilisées


Pour l'expĂ©rience, nous avons pris la mĂȘme tĂąche d'isoler des couches gĂ©ologiques sur des coupes 2D d'un cube sismique (voir figure 1).


Figure 1. Exemple d'une coupe 2D (à gauche) et le résultat du marquage des couches géologiques correspondantes (à droite) ( source )

Et le mĂȘme ensemble de donnĂ©es entiĂšrement Ă©tiquetĂ©es du secteur nĂ©erlandais de la mer du Nord. Les donnĂ©es sismiques sources sont disponibles sur le site Web Open Seismic Repository: Project Netherlands Offshore F3 Block . Une brĂšve description peut ĂȘtre trouvĂ©e dans Silva et al. "Netherlands Dataset: A New Public Dataset for Machine Learning in Seismic Interpretation . "

Puisque dans notre cas nous parlons de tranches 2D, nous n'avons pas utilisé le cube 3D d'origine, mais le «slicing» déjà fait, disponible ici:Pays-Bas F3 Ensemble de données d'interprétation .

Au cours de l'expérience, nous avons résolu les problÚmes suivants:

  1. Nous avons examiné les données source et sélectionné les tranches, dont la qualité est la plus proche du marquage manuel (similaire à l'expérience précédente).
  2. Nous avons enregistré l'architecture du réseau neuronal, la méthodologie et les paramÚtres de la formation, et le principe de sélection des tranches pour la formation et la validation (similaire à l'expérience précédente).
  3. Nous avons choisi les fonctions de perte étudiées.
  4. Nous avons sélectionné les meilleurs paramÚtres pour les fonctions de perte paramétrées.
  5. Nous avons formĂ© des rĂ©seaux de neurones avec diffĂ©rentes fonctions sur le mĂȘme volume de donnĂ©es et choisi la meilleure fonction.
  6. Nous avons formĂ© des rĂ©seaux de neurones avec diffĂ©rentes combinaisons de la fonction sĂ©lectionnĂ©e avec des fonctions d'une autre classe sur la mĂȘme quantitĂ© de donnĂ©es.
  7. Nous avons formĂ© des rĂ©seaux de neurones avec rĂ©gularisation de la fonction sĂ©lectionnĂ©e sur la mĂȘme quantitĂ© de donnĂ©es.

À titre de comparaison, nous avons utilisĂ© les rĂ©sultats d'une expĂ©rience prĂ©cĂ©dente dans laquelle la fonction de perte Ă©tait choisie exclusivement de maniĂšre intuitive et Ă©tait une combinaison de fonctions de diffĂ©rentes classes avec des coefficients Ă©galement choisis «à l'Ɠil».

Les résultats de cette expérience sous forme de métriques estimées et prédits par les réseaux de masques de tranche sont présentés ci-dessous.

Tùche 1. Sélection des données


Comme donnĂ©es initiales, nous avons utilisĂ© des alignements et des croisements prĂȘts Ă  l'emploi d'un cube sismique du secteur nĂ©erlandais de la mer du Nord. Comme dans l'expĂ©rience prĂ©cĂ©dente, simulant le travail de l'interprĂšte, pour la formation du rĂ©seau, nous n'avons choisi que des masques propres, aprĂšs avoir regardĂ© toutes les tranches. En consĂ©quence, 700 lignes croisĂ©es et 400 lignes Ă  partir d'environ 1600 images sources ont Ă©tĂ© sĂ©lectionnĂ©es.

Tùche 2. Fixer les paramÚtres de l'expérience


Cette section et les sections suivantes sont tout d'abord intéressantes pour les spécialistes de la science des données, par conséquent, une terminologie appropriée sera utilisée.

Pour la formation, nous avons choisi 5% du nombre total de tranches, en outre, des lignes et des lignes croisées en parts égales, c'est-à-dire 40 + 40. Les tranches ont été sélectionnées uniformément dans tout le cube. Pour la validation, 1 tranche a été utilisée entre les images adjacentes de l'échantillon d'apprentissage. Ainsi, l'échantillon de validation était composé de 39 lignes et 39 lignes croisées.

321 en ligne et 621 en ligne sont tombés dans l'échantillon retardé, sur lequel les résultats ont été comparés.

Semblable Ă  l'expĂ©rience prĂ©cĂ©dente, le prĂ©traitement des images n'a pas Ă©tĂ© effectuĂ© et la mĂȘme architecture UNet avec les mĂȘmes paramĂštres d'apprentissage a Ă©tĂ© utilisĂ©e.

Les masques de tranches cibles Ă©taient reprĂ©sentĂ©s comme des cubes binaires de dimension HxLx10, oĂč la derniĂšre dimension correspond au nombre de classes, et chaque valeur du cube est 0 ou 1, selon que ce pixel de l'image appartient ou non Ă  la classe du calque correspondant.

Chaque prĂ©vision de rĂ©seau Ă©tait un cube similaire, dont chaque valeur se rapporte Ă  la probabilitĂ© qu'un pixel d'image donnĂ© appartienne Ă  la classe de la couche correspondante. Dans la plupart des cas, cette valeur a Ă©tĂ© convertie en probabilitĂ© elle-mĂȘme Ă  l'aide d'un sigmoĂŻde. Cependant, cela ne devrait pas ĂȘtre fait pour toutes les fonctions de perte, donc l'activation n'a pas Ă©tĂ© utilisĂ©e pour la derniĂšre couche du rĂ©seau. Au lieu de cela, les conversions correspondantes ont Ă©tĂ© effectuĂ©es dans les fonctions elles-mĂȘmes.

Afin de réduire l'influence du caractÚre aléatoire du choix des poids initiaux sur les résultats, le réseau a été formé pendant 1 Úre avec l'entropie croisée binaire en fonction des pertes. Toutes les autres formations ont commencé avec ces poids reçus.

TĂąche 3. Le choix des fonctions de perte


Pour l'expérience, 2 classes de base de fonctions ont été sélectionnées en 6 variantes:

Entropie croisée binaire :

  • entropie croisĂ©e binaire;
  • entropie croisĂ©e binaire pondĂ©rĂ©e;
  • entropie croisĂ©e binaire Ă©quilibrĂ©e.

Intersection sur l'Union :

  • Perte de Jaccard;
  • Perte Tversky;
  • Perte de LovĂĄsz.

Une brÚve description des fonctions répertoriées avec le code pour Keras est donnée dans l' article . Nous présentons ici les plus importants avec des liens (si possible) vers une description détaillée de chaque fonction.

Pour notre expérience, la cohérence de la fonction utilisée pendant la formation est importante avec la métrique par laquelle nous évaluons le résultat de la prévision du réseau sur l'échantillon retardé. Par conséquent, nous avons utilisé notre code implémenté sur TensorFlow et Numpy, écrit directement en utilisant les formules ci-dessous.

La notation suivante est utilisée dans les formules:

  • pt - pour le masque cible binaire (Ground Truth);
  • pp - pour le masque de prĂ©diction de rĂ©seau.

Pour toutes les fonctions, sauf indication contraire, il est supposé que le masque de prédiction de réseau contient des probabilités pour chaque pixel de l'image, c'est-à-dire valeurs dans l'intervalle (0, 1).

Entropie croisée binaire


Description: https://towardsdatascience.com/understanding-binary-cross-entropy-log-loss-a-visual-explanation-a3ac6025181a .



Cette fonction vise à rapprocher la distribution des prévisions du réseau de la cible, pénalisant non seulement les prédictions erronées, mais aussi incertaines.

Entropie croisée binaire pondérée




Cette fonction coĂŻncide avec une entropie croisĂ©e binaire avec une valeur bĂȘta de 1. Elle est recommandĂ©e pour les forts dĂ©sĂ©quilibres de classe. Pour la version bĂȘta> 1, le nombre de prĂ©visions fausses nĂ©gatives (faux nĂ©gatifs) diminue et l'exhaustivitĂ© (rappel) augmente, pour la version bĂȘta <1, le nombre de prĂ©visions fausses positives (faux positifs) diminue et la prĂ©cision augmente (prĂ©cision).

Entropie croisée binaire équilibrée




Cette fonction est similaire Ă  l'entropie croisĂ©e pondĂ©rĂ©e, mais elle corrige la contribution non seulement des valeurs simples, mais Ă©galement nulles du masque cible. CoĂŻncide (jusqu'Ă  une constante) avec une entropie croisĂ©e binaire Ă  une valeur de coefficient bĂȘta = 0,5.

Perte de Jaccard


Le coefficient Jacquard (alias Intersection over Union, IoU) dĂ©termine la mesure de la «similitude» des deux zones. L'indice Dice fait la mĂȘme chose:



cela n'a aucun sens de considérer ces deux fonctions. Nous avons choisi Jacquard.

Dans le cas oĂč les deux zones sont spĂ©cifiĂ©es Ă  l'aide de masques binaires, la formule ci-dessus peut ĂȘtre facilement rĂ©Ă©crite en termes de valeurs des masques:



pour les prĂ©visions non binaires, l'optimisation du coefficient Jacquard est une tĂąche non triviale. Nous utiliserons la mĂȘme formule pour les probabilitĂ©s dans le masque de prĂ©vision comme une certaine imitation du coefficient initial et, par consĂ©quent, la fonction de perte suivante:



Perte Tversky


Description: https://arxiv.org/pdf/1706.05721.pdf



Cette fonction est une version paramĂ©trĂ©e de l'optimisation du coefficient Jacquard qui coĂŻncide avec lui Ă  alpha = beta = 1 et avec l'indice de dĂ©s Ă  alpha = beta = 0.5. Pour d'autres valeurs non nulles et non coĂŻncidentes, nous pouvons dĂ©placer l'accent vers la prĂ©cision ou l'exhaustivitĂ© de la mĂȘme maniĂšre que dans les fonctions d'entropie croisĂ©e pondĂ©rĂ©e et Ă©quilibrĂ©e.

Le problĂšme de dĂ©calage d'accentuation peut ĂȘtre rĂ©Ă©crit en utilisant un seul coefficient situĂ© dans l'intervalle (0, 1). La fonction de perte rĂ©sultante ressemblera Ă  ceci:



Perte de LovĂĄsz


Il est difficile de donner une formule pour cette fonction, car c'est une option pour optimiser le coefficient Jacquard par un algorithme basé sur des erreurs triées.

Vous pouvez voir la description de la fonction ici , l'une des options de code est ici .

Explication importante!


Pour simplifier la comparaison des valeurs et des graphiques ci-aprĂšs, sous le terme "coefficient de Jacquard", nous comprendrons davantage l'unitĂ© moins le coefficient lui-mĂȘme. La perte de Jaccard est un moyen d'optimiser ce ratio, avec la perte de Tversky et la perte de LovĂĄsz.

Tùche 4. Choix des meilleurs paramÚtres pour les fonctions de perte paramétrées


Pour sĂ©lectionner la meilleure fonction de perte sur le mĂȘme ensemble de donnĂ©es, un critĂšre d'Ă©valuation est nĂ©cessaire. Dans sa qualitĂ©, nous avons choisi le nombre moyen / mĂ©dian de composants connectĂ©s sur les masques rĂ©sultants. De plus, nous avons utilisĂ© le coefficient Jacquard pour les masques prĂ©dictifs convertis en argmax monocouche et Ă  nouveau divisĂ©s en couches binarisĂ©es.

Le nombre de composants connectĂ©s (c'est-Ă -dire des taches solides de la mĂȘme couleur) sur chaque prĂ©vision obtenue est un critĂšre indirect pour Ă©valuer le volume de son affinement ultĂ©rieur par l'interprĂšte. Si cette valeur est 10, alors les couches sont sĂ©lectionnĂ©es correctement et nous parlons d'un maximum de correction d'horizon mineure. S'il n'y en a pas beaucoup plus, il vous suffit de "nettoyer" de petites zones de l'image. S'il y en a beaucoup plus, tout est mauvais et peut mĂȘme nĂ©cessiter une rĂ©organisation complĂšte.

Le coefficient Jacquard, à son tour, caractérise la coïncidence des zones d'image attribuées à une classe et leurs limites.

Entropie croisée binaire pondérée


Selon les rĂ©sultats expĂ©rimentaux, le paramĂštre bĂȘta = 2 a Ă©tĂ© sĂ©lectionnĂ©:


Figure 2. Comparaison de la qualitĂ© de la prĂ©diction du rĂ©seau et des critĂšres de la fonction de perte de cƓur


Figure 3. Statistiques du nombre de composants connectĂ©s de la part des valeurs du paramĂštre bĂȘta

Entropie croisée binaire équilibrée


Selon les résultats des expériences, la valeur du paramÚtre beta = 0,7 a été choisie:


Figure 4. Comparaison de la qualité du réseau prévisionnel par la fonction de perte principale et les critÚres sélectionnés


Figure 5. Statistiques du nombre de composants connectés

Perte Tversky


Selon les résultats des expériences, la valeur du paramÚtre beta = 0,7 a été choisie:


Figure 6. Comparaison de la qualité du réseau prévisionnel par la fonction de perte principale et des critÚres sélectionnés


Figure 7. Comparaison de la qualité du réseau prévisionnel par la fonction de perte principale et des critÚres sélectionnés

Deux conclusions peuvent ĂȘtre tirĂ©es des figures ci-dessus.

PremiÚrement, les critÚres sélectionnés sont assez bien corrélés les uns aux autres, c'est-à-dire le coefficient Jacquard est cohérent avec une estimation du volume de raffinement nécessaire. DeuxiÚmement, le comportement des fonctions de perte d'entropie croisée est assez logiquement différent du comportement des critÚres, c'est-à-dire utiliser la formation uniquement dans cette catégorie de fonctions sans évaluation supplémentaire des résultats n'en vaut toujours pas la peine.

TĂąche 5. Choisir la meilleure fonction de perte.


Comparez maintenant les rĂ©sultats qui ont montrĂ© les 6 fonctions de perte sĂ©lectionnĂ©es sur le mĂȘme ensemble de donnĂ©es. Pour ĂȘtre complet, nous avons ajoutĂ© les prĂ©dictions du rĂ©seau obtenues lors de l'expĂ©rience prĂ©cĂ©dente.


Figure 8. Réseaux de projections de comparaison formés avec différentes fonctions de perte pour les critÚres sélectionnés

Tableau 1. Valeurs moyennes des critĂšres




Figure 9. Projections de réseaux de comparaison sur le nombre de prédictions du nombre indiqué de composants connectés à

partir des diagrammes et tableaux présentés, les conclusions suivantes concernant l'utilisation de "solo" fonctions de perte:

  • Dans notre cas, les fonctions "Jacquard" de la classe Intersection over Union affichent vraiment de meilleures valeurs que celles Ă  entropie croisĂ©e. De plus, beaucoup mieux.
  • Lovazh loss.

Comparons visuellement les prévisions pour les tranches avec l'une des meilleures et l'une des pires valeurs de perte de Lovazh et le nombre de composants connectés. Le masque cible est affiché dans le coin supérieur droit, les prévisions obtenues dans l'expérience précédente dans le coin inférieur droit:


Figure 10. Prévisions de réseau pour l'une des meilleures tranches


Figure 11. Prévisions de réseau pour l'une des pires tranches

On peut voir que tous les rĂ©seaux fonctionnent aussi bien sur facilement reconnaissables tranches. Mais mĂȘme sur une tranche mal reconnaissable oĂč tous les rĂ©seaux se trompent, les prĂ©visions de perte de Lovazh sont visuellement meilleures que les prĂ©visions des autres rĂ©seaux. Bien que ce soit l'une des pires pertes pour cette fonction.

Donc, Ă  ce stade, nous avons dĂ©cidĂ© d'un leader clair - la perte de Lovazh, dont les rĂ©sultats peuvent ĂȘtre dĂ©crits comme suit:

  • environ 60% des prĂ©visions sont proches de l'idĂ©al, c'est-Ă -dire ne nĂ©cessitent pas plus que des ajustements Ă  des sections individuelles des horizons;
  • environ 30% des prĂ©visions ne contiennent pas plus de 2 spots supplĂ©mentaires, soit nĂ©cessitent des amĂ©liorations mineures;
  • environ 1% des prĂ©visions contiennent de 10 Ă  25 spots supplĂ©mentaires, soit nĂ©cessite une amĂ©lioration substantielle.

A cette étape, ne remplaçant que la fonction de perte, nous avons obtenu une amélioration significative des résultats par rapport à l'expérience précédente.

Peut-il encore ĂȘtre amĂ©liorĂ© par une combinaison de diffĂ©rentes fonctions? VĂ©rifiez-le.

TĂąche 6. Choisir la meilleure combinaison de fonction de perte


La combinaison de fonctions de perte de nature diverse est utilisée assez souvent. Cependant, trouver la meilleure combinaison n'est pas facile. Un bon exemple est le résultat d'une expérience précédente, qui s'est avérée encore pire que la fonction "solo". Le but de telles combinaisons est d'améliorer le résultat en optimisant selon différents principes.

Essayons de trier les diffĂ©rentes options de la fonction sĂ©lectionnĂ©e Ă  l'Ă©tape prĂ©cĂ©dente avec d'autres, mais pas avec toutes dans une rangĂ©e. Nous nous limitons Ă  des combinaisons de fonctions de diffĂ©rents types, dans ce cas, avec des fonctions d'entropie croisĂ©e. Cela n'a aucun sens de considĂ©rer des combinaisons de fonctions du mĂȘme type.

Au total, nous avons vérifié 3 paires avec 9 coefficients possibles chacune (de 0,1 \ 0,9 à 0,9 \ 0,1). Dans les figures ci-dessous, l'axe des x montre le coefficient avant la perte de Lovazh. Le coefficient avant la deuxiÚme fonction est égal à un moins le coefficient avant la premiÚre. La valeur de gauche n'est qu'une fonction d'entropie croisée, la valeur de droite n'est que la perte de Lovazh.


Figure 12. Évaluation des rĂ©sultats prĂ©visionnels des rĂ©seaux formĂ©s sur BCE + Lovazh


Figure 13. Évaluation des rĂ©sultats prĂ©visionnels des rĂ©seaux formĂ©s sur BCE + Lovazh


Figure 14. Évaluation des rĂ©sultats prĂ©visionnels des rĂ©seaux formĂ©s sur BBCE + Lovazh

On peut voir que la fonction «solo» sĂ©lectionnĂ©e n'a pas Ă©tĂ© amĂ©liorĂ©e par l'ajout d'entropie croisĂ©e. La rĂ©duction de certaines valeurs du coefficient Jacquard de 1 Ă  2 milliĂšmes peut ĂȘtre importante dans un environnement concurrentiel, mais ne compense pas une dĂ©tĂ©rioration de l'activitĂ© du critĂšre du nombre de composants connectĂ©s.

Pour vérifier le comportement typique d'une combinaison de fonctions de différents types, nous avons mené une série similaire de formation sur la perte de Jaccard. Pour une seule paire, les valeurs des deux critÚres ont été légÚrement améliorées simultanément:

0,8 * JaccardLoss + 0,2 * BBCE
Moyenne des composants connectés: 11,5695 -> 11,2895
Moyenne de Jaccard: 0,0307 -> 0,0283

Mais mĂȘme ces valeurs sont pires que la perte de Lovazh «solo».

Ainsi, il est logique d'étudier des combinaisons de fonctions de nature différente sur nos données uniquement dans des conditions de concurrence ou en présence de temps et de ressources libres. Il est peu probable que l'on parvienne à une augmentation significative de la qualité.

TĂąche 7. RĂ©gularisation de la meilleure fonction de perte.


À cette Ă©tape, nous avons essayĂ© d'amĂ©liorer la fonction de perte prĂ©cĂ©demment sĂ©lectionnĂ©e avec un ajout spĂ©cialement conçu pour les donnĂ©es sismiques. Il s'agit d'une rĂ©gularisation dĂ©crite dans l'article: «RĂ©seaux de neurones pour les gĂ©ophysiciens et leur application Ă  l'interprĂ©tation des donnĂ©es sismiques» .

L'article mentionne que les rĂ©gularisations standard comme la dĂ©croissance des poids sur les donnĂ©es sismiques ne fonctionnent pas bien. Au lieu de cela, une approche basĂ©e sur la norme de la matrice de gradient est proposĂ©e, qui vise Ă  lisser les frontiĂšres des classes. L'approche est logique si l'on rappelle que les limites des couches gĂ©ologiques doivent ĂȘtre lisses.

Cependant, lorsque l'on utilise une telle régularisation, il faut s'attendre à une certaine détérioration des résultats par le critÚre Jacquard, puisque les limites de classe lissées coïncideront moins probablement avec les transitions abruptes possibles obtenues avec le balisage manuel. Mais nous avons un autre critÚre de vérification - par le nombre de composants connectés.

Nous avons formé 13 réseaux avec la régularisation décrite dans l'article et le coefficient en face de lui, prenant des valeurs de 0,1 à 0,0001. Les figures ci-dessous montrent certaines des notations pour les deux critÚres.


Figure 15. Comparaison de la qualité des prévisions du réseau selon les critÚres sélectionnés


Figure 16. Statistiques du nombre de composants connectés en termes de valeurs de coefficient avant régularisation

On voit que la régularisation avec un coefficient de 0,025 a significativement réduit les statistiques du critÚre du nombre de composants connectés. Cependant, le critÚre Jacquard dans ce cas devrait augmenter à 0,0357. Il s'agit cependant d'une légÚre augmentation par rapport à une réduction du raffinement manuel.


Figure 17. Comparaison des prévisions de réseau par le nombre de prédictions avec le nombre spécifié de composants connectés

Enfin, nous comparons les limites de classe sur les masques cibles et prédits pour la pire coupe précédemment sélectionnée.


Figure 18. Prévision du réseau pour l'une des pires tranches


Figure 19. Superposition d'une partie de l'horizon du masque cible et prévision

Comme on peut le voir sur les figures, le masque de prĂ©vision, bien sĂ»r, se trompe Ă  certains endroits, mais en mĂȘme temps il lisse les oscillations des horizons cibles, c'est-Ă -dire corrige des erreurs mineures dans le balisage initial.

Résumé des caractéristiques de la fonction de perte sélectionnée avec régularisation:

  • environ 87% des prĂ©visions sont proches de l'idĂ©al, c'est-Ă -dire ne nĂ©cessitent pas plus que des ajustements Ă  des sections individuelles des horizons;
  • environ 10% des prĂ©visions contiennent 1 spot supplĂ©mentaire, soit nĂ©cessitent des amĂ©liorations mineures;
  • environ 3% des prĂ©visions contiennent de 2 Ă  5 spots supplĂ©mentaires, soit nĂ©cessitent un raffinement un peu plus substantiel.

résultats


  • Ce n'est qu'en ajustant un paramĂštre d'apprentissage - la fonction de perte - que nous avons pu amĂ©liorer considĂ©rablement la qualitĂ© des prĂ©visions du rĂ©seau et rĂ©duire le raffinement nĂ©cessaire d'environ trois fois.
  • Intersection over Union ( Lovazh loss) . -, .
  • -, . , .. .

:


  1. Reinaldo Mozart Silva, Lais Baroni, Rodrigo S. Ferreira, Daniel Civitarese, Daniela Szwarcman, Emilio Vital Brazil. Netherlands Dataset: A New Public Dataset for Machine Learning in Seismic Interpretation
  2. Lars Nieradzik. Losses for Image Segmentation
  3. Daniel Godoy. Understanding binary cross-entropy / log loss: a visual explanation
  4. Seyed Sadegh Mohseni Salehi, Deniz Erdogmus, and Ali Gholipour. Tversky loss function for image segmentation using 3D fully convolutional deep networks
  5. Maxim Berman, Amal Rannen Triki, Matthew B. Blaschko. The Lovasz-Softmax loss: A tractable surrogate for the optimization of the intersection-over-union measure in neural networks
  6. Bas Peters, Eldad Haber, and Justin Granek. Neural-networks for geophysicists and their application to seismic data interpretation

All Articles