📁 💇🏼 🙋🏾 Méthodes d'optimisation des requêtes LINQ en C # .NET 👍 👿 ⏭️

introduction

Dans cet article, nous avons discuté de certaines techniques d'optimisation des requêtes LINQ .
Voici quelques autres approches d'optimisation de code liées aux requêtes LINQ .

Il est connu que LINQ (Language-Integrated Query) est un langage simple et pratique pour interroger une source de données.

Et LINQ to SQL est une technologie d'accès aux données dans un SGBD. Il s'agit d'un outil puissant pour travailler avec des données, où les requêtes sont construites via un langage déclaratif, qui sera ensuite converti en requêtes SQL par la plateforme et envoyé au serveur de base de données déjà pour exécution. Dans notre cas, par SGBD, nous entendons MS SQL Server .

Cependant, les requêtes LINQ ne sont pas converties en requêtes SQL écrites de manière optimale qu'un DBA expérimenté pourrait écrire avec toutes les nuances de l'optimisation des requêtes SQL :

connexions optimales ( JOIN ) et filtrage des résultats ( WHERE )
de nombreuses nuances dans l'utilisation des composés et des conditions de groupe
de nombreuses variantes pour remplacer les conditions IN par EXISTS et NOT IN , <> par EXISTS
mise en cache intermédiaire des résultats via des tables temporaires, CTE, variables de table
en utilisant une clause ( OPTION ) avec des instructions et des conseils de table WITH (...)
l'utilisation de vues indexées, comme moyen de se débarrasser des lectures redondantes des données dans les échantillons

Les principaux goulots d'étranglement des performances des requêtes SQL résultantes lors de la compilation des requêtes LINQ sont les suivants:

consolidation de l'ensemble du mécanisme de sélection des données en une seule demande
duplication de blocs de code identiques, ce qui conduit finalement à de multiples lectures supplémentaires de données
groupes de conditions à plusieurs composants (logiques "et" et "ou") - ET et OU , se combinant dans des conditions difficiles, conduit au fait que l'optimiseur, ayant des index non clusterisés appropriés, par les champs nécessaires, commence finalement à balayer par l'index de cluster ( INDEX SCAN ) par groupe de conditions
imbrication profonde des sous - requêtes rend très problématique pour analyser les instructions SQL et d' analyser les plans de requêtes des développeurs et administrateurs de bases

Méthodes d'optimisation

Passons maintenant directement aux méthodes d'optimisation.

1) Indexation supplémentaire

Il est préférable de considérer les filtres sur les tables d'échantillonnage principales, car très souvent, la requête entière est construite autour d'une ou deux tables principales (applications-personnes-opérations) et avec un ensemble standard de conditions (IsClosed, Canceled, Enabled, Status). Il est important que les échantillons identifiés créent les index correspondants.

Cette solution est logique lorsque le choix dans ces champs limite considérablement l'ensemble renvoyé à la requête.

Par exemple, nous avons 500 000 applications. Cependant, il n'y a que 2 000 entrées actives. Ensuite, un index correctement sélectionné nous sauvera d' INDEX SCAN sur une grande table et nous permettra de sélectionner rapidement les données via un index non clusterisé.

Le manque d'index peut également être détecté via des invites pour l'analyse des plans de requête ou la collecte de statistiques pour les vues systèmeMS SQL Server :

Toutes les données de vue contiennent des informations sur les index manquants, à l'exception des index spatiaux.

Cependant, les index et la mise en cache sont souvent des méthodes pour gérer les effets des requêtes LINQ et SQL mal écrites .

Comme le montre la dure pratique de la vie pour l'entreprise, il est souvent important de mettre en œuvre les fonctionnalités de l'entreprise à une certaine date. Et par conséquent, les requêtes souvent lourdes sont mises en arrière-plan avec la mise en cache.

Cela est en partie justifié, car l'utilisateur n'a pas toujours besoin des dernières données et un niveau acceptable de réponse d'interface utilisateur se produit.

Cette approche vous permet de résoudre les besoins de l'entreprise, mais réduit finalement l'efficacité du système d'information, retardant simplement la résolution des problèmes.

Il convient également de se rappeler que dans le processus de recherche nécessaire pour ajouter de nouveaux index, les propositions d' optimisation MS SQL peuvent être incorrectes, y compris dans les conditions suivantes:

si des index avec un ensemble similaire de champs existent déjà
si les champs de la table ne peuvent pas être indexés en raison de restrictions d'indexation (plus d'informations à ce sujet sont décrites ici ).

2) Fusion des attributs en un nouvel attribut

Parfois, certains champs de la même table par laquelle un groupe de conditions se produit peuvent être remplacés par l'introduction d'un nouveau champ.

Cela est particulièrement vrai pour les champs d'état, qui, par type, sont généralement au niveau du bit ou de l'entier.

Exemple:

IsClosed = 0 AND Canceled = 0 AND Enabled = 0 est remplacé par Status = 1 .

Vous saisissez ici l'attribut entier Status, qui est fourni en remplissant ces statuts dans le tableau. L'étape suivante consiste à indexer ce nouvel attribut.

Il s'agit d'une solution fondamentale au problème de performances, car nous demandons des données sans calculs inutiles.

3) Matérialisation de la soumission

Malheureusement, les requêtes LINQ ne peuvent pas utiliser directement des tables temporaires, des CTE et des variables de table.

Cependant, il existe un autre moyen d'optimiser ce cas: il s'agit des vues indexées.

Un groupe de conditions (de l'exemple ci-dessus) IsClosed = 0 AND Canceled = 0 AND Enabled = 0 (ou un ensemble d'autres conditions similaires) devient une bonne option pour les utiliser dans une vue indexée, en mettant en cache une petite tranche de données à partir d'un grand ensemble.

Mais il existe un certain nombre de limitations lors de la matérialisation d'une vue:

en utilisant des sous-requêtes, les clauses EXISTS doivent être remplacées à l'aide de JOIN
Impossible d' utiliser les clauses UNION , UNION ALL , EXCEPTION , INTERSECT
vous ne pouvez pas utiliser les conseils de table et les clauses OPTION
aucune capacité à travailler avec des cycles
il est impossible d'afficher des données dans une vue à partir de différentes tables

Il est important de se rappeler que les avantages réels de l'utilisation d'une vue indexée ne peuvent être obtenus qu'en l'indexant.

Mais lors de l'appel d'une vue, ces index ne peuvent pas être utilisés et pour les utiliser explicitement, vous devez spécifier WITH (NOEXPAND) .

Puisqu'il est impossible de définir des conseils de table dans les requêtes LINQ , vous devez donc faire une autre représentation - un «wrapper» de la forme suivante:

CREATE VIEW _ AS SELECT * FROM MAT_VIEW WITH (NOEXPAND);

4) Utilisation des fonctions de table

Souvent dans les requêtes LINQ, de grands blocs de sous-requête ou des blocs qui utilisent des représentations avec une structure complexe forment la requête finale avec une structure d'exécution très complexe et non optimale.

Principaux avantages de l'utilisation des fonctions de table dans les requêtes LINQ :

La possibilité, comme dans le cas des vues, d'utiliser et de spécifier comme objet, mais vous pouvez passer un ensemble de paramètres d'entrée:
FROM FUNCTION (@ param1, @ param2 ...)
au final, vous pouvez obtenir un échantillonnage de données flexible
Lorsque vous utilisez une fonction de table, il n'y a pas de restrictions aussi strictes que dans le cas des vues indexées décrites ci-dessus:
1. :
  LINQ .
  .
  ,
2. , , :
  - ( )
  - UNION EXISTS
OPTION , OPTION(MAXDOP N), . :
- OPTION (RECOMPILE)
- , OPTION (FORCE ORDER)
OPTION .
:
( ), .
, , WHERE (a, b, c).

a = 0 and b = 0.

, c .

a = 0 and b = 0 , .

Ici, la fonction de table peut être une meilleure option.

De plus, la fonction de table est plus prévisible et constante en temps d'exécution.

Exemples

Prenons un exemple d'implémentation utilisant l'exemple de la base de données Questions.

Il existe une requête SELECT qui combine plusieurs tables et utilise une seule vue (OperativeQuestions), qui vérifie par email l'affiliation (via EXISTS ) de «Active Queries» ([OperativeQuestions]):

Demande n ° 1

(@p__linq__0 nvarchar(4000))SELECT
1 AS [C1],
[Extent1].[Id] AS [Id],
[Join2].[Object_Id] AS [Object_Id],
[Join2].[ObjectType_Id] AS [ObjectType_Id],
[Join2].[Name] AS [Name],
[Join2].[ExternalId] AS [ExternalId]
FROM [dbo].[Questions] AS [Extent1]
INNER JOIN (SELECT [Extent2].[Object_Id] AS [Object_Id],
[Extent2].[Question_Id] AS [Question_Id], [Extent3].[ExternalId] AS [ExternalId],
[Extent3].[ObjectType_Id] AS [ObjectType_Id], [Extent4].[Name] AS [Name]
FROM [dbo].[ObjectQuestions] AS [Extent2]
INNER JOIN [dbo].[Objects] AS [Extent3] ON [Extent2].[Object_Id] = [Extent3].[Id]
LEFT OUTER JOIN [dbo].[ObjectTypes] AS [Extent4] 
ON [Extent3].[ObjectType_Id] = [Extent4].[Id] ) AS [Join2] 
ON [Extent1].[Id] = [Join2].[Question_Id]
WHERE ([Extent1].[AnswerId] IS NULL) AND (0 = [Extent1].[Exp]) AND ( EXISTS (SELECT
1 AS [C1]
FROM [dbo].[OperativeQuestions] AS [Extent5]
WHERE (([Extent5].[Email] = @p__linq__0) OR (([Extent5].[Email] IS NULL) 
AND (@p__linq__0 IS NULL))) AND ([Extent5].[Id] = [Extent1].[Id])
));

La vue a une structure assez compliquée: elle a des jointures de sous-requête et l'utilisation du tri DISTINCT , qui dans le cas général est une opération plutôt gourmande en ressources.

Une sélection d'environ dix mille enregistrements d'OperativeQuestions.

Le principal problème de cette requête est que pour les enregistrements d'une requête externe, une sous-requête interne est effectuée sur la vue [OperativeQuestions], ce qui devrait limiter l'échantillon de sortie (via EXISTS ) à des centaines d'enregistrements pour [Email] = @ p__linq__0 .

Et il peut sembler que la sous-requête devrait une fois calculer les enregistrements par [Email] = @ p__linq__0, puis ces quelques centaines d'enregistrements devraient être connectés par des questions Id c, et la requête sera rapide.

En fait, toutes les tables sont connectées en série: les questions d'ID et l'ID des questions opérationnelles sont vérifiées pour la conformité et le courrier électronique est filtré.

En fait, la demande fonctionne avec les dizaines de milliers d'enregistrements d'OperativeQuestions et vous n'avez besoin que de données d'intérêt par e-mail.

Texte de la vue OperativeQuestions:

Demande n ° 2

 
CREATE VIEW [dbo].[OperativeQuestions]
AS
SELECT DISTINCT Q.Id, USR.email AS Email
FROM            [dbo].Questions AS Q INNER JOIN
                         [dbo].ProcessUserAccesses AS BPU ON BPU.ProcessId = CQ.Process_Id 
OUTER APPLY
                     (SELECT   1 AS HasNoObjects
                      WHERE   NOT EXISTS
                                    (SELECT   1
                                     FROM     [dbo].ObjectUserAccesses AS BOU
                                     WHERE   BOU.ProcessUserAccessId = BPU.[Id] AND BOU.[To] IS NULL)
) AS BO INNER JOIN
                         [dbo].Users AS USR ON USR.Id = BPU.UserId
WHERE        CQ.[Exp] = 0 AND CQ.AnswerId IS NULL AND BPU.[To] IS NULL 
AND (BO.HasNoObjects = 1 OR
              EXISTS (SELECT   1
                           FROM   [dbo].ObjectUserAccesses AS BOU INNER JOIN
                                      [dbo].ObjectQuestions AS QBO 
                                                  ON QBO.[Object_Id] =BOU.ObjectId
                               WHERE  BOU.ProcessUserAccessId = BPU.Id 
                               AND BOU.[To] IS NULL AND QBO.Question_Id = CQ.Id));

Représentation cartographique originale dans DbContext (EF Core 2)

public class QuestionsDbContext : DbContext
{
    //...
    public DbQuery<OperativeQuestion> OperativeQuestions { get; set; }
    //...
    protected override void OnModelCreating(ModelBuilder modelBuilder)
    {
        modelBuilder.Query<OperativeQuestion>().ToView("OperativeQuestions");
    }
}

Requête LINQ d'origine

var businessObjectsData = await context
    .OperativeQuestions
    .Where(x => x.Email == Email)
    .Include(x => x.Question)
    .Select(x => x.Question)
    .SelectMany(x => x.ObjectQuestions,
                (x, bo) => new
                {
                    Id = x.Id,
                    ObjectId = bo.Object.Id,
                    ObjectTypeId = bo.Object.ObjectType.Id,
                    ObjectTypeName = bo.Object.ObjectType.Name,
                    ObjectExternalId = bo.Object.ExternalId
                })
    .ToListAsync();

Dans ce cas particulier, une solution à ce problème est envisagée sans changements d'infrastructure, sans introduire un tableau séparé avec des résultats prêts à l'emploi («Active Queries»), pour lesquels un mécanisme serait nécessaire pour remplir ses données et les tenir à jour.

Bien qu'il s'agisse d'une bonne solution, il existe une autre option pour optimiser cette tâche.

L'objectif principal est de mettre en cache les entrées par [Email] = @ p__linq__0 à partir de la vue OperativeQuestions.

Nous entrons la fonction de table [dbo]. [OperativeQuestionsUserMail] dans la base de données.

En envoyant un e-mail comme paramètre d'entrée, nous récupérons la table des valeurs:

Demande n ° 3


CREATE FUNCTION [dbo].[OperativeQuestionsUserMail]
(
    @Email  nvarchar(4000)
)
RETURNS
@tbl TABLE
(
    [Id]           uniqueidentifier,
    [Email]      nvarchar(4000)
)
AS
BEGIN
        INSERT INTO @tbl ([Id], [Email])
        SELECT Id, @Email
        FROM [OperativeQuestions]  AS [x] WHERE [x].[Email] = @Email;
     
    RETURN;
END

Cela renvoie une table de valeurs avec une structure de données prédéfinie.

Pour que les requêtes vers OperativeQuestionsUserMail soient optimales, pour avoir des plans de requête optimaux, une structure stricte est requise, et non RETURNS TABLE AS RETURN ...

Dans ce cas, la demande 1 souhaitée est convertie en demande 4:

Demande n ° 4

(@p__linq__0 nvarchar(4000))SELECT
1 AS [C1],
[Extent1].[Id] AS [Id],
[Join2].[Object_Id] AS [Object_Id],
[Join2].[ObjectType_Id] AS [ObjectType_Id],
[Join2].[Name] AS [Name],
[Join2].[ExternalId] AS [ExternalId]
FROM (
    SELECT Id, Email FROM [dbo].[OperativeQuestionsUserMail] (@p__linq__0)
) AS [Extent0]
INNER JOIN [dbo].[Questions] AS [Extent1] ON([Extent0].Id=[Extent1].Id)
INNER JOIN (SELECT [Extent2].[Object_Id] AS [Object_Id], [Extent2].[Question_Id] AS [Question_Id], [Extent3].[ExternalId] AS [ExternalId], [Extent3].[ObjectType_Id] AS [ObjectType_Id], [Extent4].[Name] AS [Name]
FROM [dbo].[ObjectQuestions] AS [Extent2]
INNER JOIN [dbo].[Objects] AS [Extent3] ON [Extent2].[Object_Id] = [Extent3].[Id]
LEFT OUTER JOIN [dbo].[ObjectTypes] AS [Extent4] 
ON [Extent3].[ObjectType_Id] = [Extent4].[Id] ) AS [Join2] 
ON [Extent1].[Id] = [Join2].[Question_Id]
WHERE ([Extent1].[AnswerId] IS NULL) AND (0 = [Extent1].[Exp]);

Mappage des vues et des fonctions dans DbContext (EF Core 2)

public class QuestionsDbContext : DbContext
{
    //...
    public DbQuery<OperativeQuestion> OperativeQuestions { get; set; }
    //...
    protected override void OnModelCreating(ModelBuilder modelBuilder)
    {
        modelBuilder.Query<OperativeQuestion>().ToView("OperativeQuestions");
    }
}
 
public static class FromSqlQueries
{
    public static IQueryable<OperativeQuestion> GetByUserEmail(this DbQuery<OperativeQuestion> source, string Email)
        => source.FromSql($"SELECT Id, Email FROM [dbo].[OperativeQuestionsUserMail] ({Email})");
}

Requête LINQ finale

var businessObjectsData = await context
    .OperativeQuestions
    .GetByUserEmail(Email)
    .Include(x => x.Question)
    .Select(x => x.Question)
    .SelectMany(x => x.ObjectQuestions,
                (x, bo) => new
                {
                    Id = x.Id,
                    ObjectId = bo.Object.Id,
                    ObjectTypeId = bo.Object.ObjectType.Id,
                    ObjectTypeName = bo.Object.ObjectType.Name,
                    ObjectExternalId = bo.Object.ExternalId
                })
    .ToListAsync();

L'ordre du temps d'exécution est passé de 200 à 800 ms à 2 à 20 ms, etc., c'est-à-dire dix fois plus vite.

Si nous prenons plus de moyenne, alors au lieu de 350 ms, nous avons obtenu 8 ms.

Des avantages évidents, nous obtenons également:

réduction générale de la charge de lecture,
réduction significative de la probabilité de blocage
réduction du temps de blocage moyen à des valeurs acceptables

Conclusion

L'optimisation et le réglage fin des appels à la base de données MS SQL via LINQ est un problème qui peut être résolu.

Dans ce travail, le soin et la cohérence sont très importants.

Au début du processus:

il est nécessaire de vérifier les données avec lesquelles la requête fonctionne (valeurs, types de données sélectionnés)
indexer correctement ces données
vérifier l'exactitude des conditions de connexion entre les tables

À la prochaine itération, l'optimisation révèle:

la base de la demande et le filtre principal de la demande sont déterminés
répétition de blocs de requête similaires et de conditions croisées
dans le SSMS ou une autre interface graphique pour SQL Server , la requête SQL elle-même est optimisée (allocation d'un magasin de données intermédiaire, construction de la requête résultante à l'aide de ce magasin (il peut y en avoir plusieurs))
à la dernière étape, en prenant comme base la requête SQL résultante , la structure de requête LINQ est reconstruite

Par conséquent, la requête LINQ résultante devrait devenir de structure identique à la requête SQL optimale identifiée à partir du paragraphe 3.

Remerciements

Un grand merci à mes collègues jobgemws et alex_ozrde Fortis pour avoir aidé avec cet article.

Méthodes d'optimisation des requêtes LINQ en C # .NET