💇🏻 🥌 🚯 La vérité tout d'abord, ou pourquoi le système doit être conçu en fonction du périphérique de base de données 🥕 🔣 🥌

Bonjour, Habr!

Nous continuons d'explorer le sujet de Java et Spring , y compris au niveau de la base de données. Aujourd'hui, nous vous proposons de comprendre pourquoi, lors de la conception de grandes applications, c'est la structure de la base de données, et non le code Java, qui devrait avoir une importance décisive sur la façon dont cela est fait, et sur les exceptions à cette règle.

Dans cet article plutôt tardif, j'expliquerai pourquoi je pense que dans presque tous les cas, le modèle de données dans l'application doit être conçu "sur la base de la base de données", et non "sur la base des capacités de Java" (ou d'un autre langage client avec lequel vous travaillez). En choisissant la deuxième approche, vous vous lancez dans un long voyage de douleur et de souffrance dès que votre projet commence à grandir.

Cet article est basé sur une question posée sur Stack Overflow.

Discussions intéressantes sur reddit dans les sections / r / java et / r / programmation .

Génération de code

Combien je suis surpris qu'il y ait une si petite couche d'utilisateurs qui, après avoir fait connaissance avec jOOQ, sont scandalisés par le fait que lorsqu'ils travaillent jOOQ s'appuie sérieusement sur la génération de code source. Personne ne vous dérange pour utiliser jOOQ comme bon vous semble et ne vous oblige pas à utiliser la génération de code. Mais par défaut (comme décrit dans le manuel), travailler avec jOOQ se passe comme suit: vous commencez avec le schéma de base de données (hérité), vous le rétro-concevez avec le générateur de code jOOQ, de sorte que vous obtenez un ensemble de classes représentant vos tables, puis écrire des requêtes de type sécurisé dans ces tables:

	for (Record2<String, String> record : DSL.using(configuration)
//   ^^^^^^^^^^^^^^^^^^^^^^^      
//     ,    
//   SELECT 
 
       .select(ACTOR.FIRST_NAME, ACTOR.LAST_NAME)
//           vvvvv ^^^^^^^^^^^^  ^^^^^^^^^^^^^^^  
       .from(ACTOR)
       .orderBy(1, 2)) {
    // ...
}

Le code est généré soit manuellement en dehors de l'assembly, soit manuellement avec chaque assembly. Par exemple, une telle régénération peut suivre immédiatement après la migration de la base de données Flyway, qui peut également être effectuée manuellement ou automatiquement .

Génération de code source

Diverses philosophies, avantages et inconvénients sont associés à de telles approches de génération de code - manuelle et automatique - dont je ne vais pas discuter en détail dans cet article. Mais, en général, tout l'intérêt du code généré est qu'il nous permet de reproduire en Java cette «vérité» que nous tenons pour acquise, que ce soit à l'intérieur ou à l'extérieur de notre système. Dans un sens, les compilateurs qui génèrent du bytecode, du code machine ou un autre type de code basé sur la source font la même chose - nous obtenons une représentation de notre «vérité» dans une autre langue, indépendamment de raisons spécifiques.

Il existe de nombreux générateurs de code de ce type. Par exemple, XJC peut générer du code Java basé sur des fichiers XSD ou WSDL . Le principe est toujours le même:

Il y a une certaine vérité (interne ou externe) - par exemple, la spécification, le modèle de données, etc.
Nous avons besoin d'une représentation locale de cette vérité dans notre langage de programmation.

De plus, générer une telle représentation est presque toujours conseillé - pour éviter les redondances.

Fournisseurs de types et traitement des annotations

Remarque: une autre approche plus moderne et spécifique de la génération de code pour jOOQ est associée à l'utilisation de fournisseurs de types, sous la forme dans laquelle ils sont implémentés en F # . Dans ce cas, le code est généré par le compilateur, en fait au stade de la compilation. Sous forme de sources, un tel code, en principe, n'existe pas. Il existe des outils similaires, quoique moins élégants, en Java - ce sont des processeurs d'annotation tels que Lombok .

Dans un certain sens, les mêmes choses se produisent ici que dans le premier cas, à l'exception de:

Vous ne voyez pas le code généré (peut-être que cette situation semble à quelqu'un pas si répugnante?)
, , , «» . Lombok, “”. , .

?

En plus de la question délicate de savoir comment il est préférable de démarrer la génération de code - manuellement ou automatiquement, il est nécessaire de mentionner qu'il y a des gens qui pensent que la génération de code n'est pas du tout nécessaire. La justification de ce point de vue, que j'ai rencontré le plus souvent, est qu'il est alors difficile de configurer le pipeline d'assemblage. Oui, vraiment dur. Il y a des coûts d'infrastructure supplémentaires. Si vous commencez tout juste à travailler avec un certain produit (que ce soit jOOQ, ou JAXB, ou Hibernate, etc.), il faut du temps pour configurer l'environnement de travail que vous souhaitez consacrer à l'apprentissage de l'API lui-même, puis en extraire de la valeur.

Si les coûts associés à la compréhension du dispositif générateur sont trop importants, alors, en effet, l'API a fait un peu de travail sur l'utilisabilité du générateur de code (et à l'avenir, il s'avère que la configuration utilisateur est compliquée). La facilité d'utilisation devrait être la priorité la plus élevée pour une telle API. Mais ce n'est qu'un argument contre la génération de code. Pour le reste, il est complètement entièrement manuel d'écrire une représentation locale de la vérité interne ou externe.

Beaucoup diront qu’ils n’ont pas le temps de faire tout cela. Ils ont des délais pour leur super produit. Un peu plus tard, nous peignerons les convoyeurs d'assemblage, ce sera dans le temps. Je vais y répondre:

Original , Alan O'Rourke, Audience Stack

Mais dans Hibernate / JPA, il est si simple d'écrire du code «pour Java».

Vraiment. Pour Hibernate et ses utilisateurs, c'est à la fois une bénédiction et une malédiction. Dans Hibernate, vous pouvez simplement écrire quelques entités, comme ceci:

	@Entity
class Book {
  @Id
  int id;
  String title;
}

Et presque tout est prêt. Désormais, le destin d'Hibernate est de générer des «détails» complexes sur la façon dont cette entité sera définie sur la DDL de votre «dialecte» SQL:

	CREATE TABLE book (
  id INTEGER PRIMARY KEY GENERATED ALWAYS AS IDENTITY,
  title VARCHAR(50),
 
  CONSTRAINT pk_book PRIMARY KEY (id)
);
 
CREATE INDEX i_book_title ON book (title);

... et nous commençons à piloter l'application. Une opportunité vraiment cool de commencer rapidement et d'essayer différentes choses.

Cependant, permettez. Je trompais.

Hibernate applique-t-il vraiment la définition de cette clé primaire nommée?
Hibernate créera-t-il un index dans TITLE? "Je sais avec certitude que nous aurons besoin de lui."
Hibernate rend-il exactement cette clé identifiable dans la spécification d'identité?

Probablement pas. Si vous développez votre projet à partir de zéro, il est toujours pratique de simplement supprimer l'ancienne base de données et d'en générer une nouvelle dès que vous ajoutez les annotations nécessaires. Ainsi, l'entité Livre prendra finalement la forme:

	@Entity
@Table(name = "book", indexes = {
  @Index(name = "i_book_title", columnList = "title")
})
class Book {
  @Id
  @GeneratedValue(strategy = IDENTITY)
  int id;
  String title;
}

Cool. Régénérer. Encore une fois, dans ce cas, au début, ce sera très facile.

Mais alors il faut payer pour ça

Tôt ou tard, vous devez entrer en production. À ce moment-là, un tel modèle cessera de fonctionner. Parce que:

En production, il ne sera plus possible, si nécessaire, de supprimer l'ancienne base de données et de tout recommencer à zéro. Votre base de données deviendra une ancienne.

À partir de maintenant, vous devrez écrire des scripts de migration DDL, par exemple, en utilisant Flyway . Et qu'advient-il alors de vos entités? Vous pouvez soit les adapter manuellement (et ainsi doubler votre charge de travail), soit commander à Hibernate de les régénérer pour vous (quelles sont les chances que celle générée de cette manière réponde à vos attentes?) Vous perdez quand même.

Ainsi, dès que vous entrerez en production, vous aurez besoin de correctifs à chaud. Et ils doivent être mis en production très rapidement. Comme vous n'avez pas préparé et organisé un convoyeur fluide de vos migrations pour la production, vous corrigez tout de manière extravagante. Et puis vous n’avez pas le temps de tout faire correctement. Et réprimander Hibernate, parce que tout le monde est toujours à blâmer, mais pas vous ...

Au lieu de cela, dès le début, tout pourrait être fait d'une manière complètement différente. Par exemple, placez des roues rondes sur un vélo.

Base de données d'abord

La véritable «vérité» dans le schéma de votre base de données et la «souveraineté» sur elle réside à l'intérieur de la base de données. Un schéma n'est défini que dans la base de données elle-même et nulle part ailleurs, et chaque client a une copie de ce schéma, il est donc tout à fait conseillé d'imposer la conformité avec le schéma et son intégrité, de le faire directement dans la base de données - où les informations sont stockées.
C'est même une vieille sagesse usée. Les clés primaires et uniques sont bonnes. Les clés étrangères sont bonnes. Vérifier les restrictions est une bonne chose. Les déclarations sont bonnes.

De plus, ce n'est pas tout. Par exemple, en utilisant Oracle, vous souhaiterez probablement spécifier:

Dans quel espace de table se trouve votre table?
Quelle est sa valeur PCTFREE?
Quelle est la taille du cache dans votre séquence (derrière l'identifiant)

Peut-être que tout cela n'est pas important dans les petits systèmes, mais il n'est pas nécessaire d'attendre la transition vers le domaine des «mégadonnées» - il est possible et bien plus tôt de commencer à bénéficier des optimisations de stockage fournies par le fournisseur, telles que celles mentionnées ci-dessus. Aucun des ORM que j'ai vus (y compris jOOQ) ne donne accès à l'ensemble complet des options DDL que vous voudrez peut-être utiliser dans votre base de données. Les ORM offrent quelques outils qui aident à écrire DDL.

Mais au final, un circuit bien conçu est écrit manuellement en DDL. Tout DDL généré n'est qu'une approximation de celui-ci.

Et le modèle client?

Comme mentionné ci-dessus, sur le client, vous aurez besoin d'une copie de votre schéma de base de données, la vue client. Il va sans dire que cette vue client doit être synchronisée avec le modèle réel. Quelle est la meilleure façon d'y parvenir? Utilisation d'un générateur de code.

Toutes les bases de données fournissent leurs méta-informations via SQL. Voici comment obtenir toutes les tables dans différents dialectes SQL à partir de votre base de données:

	-- H2, HSQLDB, MySQL, PostgreSQL, SQL Server
SELECT table_schema, table_name
FROM information_schema.tables
 
-- DB2
SELECT tabschema, tabname
FROM syscat.tables
 
-- Oracle
SELECT owner, table_name
FROM all_tables
 
-- SQLite
SELECT name
FROM sqlite_master
 
-- Teradata
SELECT databasename, tablename
FROM dbc.tables

Ces requêtes (ou similaires, selon que vous devez également prendre en compte les représentations, les représentations matérialisées, les fonctions avec une valeur de table) sont également effectuées à l'aide d'un appel DatabaseMetaData.getTables()de JDBC ou à l'aide du méta-module jOOQ.

À partir des résultats de ces requêtes, il est relativement facile de générer une vue client de votre modèle de base de données, quelle que soit la technologie utilisée sur votre client.

Si vous utilisez JDBC ou Spring, vous pouvez créer un ensemble de constantes de chaîne
Si vous utilisez JPA, vous pouvez générer des entités elles-mêmes
Si vous utilisez jOOQ, vous pouvez générer le méta-modèle jOOQ

Selon le nombre de fonctionnalités offertes par votre API client (par exemple jOOQ ou JPA), le méta-modèle généré peut être vraiment riche et complet. Prenons, par exemple , la possibilité de jointures implicites apparues dans jOOQ 3.11 , qui s'appuie sur les méta-informations générées sur les relations des clés étrangères entre vos tables.

Désormais, tout incrément de la base de données entraînera automatiquement la mise à jour du code client. Imaginez par exemple:

ALTER TABLE book RENAME COLUMN title TO book_title;

Aimeriez-vous vraiment faire ce travail deux fois? Dans aucun cas. Corrigez simplement le DDL, exécutez-le dans votre pipeline d'assemblage et obtenez l'entité mise à jour:

@Entity
@Table(name = "book", indexes = {
 
  //    ?
  @Index(name = "i_book_title", columnList = "book_title")
})
class Book {
  @Id
  @GeneratedValue(strategy = IDENTITY)
  int id;
 
  @Column("book_title")
  String bookTitle;
}

Ou une classe jOOQ mise à jour. La plupart des modifications DDL affectent également la sémantique, pas seulement la syntaxe. Par conséquent, il peut être pratique de voir dans le code compilé quel code sera (ou peut être) affecté par l'incrémentation de votre base de données.

La seule vérité

Quelle que soit la technologie que vous utilisez, il existe toujours un modèle qui est la seule source de vérité pour certains sous-systèmes - ou, du moins, nous devrions nous efforcer de le faire et éviter une telle confusion d'entreprise, où la «vérité» est partout et nulle part. Tout peut être beaucoup plus simple. Si vous échangez simplement des fichiers XML avec un autre système, utilisez simplement XSD. Regardez le méta-modèle INFORMATION_SCHEMA de jOOQ sous forme XML:
https://www.jooq.org/xsd/jooq-meta-3.10.0.xsd

XSD est bien compris
XSD XML
XSD
XSD Java XJC

Le dernier point est important. Lorsque nous communiquons avec un système externe à l'aide de messages XML, nous voulons être sûrs de la validité de nos messages. Ceci est très facile à réaliser avec JAXB, XJC et XSD. Il serait complètement insensé de s'attendre à ce que, lorsque nous approchons de la conception de «Java d'abord», où nous faisons nos messages sous forme d'objets Java, ils puissent en quelque sorte être clairement affichés en XML et envoyés pour consommation à un autre système. Le XML généré de cette manière serait de très mauvaise qualité, non documenté, et serait difficile à développer. S'il y avait un accord sur le niveau de qualité de service (SLA) sur une telle interface, nous le ruinerions immédiatement.

Honnêtement, c'est exactement ce qui se passe tout le temps de l'API à JSON, mais c'est une autre histoire, je le jure la prochaine fois ...

Bases de données: c'est la même chose

Lorsque vous travaillez avec des bases de données, vous comprenez qu'elles sont, en principe, similaires. La base est propriétaire de ses données et doit gérer le schéma. Toutes les modifications apportées au circuit doivent être implémentées directement sur DDL afin de mettre à jour une seule source de vérité.

Lorsqu'une mise à jour source a eu lieu, tous les clients doivent également mettre à jour leurs copies du modèle. Certains clients peuvent être écrits en Java en utilisant jOOQ et Hibernate ou JDBC (ou tous en même temps). D'autres clients peuvent être écrits en Perl (il reste à leur souhaiter bonne chance), et d'autres en C #. Ce n'est pas important. Le modèle principal est dans la base de données. Les modèles générés à l'aide d'ORM, généralement de mauvaise qualité, sont mal documentés et difficiles à développer.

Par conséquent, ne vous trompez pas. Ne faites aucune erreur dès le départ. Travaillez à partir d'une base de données. Créez un pipeline de déploiement qui peut être automatisé. Activez les générateurs de code pour faciliter la copie de votre modèle de base de données et le vider sur les clients. Et arrêtez de vous soucier des générateurs de code. Ils sont bons. Avec eux, vous deviendrez plus productif. Il vous suffit de passer un peu de temps dès le début pour les configurer - et vous aurez alors des années de productivité accrue qui constitueront l'historique de votre projet.

D'ici là, merci.

Explication

Pour plus de clarté: cet article ne préconise en aucun cas que, selon le modèle de votre base de données, vous devez plier l'ensemble du système (c'est-à-dire le domaine, la logique métier, etc., etc.). Dans cet article, je dis que le code client qui interagit avec la base de données doit agir sur la base du modèle de base de données afin qu'il ne reproduise pas le modèle de base de données dans l'état "première classe". Cette logique est généralement située au niveau de l'accès aux données sur votre client.

Dans les architectures à deux niveaux, qui sont encore préservées à certains endroits, un tel modèle de système peut être le seul possible. Cependant, dans la plupart des systèmes, le niveau d'accès aux données me semble être un "sous-système" encapsulant un modèle de base de données.

Exceptions

Il existe des exceptions à toute règle, et j'ai déjà dit qu'une approche avec la primauté de la base de données et la génération de code source peut parfois être inappropriée. Voici quelques exceptions (il y en a probablement d'autres):

Lorsque le circuit est inconnu et qu'il doit être ouvert. Par exemple, vous êtes un fournisseur d'un outil pour aider les utilisateurs à naviguer dans n'importe quel schéma. phew Il n'y a pas de génération de code. Mais encore - la base de données est avant tout.
Quand un circuit doit être généré à la volée pour résoudre un certain problème. Cet exemple semble être une version légèrement fantaisiste du modèle de valeur d'attribut d'entité , c'est-à-dire que vous n'avez vraiment pas de schéma bien défini. Dans ce cas, il est souvent impossible d’être certain que le SGBDR vous convient.

Les exceptions sont intrinsèquement exceptionnelles. Dans la plupart des cas impliquant l'utilisation d'un SGBDR, le schéma est connu à l'avance, il est situé à l'intérieur du SGBDR et est la seule source de «vérité», et tous les clients doivent acquérir des copies qui en sont dérivées. Idéalement, vous devez utiliser un générateur de code.

La vérité tout d'abord, ou pourquoi le système doit être conçu en fonction du périphérique de base de données