El desarrollo de DATA VAULT y la transición a BUSINESS DATA VAULT

En un artículo anterior, hablé sobre los conceptos básicos de DATA VAULT, describí los elementos básicos de DATA VAULT y su propósito. Este no puede considerarse el tema de DATA VAULT agotado, es necesario hablar sobre las próximas etapas de la evolución de DATA VAULT.

Y en este artículo me concentraré en el desarrollo de DATA VAULT y la transición a BUSINESS DATA VAULT o simplemente BUSINESS VAULT.

Razones para la aparición de BUSINESS DATA VAULT


Cabe señalar que DATA VAULT que tiene ciertas fortalezas no está exento de inconvenientes. Uno de estos inconvenientes es la dificultad para escribir consultas analíticas. Las solicitudes tienen un número significativo de UNIONES, el código es largo y engorroso. Además, los datos que caen en DATA VAULT no están sujetos a ninguna conversión, por lo tanto, desde el punto de vista comercial, DATA VAULT en su forma pura no tiene un valor incondicional.

Para eliminar estas deficiencias, la metodología DATA VAULT se ha ampliado mediante elementos tales como:

  • Tablas PIT (punto en el tiempo);
  • PUENTE mesas;
  • Derivaciones predefinidas.

Echemos un vistazo más de cerca al propósito de estos elementos.

Mesas de boxes


Como regla general, un objeto comercial (HUB) puede incluir datos con diferentes tasas de actualización, por ejemplo, si estamos hablando de datos que caracterizan a una persona, podemos decir que la información sobre un número de teléfono, dirección o correo electrónico tiene una tasa de actualización más alta que digamos, nombre, detalles del pasaporte, estado civil o sexo.

Por lo tanto, al determinar los satélites, debe tenerse en cuenta la frecuencia de sus actualizaciones. ¿Por qué es importante?

Si almacena atributos con diferentes frecuencias de actualización en una tabla, deberá agregar una fila a la tabla cada vez que actualice el atributo que se cambia con más frecuencia. Como consecuencia, un aumento en el espacio en disco, un aumento en el tiempo de ejecución de la consulta.

Ahora que hemos dividido los satélites de acuerdo con la frecuencia de actualización, y podemos cargarles datos de forma independiente, debería ser posible obtener datos relevantes. Mejor sin usar uniones innecesarias.

Explicaré, por ejemplo, que se requiere obtener información actualizada (para la fecha de la última actualización) de los satélites que tienen diferentes frecuencias de actualización. Para hacer esto, necesita no solo hacer una UNIÓN, sino también crear varias subconsultas (para cada satélite que contiene información) con una elección de la fecha máxima de actualización MAX (Fecha de actualización). Con cada nuevo JOIN, dicho código crece y muy rápidamente se vuelve difícil de entender.

La tabla PIT está diseñada para simplificar tales consultas; las tablas PIT se completan al mismo tiempo que se escriben nuevos datos en DATA VAULT. Tabla PIT:

imagen

Por lo tanto, tenemos información sobre la relevancia de los datos en todos los satélites en cada momento en el tiempo. Al usar JOIN para la tabla PIT, podemos excluir completamente las consultas anidadas, naturalmente con la condición de que el PIT se complete todos los días y sin espacios. Incluso si hay lagunas en el PIT, los datos reales solo se pueden obtener mediante una solicitud secundaria al PIT. Una subconsulta funcionará más rápido que las subconsultas para cada satélite.

PUENTE


Las tablas BRIDGE también se usan para simplificar las consultas analíticas. Sin embargo, la diferencia con PIT es un medio para simplificar y acelerar las solicitudes entre diferentes hubs, enlaces y sus satélites.

La tabla contiene todas las claves necesarias para todos los satélites que a menudo se usan en consultas. Además, si es necesario, las claves comerciales hash se pueden complementar con claves en forma de texto si se necesitan nombres clave para el análisis.

El hecho es que sin utilizar BRIDGE, en el proceso de obtención de datos ubicados en satélites pertenecientes a diferentes centros, será necesario producir uniones no solo de los satélites en sí, sino también enlaces de centros de conexión.

La presencia o ausencia de BRIDGE está determinada por la configuración de almacenamiento, la necesidad de optimizar la velocidad de ejecución de la consulta. Es difícil encontrar un ejemplo universal de BRIGE.

DERIVACIONES PREFINADAS


Otro tipo de objetos que nos acerca a BUSINESS DATA VAULT son las tablas que contienen indicadores precalculados. Estas tablas son realmente importantes para los negocios; contienen información agregada de acuerdo con las reglas dadas y hacen que sea relativamente fácil acceder a ella.

Arquitectónicamente, las derivaciones predefinidas no son más que otro satélite de un determinado centro. Es, como un satélite normal, contiene una clave comercial y la fecha en que se formó el registro en el satélite. En esto, sin embargo, las similitudes terminan. Los usuarios comerciales determinan la composición adicional de los atributos de dicho satélite "especializado" en función de los indicadores precalculados más populares.

Por ejemplo, un centro que contiene información sobre un empleado puede incluir un satélite con indicadores como:

  • Salario mínimo;
  • Salario máximo;
  • Salario promedio;
  • Total acumulado de salarios acumulados, etc.

Es lógico incluir DERIVACIONES PREFERIDAS en la tabla PIT del mismo centro, luego puede obtener fácilmente porciones de datos de empleados para una fecha específica.

RECOMENDACIONES


Como muestra la práctica, el uso de DATA VAULT por parte de los usuarios comerciales es algo difícil por varias razones:

  • El código de solicitud es complejo y engorroso;
  • La abundancia de JOIN afecta el rendimiento de la consulta;
  • Escribir consultas analíticas requiere un conocimiento sobresaliente de la estructura del repositorio.

Para simplificar el acceso a los datos, DATA VAULT se extiende con objetos adicionales:

  • Tablas PIT (punto en el tiempo);
  • PUENTE mesas;
  • Derivaciones predefinidas.

En el próximo artículo, planeo contar, en mi opinión, lo más interesante para quienes trabajan con BI. Presentaré formas de crear tablas - hechos y tablas - mediciones basadas en DATA VAULT.

Los materiales del artículo están basados:

  • Sobre la publicación de Kent Graziano, que además de una descripción detallada contiene diagramas del modelo;
  • Libro: "Creación de un almacén de datos escalable con DATA VAULT 2.0";
  • Artículo de Fundamentos de Data Vault .

All Articles