Saindo do inferno das dependências no QlikView

Keanu-1


TL; DR;


Este artigo descreve como o Apache Airflow foi implementado para gerenciar tarefas de atualização de relatórios criadas no QlikView em uma implementação bastante grande.


O inferno das dependências (o inferno inglês das dependências) é o antipadrão do gerenciamento de configurações, a expansão do gráfico de dependências mútuas de produtos e bibliotecas de software, o que leva à dificuldade de instalar novos e desinstalar produtos antigos.

Wikipedia


, 2018 , BIA-Technologies.


QlikView " ".


Qlik QlikSense, QlikView, 12.4, .


, , .



QlikView "" (application) — , "QVW" ( ), , , .


QlikView

Modelo QV


Script QV


Interface QV


, .


-- , , - QV. . , , . , "", ETL- , .


QV QVW , : , , . .


, , QVD. QlikView , , .


, ETL- , , QVD, , .


Qlik , , , (), - . QlikView QVD- . , QlikView, , , , .
, Qlik — NPrinting, , , , , SSRS, , QlikView, .


, QlikView:


  • , , QlikView Server (QVS). .QVW .
  • QlikView Distribution Service (QDS). Publisher , Reload Engine, QlikView, : , QVS, " ", , , , . , , , QlikView, , .
  • , QlikView Management Service (QMS) — .
  • , , - —

Qlik

Arquitetura QV



, MS SQL, ETL QlikView .


( ) , .QVW , . , . , , , QVD.


:


  • , , .
  • , - , 8-9 , . , , - , - 4 , , .

QMS , , , . , ( Reload Engine, . Publisher , rusbaron , ).


QMS :


SGQ


, , .


, QMS . (, ).


, , , .


, .
, .


  • , .


    , , , ( ), , , - , ..


    , .


    - , , , . , , .


    , , ETL-, , , . , , , ETL- .


  • .


    , — , , ,- — , .


    - , , .



  • , . - , -. .



  • , . , , , . , , , . , , — .


    , QDS . , - .



  • , . : , .


    ? . . ? .



, QlikView , , , .


, , , QlikView, . , , Hadoop ETL- .



QlikView , . , , .


QlikView : QMS QlikView Management Service API, . EDX (Event Driven Execution). , , QMS .


, " ", , , , , NPrinting.


, , — (Workflow management systems). , Apache Airflow.


Airflow — , . , , :


Interface de fluxo de ar



— , -.


Airflow , , Airflow QMS, Airflow — , , . , , : -> Airflow — QlikView.


API QMS . , .


Airflow — , . , , , , .


Airflow . , (, , ), QlikView, , , .


Airflow . , , - . , , : , . , , , , , , .


Airflow (DAG — directed acyclic graph), , — .


, "Application 7" "ETL_4" "ETL_5". "ETL_3" "TimeSensor_6_30" — , 6:30.
DAG


Python.


tasksDict = {
    u'ETL_1.qvw': {},

    u'ETL_2.qvw': {
        'Pool': 'Heavy_ETL_pool',
    },

    u'ETL_3.qvw': {
        'StartTime': [6, 30]},

    u'ETL_4.qvw': {
        'Priority': -5,
        'Dep': [
            u'ETL_1.qvw',
            u'ETL_3.qvw', ]},

    u'ETL_5.qvw': {
        'Dep': [
            u'ETL_2.qvw', ]},

    u'Application_6.qvw': {
        'Dep': [
            u'ETL_1.qvw',
            u'ETL_5.qvw', ]},

    u'Application_7.qvw': {
        'Dep': [
            u'ETL_4.qvw',
            u'ETL_5.qvw',
        ]},
}

Airflow Python, , , . QlikView . , ( , , ) DAG. , , DAG .


: (5 ), (1 ) (100 ). . Airflow — — , , , , , , , , .



, DAG,
from datetime import datetime, timedelta
from airflow import DAG
from airflow.sensors.time_delta_sensor import TimeDeltaSensor
from airflow.contrib.operators.qds_operator import QDSReloadApplicationOperator

default_args = {
    'owner': 'airflow',
    'depends_on_past': False,
    'start_date': datetime(2018, 1, 19),
    'email': ['Airflow.Administrator@mycompany.ru'],
    'email_on_failure': True,
    'email_on_retry': False,
    'retries': 0,
    'retry_delay': timedelta(minutes=5),
    'pool': 'default_pool',
}

dag = DAG('example_qds_operator',
          description='Reload applications at QlikView Distribution Service',
          catchup=False,
          schedule_interval='0 21 * * 5',
          default_args=default_args)

tasksDict = {
    u'ETL_1.qvw': {},

    u'ETL_2.qvw': {
        'Pool': 'Heavy_ETL_pool',
    },

    u'ETL_3.qvw': {
        'StartTime': [6, 30]},

    u'ETL_4.qvw': {
        'Priority': -5,
        'Dep': [
            u'ETL_1.qvw',
            u'ETL_3.qvw', ]},

    u'ETL_5.qvw': {
        'Dep': [
            u'ETL_2.qvw', ]},

    u'Application_6.qvw': {
        'Dep': [
            u'ETL_1.qvw',
            u'ETL_5.qvw', ]},

    u'Application_7.qvw': {
        'Dep': [
            u'ETL_4.qvw',
            u'ETL_5.qvw',
        ]},
}

airflowTasksDict = {}

for task in tasksDict.keys():
    task_id = task.replace(" ", "_").replace("'", "").replace("/", "_").replace("(", "_").replace(")", "_").replace(",", "_").replace(".qvw", "").replace("__",
                                                                                                                                                          "_")
    AirflowTask = QDSReloadApplicationOperator(document_name=task, task_id=task_id, qv_conn_id='qv_connection', dag=dag)
    airflowTasksDict[task] = AirflowTask

for task in tasksDict.keys():
    if 'Dep' in tasksDict[task]:
        for dep in tasksDict[task]['Dep']:
            airflowTasksDict[task].set_upstream(airflowTasksDict[dep])

    if 'Pool' in tasksDict[task]:
        airflowTasksDict[task].pool = tasksDict[task]['Pool']

    if 'Priority' in tasksDict[task]:
        airflowTasksDict[task].priority_weight = tasksDict[task]['Priority']

    if 'StartTime' in tasksDict[task]:
        hour = tasksDict[task]['StartTime'][0]
        minute = tasksDict[task]['StartTime'][1]
        sensorTime = timedelta(hours=hour, minutes=minute)
        sensorTaskID = u'TimeSensor_{}_{}'.format(hour, minute)

        if sensorTaskID not in airflowTasksDict:
            SensorTask = TimeDeltaSensor(delta=sensorTime, task_id=sensorTaskID, pool='Sensors', dag=dag)
            airflowTasksDict[sensorTaskID] = SensorTask
        airflowTasksDict[task].set_upstream(airflowTasksDict[sensorTaskID])

if __name__ == '__main__':
    dag.clear(reset_dag_runs=True)
    dag.run()

, Airflow QlikView:
DAG


Airflow .


.


- , - , .


, ETL- , , .


, Airflow . .
, , .


, — 1 . , -, .


. , , , . , .


.


O Airflow cria relatórios bastante úteis sobre estatísticas de desempenho de tarefas, e podemos acompanhar a dinâmica de crescimento da duração das tarefas, além de receber outros relatórios, por exemplo, um gráfico de Gantt:


Gantt


O Combat Airflow funciona em nossa máquina virtual com dois núcleos e 4 Gb de RAM, e isso é suficiente para o bom funcionamento do serviço.


Em geral, acredito que resolvemos com êxito a questão da atualização dos relatórios do QlikView, e o Airflow nos ajudou a ter um valor inestimável.


Keanu-2

Source: https://habr.com/ru/post/undefined/


All Articles