🤹🏼 📮 ☕️ Python pour le testeur: comment les petits scripts pandas c aident à tester de grands ensembles de données 👩🏾‍🤝‍👩🏻 🔲 ♓️

Je travaille en tant que testeur sur un projet dont l'essentiel est la collecte et le stockage de diverses données et la formation de divers rapports et téléchargements de fichiers sur leur base. Lors de la génération de tels rapports, un grand nombre de conditions de sélection des données sont prises en compte et, par conséquent, lors des tests, vous devez beaucoup travailler avec les requêtes SQL dans la base de données. Mais pour vérifier la sélection correcte des données et rechercher les données excédentaires / manquantes, cela ne suffit souvent pas, j'ai donc dû chercher des outils supplémentaires pour cela.

Comme j'avais déjà quelques connaissances de base en python, j'ai décidé d'essayer d'écrire de petits scripts qui nous permettraient de faire quelque chose avec les données existantes et ainsi de faciliter et d'accélérer le processus de test. Dans cet article, je vais vous dire ce qui en est sorti.

Conception d'un script de script

Pour écrire un script, vous devez comprendre exactement ce que le script doit faire, quelles données doivent être entrées et quelles données devraient être sorties.

Exemples d'étapes pour le scénario:

Nous obtenons un fichier avec des données dans un certain format (ou plusieurs fichiers)
Obtenir des données à partir d'un fichier / fichiers
Nous sélectionnons les données nécessaires
Nous effectuons certaines opérations sur les données
Nous téléchargeons les données dans un fichier Excel, si nécessaire (généralement ce format est le plus pratique pour une analyse et un stockage approfondis)

Ensuite, vous devez réfléchir à comment et où vous pouvez obtenir des informations. Cela peut être un fichier créé manuellement avec des données, le téléchargement de données vers une interface utilisateur dans un fichier en tenant compte des filtres, un fichier avec des données d'analyse à l'aide d'un autre script, un fichier pour télécharger les résultats d'une requête SQL dans la base de données (vous pouvez rapidement télécharger des données vers un fichier csv à partir de la base de données), json -fichier ou fichier xml avec les données de la réponse à une demande à l'API, etc.

Nous écrivons des scripts en python en utilisant des pandas et d'autres bibliothèques

Pour écrire des scripts en python, vous devez installer un interpréteur et un IDE approprié. Il est également préférable de créer un environnement virtuel distinct pour ce projet.

J'utilise différentes bibliothèques pour les scripts, certaines d'entre elles sont des bibliothèques python intégrées , certaines doivent être installées en plus:

pandas est une bibliothèque d'analyse de données. Il vous permet de travailler avec des données de fichiers de différents formats, ainsi que de recevoir des données directement de la base de données à l'aide d'une requête SQL. Les données des fichiers sont chargées dans des blocs de données (visuellement les mêmes tableaux que dans Excel), avec des données dans lesquelles vous pouvez déjà effectuer différentes opérations: combiner des données de différents blocs de données par analogie avec jointure / union en SQL, sélectionnez les données dont vous avez besoin sous certaines conditions, comparer les données dans différentes colonnes de la trame de données, etc.
openpyxl, xlrd - bibliothèques pour travailler avec Excel.

Le cadre de script le plus simple pour travailler avec des données à partir de fichiers csv, json, Excel est le suivant:

#   pandas
import pandas as pd

#    csv-  -
# (        )
#       csv-     ";"
df = pd.read_csv('./csv_file.csv', sep=';', encoding='utf-8')

# 
#    json-  -
# (        )
# df = pd.read_json('./json_file.json', encoding='utf-8')

# 
#    Excel-  -,     
# (        )
# file_excel = 'Excel_file.xlsx'
# df = pd.ExcelFile(file_excel).parse('1')


#  -     -  
#    - final_df


#    Excel-,  
#          
# (      )
writer = pd.ExcelWriter('.xlsx')
final_df.to_excel(writer, '1')
writer.save()

Dans ce script, les données d'un fichier du format souhaité sont chargées dans une trame de données, les données nécessaires sont sélectionnées et certaines opérations sont effectuées sur elles, puis les données sont écrites dans un nouveau fichier Excel.

Si vous devez travailler avec des données obtenues à la suite d'une requête SQL dans la base de données, vous ne pouvez pas les exporter vers un fichier csv, mais les placer immédiatement dans un bloc de données en exécutant une requête SQL dans la base de données dans le script lui-même:

#   pandas
import pandas as pd
#      ,     PostgreSQL
# (   -    )
import psycopg2

#    
conn = psycopg2.connect(dbname='_', host='', port='',
                        user='', password='')

#   SQL-
q = """select ... 
    from ... 
    where ..."""

#    -,  SQL-
df = pd.read_sql_query(q, conn)


#  -     -  
#    - final_df


#    Excel-,  
#          
# (      )
writer = pd.ExcelWriter('.xlsx')
final_df.to_excel(writer, '1')
writer.save()

Si vous devez obtenir des données à partir d'un fichier xml, vous pouvez utiliser les bibliothèques conçues à cet effet. J'utilise la bibliothèque intégrée ElementTree .

Lorsque les données sont reçues dans une trame de données, vous pouvez immédiatement les combiner avec des données d'une autre trame de données (analogues de jointure ou d'union dans SQL) ou effectuer certaines opérations sur celles-ci, par exemple, supprimer les doublons, supprimer les lignes avec des valeurs vides dans certaines cellules , comparez les données dans plusieurs colonnes, sélectionnez les lignes / colonnes souhaitées, etc. En savoir plus dans la documentation pour les pandas.

Options d'utilisation des scripts

Et maintenant, nous activons l'outil principal du testeur et sélectionnons les données / fonctionnalités de notre projet, pour vérifier quels scripts seraient utiles.

Des fichiers contenant une petite quantité de données de test générées à l'aide des données générées ont été créés pour les scripts . En réalité, les fichiers de données contiennent des dizaines de milliers de lignes et un grand nombre de colonnes.

Scénario # 1

Il y a trois fichiers au format csv avec des données. Pour chaque ligne de données, il existe un champ avec un identifiant unique. Les données de ces fichiers sont sélectionnées en tenant compte de certaines conditions et saisies dans un tableau de la base de données, puis ces données sont affichées dans un rapport sous la forme d'un tableau sur l'interface utilisateur. Il est possible de télécharger des données sur une interface utilisateur vers un fichier Excel.

Supposons que les conditions de sélection des données pour un rapport à partir de fichiers source soient les suivantes:

Les fichiers peuvent avoir des doublons par identifiant, dans un rapport, un enregistrement avec le même identifiant ne doit être pris en compte qu'une seule fois (dans ce cas, nous sélectionnons simplement l'une des lignes avec cet identifiant dans les données).
Les lignes avec des données manquantes dans la cellule de la colonne reg_date ne doivent pas être comptées.
En fait, il peut y avoir plus de conditions de sélection, les données peuvent également être comparées aux données déjà présentes dans le système et seules les données entrecroisées par id seront affichées dans le rapport, mais par exemple nous ne prendrons en compte que les deux conditions indiquées ci-dessus.

La tâche du testeur: Vérifier que les lignes avec les objets nécessaires sont correctement sélectionnées dans les fichiers source et que tous ces objets sont affichés dans le rapport sur l'interface utilisateur.

Nous composons un script pour le script:

- csv-, - ( union SQL), id, reg_date.
UI Excel-, , -.
(merge) - ( outer join SQL) Excel- .
, , - , , UI.

Dans le fichier final, les données ne contiendront qu'une seule colonne avec id, si les noms des colonnes dans des trames de données différentes coïncident, et il peut ne pas être clair quelles colonnes / lignes de quel fichier provenaient. Par conséquent, soit je nomme les colonnes avec un identifiant unique par des noms différents dans les fichiers, soit j'ajoute une colonne distincte «Lignes d'un fichier de tel ou tel» à chaque fichier et y ajoute «Oui» - puis, lors de l'analyse du fichier Excel résultant, il est pratique de filtrer par cette colonne parce que ils contiennent toujours une valeur et, en les filtrant, vous pouvez déjà comprendre quelles données divergent dans les colonnes correspondantes.

Exemple de données de example1_csv_1.csv fichier :

Exemple de données de report_UI.xlsx fichier : A

ressemble ce script python:

#   pandas
import pandas as pd

#     csv-    -
# (        )
df_from_file1 = pd.read_csv('./example1_csv_1.csv', sep=';', encoding='utf-8',
                            usecols=['id', 'name', 'email', 'reg_date'])
df_from_file2 = pd.read_csv('./example1_csv_2.csv', sep=';', encoding='utf-8',
                            usecols=['id', 'name', 'email','reg_date'])
df_from_file3 = pd.read_csv('./example1_csv_3.csv', sep=';', encoding='utf-8',
                            usecols=['id', 'name', 'email', 'reg_date'])

#    -    - 
# (   union  SQL)
df_from_csv = pd.concat([df_from_file1, df_from_file2, df_from_file3]).\
    reset_index(drop=True)
print(df_from_csv)

#       
df_from_csv.drop_duplicates(subset='id', keep='first', inplace=True)
print(df_from_csv)

#     NaN ( )   reg_date
df_from_csv = df_from_csv.dropna()
print(df_from_csv)

#    Excel-   UI  -,
#       
# (        )
file_excel = 'report_UI.xlsx'
df_from_excel = pd.ExcelFile(file_excel).parse('1')
print(df_from_excel)

#  -     - 
# -       UI
# (   outer join  SQL)
df = df_from_csv.merge(df_from_excel, left_on='id', right_on="", how='outer')
print(df)

#     Excel-
writer = pd.ExcelWriter('.xlsx')
df.to_excel(writer, '1')
writer.save()

Limites:

( , 30 000 ).
( Excel) / , .

Scénario n ° 2
La section contient des données sous forme de tableau pour certains objets à partir d'une seule source. Le système recevra les données d'une deuxième source (intégration) et mettra à jour les données de table existantes avec ces données. Chaque enregistrement de la table correspond aux données d'un objet doté d'un identifiant unique. Si à partir d'une nouvelle source les données d'objet par identifiant coïncident avec les données d'un objet existant, alors tous les champs de l'enregistrement existant sont mis à jour avec les données de la nouvelle source (confirmées). Si la table n'a pas encore d'objet avec un identifiant de la deuxième source, un nouvel enregistrement est créé dans la table avec les données de la nouvelle source. Les données du deuxième système peuvent être téléchargées à l'avance dans un fichier json.

La tâche du testeur:Préparez à l'avance un fichier contenant des données pour le test, afin qu'après la fin de l'implémentation, vérifiez que les enregistrements existants sont correctement mis à jour et qu'ils soient apposés avec un signe de confirmation dans la base de données, s'il y a correspondance par identifiant, et que de nouveaux enregistrements sont correctement créés et qu'ils sont marqués avec le signe de l'ajout à la base de données, si les enregistrements avec tels l'identifiant n'était pas encore.

Nous composons un script pour le script:

Nous téléchargeons les données de la table de partition dans le fichier Excel sur l'interface utilisateur (si cela n'est pas possible, vous pouvez toujours exporter les données du résultat de la requête SQL utilisée dans le code pour sortir les données vers cette table sur l'interface utilisateur) et remplir les données de celui-ci dans le premier bloc de données .
Nous obtenons le fichier json avec des données de la deuxième source et le chargeons dans la deuxième trame de données.
(merge — outer join SQL) - - Excel-, . , , .

( , 30 000 ).
json- / – /, - json- pandas /.

Scénario 3

Une demande est adressée à l'API système, en réponse à laquelle les données sur les objets au format json sont reçues.

Tâche du testeur: comparer les données de la réponse à la demande à l'API avec les données du résultat de la requête SQL dans la base de données.

Nous composons un script pour le script:

Nous exécutons la requête SQL dans la base de données, exportons les données du résultat de la requête vers un fichier csv, chargeons ces données dans le premier bloc de données.
Nous sauvegardons les données de la réponse à la demande à l'API dans le fichier json, chargeons les données du fichier dans la deuxième trame de données.
Nous combinons les données (fusion - par analogie avec la jointure externe en SQL) de deux trames de données reçues dans une nouvelle trame de données par un identifiant unique et en déchargeons les données dans un fichier Excel, dans lequel nous comparerons déjà les données par colonnes en utilisant les fonctions de Exceller
Ou les données sur les colonnes dans le bloc de données générales peuvent être comparées à l'aide de pandas, tout en déchargeant les lignes avec les mêmes données / des données différentes dans les colonnes dans un nouveau bloc de données / fichier Excel pour analyse.

Exemples de données du fichier example3_csv.csv :

Exemples de données du fichier example3_json.json :

[
    {
        "id": "16421118-4116",
        "name_json": "Tempor Consulting",
        "email_json": "Nullam.lobortis.quam@***",
        "tel_json": "1-821-805-****",
        "reg_date_json": "12-11-16",
        "city_json": "Natales"
    },
    {
        "id": "16040210-2206",
        "name_json": "Odio Etiam Incorporated",
        "email_json": "arcu@***",
        "tel_json": "1-730-291-****",
        "reg_date_json": "26-06-05",
        "city_json": "Viddalba"
    },
...
]

Le script python ressemble à ceci:

#   pandas
import pandas as pd

#    csv-  -
# (        )
#       csv-     ";"
df_from_csv = pd.read_csv('./example3_csv.csv', sep=';', encoding='utf-8')
print(df_from_csv)

#    json-  -
# (        )
df_from_json = pd.read_json('./example3_json.json', encoding='utf-8')
print(df_from_json)

#  -    -
# (   outer join  SQL)
df_csv_json = df_from_csv.merge(df_from_json, left_on='id', 
                                right_on="id", how='outer')
print(df_csv_json)

#    Excel-,   ,
#      -   ,
#          
# (      )
# writer = pd.ExcelWriter('.xlsx')
# df_csv_json.to_excel(writer, '1')
# writer.save()

#       
# (, name_csv  name_json) 
#       Excel-  
# (        )
unequal_data_df = df_csv_json.loc[df_csv_json['name_csv'] != 
                                  df_csv_json['name_json']]
unequal_data_df = unequal_data_df[['id', 'name_csv', 'name_json']]
print(unequal_data_df)

writer = pd.ExcelWriter('_name.xlsx')
unequal_data_df.to_excel(writer, '1')
writer.save()

Limites:

Lorsque vous travaillez avec des fichiers avec un très grand nombre de lignes, vous devrez les diviser en fichiers séparés (ici, vous devez essayer, j'ai rarement des fichiers de plus de 30 000 lignes).
Si le fichier json a plusieurs niveaux d'imbrication d'objets / tableaux de données, alors à partir des niveaux internes, ils seront chargés dans la cellule en tant qu'objet / tableau, donc travailler avec des fichiers json avec pandas n'est pratique que pour les données sans imbrication excessive d'objets / tableaux.
API SQL- , SQL- .

Si la réponse à la demande adressée à l'API est au format xml, vous devrez d'abord analyser les données nécessaires à partir du fichier xml à l'aide d'ElementTree ou d'une autre bibliothèque, puis les charger dans le bloc de données.

Scénario n ° 4

Sur l'interface utilisateur, un fichier xml contenant des données sur les objets est téléchargé, qui est généré à la volée à partir des données de la base de données sous certaines conditions (par exemple, les statuts, les dates, les années ou d'autres valeurs de paramètres pour les objets sont pris en compte).

Tâche du testeur: comparer l'ID unique des identifiants des objets du fichier xml qui se trouvent dans l'attribut de la balise de société avec les identifiants des objets du résultat de la requête SQL dans la base de données.

Nous composons un script pour le script:

Nous sauvegardons les données de la réponse à la demande à l'API dans le fichier xml, obtenons les données nécessaires à partir de ce fichier en utilisant la bibliothèque ElementTree, chargeons les données dans le premier bloc de données.
Nous exécutons la requête SQL dans la base de données, exportons les données du résultat de la requête vers le fichier csv, chargeons ces données dans le deuxième bloc de données.
Nous combinons les données (fusion - par analogie avec la jointure externe en SQL) de deux trames de données reçues dans une nouvelle trame de données par un identifiant unique et déchargeons les données de celui-ci dans un fichier Excel.
Ensuite, ouvrez le fichier résultant et analysez les lignes de données.

Exemples de données du fichier example4_csv.csv :

Exemples de données du fichier example4_xml.xml : Un

script python ressemble à ceci:

#   ElementTree
from xml.etree import ElementTree
#   pandas
import pandas as pd

#    xml-   
# (        )
tree = ElementTree.parse("example4_xml.xml")

#   
root = tree.getroot()

#  ,     
data_list = []
i = 1

#    -   id_type1  id_type2
for child in root.iter("companies"):
    for child_1 in child.iter("company"):
            data_list.append({"": i, "id": child_1.get("id_type1")
                                                or child_1.get("id_type2"), 
                              "  xml": ""})
            i += 1

#     data_list  -
df_from_xml = pd.DataFrame.from_dict(data_list, orient='columns')
print(df_from_xml)

#    csv-  -
df_from_csv = pd.read_csv('./example4_csv.csv', sep=';', encoding='utf-8')
print(df_from_csv)

#  -   -
# (   outer join  SQL)
df = df_from_csv.merge(df_from_xml, left_on='id', right_on="id", how='outer')
print(df)

#    Excel-
#          
# (      )
writer = pd.ExcelWriter('.xlsx')
df.to_excel(writer, '1')
writer.save()

Scénario 5

Dans l'interface utilisateur, la section affiche des données sur les objets sous la forme d'un tableau. Il est possible de télécharger des données dans un fichier Excel.

La tâche du testeur: comparer les données de la table de partition avec les données téléchargées dans le fichier Excel.

Nous composons un script pour le script:

Nous demandons aux développeurs une requête SQL dans la base de données à partir du code qui est responsable de la sortie des données vers la table de partition sur l'interface utilisateur.
Nous exécutons cette requête SQL dans la base de données, téléchargeons les données dans un fichier csv, chargeons les données de celui-ci dans la première trame de données.
Nous téléchargeons les données de la table de partition vers le fichier Excel sur l'interface utilisateur et chargeons les données de celle-ci dans le deuxième bloc de données.
(merge — outer join SQL) - - Excel-, Excel.
- pandas, / -/Excel- .

, Excel- UI, , , .

Des scripts similaires peuvent également être utilisés simplement pour transférer des données de fichiers json ou de fichiers csv vers des fichiers Excel. Ou, vous pouvez combiner les données de plusieurs fichiers Excel dans certaines colonnes et les télécharger dans un nouveau fichier Excel.

Conclusion

Ce ne sont que quelques exemples de la façon dont vous pouvez utiliser python + pandas pour accélérer le processus de test et trouver des bogues. En fait, les pandas ont beaucoup plus de possibilités de travailler avec des données, vous pouvez en savoir plus à ce sujet dans la documentation de cette bibliothèque.

Peut-être que votre projet a d'autres options pour utiliser de tels scripts et cet article vous aidera à commencer à les utiliser dans le travail des testeurs.

Python pour le testeur: comment les petits scripts pandas c aident à tester de grands ensembles de données

Conception d'un script de script

Nous écrivons des scripts en python en utilisant des pandas et d'autres bibliothèques

Options d'utilisation des scripts

Conclusion

More articles: