Chargez rapidement de grandes quantités de données dans Google Colab

Bonjour, Habr. J'ai décidé de partager mes connaissances sur la façon de télécharger rapidement un grand nombre de fichiers sur Google Colab avec Google Drive.

Tout le monde sait que Google Colab est une excellente plate-forme gratuite pour apprendre et expérimenter sur les réseaux de neurones.

Sur la plate-forme Google Colab, vous recevrez gratuitement une puissante carte vidéo sur laquelle vous pourrez expérimenter la formation de votre réseau de neurones pendant environ 12 heures.
Ensuite, la session sera interrompue, mais le lendemain de Google, vous pouvez à nouveau obtenir une carte vidéo et poursuivre vos expériences.

Les réseaux de neurones nécessitent beaucoup de données pour la formation, en particulier lorsqu'il s'agit de réseaux de neurones travaillant avec des images.

Pour former de tels réseaux de neurones, il est nécessaire de charger des milliers et des centaines d'images dans les échantillons d'apprentissage et de validation. Malheureusement, si vous téléchargez ces images directement depuis votre Google Drive, cela prend un temps indécent - des dizaines de minutes, voire des heures. Après tout, chaque demande de fichier dans Google Drive et la réception d'une réponse de celui-ci avec le contenu du fichier se produisent séquentiellement et pas rapidement.

C'est dommage de passer du temps à accéder à une carte vidéo gratuite pour télécharger des données, et ce n'est pas raisonnable.

Et nous sommes des gens raisonnables, donc une fois que nous nous tournons vers Google Drive, nous considérons nos données emballées à l'avance dans une archive zip, décompressons l'archive zip résultante dans la mémoire de Google Colab et considérons nos données à une vitesse des centaines de fois plus rapide qu'avec Google Drive dans un seul fichier.

Pour une expérience avec la vitesse de chargement des données dans Colab, j'ai pris ma base de données Airplanes pour un réseau neuronal de segmentation.

Dans cette base de données, il y a un dossier avec des images "avions" et un dossier "segmentation", où sont stockés des masques d'images d'avions du dossier ci-dessus.
Chaque dossier contient 1 005 images de 1920 * 1080.
Au total, nous devons télécharger des fichiers 2010.
J'ai précédemment téléchargé sur moi-même sur Google Drive à la fois la base de données avec des images et ses archives zip.

Structure de la base de formation:



Alors, accélérons le téléchargement des données de Google Drive:

  1. Nous lançons Google Colab et importons les bibliothèques et modules dont nous avons besoin pour cela

  2. Exécutez la commande pour vous connecter à Google Drive

  3. Suivez le lien pour sélectionner votre compte Google

  4. Choisissez votre compte sur Google

  5. Colab Google Drive

  6. Google Drive

  7. Google Drive

  8. Colab

  9. , .





  10. , 2010 c 1920*1080 0,96 .

    , , .

    Colab, , Google Drive.
  11. zip Google Drive


Comme nous pouvons le voir, il nous a fallu 1500 secondes pour télécharger les fichiers stockés sur Google Drive à partir du catalogue 2010, et cela fait 25 minutes.

C'est 25 minutes de temps d'arrêt de vos expériences avec un réseau de neurones.

J'espère que l'article vous a été utile et que le téléchargement d'un grand nombre de fichiers de Google Drive vers Colab n'est plus un problème.

Téléchargez vos données d'entraînement des centaines de fois plus rapidement qu'auparavant.

Quatre étapes simples.

  1. Emballez la base d'apprentissage dans une archive zip.
  2. Importez le fichier zip avec la base d'apprentissage sur Google Drive
  3. Décompressez le fichier zip avec la base d'apprentissage dans la mémoire de Colab
  4. Lisez tous les fichiers de mémoire Colab dans votre programme

Pour toutes questions, écrivez-moi un email

alexeyk500@yandex.ru

Pour ceux qui ont besoin du code décrit dans l'article, bienvenue sur GitHub .

All Articles