Laden Sie schnell große Datenmengen in Google Colab

Guten Tag, Habr. Ich habe beschlossen, mein Wissen darüber zu teilen, wie schnell eine große Anzahl von Dateien mit Google Drive auf Google Colab hochgeladen werden kann.

Jeder weiß, dass Google Colab eine großartige kostenlose Plattform zum Lernen und Experimentieren in neuronalen Netzen ist.

Auf der Google Colab-Plattform erhalten Sie kostenlos eine leistungsstarke Grafikkarte, mit der Sie etwa 12 Stunden lang mit dem Training Ihres neuronalen Netzwerks experimentieren können.
Dann wird die Sitzung unterbrochen, aber am nächsten Tag können Sie bei Google erneut eine Grafikkarte erhalten und Ihre Experimente fortsetzen.

Neuronale Netze benötigen viele Daten für das Training, insbesondere wenn es um neuronale Netze geht, die mit Bildern arbeiten.

Um solche neuronalen Netze zu trainieren, müssen Tausende und Hunderte von Bildern in die Trainings- und Validierungsbeispiele geladen werden. Wenn Sie diese Bilder direkt von Ihrem Google Drive herunterladen, dauert es leider eine unanständige Zeit - zehn Minuten oder sogar Stunden. Schließlich erfolgt jede Anforderung einer Datei in Google Drive und der Empfang einer Antwort mit dem Inhalt der Datei nacheinander und nicht schnell.

Es ist eine Schande, Zeit damit zu verbringen, auf eine kostenlose Grafikkarte zuzugreifen, um Daten herunterzuladen, und das ist nicht sinnvoll.

Und wir sind vernünftige Leute. Sobald wir uns an Google Drive wenden, betrachten wir unsere Daten im Voraus in einem Zip-Archiv, entpacken das resultierende Zip-Archiv in den Google Colab-Speicher und betrachten unsere Daten mit einer Geschwindigkeit, die hunderte Male schneller ist als bei Google Drive in einer einzelnen Datei.

Für ein Experiment mit der Geschwindigkeit beim Laden von Daten in Colab habe ich meine Flugzeugdatenbank für ein neuronales Segmentierungsnetzwerk verwendet.

In dieser Datenbank gibt es einen Ordner mit Bildern "Flugzeuge" und einen Ordner "Segmentierung", in dem Masken von Bildern von Flugzeugen aus dem obigen Ordner gespeichert sind.
Jeder Ordner enthält 1.005 Bilder von 1920 * 1080.
Insgesamt müssen wir 2010 Dateien hochladen.
Ich habe zuvor sowohl die Datenbank mit Bildern als auch das Zip-Archiv auf Google Drive hochgeladen.

Struktur der Trainingsbasis:



Lassen Sie uns also das Herunterladen von Daten von Google Drive beschleunigen:

  1. Wir starten Google Colab und importieren die dafür benötigten Bibliotheken und Module

  2. Führen Sie den Befehl aus, um eine Verbindung zu Google Drive herzustellen

  3. Folgen Sie dem Link, um Ihr Google-Konto auszuwählen

  4. Wählen Sie Ihr Konto bei Google

  5. Colab Google Drive

  6. Google Drive

  7. Google Drive

  8. Colab

  9. , .





  10. , 2010 c 1920*1080 0,96 .

    , , .

    Colab, , Google Drive.
  11. zip Google Drive


Wie wir sehen können, haben wir 1500 Sekunden gebraucht, um auf Google Drive gespeicherte Dateien aus dem Katalog 2010 herunterzuladen. Dies sind 25 Minuten.

Dies sind 25 Minuten Ausfallzeit Ihrer Experimente mit einem neuronalen Netzwerk.

Ich hoffe, der Artikel hat Ihnen geholfen, und jetzt ist das Herunterladen einer großen Anzahl von Dateien von Google Drive auf Colab kein Problem mehr.

Laden Sie Ihre Trainingsdaten hunderte Male schneller hoch als zuvor.

Nur vier einfache Schritte.

  1. Packen Sie die Learning Base in ein Zip-Archiv.
  2. Laden Sie die Zip-Datei mit der Learning Base auf Google Drive hoch
  3. Entpacken Sie die Zip-Datei mit der Learning Base in den Speicher von Colab
  4. Lesen Sie alle Colab-Speicherdateien in Ihr Programm ein

Für alle Fragen schreiben Sie mir eine E-Mail

alexeyk500@yandex.ru

Für diejenigen, die den im Artikel beschriebenen Code benötigen, begrüßen Sie mich auf GitHub .

All Articles