Cargue rápidamente grandes cantidades de datos en Google Colab

Buen dia, Habr. Decidí compartir mi conocimiento sobre cómo cargar rápidamente una gran cantidad de archivos a Google Colab con Google Drive.

Todos saben que Google Colab es una gran plataforma gratuita para aprender y experimentar en redes neuronales.

En la plataforma Google Colab, se le proporcionará una potente tarjeta de video de forma gratuita en la que puede experimentar entrenando su red neuronal durante aproximadamente 12 horas.
Luego, la sesión se interrumpirá, pero al día siguiente de Google puede volver a obtener una tarjeta de video y continuar sus experimentos.

Las redes neuronales requieren una gran cantidad de datos para el entrenamiento, especialmente cuando se trata de redes neuronales que trabajan con imágenes.

Para entrenar tales redes neuronales, es necesario cargar miles y cientos de imágenes en las muestras de entrenamiento y validación. Desafortunadamente, si descargas estas imágenes directamente desde tu Google Drive, lleva un tiempo indecente: decenas de minutos o incluso horas. Después de todo, cada solicitud de un archivo en Google Drive y recibir una respuesta de él con el contenido del archivo ocurre secuencialmente y no rápidamente.

Es una pena pasar tiempo accediendo a una tarjeta de video gratuita para descargar datos, y no es razonable.

Y somos personas razonables, por lo que una vez que recurrimos a Google Drive, consideramos nuestros datos empaquetados por adelantado en un archivo zip, desempaquetamos el archivo zip resultante en la memoria de Google Colab y consideramos nuestros datos a una velocidad cientos de veces más rápida que con Google Drive en un solo archivo.

Para un experimento con la velocidad de carga de datos en Colab, tomé mi base de datos de Aviones para una red neuronal de segmentación.

En esta base de datos hay una carpeta con imágenes "aviones" y una carpeta "segmentación", donde se almacenan máscaras de imágenes de aviones de la carpeta anterior.
Cada carpeta contiene 1.005 imágenes de 1920 * 1080.
En total, tenemos que cargar archivos de 2010.
Anteriormente cargué en Google Drive tanto la base de datos con imágenes como su archivo zip.

Estructura base de entrenamiento:



Entonces, vamos a acelerar la descarga de datos desde Google Drive:

  1. Lanzamos Google Colab e importamos las bibliotecas y módulos que necesitamos para esto.

  2. Ejecute el comando para conectarse a Google Drive

  3. Sigue el enlace para seleccionar tu cuenta de Google

  4. Elige tu cuenta en Google

  5. Colab Google Drive

  6. Google Drive

  7. Google Drive

  8. Colab

  9. , .





  10. , 2010 c 1920*1080 0,96 .

    , , .

    Colab, , Google Drive.
  11. zip Google Drive


Como podemos ver, nos llevó 1500 segundos descargar archivos almacenados en Google Drive del catálogo de 2010, y esto es 25 minutos.

Esto es 25 minutos de tiempo de inactividad de sus experimentos con una red neuronal.

Espero que el artículo te haya sido útil y ahora descargar una gran cantidad de archivos de Google Drive a Colab ya no sea un problema.

Sube tus datos de entrenamiento cientos de veces más rápido que antes.

Solo cuatro sencillos pasos.

  1. Empaque la base de aprendizaje en un archivo zip.
  2. Cargue el archivo zip con la Base de aprendizaje en Google Drive
  3. Descomprima el archivo zip con la Base de aprendizaje en la memoria de Colab
  4. Lea todos los archivos de memoria de Colab en su programa

Para todas las preguntas, escríbame un correo electrónico

alexeyk500@yandex.ru

Para aquellos que necesitan el código descrito en el artículo, bienvenidos a GitHub .

All Articles