Carregue rapidamente grandes quantidades de dados no Google Colab

Bom dia, Habr. Decidi compartilhar meu conhecimento sobre como enviar rapidamente um grande número de arquivos para o Google Colab com o Google Drive.

Todo mundo sabe que o Google Colab é uma ótima plataforma gratuita para aprender e experimentar redes neurais.

Na plataforma Google Colab, você receberá uma poderosa placa de vídeo gratuitamente, na qual poderá experimentar o treinamento da sua rede neural por cerca de 12 horas.
A sessão será interrompida. No dia seguinte, no Google, você poderá obter novamente uma placa de vídeo e continuar seus experimentos.

As redes neurais exigem muitos dados para treinamento, especialmente quando se trata de redes neurais que trabalham com imagens.

Para treinar essas redes neurais, é necessário carregar milhares e centenas de imagens nas amostras de treinamento e validação. Infelizmente, se você baixar essas imagens diretamente do Google Drive, leva um tempo indecente - dezenas de minutos ou até horas. Afinal, cada solicitação de um arquivo no Google Drive e o recebimento de uma resposta com o conteúdo do arquivo ocorrem sequencialmente e não rapidamente.

É uma pena gastar tempo acessando uma placa de vídeo gratuita para baixar dados, e isso não é razoável.

E somos pessoas razoáveis; portanto, ao acessar o Google Drive, consideramos nossos dados compactados com antecedência em um arquivo zip, descompactamos o arquivo zip resultante na memória do Google Colab e consideramos nossos dados a uma velocidade centenas de vezes mais rápido do que com o Google Drive em um único arquivo.

Para um experimento com a velocidade de carregamento de dados no Colab, levei meu banco de dados de aviões para uma rede neural de segmentação.

Nesse banco de dados, há uma pasta com imagens "aviões" e uma pasta "segmentação", onde são armazenadas máscaras de imagens de aeronaves da pasta acima.
Cada pasta contém 1.005 imagens de 1920 * 1080.
No total, temos que fazer upload de arquivos de 2010.
Anteriormente, enviei para mim no Google Drive o banco de dados com imagens e seu arquivo zip.

Estrutura da Base de Treinamento:



Então, vamos acelerar o download de dados do Google Drive:

  1. Lançamos o Google Colab e importamos as bibliotecas e módulos necessários para isso

  2. Execute o comando para conectar-se ao Google Drive

  3. Siga o link para selecionar sua conta do Google

  4. Escolha sua conta no Google

  5. Colab Google Drive

  6. Google Drive

  7. Google Drive

  8. Colab

  9. , .





  10. , 2010 c 1920*1080 0,96 .

    , , .

    Colab, , Google Drive.
  11. zip Google Drive


Como podemos ver, demoramos 1500 segundos para fazer o download dos arquivos armazenados no Google Drive do catálogo de 2010, e são 25 minutos.

São 25 minutos de tempo de inatividade de suas experiências com uma rede neural.

Espero que o artigo tenha sido útil para você e que o download de um grande número de arquivos do Google Drive para o Colab não seja mais um problema.

Carregue seus dados de treinamento centenas de vezes mais rápido do que antes.

Apenas quatro etapas fáceis.

  1. Coloque a Base de Aprendizado em um arquivo zip.
  2. Faça o upload do arquivo zip com a Base de aprendizado para você no Google Drive
  3. Descompacte o arquivo zip com a Base de Aprendizagem na memória da Colab
  4. Leia todos os arquivos de memória Colab no seu programa

Para todas as perguntas, escreva-me um email

alexeyk500@yandex.ru

Para aqueles que precisam do código descrito no artigo, seja bem-vindo ao GitHub .

All Articles