在Google Colab中快速加载大量数据

美好的一天,哈伯。我决定分享我的知识,该知识是如何使用Google云端硬盘快速将大量文件上传到Google Colab。

众所周知,Google Colab是一个不错的免费平台,可用于在神经网络上进行学习和实验。

在Google Colab平台上,将免费为您提供功能强大的视频卡,您可以在该视频卡上进行约12小时的神经网络训练试验。
然后会话将被中断,但是第二天您可以从Google获得视频卡并继续进行实验。

神经网络需要大量的数据进行训练,尤其是涉及图像的神经网络。

为了训练这样的神经网络,有必要将成千上万的图像加载到训练和验证样本中。不幸的是,如果您直接从Google云端硬盘下载这些图像,这将花费很长的时间-数十分钟甚至几小时。实际上,对Google云端硬盘中文件的每个请求以及从文件中接收到包含文件内容的响应都是按顺序进行的,而且速度并不很快。

花时间访问免费的视频卡来下载数据是一种耻辱,这是不合理的。

我们是有理智的人,因此一旦转向Google云端硬盘,我们会考虑将数据预先打包在zip归档文件中,然后将生成的zip归档文件解压缩到Google Colab内存中,并以比单个文件中使用Google云端硬盘快数百倍的速度考虑我们的数据。

为了进行将数据加载到Colab中的速度的实验,我将Airplanes数据库用于分段神经网络。

在该数据库中,有一个包含图像“ airplanes”的文件夹和一个文件夹“ segmentation”,其中存储了来自上述文件夹的飞机图像的遮罩。
每个文件夹包含1,005张1920 * 1080的图像。
总共,我们必须上传2010文件。
之前,我曾在Google云端硬盘上上传了包含图片及其zip存档的数据库。

培训基地结构:



因此,让我们开始加速从Google云端硬盘下载数据:

  1. 我们启动Google Colab并导入为此所需的库和模块

  2. 运行命令以连接到Google云端硬盘

  3. 点击链接以选择您的Google帐户

  4. 选择您在Google上的帐户

  5. Colab Google Drive

  6. Google Drive

  7. Google Drive

  8. Colab

  9. , .





  10. , 2010 c 1920*1080 0,96 .

    , , .

    Colab, , Google Drive.
  11. zip Google Drive


如我们所见,从2010年目录下载存储在Google云端硬盘中的文件花了我们1500秒,而这是25分钟。

这是您使用神经网络进行实验的25分钟停机时间。

希望本文对您有所帮助,现在将大量文件从Google云端硬盘下载到Colab不再是问题。

上载培训数据的速度比以前快了数百倍。

仅需四个简单步骤。

  1. 将学习基础打包在一个zip存档中。
  2. 将包含学习基础的zip文件上传到Google云端硬盘上
  3. 将带有学习库的zip文件解压缩到Colab的内存中
  4. 将所有Colab内存文件读入程序

对于所有问题,请给我发送电子邮件

alexeyk500@yandex.ru。

对于那些需要本文中描述的代码的人,欢迎在GitHub上与我联系

All Articles