在30分钟内创建你的深度学习服务器

4日10日 OFweek 2025（第十四届）中国机器人产业大会
立即报名 >>>
7.30-8.1 全数会2025（第六届）机器人及智能工厂展
火热报名中>>

在30分钟内创建你的深度学习服务器

2020-08-12 10:39

每当我开始一个新的项目时，我发现自己一次又一次地创建一个深度学习机器。

从安装Anaconda开始，然后为Pytorch和Tensorflow创建不同的环境，这样它们就不会相互干扰，而在这中间，你不可避免地会搞砸，然后得从头开始。这种情况经常发生。这不仅是对时间的巨大浪费，也是令人恼火的。通过所有的堆栈溢出线程，我们经常想知道究竟出了什么问题。那么，有没有一种方法可以更有效地做到这一点呢？在这个博客中，我将尝试在EC2上以最小的努力建立一个深度学习服务器，这样我就可以专注于更重要的事情。本文章由两部分组成：设置一个预先安装了深度学习库的Amazon EC2机器。使用TMUX和SSH隧道设置Jupyter notebook。别担心，这听起来不难，只需按照步骤操作，然后单击“下一步”。设置Amazon EC2计算机我假设你拥有一个AWS账户，并且可以访问AWS控制台，如果没有，你可能需要注册一个Amazon AWS账户。AWS控制台：首先，我们需要转到“Services”选项卡以访问EC2仪表板。

在EC2仪表板上，你可以从创建实例开始。

3．亚马逊向社区AMI（亚马逊机器映像）预装了深度学习软件。要访问这些AMI，你需要查看社区AMI，并在“搜索”选项卡中搜索“ Ubuntu深度学习”。你可以选择其他任何的Linux风格，但是我发现Ubuntu对于满足我的深度学习需求是最为有用。在当前设置中，我将使用深度学习AMI（Ubuntu 18．04）27．0版

4．选择AMI后，可以选择“实例类型”。在这里，你可以指定系统中所需的CPU，内存和GPU的数量。亚马逊提供了许多根据个人需求选择的选项，你可以使用“过滤依据”过滤器过滤GPU实例。在本教程中，我使用了p2．xlarge实例，该实例为NVIDIA K80 GPU提供了2，496个并行处理内核和12GiB的GPU内存。要了解不同的实例类型，你可以查看下方链接中的文档，并查看价格。

5．你可以在第4步中更改连接到机器的存储。如果你不预先添加存储也是可以，因为以后也可以这样做。我将存储空间从90 GB更改为500 GB，因为大多数深度学习需求都需要适当的存储空间。

6．仅此而已，你可以在进入最终审阅实例设置屏幕之后启动实例。单击启动后，你将看到此屏幕，只需在“Key pair name”中输入任何密钥名称，然后单击“Download Key Pair”即可。你的密钥将按照你提供的名称下载到计算机上。对我来说，它被保存为“aws＿key．pem”。完成后，你可以单击“Launch Instances”启动实例。

请确保此密钥对的安全，因为每当你要登录实例时都需要这样做。7．现在，你可以单击下一页上的“View Instances”以查看你的实例。这是你的实例的样子：

8．要连接到你的实例，只需在本地计算机上打开一个终端窗口，然后浏览到保存密钥对文件并修改一些权限的文件夹。chmod 400 aws＿key．pem完成此操作后，你将可以通过SSH连接到你的实例。SSH命令的格式为：ssh －i“ aws＿key．pem” ubuntu ＠＜你的PublicDNS（IPv4）＞