发布于: Nov 24, 2021
EMR Studio 是一个集成开发环境(IDE),使数据科学家和数据工程师能够轻松地开发、可视化和调试用 R、Python、Scala 和 PySpark 编写的大数据和分析应用程序。 今天,我们很高兴地宣布推出 EMR Studio 中的两项新功能。首先,您现在可以更轻松地直接从 EMR Studio Notebooks 执行 Python 脚本。其次,您可以直接从 EMR Studio 中的笔记本执行其他从属的 Jupyter 笔记本。此前,这两种功能都需要手动将这些文件从 EMR Studio 复制到 EMR 集群。
EMR Studio Workspace 在云中提供完全托管式的无服务器 Jupyter 实例,该实例附带本地文件系统,您可以在其中创作、存储和组织您的笔记本和文件。数据科学家经常有需要从其他 Notebook 调用的 Python 脚本和 Notebook。例如可以在多个笔记本中使用执行通用数据质量检查的 python 脚本。以前,您需要手动将这些文件从 EMR Studio Workspace 的本地存储复制到集群才能执行它们。您现在可以使用 %mount_workspace_dir Jupyter 魔法命令将您的 EMR Studio Workspace 目录挂载到 EMR 集群。这使得在 EMR 集群上运行的笔记本可以执行 python 文件或调用本地 Workspace 中的其他笔记本,而无需手动复制这些文件或登录到集群。此外,我们还添加了一个命令 - %generate_s3_download_url 以从 Amazon S3 下载文件。您可以使用此功能从笔记本下载数据文件以在本地进行分析,例如在 Excel 中进一步对其进行分析。如果没有此功能,则您必须导航到 Amazon S3 控制台才能从 S3 存储桶下载文件。EMR Notebooks iPython Magics 程序包中提供了上述两个 Jupyter 魔法命令。
EMR Studio 现已向以下区域推出:美国东部(俄亥俄)、美国东部(弗吉尼亚北部)、美国西部(俄勒冈)、加拿大(中部)、欧洲(爱尔兰)、欧洲(法兰克福)、欧洲(伦敦)、欧洲(巴黎)、欧洲(斯德哥尔摩)、亚太地区(孟买)、亚太地区(首尔)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(东京)和南美洲(圣保罗)。