一元机场.cn官网下载

集团新闻

更好的结合:Amazon SageMaker Canvas 与 RDS for SQL Server

融合效果:Amazon SageMaker Canvas 与 RDS for SQL Server 的预测 ML 模型示例用例

作者:Camilo Leon 和 Minesh Chande,发表于 2024 年 8 月 7 日

关键要点

本文展示了如何结合使用 Amazon SageMaker Canvas 和 Amazon RDS for SQL Server,快速构建预测性的机器学习ML模型。Amazon RDS 简化了 SQL Server 的操作与部署,SageMaker Canvas 允许用户在无需编码的情况下构建 ML 模型。该集成方案支持用户使用现有的关系型数据库数据源,以最小的配置工作量开发 ML 模型。

人工智能AI和机器学习ML解决方案在全球范围内迅速普及,吸引了各行业用户和客户的关注。随着企业努力将 AI/ML 功能融入其客户服务和解决方案中,他们通常面临如何有效利用驻留在本地 SQL Server 数据库中的大量关系数据的挑战。

本文展示了如何通过结合 Amazon 关系数据库服务 (Amazon RDS) for SQL Server 和 Amazon SageMaker Canvas 来应对这一挑战。通过利用这些托管服务之间的原生集成点,您可以轻松地开发出集成解决方案,利用现有的关系数据库工作负载,创建预测性的 AI/ML 模型,无需编写代码。

解决方案概述

Amazon RDS for SQL Server 简化了在 AWS 云中设置、操作和扩展 SQL Server 部署的过程。您可以在几分钟内部署多个 SQL Server 版本,包括 Express、Web、Standard 和 Enterprise,并享受高性价比及可调整的计算能力。Amazon RDS 解放了您在数据库管理任务上的时间,让您更专注于应用程序开发。

Amazon SageMaker 汇集了一整套工具,以便于任何用例的高性能和低成本的 ML 开发。使用 Amazon SageMaker Canvas,您可以在没有任何机器学习经验或编写代码的情况下创建高度准确的机器学习模型。这些 AWS 原生服务旨在帮助您开发集成解决方案,利用现有关系数据库工作负载作为预测性 AI/ML 模型的来源。

为了支持 SageMaker Canvas 和 Amazon RDS 之间的原生集成,我们需要将 SageMaker 域部署在 仅支持 VPC 模式 中。当 SageMaker Canvas 应用程序在此模式下运行时,它可以通过在客户管理的虚拟私有云 (VPC) 中创建的 VPC 端点与其他 AWS 服务进行交互,而无需公共互联网访问。SageMaker Canvas 应用程序可以通过在 Amazon SageMaker Studio 中创建的网络接口访问这些 VPC 端点,从而提供对客户管理的 VPC 的连接。

这种架构方法确保 RDS for SQL Server 实例和运行 SageMaker Canvas 应用程序的容器托管在同一 VPC 上,具有直接的连接,如下图所示。

前提条件

我们假设您对导航 AWS 管理控制台 有一定的熟悉程度。为了使本文中的示例有效,您需要在 AWS 账户中启用以下资源和服务:

资源/服务说明RDS for SQL Server 实例用于托管数据的数据库实例数据库备份用于恢复 RDS for SQL Server 实例的数据库备份。使用以下 示例数据库备份。客户管理的 VPC用于托管 SageMaker 域和 RDS for SQL Server 实例。确保该 VPC 至少有两个不同可用区的私有子网,并且没有互联网访问。关于选择 VPC 的更多信息,请查看 选择 Amazon VPC。指定的安全组用于管理 VPC 中的网络访问权限

虽然 SageMaker Canvas 提供了覆盖本示例中的部署和实施的免费套餐,但仍需注意持续的服务费用。有关详细信息,请参考 Amazon SageMaker Canvas 定价。

您可以参考 使用原生备份和还原导入和导出 SQL Server 数据库 文档,将数据库恢复到 Amazon RDS for SQL Server 实例中。

配置 SageMaker Canvas

请遵循 在没有互联网访问的 VPC 中配置 Amazon SageMaker Canvas 中的说明,配置您的 VPC、SageMaker 域、所需的服务端点,以及 AWS 身份与访问管理IAM权限,以支持在无互联网访问的 VPC 中运行 SageMaker Canvas。在本节中,我们提供详细的步骤说明,指导您如何进行 VPC 模式的 SageMaker 域的 onboard,如果不需要,请跳过创建预测 ML 模型的步骤。

onboard VPC 模式的 SageMaker 域

在开始 onboard 过程之前,请确认选择的 VPC 满足以下要求:

此 VPC 跨越两个或更多可用区VPC 中没有公共子网VPC 中没有 NAT 网关VPC 中至少有两个私有子网VPC 中有一个正确配置的 S3 网关

在满足上述要求后,请按照以下步骤进行:

在 SageMaker 控制台中,在导航窗格中选择 Domains。选择 创建域。

选择 为组织设置,然后选择 设置。

在 域详细信息 中,提供适当的域名,然后选择 下一步。在 用户和 ML 活动 中,选择适当的身份验证方法。本示例中选择 通过 IAM 登录。

创建域后无法更改身份验证方法。

在 谁将使用 SageMaker? 中,选择 添加用户。在弹出窗口中,输入用户配置文件名称并选择 添加。在 用户将进行哪些 ML 活动? 中,选择 创建新角色,并保留所有默认选择。在 S3 存储桶访问 中,输入一个唯一名称。本示例中输入 sagemakercanvasuswest2repositoryxxxxxxx。选择 下一步。

验证 SageMaker Studio 新建 选项已被选中以供 SageMaker Studio 应用程序使用。保持所有应用程序配置设置为默认值,然后选择 下一步。

在 您希望如何连接到其他 AWS 服务? 中选择 仅虚拟私有云 (VPC)。在 您想为 Studio 使用哪个 VPC? 中,输入您的 VPC、子网和安全组。选择 下一步。

确保指定的安全组也附加到用于演示的 RDS for SQL Server 实例。这一安全组也应该附加到 VPC 中的服务端点上。

在 存储 中,保持所有设置为默认,并选择 下一步。

审查 onboarding 过程中的所有选择,然后选择 提交 以 onboard 新的 SageMaker 域。

创建 SageMaker 预测 ML 模型

配置好 VPC 和 SageMaker 域后,请完成以下步骤以创建 SageMaker 预测 ML 模型:

在 SageMaker 控制台中,在导航窗格中选择 Domains。选择一个适当的 SageMaker 域。

在 启动 菜单中,选择 Canvas。

这将会在新的浏览器标签页中启动 SageMaker Canvas 应用程序。首次启动应用程序时,可能需要几分钟时间来初始化所需的多个资源。

更好的结合:Amazon SageMaker Canvas 与 RDS for SQL Server

为了解决任何连接问题,请确保在 VPC 中创建的所有服务端点的安全组与 onboard SageMaker 域时使用的安全组匹配。如果所有资源都已正确初始化,且 SageMaker Canvas 成功启动,新的标签页上将出现类似于以下屏幕快照的着陆页面。

在 SageMaker Canvas 的导航窗格中选择 我的模型。

选择 新建模型。在 模型名称 中,输入一个名称例如,客户流失。在 问题类型 中选择 预测分析。选择 创建。

选择 创建数据集。在 数据集名称 中,输入一个名称例如,rdssqlsamplechurntraining。选择 创建。

在数据源中选择 RDS。选择 添加连接。在 连接名称 中,输入 RDS 连接的名称。在 实例 中选择您的 RDS for SQL Server 实例。输入您的用户凭证。选择 添加连接。

在导航窗格中展开 sagemakermlsample 数据库节点,然后展开 dbo 模式节点,以可视化数据库模式中的可用表。拖动 customerchurntrain 表并将其放入主要数据集部分。

检查提供的数据采样,然后选择 创建数据集。

SageMaker 将处理数据,并创建新的数据集。完成后,新的数据集将在可用数据集列表中显示。

从列表中选择新数据集并选择 选择数据集。

一旦 SageMaker Canvas 完成将此数据集导入到域中,一些数据分析就已经完成,并可以在页面上查看:列数据类型、列特征类型SageMaker Canvas 识别分类特征类型,表示不同类别或组,以及具有两个可能值的二元特征类型,例如真/假、列缺失或不匹配的值SageMaker Canvas 自动推断缺失或不匹配的值、唯一值和模式数量。接下来,我们需要选择我们要预测的目标列。

在 构建 标签上,选择 Churn 作为 目标列。

这将填充值分布部分,并自动选择 2 类预测模型。

选择 数据可视化器。

数据可视化模块提供了一整套强大的数据可视化和分析工具,在为 ML 模型准备训练或测试数据时非常有用。

作为一个示例可视化场景,让我们执行以下操作: 选择条形图可视化选项。将 DayCalls 列拖放到图表的 Y 轴。将 State 列拖放到图表的 X 轴。

这样一来,我们将看到类似于以下屏幕快照的条形图。您可以在此模块中探索许多其他数据可视化和分析场景。

选择 预览模型,并等待该过程完成。选择 分析 标签以预览模型分析。

此标签显示了相关矩阵,展示了数据集中单元格之间的相关性,特别是对于我们的用例流失与数据集中其他列的关系。

一元机场.cn官网下载

选择 快速构建,并等待过程完成。

当模型构建完成后215 分钟,将展示包括模型准确度和数据可视化图表的初步报告,于 概述 标签中列出。

选择 DayMins日分钟列,并选择流失值为 True 的选项。

您应该会看到一个类似于以下屏幕快照的图表。这一列是强客户流失预测因子;日分钟数越高,流失概率越高。您可以选择 评分 标签深入了解我们 ML 模型与自身训练数据集的准确度。

![流失预测](https//d2908q01vomqb2cloudfrontnet

利用生成式 AI 应用提升教学与学习体验by Jeff Li Isaac Privitera 和 Harish Vaswani于2023年11月2日在Amazon Bedrock, Amazon 机器学习,AWS Cloud Development Kit,教育,生成式 AI,技术如何做 固定链接 ...

使用 QnABot 提升客户互动体验的生成式 AI 聊天机器人由 Ajay Swamy 和 Abhishek Patil 于2024年8月15日发表在 Amazon Bedrock、生成式 AI 永久连结 评论区 分享主要收获生成式 AI 的应用:透过 QnABot 使用生成式 AI 改善客户互动体...