top of page
KAMOTECH

AWS資格一問一答
Q2
あなたの会社は、機械学習モデルをトレーニングするために、大量のデータセットを準備する必要があります。データは、さまざまなデータソースから収集され、クリーニング、変換、特徴量エンジニアリングが必要です。どのAWSサービスを使って、データの前処理とETL(抽出、変換、ロード)作業を実行すべきですか?
A. Amazon Kinesis Data Firehose
B. AWS Glue
C. Amazon Redshift
D. Amazon Athena
ワンポイントアドバイス✌️
データの前処理やETLタスクに適したAWSサービスを探す際に、以下のポイントに注意してください。
・サービスがデータの抽出、変換、ロード(ETL)をサポートしていること
・サービスがデータクリーニングや特徴量エンジニアリングを実行できること
・サービスが複数のデータソースからデータを収集できること
答えは「B」、AWS Glueです!
解説:
AWS Glueは、データの抽出、変換、ロード(ETL)を実行するためのマネージドサービスです。さまざまなデータソースからデータを収集し、クリーニング、変換、特徴量エンジニアリングなどの前処理を行うことができます。これにより、機械学習モデルのトレーニングに適したデータセットを準備できます。
選択肢AのAmazon Kinesis Data Firehoseは、リアルタイムでデータを収集してAmazon S3、Amazon Redshift、Amazon Elasticsearch Serviceなどのストレージサービスに配信するために使用されますが、ETLタスクには適していません。選択肢CのAmazon Redshiftは、データウェアハウスサービスであり、大規模なデータセットのクエリと分析に適していますが、データの前処理やETLタスクには特化していません。選択肢DのAmazon Athenaは、サーバーレスのインタラクティブクエリサービスであり、S3に格納されたデータをSQLを使って簡単に分析できますが、ETLタスクには適していません。
※ 本ページの内容はβ版です。
※ 記載の内容に誤りがあった場合、問い合わせフォームよりご連絡下さい。
※ 本ページの内容で生じた損害について、責任は追いません。損害が発生しうる作業に用いる場合、本ページの利用を禁止します。
bottom of page