top of page
積み上がった本

AWS資格一問一答

Q2

あなたの会社は、機械学習モデルをトレーニングするために、大量のデータセットを準備する必要があります。データは、さまざまなデータソースから収集され、クリーニング、変換、特徴量エンジニアリングが必要です。どのAWSサービスを使って、データの前処理とETL(抽出、変換、ロード)作業を実行すべきですか? 


A. Amazon Kinesis Data Firehose 

B. AWS Glue 

C. Amazon Redshift 

D. Amazon Athena

ワンポイントアドバイス✌️

データの前処理やETLタスクに適したAWSサービスを探す際に、以下のポイントに注意してください。 ・サービスがデータの抽出、変換、ロード(ETL)をサポートしていること ・サービスがデータクリーニングや特徴量エンジニアリングを実行できること ・サービスが複数のデータソースからデータを収集できること
答えは「B」、AWS Glueです! 解説: AWS Glueは、データの抽出、変換、ロード(ETL)を実行するためのマネージドサービスです。さまざまなデータソースからデータを収集し、クリーニング、変換、特徴量エンジニアリングなどの前処理を行うことができます。これにより、機械学習モデルのトレーニングに適したデータセットを準備できます。 選択肢AのAmazon Kinesis Data Firehoseは、リアルタイムでデータを収集してAmazon S3、Amazon Redshift、Amazon Elasticsearch Serviceなどのストレージサービスに配信するために使用されますが、ETLタスクには適していません。選択肢CのAmazon Redshiftは、データウェアハウスサービスであり、大規模なデータセットのクエリと分析に適していますが、データの前処理やETLタスクには特化していません。選択肢DのAmazon Athenaは、サーバーレスのインタラクティブクエリサービスであり、S3に格納されたデータをSQLを使って簡単に分析できますが、ETLタスクには適していません。

※ 本ページの内容はβ版です。
​※ 記載の内容に誤りがあった場合、問い合わせフォームよりご連絡下さい。
​※ 本ページの内容で生じた損害について、責任は追いません。損害が発生しうる作業に用いる場合、本ページの利用を禁止します。

© 2023 Kamogawa Technology development LLC. All Rights Reserved.

bottom of page