Azure Machine Learning デザイナーを使用して、モデルをトレーニングする

Azure Machine Learning デザイナーには、ワークフローを定義できるドラッグアンドドロップインターフェイスが用意されています。モデルのトレーニング、複数のアルゴリズムのテストと比較を簡単に行えるワークフローを作成できます。

この演習では、デザイナーを使用して、2 つの分類アルゴリズムをすばやくトレーニングして比較します。

開始する前に

管理レベルのアクセス権を持つ Azure サブスクリプションが必要です。

Azure Machine Learning ワークスペースをプロビジョニングする

Azure Machine Learning ‘‘ワークスペース’’ では、モデルのトレーニングと管理に必要なすべてのリソースと資産を管理するための中心的な場所が提供されます。** Azure Machine Learning ワークスペースは、スタジオ、Python SDK、Azure CLI を使用して操作できます。

Azure CLI を使用してワークスペースと必要なリソースをプロビジョニングする、シェルスクリプトを使用します。次に、Azure Machine Learning スタジオのデザイナーを使用して、モデルのトレーニングと比較を行います。

ワークスペースとコンピューティングクラスターを作成する

Azure Machine Learning ワークスペースとコンピューティングクラスターを作成するには、Azure CLI を使用します。実行するために必要なすべてのコマンドがシェルスクリプトにグループ化されます。

ブラウザーで、Azure portal (https://portal.azure.com/) を開き、Microsoft アカウントでサインインします。
ページ上部の検索ボックスの右側にある [>_] (Cloud Shell) ボタンを選びます。これにより、ポータルの下部に Cloud Shell ペインが開きます。
メッセージが表示されたら、 [Bash] を選択します。 Cloud Shell を初めて開いたときに、使用するシェルの種類 (Bash または PowerShell) を選択するように求められます。
正しいサブスクリプションが指定されていることと、[ストレージアカウントは不要] が選択されていることを確認します。適用を選択します。
ターミナルで、次のコマンドを入力して、このリポジトリをクローンします。
```
 rm -r azure-ml-labs -f
 git clone https://github.com/MicrosoftLearning/mslearn-azure-ml.git azure-ml-labs
```
コピーしたコードを Cloud Shell に貼り付けるには、SHIFT + INSERT を使用します。
リポジトリがクローンされたら、次のコマンドを入力してこのラボ用のフォルダーに移動し、そこに含まれている setup.sh スクリプトを実行します。
```
 cd azure-ml-labs/Labs/05
 ./setup.sh
```
拡張機能がインストールされていないことを示す (エラー) メッセージは無視します。
スクリプトが完了するまで待ちます。通常、約 5 分から 10 分かかります。
トラブルシューティングのヒント: ワークスペース作成エラー

CLI を使用してセットアップスクリプトを実行するときにエラーが発生した場合は、リソースを手動でプロビジョニングする必要があります。
1. Azure portal のホームページで、[+ リソースの作成] を選択します。
2. machine learning を検索し、Azure Machine Learning を選択します。 ［作成］ を選択します
3. 次の設定を使用して新しい Azure Machine Learning リソースを作成します。
  - [サブスクリプション]:"ご自身の Azure サブスクリプション"
  - リソースグループ: rg-dp100-labs
  - ワークスペース名: mlw-dp100-labs
  - [リージョン]: "最も近い地理的リージョンを選択します"
  - [ストレージアカウント]: "ワークスペース用に作成される既定の新しいストレージアカウントに注目します"
  - [キーコンテナー]: ワークスペース用に作成される既定の新しいキーコンテナーです
  - [Application Insights]: ワークスペース用に作成される既定の新しい Application Insights リソースです
  - [コンテナーレジストリ]: なし (コンテナーにモデルを初めてデプロイするときに、自動的に作成されます)
4. [確認および作成] を選択し、ワークスペースとそれに関連付けられているリソースが作成されるまで待ちます。通常、これには約 5 分かかります。
5. [リソースに移動] を選択して、リソースの [概要] ページで [スタジオの起動] を選択します。ブラウザーで別のタブが開き、Azure Machine Learning スタジオが開きます。
6. スタジオに表示されるすべてのポップアップを閉じます。
7. Azure Machine Learning スタジオ内で、[コンピューティング] ページに移動し、[コンピューティングインスタンス] タブの [+ 新規] を選択します。
8. コンピューティングインスタンスに一意の名前を付けたあと、仮想マシンのサイズとして Standard_DS11_v2 を選択します。
9. [確認および作成] を選択し、次に [作成] を選択します。
10. 次に、[コンピューティングクラスター] タブを選択し、[+ 新規] を選択します。
11. ワークスペースを作成したリージョンと同じリージョンを選択し、仮想マシンのサイズとして Standard_DS11_v2 を選択します。 [次へ] を選択します
12. クラスターに一意の名前を付け、[作成] を選択します。

新しいパイプラインを構成する

ワークスペースと必要なコンピューティングクラスターを作成したら、Azure Machine Learning スタジオを開き、デザイナーでトレーニングパイプラインを作成できます。

Azure portal で、mlw-dp100-… という名前の Azure Machine Learning ワークスペースに移動します。
Azure Machine Learning ワークスペースを選択し、その [概要] ページで [スタジオの起動] を選択します。ブラウザーで別のタブが開き、Azure Machine Learning スタジオが開きます。
スタジオに表示されるすべてのポップアップを閉じます。
Azure Machine Learning スタジオ内で、 [コンピューティング] ページに移動し、前のセクションで作成したコンピューティングクラスターが存在することを確認します。クラスターはアイドル状態で、実行されているノードは 0 個のはずです。
[デザイナー] ページに移動します。
ページの上部にある [カスタム] タブを選びます。
カスタムコンポーネントを使用して新しい空のパイプラインを作成します。
右側の鉛筆アイコンを選択して、既定のパイプライン名 (Pipeline-Created-on-* date*) を Train-Diabetes-Classifier に変更します。

新しいパイプラインを作成する

モデルをトレーニングするには、データが必要です。データストアに格納されている任意のデータを使用することも、パブリックにアクセス可能な URL を使用することもできます。

左側のメニューで [データ] タブを選択します。
[diabetes-folder] コンポーネントをキャンバスにドラッグアンドドロップします。

これでデータが用意できたので、ワークスペース内に既に存在する (セットアップ中に作成された) カスタムコンポーネントを使用してパイプラインの作成を続けることができます。
左側のメニューで、 [コンポーネント] タブを選択します。
Remove Empty Rows コンポーネントをキャンバスの [diabetes-folder] の下にドラッグアンドドロップします。
データの出力を新しいコンポーネントの入力に接続します。
[数値列の正規化] コンポーネントをキャンバスの [空の行の削除] の下にドラッグアンドドロップします。
前のコンポーネントの出力を新しいコンポーネントの入力に接続します。
[デシジョンツリー分類子モデルのトレーニング] コンポーネントをキャンバスの [数値列の正規化] の下にドラッグアンドドロップします。
前のコンポーネントの出力を新しいコンポーネントの入力に接続します。
[構成と送信] を選択し、[パイプラインジョブのセットアップ] ページで新しい実験を作成し、diabetes-designer-pipeline という名前を付け、[次へ] を選択します。
[入力と出力] では何も変更せずに [次へ] を選択します。
[ランタイムの設定] で [コンピューティングクラスター] を選択し、[Azure ML コンピューティングクラスターを選択する] で aml-cluster を選択します。
[確認および送信] を選択し、[送信] を選択してパイプラインの実行を開始します。
[パイプライン] ページに移動し、Train-Diabetes-Classifier パイプラインを選択すると、実行の状態を確認できます。
すべてのコンポーネントが正常に完了するまで待ちます。

ジョブを送信すると、コンピューティングクラスターが初期化されます。コンピューティングクラスターはそれまでアイドル状態であったため、クラスターのノード数が 0 を超えるようにサイズ変更されるまでに時間がかかる場合があります。クラスターがサイズ変更されると、パイプラインの実行が自動的に開始されます。

各コンポーネントの実行を追跡できます。パイプラインが失敗すると、失敗したコンポーネントと失敗した理由を調べることができます。エラーメッセージは、ジョブの概要の [出力 + ログ] タブに表示されます。

比較する 2 つ目のモデルをトレーニングする

アルゴリズムを比較して、どちらのパフォーマンスが優れているかを評価するために、1 つのパイプライン内で 2 つのモデルをトレーニングして、比較することができます。

デザイナーに戻り、Train-Diabetes-Classifier パイプラインのドラフトを選択します。
他のトレーニングコンポーネントの横にあるキャンバスに [ロジスティック回帰分類子モデルのトレーニング] コンポーネントを追加します。
[数値列の正規化] コンポーネントの出力を、新しいトレーニングコンポーネントの入力に接続します。
上部にある [構成と送信] を選択します。
[基本] ページで、designer-compare-classification という名前の新しい実験を作成して実行します。
[確認および送信] を選択し、[送信] を選択してパイプラインの実行を開始します。
[パイプライン] ページに移動し、designer-compare-classification 実験で Train-Diabetes-Classifier パイプラインを選択すると、実行の状態を確認できます。
すべてのコンポーネントが正常に完了するまで待ちます。
[ジョブの概要] を選択し、[メトリック] タブを選択して、両方のトレーニングコンポーネントの結果を確認します。
どちらのモデルのパフォーマンスが優れているかを試して判断してください。

Azure リソースを削除する

Azure Machine Learning を調べ終わったら、不要な Azure のコストを避けるために作成したリソースを削除する必要があります。

[Azure Machine Learning スタジオ] タブを閉じて、Azure portal に戻ります。
Azure portal の [ホーム] ページで、[リソースグループ] を選択します。
[rg-dp100-…] リソースグループを選択します。
リソースグループの [概要] ページの上部で、[リソースグループの削除] を選択します。
リソースグループ名を入力して、削除することを確認し、[削除] を選択します。