スピーチについて調べる

注このラボを完了するには、管理者アクセス権が与えられている Azure サブスクリプションが必要です。

音声を解釈して適切に対応できるソフトウェアを構築するには、Azure AI 音声サービスを使用できます。これにより、音声言語をテキストに簡単に変換することができます。また、その逆も可能です。

たとえば、”何時ですか” など、口頭での質問に対して音声で他者に応答できるスマートデバイスを作成するとします。応答は、現地時刻である必要があります。

音声サービスの機能をテストするために、Cloud Shell で実行する単純なコマンドラインアプリケーションを使用します。 Web サイトや電話アプリなど、実際のソリューションにも同じ原則と機能が適用されます。

“Azure AI サービス” リソースを作成する**

音声サービスを使用するには、音声リソースまたは Azure AI サービス リソースを作成します。

まだ作成していない場合は、Azure サブスクリプションで Azure AI サービス リソースを作成します。

別のブラウザータブで Azure portal (https://portal.azure.com) を開き、Microsoft アカウントでサインインします。
[＋リソースの作成] ボタンをクリックし、「Azure AI サービス」を検索してください。** [Azure AI サービスの作成] プランを選択してください。 Azure AI サービスリソースを作成するためのページに移動します。これを以下の設定で構成します。
- [サブスクリプション]: お使いの Azure サブスクリプション。
- [リソースグループ]: 一意の名前のリソースグループを選択するか、作成します。
- リージョン: 使用できるリージョンを選択します**
- [名前]: 一意の名前を入力します。
- 価格レベル: Standard S0
- このボックスをオンにすることで、私は以下のすべての契約条件を読んで理解したことを認めます: 選択されています。
リソースを確認して作成します。

Azure AI サービスリソースのキーと場所を取得する

デプロイが完了するまで待ちます。次に、Azure AI サービスリソースに移動し、[概要] ページで、サービスのキーを管理するためのリンクをクリックします。クライアントアプリケーションから Azure AI サービスリソースに接続するには、エンドポイントとキーが必要です。
リソースの [キーとエンドポイント] ページを表示します。クライアントアプリケーションから接続するには、[場所/リージョン] と [キー] が必要です。

Cloud Shell の実行

音声サービスの機能をテストするために、Azure の Cloud Shell で実行する単純なコマンドラインアプリケーションを使用します。

Azure portal で、ページの上部の検索ボックスの右側にある [>_] (Cloud Shell) ボタンを選択します。これにより、ポータルの下部に Cloud Shell ペインが開きます。
Cloud Shell を初めて開くと、使用するシェルの種類 (Bash または PowerShell) を選択するように求められる場合があります。 [PowerShell] を選択します。このオプションが表示されない場合は、このステップをスキップします。
Cloud Shell のストレージを作成するように求めるメッセージが表示された場合は、サブスクリプションが指定されていることを確認して、[ストレージの作成] を選択します。その後、ストレージが作成されるのを 1 分程度待ちます。
Cloud Shell ペインの左上に表示されるシェルの種類が PowerShell に切り替えられたことを確認します。 Bash の場合は、ドロップダウンメニューを使用して PowerShell に切り替えます。
PowerShell が起動するまで待ちます。 Azure portal に次の画面が表示されます。

クライアントアプリケーションを構成して実行する

カスタムモデルが作成されたので、音声サービスを使用する簡単なクライアントアプリケーションを実行できます。

コマンドシェルで、次のコマンドを入力してサンプルアプリケーションをダウンロードし、ai-900 というフォルダーに保存します。
```
 git clone https://github.com/MicrosoftLearning/AI-900-AIFundamentals ai-900
```
ヒント 別のラボで既にこのコマンドを使用して ai-900 リポジトリを複製した場合は、この手順をスキップできます。
ファイルが ai-900 という名前のフォルダーにダウンロードされます。次に、Cloud Shell ストレージ内のすべてのファイルを表示して、それらを使用します。シェルに次のコマンドを入力します。
```
 code .
```
これにより、次の図のようなエディターが開きます。
左側の [ファイル] ペインで、[ai-900] を展開し、[speaking-clock.ps1] を選択します。このファイルには、音声サービスを使用して音声認識と合成を行うコードがいくつか含まれています。
コードの詳細についてあまり心配しないでください。重要なのは、Azure AI サービスリソースのリージョンまたは場所といずれかのキーが必要であることです。 Azure portal のリソースの [キーとエンドポイント] ページからこれらをコピーして、コードエディターに貼り付け、YOUR_KEY と YOUR_LOCATION プレースホルダーの値をそれぞれ置き換えます。

ヒント [キーとエンドポイント] および [エディター] ペインを操作するときに、区分線を使用して画面領域を調整しなければならないことがあります。

キーと地域または場所の値を貼り付けると、コードの先頭の数行は次のようになります。
```
 $key = "1a2b3c4d5e6f7g8h9i0j...."
 $region="somelocation"
```
エディターペインの右上の […] ボタンを使用してメニューを開き、[保存] を選択して変更を保存します。次に、メニューを再度開き、[エディターを閉じる] を選択します。

サンプルクライアントアプリケーションでは、音声サービスを使用して音声入力の文字起こしを行い、音声による適切な応答を合成します。実際のアプリケーションでは、マイクから入力を受け取り、応答をスピーカーに送ることができますが、この簡単な例では、ファイルに事前に記録された入力を使用し、別のファイルとして応答を保存します。

以下のビデオプレーヤーを使用して、アプリケーションが処理する入力オーディオを聞いてください。
PowerShell ウィンドウで、次のコマンドを入力してコードを実行します。
```
 cd ai-900
 ./speaking-clock.ps1
```
出力を確認します。 “何時ですか” というテキストが正常に認識されているはずです。そして、output.wav という名前のファイルに適切な応答を保存します。

次のビデオプレーヤーを使用して、アプリケーションによって生成される音声出力を聞きます。

詳細情報

この簡単なアプリでは、音声サービスの一部の機能のみを示しています。このサービスで実行できる操作の詳細については、音声のページを参照してください。