Erkunden der optischen Zeichenerkennung
Hinweis: Um dieses Lab abzuschließen, benötigen Sie ein Azure-Abonnement, in dem Sie über Administratorzugriff verfügen.
Eine häufige Herausforderung beim maschinellen Sehen ist die Erkennung und Interpretation von Text in einem Bild. Diese Art der Verarbeitung wird oft als optische Zeichenerkennung (Optical Character Recognition, OCR) bezeichnet. Die Lese-API von Microsoft bietet Zugriff auf OCR-Funktionen.
Um die Fähigkeiten der Lese-API zu testen, verwenden wir eine einfache Befehlszeilenanwendung, die in Cloud Shell ausgeführt wird. Die gleichen Prinzipien und Funktionen gelten auch für reale Lösungen, wie Websites oder Smartphone-Apps.
Verwenden des Azure KI Vision-Diensts zum Lesen von Text in einem Bild
Der Azure KI Vision-Dienst bietet Unterstützung für OCR-Aufgaben, einschließlich:
- Einer Lese-API, die für größere Dokumente optimiert ist. Diese API wird asynchron verwendet und kann sowohl für gedruckten als auch für handschriftlichen Text verwendet werden.
Erstellen einer Azure KI Services-Ressource
Sie können den Azure KI Vision-Dienst nutzen, indem Sie entweder eine Ressource für Maschinelles Sehen oder eine für Azure KI Services erstellen.
Wenn dies noch nicht erfolgt ist, erstellen Sie eine Azure KI Services-Ressource in Ihrem Azure-Abonnement.
-
Öffnen Sie auf einer anderen Browserregisterkarte das Azure-Portal unter https://portal.azure.com, und melden Sie sich mit Ihrem Microsoft-Konto an.
- Klicken Sie auf die Schaltfläche +Ressource erstellen und suchen Sie nach Azure KI Services. Wählen Sie Erstellen eines Azure KI Services-Plans aus. Sie werden zu einer Seite weitergeleitet, um eine Azure KI Services-Ressource zu erstellen. Konfigurieren Sie sie mit den folgenden Einstellungen:
- Abonnement: Ihr Azure-Abonnement.
- Ressourcengruppe: Wählen Sie eine Ressourcengruppe aus, oder erstellen Sie eine Ressourcengruppe mit einem eindeutigen Namen.
- Region: Wählen Sie eine beliebige verfügbare Region aus.
- Name: Geben Sie einen eindeutigen Namen ein.
- Tarif: Standard S0.
- Durch Aktivieren dieses Kontrollkästchens bestätige ich, dass ich die folgenden Bedingungen gelesen und verstanden habe: Aktiviert.
-
Überprüfen und erstellen Sie die Ressource und warten Sie, bis die Bereitstellung abgeschlossen ist. Wechseln Sie dann zur bereitgestellten Ressource.
- Zeigen Sie die Seite Schlüssel und Endpunkt für Ihre Azure KI Services-Ressource an. Sie benötigen den Endpunkt und die Schlüssel, um von Clientanwendungen aus eine Verbindung herzustellen.
Ausführen von Cloud Shell
Um die Fähigkeiten des Custom Vision-Diensts zu testen, verwenden wir eine einfache Befehlszeilenanwendung, die in der Cloud Shell in Azure ausgeführt wird.
-
Wählen Sie im Azure-Portal die Schaltfläche [>_] (Cloud Shell) oben auf der Seite rechts neben dem Suchfeld aus. Dadurch wird am unteren Rand des Portals ein Cloud Shell-Bereich geöffnet.
-
Wenn Sie die Cloud Shell zum ersten Mal öffnen, werden Sie möglicherweise aufgefordert, die Art der Shell zu wählen, die Sie verwenden möchten (Bash oder PowerShell). Wählen Sie PowerShell aus. Wenn Sie diese Option nicht sehen, überspringen Sie den Schritt.
-
Wenn Sie aufgefordert werden, Speicher für Ihre Cloud Shell zu erstellen, stellen Sie sicher, dass Ihr Abonnement angegeben ist, und wählen Sie Speicher erstellen aus. Warten Sie dann etwa eine Minute, bis der Speicher erstellt ist.
-
Vergewissern Sie sich, dass der oben links im Cloud Shell-Bereich angezeigte Shelltyp zu PowerShell gewechselt ist. Wenn Bash angezeigt wird, wechseln Sie über das Dropdownmenü zu PowerShell.
-
Warten Sie, bis PowerShell gestartet wurde. Im Azure-Portal sollte der folgende Bildschirm angezeigt werden:
Konfigurieren und Ausführen einer Clientanwendung
Nachdem Sie nun über ein benutzerdefiniertes Modell verfügen, können Sie eine einfache Clientanwendung ausführen, die den OCR-Dienst nutzt.
-
Geben Sie in der Befehlsshell den folgenden Befehl ein, um die Beispielanwendung herunterzuladen und in einem Ordner namens „ai-900“ zu speichern.
git clone https://github.com/MicrosoftLearning/AI-900-AIFundamentals ai-900
Tipp: Wenn Sie diesen Befehl bereits in einem anderen Lab zum Klonen des Repositorys ai-900 verwendet haben, können Sie diesen Schritt überspringen.
-
Die Dateien werden in einen Ordner namens ai-900 heruntergeladen. Jetzt möchten wir alle Dateien in Ihrem Cloud Shell-Speicher anzeigen und mit ihnen arbeiten. Geben Sie den folgenden Befehl in die Shell ein:
code .
Beachten Sie, dass sich dadurch ein Editor wie in der Abbildung unten öffnet:
-
Erweitern Sie im Bereich Dateien auf der linken Seite die Option ai-900, und wählen Sie ocr.ps1 aus. Diese Datei enthält einen Code, der den Dienst für maschinelles Sehen verwendet, um Text in einem Bild zu erkennen und zu analysieren, wie hier gezeigt:
-
Machen Sie sich nicht zu viele Gedanken über die Details des Codes. Wichtig ist, dass er die Endpunkt-URL und einen der Schlüssel für Ihre Azure KI Services-Ressource benötigt. Kopieren Sie diese von der Seite Schlüssel und Endpunkte für Ihre Ressource aus dem Azure-Portal, und fügen Sie sie in den Code-Editor ein, wobei Sie die Platzhalterwerte YOUR_KEY und YOUR_ENDPOINT ersetzen.
Tipp: Möglicherweise müssen Sie die Trennlinie verwenden, um den Bildschirmbereich anzupassen, während Sie mit den Bereichen Schlüssel und Endpunkt und Editor arbeiten.
Nach dem Einfügen der Schlüssel- und Endpunktwerte sollten die ersten beiden Codezeilen etwa wie folgt aussehen:
$key="1a2b3c4d5e6f7g8h9i0j...." $endpoint="https..."
-
Verwenden Sie oben rechts im Editor-Bereich die Schaltfläche …, um das Menü zu öffnen, und wählen Sie Speichern aus, um Ihre Änderungen zu speichern. Öffnen Sie dann das Menü erneut, und wählen Sie Editor schließen aus. Nachdem Sie nun den Schlüssel und den Endpunkt eingerichtet haben, können Sie Ihre Azure KI Services-Ressource verwenden, um Text aus einem Bild zu extrahieren.
Verwenden wir nun die Lese-API. In diesem Fall handelt es sich um ein Werbebild für das fiktive Einzelhandelsunternehmen Northwind Traders, das etwas Text enthält.
Die Beispielclientanwendung analysiert das folgende Bild:
-
Geben Sie im PowerShell-Bereich die folgenden Befehle ein, um den Code zum Lesen des Texts auszuführen:
cd ai-900 ./ocr.ps1 advert.jpg
-
Überprüfen Sie die Details auf dem Bild. Der im Bild gefundene Text ist in einer hierarchischen Struktur von Regionen, Zeilen und Wörtern organisiert, und der Code liest diese, um die Ergebnisse abzurufen.
Beachten Sie, dass die Position des Texts durch die Koordinaten oben links und die Breite und Höhe eines * Begrenzungsrahmens* angegeben wird, wie hier gezeigt:
-
Versuchen wir es nun mit einem anderen Bild:
Geben Sie den folgenden Befehl ein, um das zweite Bild zu analysieren:
./ocr.ps1 letter.jpg
-
Überprüfen Sie die Ergebnisse der Analyse für das zweite Bild. Außerdem sollten der Text und die Begrenzungsrahmen des Texts zurückgegeben werden.
Weitere Informationen
Diese einfache App veranschaulicht nur einige der OCR-Funktionen des Diensts für maschinelles Sehen. Weitere Informationen über die Möglichkeiten dieses Diensts finden Sie auf der Seite für die OCR.