광학 문자 인식 살펴보기

참고 이 랩을 완료하려면 관리 액세스 권한이 있는 Azure 구독이 필요합니다.

일반적인 컴퓨터 비전 과제는 이미지에서 텍스트를 감지하고 해석하는 것입니다. 이러한 종류의 처리를 OCR(광학 문자 인식) 이라고도 합니다. Microsoft Read API는 OCR 기능에 대한 액세스를 제공합니다.

Read API의 기능을 테스트하기 위해 Cloud Shell에서 실행되는 간단한 명령줄 애플리케이션을 사용합니다. 웹 사이트 또는 휴대폰 앱과 같은 실제 솔루션에는 동일한 원칙과 기능이 적용됩니다.

Computer Vision Service를 사용하여 이미지의 텍스트 읽기

Computer Vision 인식 서비스는 다음을 포함한 OCR 작업에 대한 지원을 제공합니다.

  • 큰 문서에 최적화된 Read API입니다. 이 API는 비동기적으로 사용되며 인쇄 및 필기 텍스트 모두에 사용할 수 있습니다.

Azure AI 서비스 리소스를 생성합니다

Computer Vision 리소스 또는 Cognitive Services 리소스를 생성하여 Computer Vision 서비스를 사용할 수 있습니다.

아직 만들지 않았다면 Azure 구독에서 Azure AI 언어 서비스 리소스를 만듭니다.

  1. 다른 브라우저 탭의 https://portal.azure.com에서 Azure Portal을 열고 Microsoft 계정을 사용하여 로그인합니다.

  2. 65291을 클릭합니다. 리소스 단추를 만들고 Azure AI 서비스를 검색합니다. Azure AI 서비스 계획 만들기**를 선택합니다**. 페이지로 이동하여 Azure AI 서비스 리소스를 만듭니다. 다음 설정을 사용하여 PuTTY를 구성합니다.
    • 구독: 자신의 Azure 구독.
    • 리소스 그룹: 고유한 이름이 있는 리소스 그룹을 선택하거나 생성합니다.
    • 지역: 사용 가능한 지역을 선택합니다**.
    • 이름: 고유한 이름을 입력합니다.
    • 가격 책정 계층: 표준 S0
    • 이 확인란 선택하여 아래의 모든 약관을 읽고 이해했음을 확인: 선택하였습니다.
  3. 리소스를 검토 및 만들고 배포가 완료될 때까지 기다립니다. 그런 다음, 배포된 리소스로 이동합니다.

  4. Cognitive Services 리소스에 대한 키 및 엔드포인트 페이지를 봅니다. 클라이언트 애플리케이션에서 연결하려면 엔드포인트와 키가 필요합니다.

Cloud Shell 실행

Custom Vision 서비스의 기능을 테스트하기 위해 Azure의 Cloud Shell에서 실행되는 간단한 명령줄 애플리케이션을 사용합니다.

  1. Azure Portal에서 검색 상자 오른쪽 페이지 맨 위에 있는 [>_](Cloud Shell) 단추를 선택합니다. 그러면 포털 아래쪽에 Cloud Shell 창이 열립니다.

    맨 위 검색 상자 오른쪽에 있는 아이콘을 클릭하여 Cloud Shell 시작

  2. Cloud Shell을 처음 열면 사용할 셸 유형(Bash 또는 PowerShell)을 선택하라는 메시지가 표시될 수 있습니다. PowerShell을 선택합니다. 이 옵션이 표시되지 않으면 단계를 건너뜁니다.

  3. Cloud Shell에 대한 스토리지를 만들라는 메시지가 표시되면 구독이 지정되었는지 확인하고 스토리지 만들기를 선택합니다. 그런 다음, 스토리지가 만들어질 때까지 1분 정도 기다립니다.

    확인을 클릭하여 스토리지를 만듭니다.

  4. Cloud Shell 창의 왼쪽 위에 표시된 셸 형식이 PowerShell로 전환되었는지 확인합니다. Bash인 경우 드롭다운 메뉴를 사용하여 PowerShell로 전환합니다.

    PowerShell로 전환하기 위해 왼쪽 드롭다운 메뉴를 찾는 방법

  5. PowerShell이 시작될 때까지 기다립니다. Azure Portal에 다음 화면이 표시되어야 합니다.

    PowerShell이 시작될 때까지 기다립니다.

클라이언트 애플리케이션 구성 및 실행

이제 사용자 지정 모델이 있으므로 OCR 서비스를 사용하는 간단한 클라이언트 애플리케이션을 실행할 수 있습니다.

  1. 명령 셸에서 다음 명령을 입력하여 샘플 애플리케이션을 다운로드하고 ai-900이라는 폴더에 저장합니다.

     git clone https://github.com/MicrosoftLearning/AI-900-AIFundamentals ai-900
    

    다른 랩에서 이미 이 명령을 사용하여 ai-900 리포지토리를 복제했다면 이 단계를 건너뛰어도 됩니다.

  2. 파일은 ai-900이라는 폴더에 다운로드됩니다. 이제 Cloud Shell 스토리지에 있는 모든 파일을 보고 작업하려고 합니다. 셸에 다음 명령을 입력합니다.

     code .
    

    그러면 아래 이미지와 같은 편집기가 열립니다.

    코드 편집기.

  3. 왼쪽의 Files 창에서 ai-900을 확장하고 ocr.ps1을 선택합니다. 이 파일에는 다음과 같이 Computer Vision 서비스를 사용하여 이미지의 텍스트를 검색 및 분석하는 일부 코드가 포함되어 있습니다.

    이미지의 텍스트를 분석하는 코드가 포함된 편집기.

  4. 코드의 세부 사항에 대해 너무 걱정하지 마세요. 중요한 점은 엔드포인트 URL과 Cognitive Services 리소스의 키 중 하나가 필요하다는 것입니다. Azure Portal의 리소스에 대한 키 및 엔드포인트 페이지에서 이러한 값을 복사하여 코드 편집기에 붙여넣고 각각 YOUR_KEYYOUR_ENDPOINT 자리 표시자 값을 대체합니다.

    키 및 엔드포인트편집기 창에서 작업할 때 구분줄을 사용하여 화면 영역을 조정해야 할 수도 있습니다.

    키 및 엔드포인트 값을 붙여넣은 후 코드의 처음 두 줄은 다음과 유사하게 표시됩니다.

     $key="1a2b3c4d5e6f7g8h9i0j...."    
     $endpoint="https..."
    
  5. 편집기 창의 오른쪽 위에서 단추를 사용하여 메뉴를 열고 저장을 선택하여 변경 내용을 저장합니다. 그런 다음, 메뉴를 다시 열고 편집기 닫기를 선택합니다. 이제 키와 엔드포인트를 설정했으므로 Cognitive Services 리소스를 사용하여 이미지에서 텍스트를 추출할 수 있습니다.

    Read API를 사용하겠습니다. 이 경우 일부 텍스트가 포함된 가상의 Northwind Traders 소매 회사에 대한 광고 이미지가 있습니다.

    샘플 클라이언트 애플리케이션은 다음 이미지를 분석합니다.

    Northwind Traders 식품점에 대한 광고 이미지입니다.

  6. PowerShell 창에서 다음 명령을 입력해 코드를 실행하여 텍스트를 읽습니다.

     cd ai-900
     ./ocr.ps1 advert.jpg
    
  7. 이미지에 있는 세부 정보를 검토합니다. 이미지에 있는 텍스트는 영역, 선 및 단어의 계층 구조로 구성되며, 코드는 이를 읽어 결과를 검색합니다.

    텍스트의 위치는 다음과 같이 왼쪽 위 좌표와 경계 상자의 너비와 높이로 표시됩니다.

    윤곽선이 있는 이미지의 텍스트 이미지

  8. 이제 다른 이미지를 사용해 보겠습니다.

    입력된 문자의 이미지입니다.

    두 번째 이미지를 분석하려면 다음 명령을 입력합니다.

     ./ocr.ps1 letter.jpg
    
  9. 두 번째 이미지에 대한 분석 결과를 검토합니다. 또한 텍스트와 텍스트의 경계 상자를 반환해야 합니다.

자세한 정보

이 간단한 앱은 Computer Vision 서비스의 OCR 기능 중 일부만 보여줍니다. 이 서비스를 사용하여 수행할 수 있는 작업을 자세히 알아보려면 OCR 페이지를 참조하세요.