Feb 3, 2023

음성 인식 (Speech Recognition)

 1. ASR(자동음성인식) 솔루션 두 가지 

  • 서비스: 클라우드에서 실행되거나 Python 라이브러리로 서비스
    • Google, Amazon, Microsoft의 클라우드
  • 소프트웨어: 로컬로 실행(네트워크 연결이 필요하지 않음) 

 2. 음성 인식 API 두 가지 유형

  • 배치: 전체 오디오 파일이 매개변수로 전달되고 음성-텍스트 변환이 한 번에 수행
  • 스트리밍: 오디오 버퍼의 청크가 반복적으로 전달되고 중간 결과에 액세스할 수 있음

 3. Colab에서 사용하기

  • 모든 패키지는 배치 모드를 지원하며 일부는 스트리밍 모드도 지원
  • 일반적인 사용 사례 중 하나는 마이크에서 오디오를 수집하고 버퍼에서 음성 인식 API로 전달하는 것입니다. 항상 그러한 기록기에서 마이크는 PortAudio 를 통해 구현되는 PyAudio 를 통해 액세스
  • Colab 메뉴에서 런타임 > 런타임 유형 변경 을 선택하고 Python3으로 설정되어 있는지 확인하고 GPU 버전을 사용하려면 GPU를 선택

 4. 참고 : 음성, 오디오 관련