1. ASR(자동음성인식) 솔루션 두 가지
- 서비스: 클라우드에서 실행되거나 Python 라이브러리로 서비스
- Google, Amazon, Microsoft의 클라우드
- 소프트웨어: 로컬로 실행(네트워크 연결이 필요하지 않음)
- CMU Sphinx, Mozilla DeepSpeech, Voice-Github
2. 음성 인식 API 두 가지 유형
- Google, Amazon, Microsoft의 클라우드
- CMU Sphinx, Mozilla DeepSpeech, Voice-Github
- 배치: 전체 오디오 파일이 매개변수로 전달되고 음성-텍스트 변환이 한 번에 수행
- 스트리밍: 오디오 버퍼의 청크가 반복적으로 전달되고 중간 결과에 액세스할 수 있음
3. Colab에서 사용하기
- 모든 패키지는 배치 모드를 지원하며 일부는 스트리밍 모드도 지원
- 일반적인 사용 사례 중 하나는 마이크에서 오디오를 수집하고 버퍼에서 음성 인식 API로 전달하는 것입니다. 항상 그러한 기록기에서 마이크는 PortAudio 를 통해 구현되는 PyAudio 를 통해 액세스
- Colab 메뉴에서 런타임 > 런타임 유형 변경 을 선택하고 Python3으로 설정되어 있는지 확인하고 GPU 버전을 사용하려면 GPU를 선택
4. 참고 : 음성, 오디오 관련