개요

728x90

직위 : 팀장

STT 모델을 활용하여 음성으로 PPT를 동작시키는 프로그램을 만든다.

주요 STT모델

	kospeech	XLSR-53-Wav2vec2
이용이 쉬운가?	어려움.(오류발생이 심함) (경로설정문제, 패키지호환성문제)	쉬움(Hugging face)
학습이 시키기 쉬운가?	경로설정 문제와 전처리기 사용하기 위한 코드 분석이 필요할 것으로 보임.	모델이 3.5GBit으로 매우 큼. cuda로만 학습시킬 수 있음. -> 좋은 GPU가 필요
정확도가 좋은가?	kospeech의 베이스인 deepspeech2가 LibriSpeech test-clean데이터에서 WER가 5.3	53개국의 언어로 음향모델이 사전학습되어 적은 데이터로 좋은 결과를 냄. LibriSpeech test-clean에서 WER이 1.5

XLSR-53을 먼저 사용해보기로 결정.

데이터셋은 AI허브의 한국어 음성데이터 중 명령어 모음(일반남녀), 한국어 일상 대화, 한국어 강의 데이터를 사용하기로 함.

728x90

날짜별 진행상황 (0)	2022.06.30

자기개발수첩