728x90
반응형
직위 : 팀장
STT 모델을 활용하여 음성으로 PPT를 동작시키는 프로그램을 만든다.
주요 STT모델
kospeech | XLSR-53-Wav2vec2 | |
이용이 쉬운가? | 어려움.(오류발생이 심함) (경로설정문제, 패키지호환성문제) |
쉬움(Hugging face) |
학습이 시키기 쉬운가? | 경로설정 문제와 전처리기 사용하기 위한 코드 분석이 필요할 것으로 보임. | 모델이 3.5GBit으로 매우 큼. cuda로만 학습시킬 수 있음. -> 좋은 GPU가 필요 |
정확도가 좋은가? | kospeech의 베이스인 deepspeech2가 LibriSpeech test-clean데이터에서 WER가 5.3 | 53개국의 언어로 음향모델이 사전학습되어 적은 데이터로 좋은 결과를 냄. LibriSpeech test-clean에서 WER이 1.5 |
XLSR-53을 먼저 사용해보기로 결정.
데이터셋은 AI허브의 한국어 음성데이터 중 명령어 모음(일반남녀), 한국어 일상 대화, 한국어 강의 데이터를 사용하기로 함.
728x90
반응형
'projects > PPT Helper' 카테고리의 다른 글
날짜별 진행상황 (0) | 2022.06.30 |
---|
댓글