본문 바로가기
projects/PPT Helper

개요

by 하이방가루 2022. 6. 29.
728x90
반응형

직위 : 팀장

 

STT 모델을 활용하여 음성으로 PPT를 동작시키는 프로그램을 만든다.

 

주요 STT모델

  kospeech XLSR-53-Wav2vec2
이용이 쉬운가? 어려움.(오류발생이 심함)
(경로설정문제, 패키지호환성문제)
쉬움(Hugging face)
학습이 시키기 쉬운가? 경로설정 문제와 전처리기 사용하기 위한 코드 분석이 필요할 것으로 보임. 모델이 3.5GBit으로 매우 큼.
cuda로만 학습시킬 수 있음.
-> 좋은 GPU가 필요
정확도가 좋은가? kospeech의 베이스인 deepspeech2가 LibriSpeech test-clean데이터에서 WER가 5.3 53개국의 언어로 음향모델이 사전학습되어 적은 데이터로 좋은 결과를 냄.
LibriSpeech test-clean에서 WER이 1.5

 

XLSR-53을 먼저 사용해보기로 결정.

 

데이터셋은 AI허브의 한국어 음성데이터 중 명령어 모음(일반남녀), 한국어 일상 대화, 한국어 강의 데이터를 사용하기로 함.

728x90
반응형

'projects > PPT Helper' 카테고리의 다른 글

날짜별 진행상황  (0) 2022.06.30

댓글