본문 바로가기
728x90
반응형

projects/PPT Helper2

날짜별 진행상황 2022/06/14 - 나를 포함한 팀원 3명이 각자 데이터를 분석하고 전처리하기로 함. - 명령어 모음(일반남녀) 데이터를 맡음. - 데이터 정보가 json형식으로 말하는 사람에 대한 많은 데이터와 대본이 있음. - 파일명과 대본만을 따로 떼어내서 csv파일로 변환. - 다른 데이터의 경우 전사규칙으로 인한 특수토큰과 다중으로 일상표기/발음으로 적혀있는 등 전처리가 까다로움. - 제일 간단한 명령어 모음 데이터를 이용하여 모델을 학습시켜보기로 함. - 모든 데이터를 한 번에 학습시키기에는 computer resources가 적어 데이터를 1000개씩 나누어 train data와 validation data로 나누어 학습시키려 함. 2022/06/15 - 오디오 파일을 학습시킬 때마다 불러와서 변환하는 .. 2022. 6. 30.
개요 직위 : 팀장 STT 모델을 활용하여 음성으로 PPT를 동작시키는 프로그램을 만든다. 주요 STT모델 kospeech XLSR-53-Wav2vec2 이용이 쉬운가? 어려움.(오류발생이 심함) (경로설정문제, 패키지호환성문제) 쉬움(Hugging face) 학습이 시키기 쉬운가? 경로설정 문제와 전처리기 사용하기 위한 코드 분석이 필요할 것으로 보임. 모델이 3.5GBit으로 매우 큼. cuda로만 학습시킬 수 있음. -> 좋은 GPU가 필요 정확도가 좋은가? kospeech의 베이스인 deepspeech2가 LibriSpeech test-clean데이터에서 WER가 5.3 53개국의 언어로 음향모델이 사전학습되어 적은 데이터로 좋은 결과를 냄. LibriSpeech test-clean에서 WER이 1.5.. 2022. 6. 29.
728x90
반응형