중간 점검

728x90

일단 기본적인 CNN구조로 모델을 만들어 훈련시켜 결과를 보았다.

다음과 같이 음성의 배음구조가 아닌 소리의 크기만을 가지고 노트를 찾는 모습을 볼 수 있었다.

다음 모델은 배음구조를 학습할 수 있도록 마지막 커널사이즈를 (n_bins, 3)과 같이 바꾸어 보았다.

(위의 모델은 커널 사이즈 (7,7), (5,5), (3,3)을 사용하였다.)

위쪽 노트에 사용된 악기가 무엇인지는 모르겠지만 음성의 배음을 학습했는지 배음노트를 출력하지않았다.

하지만 노트의 길이라던가, cqt가 잘 안되는 악기가 있는 것 같다.

문제는 노트의 길이는 배음구조를 파악하여 뽑아내려는 노트가 어떤 악기인지 알아야 노트의 길이를 제대로 빼낼 수 있을 것으로 생각되기 때문에,

단순히 커널을 시간축으로 길게 만들기만 해서는 노트의 길이를 제대로 얻을 수 있을 것 같지않다.

결국 소스분리 후 각 소스에 맞는 악기모델로 채보를 진행해야 될 것 같다.

일단 그 전에 마지막으로 모델의 마지막 단에 노트 축과 시간 축으로 긴 커널로 convolution한 결과를 concat한 후 piano_roll을 계산하는 모델을 실험해 봐야겠다.

p.s : 모델의 마지막 단에 노트 축과 시간 축으로 긴 커널로 convolution한 결과를 concat한 후 piano_roll을 계산하는 모델

9번째 평가 데이터를 비교해보면 시간축에 긴 커널을 추가하여 concat한 모델이 좀 더 시간축을 잘 맞춘 것처럼 보이지만, 효과는 미비한 것 같다.

728x90

EDA ) 악기별 'C4' constant-Q(데시벨) (0)	2022.07.12
채보 AI (AMT 모델)을 만들기위한 데이터셋 생성 (0)	2022.07.10
MIR ; Music informationh retrieval 음악 정보 검색 (0)	2022.05.06
고조파 타악기 소스 분리(HPSS) (0)	2022.05.06

자기개발수첩