NEURIPS Data-centric Ai workshop

NeurIPS Data-Centric AI Workshop

⇒ 이런 식으로 framework를 제안하면 좋을 듯 함.

⇒ Label error을 detect할 때 out-of-distribution data, confident learning에 집중을 많이 함. 모델로 label error를 찾아내기에 가장 쉬운 방법인 듯 함. 우리도 만약 out-of-distribution data를 찾는다면, 인코더로 임베딩으로 만든 다음 outliers를 찾아내는 방식을 취해봐도 될 듯 함. 하지만 ASR task보다 라벨이 적은 audio classification task여서 가능한 방법이라고 생각됨.

최종적으로 AutoDC처럼, 모델로 찾은 wrong label 비율, (가능하면 추가적인 증강 비율), 모델의 수정 안된 데이터셋에 대한 정확도, 모델의 수정된 데이터셋에 대한 향상된 정확도를 표로 보이면 좋을 것 같다고 생각.

ASR Error Detection via Audio-Transcript entailment (Interspeech 2022)