NeurIPS Data-Centric AI Workshop
Machine Translation task에서 high-quality parallel corpora를 제작할 때 사람의 노력을 적게 들이는 tool 제안
⇒ 이런 식으로 framework를 제안하면 좋을 듯 함.
AutoDC: Automated data-centric processing
https://github.com/dingdian110/AutoDC
label correction: 데이터를 vector화 한 다음에, outliers를 detection
edge case selection: embedding outliers 중에 선택
data augmentation: 가우시안 노이즈 추가 등등으로 augmentation
classification accuracy improvements 확인
Cleanlab
Audio Classification with SpeechBrain and Cleanlab - cleanlab
An Introduction to Confident Learning: Finding and Learning with Label Errors in Datasets
⇒ Label error을 detect할 때 out-of-distribution data, confident learning에 집중을 많이 함. 모델로 label error를 찾아내기에 가장 쉬운 방법인 듯 함. 우리도 만약 out-of-distribution data를 찾는다면, 인코더로 임베딩으로 만든 다음 outliers를 찾아내는 방식을 취해봐도 될 듯 함. 하지만 ASR task보다 라벨이 적은 audio classification task여서 가능한 방법이라고 생각됨.
최종적으로 AutoDC처럼, 모델로 찾은 wrong label 비율, (가능하면 추가적인 증강 비율), 모델의 수정 안된 데이터셋에 대한 정확도, 모델의 수정된 데이터셋에 대한 향상된 정확도를 표로 보이면 좋을 것 같다고 생각.