자연어 처리 모델 튜닝 결과가 뒤바뀌는 데이터 전처리 마스터 비법

어느 날, 힘들게 학습시킨 자연어 처리 모델이 생각만큼 성능을 내지 못해 좌절했던 경험, 다들 한 번쯤 있으실 거예요. 특히 요즘 ChatGPT 같은 거대 언어 모델(LLM)들이 쏟아져 나오면서 ‘데이터만 좋으면 만사 OK’라는 말까지 나오지만, 제가 직접 모델을 튜닝해보니, 정말 그 ‘좋은 데이터’를 만드는 과정이 진짜배기 승부처더라고요.

단순히 몇 줄 코드로 데이터 정제했다고 끝나는 문제가 아니었습니다. 정말이지, 깨끗하지 못한 데이터는 아무리 최신 알고리즘을 들이밀어도 ‘쓰레기를 넣으면 쓰레기가 나온다(Garbage In, Garbage Out)’는 진리를 뼈저리게 느끼게 했습니다. 처음엔 그냥 대충 토크나이징하고 전처리했는데, 막상 돌려보니 엉망진창인 예측값을 토해내더군요.

그때 깨달았죠. 자연어 처리 모델, 특히 미세 조정(Fine-tuning)의 성패는 결국 데이터 전처리에 달렸다는 것을요. 텍스트 정규화부터 시작해서 불용어 처리, 임베딩에 적합한 형태로 바꾸는 과정까지, 하나하나 공들여야 비로소 빛을 발하더라고요.

미래에는 AI가 알아서 데이터도 정제해주겠지, 생각할 수도 있겠지만, 지금 당장은 우리 손으로 직접 ‘모델의 밥’을 최고급으로 준비해주는 노력이 필수입니다. 이 복잡하고도 중요한 데이터 전처리 과정, 아래 글에서 자세하게 알아봅시다.

데이터, 모델의 운명을 좌우하는 보석

자연어 - 이미지 1

데이터셋 구축의 첫걸음: 원시 데이터 수집과 그 함정들

모델 튜닝을 위한 데이터 전처리는 단순히 기술적인 작업을 넘어, 모델이 세상과 소통하는 방식 그 자체를 결정짓는 일이에요. 마치 어린아이에게 세상을 가르치는 것과 비슷하죠. 처음부터 왜곡되거나 오염된 정보로 세상을 접하게 된다면, 그 아이가 세상을 올바르게 이해하고 판단하기는 무척 어려울 거예요. 자연어 처리 모델도 마찬가지입니다. 제가 과거에 감성 분석 모델을 튜닝하면서 겪었던 일인데, 웹 크롤링으로 데이터를 모으고는 ‘이 정도면 충분하겠지’ 안일하게 생각했었어요. 그런데 막상 학습을 시키니, 특정 감성에 대한 편향이 너무 심해서 실제 상황에서는 전혀 써먹을 수 없는 모델이 되어버린 적이 있죠. 데이터 수집 단계부터 ‘우리가 어떤 데이터를 모으고 있는가’, ‘이 데이터가 정말 모델이 학습해야 할 세상의 모습을 반영하고 있는가’를 뼈저리게 고민해야 합니다. 불필요한 노이즈나 중복 데이터가 뒤섞여 있지는 않은지, 우리 목표에 맞는 충분한 양과 질을 갖추고 있는지 꼼꼼히 확인하는 과정이 선행되지 않으면, 그 어떤 화려한 알고리즘도 무용지물이 됩니다.

정량적 평가를 넘어선 ‘느낌적인 느낌’: 경험이 중요한 이유

데이터 전처리는 숫자로만 판단할 수 없는 미묘한 ‘감’이 필요한 영역이기도 해요. 예를 들어, 어떤 문장에서 특정 단어를 불용어 처리할지 말지 결정하는 문제는, 단순히 등장 빈도만으로 판단하기 어렵습니다. 제가 챗봇 대화 데이터를 다룰 때 ‘아니요’라는 단어를 불용어 처리할 뻔한 적이 있었어요. 보통 ‘네’, ‘아니요’ 같은 응답 단어는 큰 의미가 없다고 생각하기 쉽잖아요? 하지만 특정 맥락에서는 ‘부정’의 의미를 강력하게 전달하는 핵심 키워드였고, 만약 제거했다면 챗봇이 엉뚱한 답변을 내놓았을 겁니다. 이런 판단은 오직 그 데이터를 다루고 모델을 운영하며 쌓인 경험에서 우러나오는 것이죠. 단순히 코드를 실행하고 결과값을 보는 것을 넘어, 데이터 하나하나에 담긴 의미를 파고들고, 이것이 모델의 최종 성능에 어떤 영향을 미칠지 깊이 있게 고민하는 통찰력이 필요한 부분입니다. 저처럼 몇 번의 실패를 겪어봐야 비로소 깨닫게 되는 소중한 교훈이랄까요.

잡음 투성이 현실, 텍스트 정규화의 비법

오탈자와 비표준어, 모델을 길 잃게 만드는 주범

인터넷 세상은 정말 다양한 형태로 뒤죽박죽된 텍스트가 넘쳐납니다. ‘안녕하세용’, ‘어케’, ‘존맛탱’ 같은 신조어나 은어, 그리고 수많은 오탈자들이 난무하죠. 이런 비표준적인 표현들이 모델 학습 데이터에 그대로 들어가면 어떻게 될까요? 모델은 혼란에 빠집니다. 예를 들어, ‘개꿀잼’이라는 표현을 본 모델은 ‘개’와 ‘꿀잼’을 분리해서 학습할 수도 있고, ‘개’를 부정적인 의미로 오인할 수도 있어요. 제가 겪었던 한 사례로는, 사용자 리뷰 데이터를 분석하는데 ‘짱좋음’이라는 표현이 너무 많아서, 모델이 ‘짱’이라는 단어를 특정 긍정 표현과만 연결 짓는 과적합 현상을 보이기도 했습니다. 이럴 때는 표준어 사전이나 정규 표현식을 활용하여 ‘안녕하세용’을 ‘안녕하세요’로, ‘짱좋음’을 ‘매우 좋음’ 등으로 정규화하는 작업이 필수적입니다. 단순히 일괄적으로 치환하는 것이 아니라, 맥락을 고려해 의미를 보존하면서 표준화하는 것이 중요합니다.

특수 문자, 이모티콘 처리: 단순 제거는 독이 될 수도

텍스트 데이터에서 흔히 접하는 특수 문자나 이모티콘은 어떻게 처리해야 할까요? 많은 분들이 ‘그냥 다 지우면 되지 않아?’라고 생각하실 겁니다. 하지만 감성 분석 같은 작업에서는 ‘ㅋㅋ’, ‘ㅠㅠ’, ‘???’, ‘!!!’ 같은 표현이 감정의 강도를 나타내는 중요한 단서가 됩니다. 예를 들어, ‘너무 좋아요!!!’와 ‘너무 좋아요’는 그 긍정의 강도가 확연히 다르죠. 이모티콘도 마찬가지입니다. 😊, 😠 같은 이모티콘은 직접적인 감정 표현이라 단순히 제거하면 모델이 중요한 정보를 놓치게 됩니다. 제가 최근에 진행한 프로젝트에서는 이모티콘을 특정 감성 레이블로 변환하거나, 문장 끝에 붙는 반복된 특수 문자를 감정 강조 토큰으로 치환하는 방식으로 전처리했더니 모델의 감성 분류 정확도가 확연히 올라가는 것을 경험했습니다. 이처럼 특수문자나 이모티콘을 무작정 제거하기보다는, 모델이 활용할 수 있는 의미 있는 정보로 변환하는 전략이 필요합니다. 아래 표는 일반적인 텍스트 노이즈 유형과 그에 대한 추천 전처리 방법을 정리한 것입니다.

노이즈 유형	예시	권장 전처리 방법	고려사항
오탈자/비표준어	‘넘나’, ‘하셈’	맞춤법 교정, 표준어 대체	도메인 특화 비표준어 사전 구축
특수 문자/기호	‘!’, ‘?’, ‘@’	의미에 따라 유지/제거/변환	감성 분석 시 강도 표현으로 활용
불필요한 공백	‘안녕 하세요’	단일 공백으로 정규화	연속 공백이 의미를 가질 경우 예외 처리
숫자/날짜/시간	‘2023 년’, ‘오후 3 시’	토큰화, 일반화(NUM), 제거	모델의 목적에 따라 정보 보존 여부 결정
HTML 태그/URL	, http://example.com	완전 제거 또는 특정 토큰으로 대체	링크 내 정보가 중요하면 파싱 후 활용

내 모델을 망치는 주범? ‘편향된 데이터’의 그림자

성별, 인종, 사회적 편견: 의도치 않은 차별 학습 방지

데이터 전처리 과정에서 가장 민감하고도 중요한 부분이 바로 ‘편향(Bias)’ 문제입니다. 우리가 사용하는 데이터는 현실 세계를 반영하고 있기 때문에, 성별, 인종, 직업 등에 대한 사회적 편견이 고스란히 담겨있을 수 있어요. 예를 들어, ‘의사’라는 단어 옆에는 주로 ‘남자’ 이름이, ‘간호사’ 옆에는 ‘여자’ 이름이 많이 등장하는 식이죠. 이런 편향된 데이터를 모델이 학습하게 되면, 모델 역시 사회적 편견을 답습하고 심지어 증폭시킬 수 있습니다. 제가 한 번 번역 모델을 테스트하는데, ‘그녀는 의사이다’를 번역했더니 ‘He is a doctor’라고 나오는 것을 보고 등골이 오싹했던 기억이 있어요. 명백한 성차별적 편향이었죠. 이를 해결하기 위해선 데이터셋 내에서 특정 그룹에 대한 편향된 표현이 있는지 탐지하고, 중립적인 표현으로 대체하거나, 편향된 데이터에 대한 가중치를 조정하는 등의 섬세한 작업이 필요합니다. 단순히 모델 성능을 높이는 것을 넘어, 윤리적인 AI를 만들기 위한 필수적인 과정이라고 할 수 있습니다.

불균형 데이터셋, 어떻게 균형을 찾아줄 것인가

편향의 또 다른 형태는 바로 데이터셋의 ‘불균형’입니다. 특정 클래스에 속하는 데이터가 다른 클래스에 비해 압도적으로 많을 때 발생하죠. 예를 들어, 스팸 메일 분류 모델을 만든다고 했을 때, 정상 메일이 스팸 메일보다 훨씬 많은 것이 일반적입니다. 제가 처음 이런 불균형 데이터셋으로 학습을 시켰을 때, 모델은 스팸을 거의 걸러내지 못하고 대부분의 메일을 정상으로 분류하는 것을 보고 좌절했었습니다. 모델 입장에선 스팸이 너무 적으니 ‘아예 스팸을 다 정상이라고 해버리는 게 오류를 줄이는 길이네!’라고 학습해버린 것이죠. 이런 문제를 해결하기 위해서는 소수 클래스 데이터를 증강(Augmentation)하거나, 다수 클래스 데이터를 샘플링(Sampling)하여 줄이는 오버샘플링(Oversampling) 또는 언더샘플링(Undersampling) 기법을 사용해야 합니다. 또한, 단순히 데이터 수를 맞추는 것을 넘어, 모델 학습 시 불균형을 고려한 손실 함수(Loss function)나 평가 지표(Evaluation metric)를 사용하는 것도 중요한 전략입니다. 제가 사용해본 방법 중 가장 효과적이었던 것은 SMOTE(Synthetic Minority Over-sampling Technique)처럼 인공적으로 소수 클래스 데이터를 생성하여 균형을 맞추는 것이었습니다. 이처럼 불균형을 해소하기 위한 노력은 모델이 모든 종류의 데이터에 대해 공정하게 학습하고 예측할 수 있도록 돕는 핵심 단계입니다.

토크나이징, 단어를 쪼개는 것 이상의 예술

형태소 분석과 서브워드 토크나이징의 깊이 있는 이해

자연어 처리의 첫 관문이자 가장 기본적인 단계가 바로 ‘토크나이징’입니다. 텍스트를 모델이 이해할 수 있는 작은 단위(토큰)로 쪼개는 과정이죠. 한국어는 조사나 어미가 발달한 교착어 특성상, 단순히 띄어쓰기 기준으로 자르는 것만으로는 의미 있는 토큰을 얻기 어렵습니다. ‘밥을 먹었다’를 ‘밥’, ‘을’, ‘먹었’, ‘다’처럼 형태소 단위로 분리하는 ‘형태소 분석’이 필수적인 이유죠. 제가 초기 모델을 만들 때 이 부분을 간과하고 단순히 공백 기준으로 토크나이징했다가, ‘먹었다’라는 동사가 ‘먹’, ‘었’, ‘다’로 엉뚱하게 쪼개져 모델이 혼란스러워했던 경험이 있습니다. 최근에는 BERT 같은 LLM의 등장과 함께 ‘서브워드 토크나이징(Subword Tokenization)’이 대세가 되었어요. 이는 자주 등장하는 단어는 그대로 사용하고, 드물게 등장하는 단어는 더 작은 단위(subword)로 쪼개는 방식입니다. 예를 들어 ‘unbelievable’을 ‘un’, ‘##believe’, ‘##able’로 쪼개는 식이죠. 이 방식은 Out-Of-Vocabulary(OOV) 문제를 줄여주고, 모델이 더 효율적으로 단어의 의미를 학습하게 돕습니다. 어떤 토크나이저를 선택하느냐에 따라 모델의 성능이 확연히 달라지니, 목표와 데이터 특성을 고려한 신중한 선택이 필요합니다.

모델 특성에 맞는 토크나이저 선택, 후회가 없으려면

시중에 나와 있는 다양한 토크나이저들(Mecab, Okt, KoNLPy 의 여러 모듈, SentencePiece, BPE 등) 중에서 우리 모델에 가장 적합한 것을 고르는 일은 생각보다 까다롭습니다. 저는 주로 Mecab 을 사용하는데, 속도가 빠르고 성능도 준수하기 때문이죠. 하지만 특정 도메인에서는 다른 토크나이저가 더 나은 성능을 보이기도 합니다. 예를 들어, 의학 용어가 많은 데이터를 다룬다면 해당 분야에 특화된 형태소 분석기가 더 유리할 수 있어요. 또한, LLM을 미세 조정할 때는 해당 LLM이 사전 학습될 때 사용된 토크나이저를 그대로 사용하는 것이 가장 좋습니다. 제가 BERT 모델을 튜닝할 때, 사전 학습에 사용된 WordPiece 토크나이저 대신 다른 것을 사용했다가 미세 조정 성능이 현저히 떨어지는 것을 보고 깜짝 놀랐습니다. 이미 모델이 특정 토큰 단위로 세상을 이해하도록 훈련받았는데, 엉뚱한 방식으로 토큰을 주면 모델이 제대로 작동할 리 만무하죠. 따라서 모델의 종류와 사전 학습 방식, 그리고 다루고자 하는 데이터의 특성을 종합적으로 고려하여 최적의 토크나이저를 선택하는 것이 중요하며, 가능하다면 여러 토크나이저를 시험해보고 가장 좋은 성능을 보이는 것을 채택하는 ‘실험 정신’이 필요합니다.

임베딩, 단어에 생명을 불어넣는 마법

사전 학습된 임베딩, 무조건 좋을까? 우리 데이터에 맞춤

토크나이징을 통해 얻은 단어들은 숫자로 변환되어야 모델이 이해할 수 있습니다. 이때 사용되는 것이 바로 ‘임베딩(Embedding)’입니다. 단어를 벡터 공간의 한 점으로 표현하여 단어 간의 의미적, 문법적 관계를 숫자로 나타내는 것이죠. Word2Vec, GloVe, FastText 와 같은 전통적인 임베딩 기법부터 BERT, GPT 같은 최신 LLM의 문맥 임베딩까지 다양한 종류가 있습니다. 많은 분들이 ‘사전 학습된 임베딩을 쓰면 좋겠지?’라고 생각하며 무작정 가져다 쓰곤 합니다. 저도 초창기에는 그랬고요. 하지만 제가 겪었던 사례 중 하나는, 특정 산업 분야의 비표준 용어가 많은 데이터에 일반적인 사전 학습 임베딩을 적용했을 때, 모델이 해당 용어들의 의미를 제대로 파악하지 못해 성능이 저조했던 적이 있습니다. 이때 해당 도메인 데이터로 임베딩을 직접 학습시키거나, 기존 임베딩을 미세 조정했더니 성능이 확연히 개선되었죠. 사전 학습된 임베딩은 강력하지만, 우리 데이터셋의 특수성을 반영하지 못할 수도 있다는 점을 명심해야 합니다. 때로는 제로베이스에서 직접 학습시키는 것이 더 나은 결과를 가져올 수도 있고, 기존 임베딩에 우리 데이터를 ‘먹여’ 재학습시키는 방식이 훨씬 효율적일 때도 있습니다.

새로운 단어, 희귀 단어 처리: OOV 문제 극복하기

임베딩에서 마주하는 고질적인 문제 중 하나가 바로 ‘OOV(Out-Of-Vocabulary)’ 문제, 즉 학습 데이터에 없는 새로운 단어가 나타났을 때 발생하는 문제입니다. 기존 임베딩 모델들은 학습하지 못한 단어가 나타나면 이를 ‘알 수 없음’으로 처리하거나 무작위 벡터값을 할당하는데, 이는 모델 성능 저하로 직결됩니다. 제가 진행했던 검색어 추천 시스템 프로젝트에서, 사용자들이 계속해서 새로운 유행어나 신조어를 입력하는데, 기존 임베딩은 이를 전혀 처리하지 못해 엉뚱한 추천 결과를 내놓았던 적이 있어요. 이때 FastText 처럼 서브워드 정보를 활용하는 임베딩을 도입하거나, 신조어를 빠르게 학습 데이터에 반영하여 임베딩을 업데이트하는 방식을 사용했습니다. LLM 기반의 토크나이저와 임베딩은 이러한 OOV 문제에 훨씬 강하지만, 여전히 완벽하지는 않습니다. 결국 중요한 것은, 모델이 접하게 될 실제 데이터의 특성을 예측하고, 이에 맞춰 임베딩 전략을 수립하는 것입니다. 알 수 없는 단어가 나왔을 때 단순히 무시하지 않고, 그 단어의 의미를 추론하거나 학습할 수 있도록 하는 ‘유연성’이 임베딩 전처리 단계의 핵심이라고 할 수 있습니다.

미세 조정의 완성, 반복적인 검증과 개선의 고통

데이터 전처리, 한 번으로 끝내지 않는 이유

많은 분들이 데이터 전처리를 모델 학습 전 단 한 번만 수행하는 ‘일회성 작업’이라고 생각하는 경향이 있습니다. 하지만 제 경험상, 데이터 전처리는 모델 학습 및 평가 과정과 끊임없이 상호작용하며 개선되어야 하는 ‘반복적인 과정’입니다. 처음 전처리한 데이터로 모델을 학습시켰는데, 예상치 못한 오류 패턴이 발견되거나 특정 유형의 데이터에서만 성능이 현저히 떨어지는 경우가 비일비재합니다. 제가 겪었던 사례 중 하나는, 고객 문의 챗봇을 만들면서 특정 제품에 대한 불만 문의를 정확히 분류하지 못하는 문제였습니다. 알고 보니 해당 제품명이 여러 가지 약칭으로 불리고 있었고, 이 약칭들이 데이터 전처리 과정에서 제대로 표준화되지 않아 모델이 인지하지 못했던 것이었죠. 이처럼 모델의 예측 결과나 성능 지표를 분석하면서, ‘아, 데이터 전처리 단계에서 이 부분을 놓쳤구나!’하고 깨닫고 다시 전처리 파이프라인을 수정하는 일이 끊임없이 반복됩니다. 마치 예술가가 작품을 완성하기 위해 수없이 붓질을 고쳐나가듯이, 데이터 과학자도 모델의 완성도를 높이기 위해 전처리 과정을 계속해서 다듬어나가야 합니다.

피드백 루프: 모델 성능이 데이터 품질을 말해준다

데이터 전처리의 진정한 가치는 모델의 최종 성능에서 빛을 발합니다. 모델이 기대만큼의 성능을 내지 못한다면, 단순히 ‘모델 아키텍처가 안 좋아서’ 또는 ‘하이퍼파라미터 튜닝이 부족해서’라고만 생각할 것이 아니라, 가장 먼저 ‘내가 사용한 데이터가 정말 깨끗하고 적절했는가?’라는 질문을 던져봐야 합니다. 제가 한 번 문장 분류 모델의 정확도가 아무리 튜닝해도 80%대에서 정체되는 것을 보고 너무 답답했던 적이 있습니다. 온갖 알고리즘과 튜닝 기법을 다 써봤지만 소용이 없었죠. 결국, 데이터 라벨링이 일부 잘못되었고, 불필요한 HTML 태그가 문장 중간에 그대로 남아있었던 것을 발견했습니다. 이런 사소한 실수들이 모델의 학습을 방해하고 있었던 것이죠. 데이터 전처리 파이프라인을 재정비하고 문제 요소를 제거했더니, 모델 성능이 마법처럼 90% 이상으로 껑충 뛰었습니다. 이 경험은 저에게 ‘모델은 데이터의 거울’이라는 진리를 다시 한번 일깨워주었습니다. 결국, 모델의 성능은 우리 데이터의 품질을 가장 솔직하게 대변해주는 지표이며, 이를 통해 데이터 전처리 과정의 개선점을 끊임없이 찾아내야 합니다.

글을 마치며

데이터 전처리는 정말 모델의 성패를 좌우하는 핵심입니다. 제가 수많은 시행착오를 겪으며 절감한 것이죠. 단순히 데이터를 정제하는 기술적인 작업을 넘어, 모델이 세상의 복잡한 언어를 올바르게 이해하고 학습할 수 있도록 ‘길을 닦아주는’ 과정이라고 생각합니다. 때로는 지루하고 고통스러울 만큼 반복적인 작업처럼 느껴질 때도 있지만, 결국 이 노력이 없었다면 제가 만들었던 수많은 모델들은 빛을 보지 못했을 거예요. 그러니 이제 막 자연어 처리의 세계에 발을 들인 분들이라면, 부디 데이터 전처리의 중요성을 간과하지 마시길 바랍니다. 이 과정이 바로 여러분의 모델을 ‘쓰레기 투성이’에서 ‘보석’으로 탈바꿈시킬 마법의 열쇠가 될 겁니다.

알아두면 쓸모 있는 정보

형태소 분석기는 한국어 특성에 맞춰 다양한 종류가 있으니, 분석하려는 데이터의 특성(구어체, 문어체, 전문용어 등)을 고려하여 적절한 것을 선택하는 것이 중요합니다.

불균형 데이터셋 문제는 SMOTE(Synthetic Minority Over-sampling Technique)와 같은 오버샘플링 기법 외에도, 클래스 가중치를 조절하는 손실 함수를 적용하는 것도 효과적인 방법입니다.

정규표현식(Regular Expression)은 텍스트 정규화에 필수적인 도구입니다. 복잡한 패턴의 노이즈를 효율적으로 제거하거나 변환할 때 유용하게 활용할 수 있습니다.

모델 학습 후에는 반드시 ‘오류 분석(Error Analysis)’을 수행하여, 모델이 어떤 유형의 데이터에서 틀리는지 확인하고, 이를 통해 전처리 개선점을 찾아내는 피드백 루프를 구축하세요.

최신 LLM(Large Language Models)을 활용할 때는 해당 모델이 사전 학습될 때 사용된 토크나이저와 임베딩 방식을 그대로 따르는 것이 최적의 성능을 끌어내는 데 도움이 됩니다.

중요 사항 정리

자연어 처리 모델의 성공은 겉으로 드러나는 화려한 알고리즘이나 최신 모델 구조보다, 그 뒤편의 꼼꼼하고 끊임없는 데이터 전처리에 달려있다는 점을 명심해야 합니다. 데이터 수집 단계부터 편향과 불균형을 경계하고, 텍스트 정규화, 토크나이징, 임베딩 각 단계에서 데이터의 특성과 모델의 목적을 깊이 있게 고려해야 합니다. 결국, ‘데이터는 모델의 밥’이라는 사실을 잊지 말고, 최고급 재료로 최고의 밥상을 차려주는 노력이 곧 여러분의 AI 모델을 빛나게 할 것입니다.

자주 묻는 질문 (FAQ) 📖

질문: 요즘처럼 대단한 ChatGPT 같은 모델들이 쏟아져 나오는데, 그래도 데이터 전처리가 그렇게까지 중요한가요? 저는 데이터만 많이 넣으면 되는 줄 알았거든요.

답변: 아, 그 마음 저도 백 번 이해합니다. 저도 처음엔 그랬어요. ‘아니, 이렇게 똑똑한 모델이 알아서 다 걸러주겠지!’ 싶었죠.
그런데 막상 제가 직접 모델을 붙잡고 씨름해보니, 정말이지 ‘쓰레기를 넣으면 쓰레기가 나온다(Garbage In, Garbage Out)’는 그 뼈아픈 진리를 다시 한번 깨닫게 되더라고요. 특히 미세 조정(Fine-tuning)에서는 모델이 기존에 학습한 지식을 우리의 특정 도메인에 맞추는 건데, 그때 들어가는 데이터가 엉망진창이면 모델은 뭘 배워야 할지 헷갈려 합니다.
예를 들어, 제가 감성 분석 모델을 만들 때였는데, ‘헐, 완전 대박!’ 이라는 표현을 모델이 ‘헐’ 따로, ‘대박’ 따로 이상하게 해석해서 엉뚱한 감성으로 분류하는 걸 보고 정말 당황했었죠. 이런 작은 디테일 하나하나가 모델 성능을 완전히 뒤집어 놓더라고요. 결국 모델은 우리가 넣어준 데이터를 기반으로 세상을 이해하고 말하는 법을 배우는 거니까, 그 ‘데이터’라는 밥을 최고급으로 준비해주는 게 우리 몫인 거죠.

질문: 데이터 전처리 과정이 중요하다고 하셨는데, 구체적으로 어떤 단계들이 가장 핵심적이고, 왜 그렇게 중요한지 궁금합니다. 막연하게 전처리라고만 들으니 감이 잘 안 와요.

답변: 맞아요, ‘전처리’라는 말이 너무 광범위해서 뭘 해야 할지 막막할 때가 많죠. 제가 직접 삽질하면서 느낀 바로는 크게 몇 가지가 정말 중요하더라고요. 첫째는 텍스트 정규화예요.
예를 들어, ‘안녕하세요!’, ‘안녕하세요!!’, ‘안녕~’ 같은 표현들을 ‘안녕하세요’처럼 통일시키는 거죠. 모델은 미묘한 차이도 다르게 인식하기 때문에 이런 정규화가 안 되면 같은 의미인데도 다 다른 단어로 학습해버려서 혼란스러워해요. 제가 특정 키워드 추출 모델을 만들 때, 똑같은 제품명인데 띄어쓰기나 오탈자 때문에 놓치는 경우가 허다해서 얼마나 속상했는지 몰라요.
두 번째는 불용어 처리와 토큰화입니다. ‘은, 는, 이, 가’ 같은 불용어들은 문맥상 중요한 역할을 안 할 때가 많아서 제거해주는 게 모델이 핵심 단어에 집중하는 데 도움이 돼요. 그리고 문장을 단어 단위(혹은 서브워드)로 쪼개는 토큰화도 중요하고요.
마지막으로 임베딩에 적합한 형태로 변환하는 건데, 이건 모델이 텍스트를 숫자로 이해할 수 있게 만드는 과정이에요. 이 세 가지 과정이 제대로 안 되면 모델은 마치 제가 외국어를 배울 때 문법도 모르고 단어도 제멋대로 외워서 엉망진창으로 말하는 것과 똑같아지는 거죠. 정말 정성껏 ‘모델의 밥’을 준비해야 하는 이유가 여기에 있습니다.

질문: 힘들게 모델을 돌렸는데 성능이 생각보다 안 나올 때, 이게 데이터 문제인지 아니면 모델 아키텍처 문제인지 어떻게 진단할 수 있을까요? 경험상 조언 좀 해주세요.

답변: 아, 정말 등골이 서늘해지는 순간이죠. 저도 며칠 밤낮 고민해서 만든 모델이 예측값이 엉망진창일 때 ‘내가 뭘 잘못했지?’ 하면서 자괴감에 빠진 적이 한두 번이 아니에요. 제 경험상 제일 먼저 의심해볼 건 역시 ‘데이터’예요.
첫 번째 팁은 모델이 뱉어내는 예측값을 직접 눈으로 확인해보는 거예요. 만약 예측 결과가 상식적으로 말이 안 되거나, 완전히 엉뚱한 단어들이 튀어나온다면, 십중팔구 데이터가 제대로 정제되지 않았을 가능성이 커요. 예를 들어, 제가 뉴스 기사 요약 모델을 만들었는데, 요약문이 원래 기사에 없는 단어를 막 지어내거나 문법이 파괴된 문장을 내뱉을 때 ‘아, 이건 데이터가 모델을 잘못 가르쳤구나’ 싶었죠.
두 번째는 학습 데이터와 검증 데이터의 분포를 비교해보는 겁니다. 혹시 검증 데이터셋에만 특이한 패턴이 있거나, 오탈자가 너무 많지는 않은지 확인하는 거죠. 마지막으로는 데이터 전처리 중간 산출물들을 샘플링해서 직접 확인하는 거예요.
토큰화가 제대로 됐는지, 불용어가 잘 제거됐는지, 특수문자들이 이상하게 변환되진 않았는지 말이죠. 물론 모델 구조나 하이퍼파라미터 문제일 수도 있지만, 저 같은 경우는 8 할 이상이 데이터 문제에서 시작됐어요. 결국 ‘내 모델이 뭘 먹고 이런 똥을 싸는가’를 냉철하게 따져보는 거죠.
직접 눈으로 보고, 손으로 만져보고, 그래야 진짜 문제가 어딘지 알 수 있습니다.

📚 참고 자료

1. 자연어 처리 모델 튜닝을 위한 데이터 전처리 방법 – Wikipedia

Wikipedia 백과사전 정보

2. 데이터, 모델의 운명을 좌우하는 보석

구글 검색 결과

3. 잡음 투성이 현실, 텍스트 정규화의 비법

구글 검색 결과

4. 내 모델을 망치는 주범? ‘편향된 데이터’의 그림자

구글 검색 결과

5. 토크나이징, 단어를 쪼개는 것 이상의 예술

구글 검색 결과

6. 임베딩, 단어에 생명을 불어넣는 마법

구글 검색 결과

7. 자연어 처리 모델 튜닝을 위한 데이터 전처리 방법 – 네이버

처리 모델 튜닝을 위한 데이터 전처리 방법 – 네이버 검색 결과

8. 자연어 처리 모델 튜닝을 위한 데이터 전처리 방법 – 다음

처리 모델 튜닝을 위한 데이터 전처리 방법 – 다음 검색 결과