AI Master
교육개요
이 강의는 자연어 추론(NLI)의 모든 것을 심도 있게 다루며, 참가자들이 최신 NLI 모델을 직접 구축하고 훈련할 수 있도록 설계되었습니다. 사전 훈련된 모델을 활용한 NLI 태스크 수행부터, 실제 비즈니스와 연구 문제에 NLI 기술을 적용하는 방법까지, 이론과 실습을 결합한 커리큘럼을 통해 여러분의 자연어 처리 능력을 한 단계 업그레이드할 수 있습니다. 자연어 이해의 미래를 선도하고 싶은 분들에게 이 강의는 꼭 필요한 과정입니다.
교육목표
자연어 추론의 기본 원리에서부터 고급 모델링 전략까지 실습을 통해 이해하고, 다양한 실제 문제에 NLI를 적용할 수 있는 능력을 개발합니다.
강의내용
[가짜 뉴스 식별 Task]
[시나리오]
[배경]
1. 프로젝트 배경과 문제 인식
인터넷과 소셜 미디어의 발달로 정보의 접근성이 크게 향상되었습니다. 그러나, 이러한 정보의 홍수 속에서 가짜 뉴스가 실시간으로 퍼져 나가며, 공공의 의사결정을 왜곡하고 사회적 갈등을 유발하는 심각한 문제가 발생하고 있습니다. 가짜 뉴스는 종종 정치적, 사회적 목적을 위해 조작되어, 대중의 의견을 조종하고 분열을 조장합니다. 이에 따라, 가짜 뉴스를 효과적으로 식별하고 차단하는 기술의 개발이 절실히 요구되고 있습니다.
[목표]
NLI 기술을 활용하여, 뉴스 기사의 내용이 사실 기반인지, 혹은 의도적으로 조작 되었는지를 판별하는 AI 기반의 가짜 뉴스 탐지 시스템을 개발합니다.
[수행절차]
1단계: 데이터 수집 및 전처리
데이터 수집: 가짜 뉴스와 진짜 뉴스 기사 데이터를 수집합니다. 이 데이터는 학습 과정에서 모델이 사실과 조작된 정보를 구별하는 데 필요한 기반이 됩니다.
데이터 전처리: 수집된 데이터를 정제하여 불필요한 정보를 제거하고, NLI 모델 학습에 적합한 형태로 변환합니다. 예를 들어, 텍스트를 토큰화하고, 필요한 경우 언어적 특징을 추출합니다.
2단계: 모델 설계 및 학습
NLI 모델 설계: 사전에 학습된 언어 모델(BERT, RoBERTa 등)을 기반으로 NLI 모델을 설계합니다. 이러한 모델들은 이미 대규모 데이터셋에서 학습되어 있어, 뉴스 기사의 문맥을 이해하는 데 유리합니다.
NLI 모델 학습: 뉴스 본문을 전제(premise)로, 근거 자료의 내용을 가설(hypothesis)로 설정합니다. NLI 모델은 이러한 전제와 가설 쌍에 대해 가설이 전제를 지지하는지(Entailment), 모순되는지(Contradiction), 또는 무관한지(Neutral)를 판별합니다.
3단계: 평가 및 최적화
평가: 학습된 모델을 검증하기 위해, 별도로 준비된 테스트 데이터셋을 사용합니다. 모델의 성능을 평가하는 주요 지표로는 정확도, 정밀도, 재현율 등이 있습니다.
최적화: 모델의 성능을 개선하기 위해 하이퍼파라미터 조정, 추가 학습 데이터 활용, 모델 구조 변경 등의 최적화 작업을 수행합니다.
[데이터]
Dataset Description
train.csv: A full training dataset with the following attributes :
id: unique id for a news article
title: the title of a news article
author: author of the news article
text: the text of the article; could be incomplete
label: a label that marks the article as potentially unreliable
1: unreliable
0: reliable
test.csv: A testing training dataset with all the same attributes at train.csv without the label.
submit.csv: A sample submission that you can