I. 머신러닝 기초 및 학습 패러다임 (Fundamentals & Learning Paradigms)
A. 기본 개념 (Basic Concepts)
- 머신러닝 (Machine Learning): 명시적인 프로그래밍 없이 데이터로부터 학습하여 패턴을 인식하고 예측 또는 결정을 내리는 시스템을 구축하는 인공지능의 한 분야이다.
- 데이터 (Data), 특징 (Features), 레이블 (Labels): 학습의 기반이 되는 정보(데이터), 모델의 입력으로 사용되는 개별 속성(특징), 지도 학습에서 예측 대상이 되는 정답(레이블)이다.
- 모델 (Model): 데이터로부터 학습된 패턴의 수학적 표현으로, 입력을 받아 출력을 생성한다.
- 학습/훈련 (Learning/Training): 데이터를 사용하여 모델 파라미터를 조정하는 과정이다.
- 추론/예측 (Inference/Prediction): 학습된 모델을 사용하여 새로운 데이터에 대한 결과를 생성하는 과정이다.
- 과적합 (Overfitting) / 과소적합 (Underfitting): 모델이 훈련 데이터에만 너무 잘 맞거나(과적합), 훈련 데이터의 패턴조차 제대로 학습하지 못하는(과소적합) 현상이다.
- 편향-분산 트레이드오프 (Bias-Variance Tradeoff): 모델의 예측 오차는 편향(모델의 단순성으로 인한 오류)과 분산(데이터 변화에 대한 민감성) 요소로 나뉘며, 이 둘 사이의 균형을 맞추는 것이 중요한다. 일반적으로 복잡도를 높이면 편향은 줄고 분산은 늘어난다.
B. 학습 패러다임 (Learning Paradigms)
- 지도 학습 (Supervised Learning)
- 비지도 학습 (Unsupervised Learning)
- 강화 학습 (Reinforcement Learning)
- 준지도 학습 (Semi-Supervised Learning)
- 자기지도 학습 (Self-Supervised Learning)
II. 주요 머신러닝 모델 및 알고리즘 (Key ML Models & Algorithms)
A. 모델 분류 기준 (Model Classification Criteria)
- 파라메트릭 모델 (Parametric Models)
- 비파라메트릭 모델 (Non-Parametric Models)
- 준파라메트릭 모델 (Semi-Parametric Models)
B. 선형 모델 (Linear Models)
- Linear Regression: 입력과 출력 사이의 선형 관계를 추정하는 회귀 모델이다.
- Polynomial Regression: 입력 변수의 다항식을 사용해 비선형 관계를 모델링합니다 (선형 모델의 확장).
- Logistic Regression: 입력 변수의 선형 조합을 통해 이진 분류 클래스 확률을 예측한다.
- Softmax Regression: 다중 클래스 분류를 위한 확장형 선형 모델이다. 출력층에 Softmax 함수를 적용해 확률 분포를 만든다.
- Linear Discriminant Analysis (LDA): 클래스 간 분산을 최대화하고 클래스 내 분산을 최소화하는 선형 판별 분류 모델이다. (차원 축소 기법으로도 사용됨 - II.H 참고)
- Ridge Regression: L2 정규화를 사용하여 과적합을 줄이는 선형 회귀이다.
- Lasso Regression: L1 정규화를 사용하여 가중치 희소성을 유도하는 회귀이다.
- Elastic Net: L1과 L2 정규화를 혼합하여 사용하는 회귀 방법이다.
C. 결정 트리 및 앙상블 (Decision Trees & Ensembles)
- Decision Tree: 데이터 특성을 기반으로 조건 분기를 반복하여 예측하는 나무 구조 모델이다.
- 앙상블 학습 (Ensemble Learning): 여러 개의 약한 모델을 조합해 더 강한 모델을 만든다.
D. 서포트 벡터 머신 (Support Vector Machines - SVM)
- Support Vector Machine (Classifier): 마진(margin) 최대화를 통해 최적의 분류 경계(결정 초평면)를 학습하는 모델이다. 커널 기법(Kernel Trick)을 통해 비선형 문제도 효과적으로 해결할 수 있다.
- Support Vector Regression (SVR): SVM의 원리를 회귀 문제에 적용한 모델이다. 마진 내 오류는 허용하면서 마진 밖 오류를 최소화한다.
E. 베이즈 모델 (Bayesian Models)
- Optimal Bayes Classifier: 베이즈 정리를 기반으로 사전 확률과 우도(likelihood)를 이용하여 분류 오류를 최소화하는 이론적인 최적 분류기이다. 실제 구현은 확률 분포 추정이 필요한다.
- Naive Bayes: 모든 특징들이 클래스에 대해 조건부 독립(conditionally independent)이라고 가정하고 베이즈 정리를 적용하는 간단하면서도 효과적인 분류기이다.
F. 거리 기반 모델 (Distance-Based Models)
- K-Nearest Neighbors (KNN): 새로운 데이터 포인트 주변의 가장 가까운 k개의 훈련 데이터 이웃을 참조하여 다수결(분류) 또는 평균(회귀)으로 예측하는 비파라메트릭 모델이다.
- Minimum Distance Classifier: 각 클래스의 평균(또는 프로토타입)까지의 유클리드 거리(또는 다른 거리 척도)를 계산하여 가장 가까운 클래스로 분류하는 간단한 분류기이다.
G. 군집화 알고리즘 (Clustering Algorithms)
- K-Means: 데이터를 k개의 중심점(centroid) 기준으로 반복적으로 할당하고 중심점을 업데이트하여 클러스터링한다.
- Hierarchical Clustering: 데이터를 유사도(또는 거리) 기반으로 계층적인 트리 구조(덴드로그램)로 병합(agglomerative)하거나 분할(divisive)한다.
- DBSCAN (Density-Based Spatial Clustering of Applications with Noise): 데이터 포인트의 밀도를 기반으로 클러스터를 형성하며, 임의 형태의 클러스터를 찾고 잡음(noise) 데이터 식별에 강건한다.
- Gaussian Mixture Model (GMM): 데이터가 여러 개의 가우시안(정규) 분포의 혼합으로 구성되었다고 가정하고, 각 데이터 포인트가 각 분포에 속할 확률을 추정하여 클러스터링합니다 (Soft Clustering).
- Spectral Clustering: 데이터 포인트 간의 유사도를 그래프로 표현하고, 그래프 라플라시안 행렬의 고유벡터(eigenvectors)를 사용하여 저차원 공간으로 임베딩한 후 클러스터링을 수행한다. 복잡한 형태의 클러스터 분리에 효과적이다.
H. 차원 축소 및 표현 학습 (Dimensionality Reduction & Representation Learning)
- 선형 차원 축소 (Linear Dimensionality Reduction)
- 비선형 차원 축소 (Non-linear Dimensionality Reduction)
- 표현 학습 (Representation Learning) - 주로 Autoencoder 기반
I. 신경망 기초 (Neural Network Basics)
- Neural Network (Artificial Neural Network, ANN): 상호 연결된 노드(뉴런)들의 층(layer)으로 구성된 모델이다. 비선형 활성화 함수를 통해 복잡한 패턴을 학습할 수 있으며, 지도, 비지도, 강화 학습 등 다양한 패러다임에 적용될 수 있다.
J. 기타 모델 (Other Models)
- Gaussian Process Regression (GPR): 함수 자체에 대한 사전 분포(prior distribution, 주로 가우시안 프로세스)를 정의하고, 관측 데이터를 통해 사후 분포(posterior distribution)를 업데이트하여 예측을 수행하는 베이즈 비파라메트릭 회귀 방법이다. 예측의 불확실성 추정이 가능한다.
- Generalized Additive Model (GAM): 선형 회귀를 확장하여 각 특징 변수에 대해 비선형 함수(주로 스플라인)를 적용한 후 이들의 합으로 예측하는 준파라메트릭 모델이다. 선형 모델의 해석 가능성을 유지하면서 비선형 관계를 모델링할 수 있다.
- Cox Proportional Hazards Model: 생존 분석(survival analysis)에 주로 사용되는 준파라메트릭 모델로, 특정 시점에서의 사건 발생 위험률(hazard rate)을 공변량(covariates)의 함수로 모델링한다. 기저 위험 함수(baseline hazard function)는 비모수적으로, 공변량의 효과(계수)는 모수적으로 추정한다.
III. 딥러닝 아키텍처 (Deep Learning Architectures)
딥러닝은 여러 개의 은닉층을 가진 심층 신경망(Deep Neural Network, DNN)을 사용하여 복잡한 문제를 해결하는 머신러닝의 하위 분야이다. 특정 과업에 특화된 다양한 아키텍처가 개발되었다.
A. CNN (Convolutional Neural Network) 계열
- LeNet: 최초의 실용적인 CNN 중 하나로, 주로 손글씨 숫자 인식(MNIST)에 사용되었다.
- AlexNet: GPU를 활용하여 대규모 이미지 분류(ImageNet)에서 획기적인 성능을 보여 딥러닝 부흥을 이끈 모델이다.
- VGGNet: 3x3 크기의 작은 합성곱 필터를 깊게 쌓아 네트워크 깊이의 중요성을 보여준 모델이다.
- ResNet (Residual Network): 잔차 연결(residual connection) 또는 스킵 연결(skip connection)을 도입하여 매우 깊은 네트워크(수백~수천 개 층)의 학습을 가능하게 하고 기울기 소실 문제를 완화했다.
- DenseNet (Densely Connected Convolutional Network): 각 층이 이후의 모든 층과 직접 연결되는 구조(dense connection)를 통해 특징 재사용(feature reuse)을 극대화하고 정보 흐름을 개선했다.
- EfficientNet: 네트워크의 깊이(depth), 너비(width), 입력 해상도(resolution)를 복합적인 스케일링 방법(compound scaling)으로 균형 있게 확장하여 효율성과 성능을 동시에 높인 모델이다.
B. 순환 신경망 (RNN) 및 관련 구조 (Recurrent Neural Networks & Related Architectures)
- RNN (Vanilla RNN): 순환 연결을 통해 이전 스텝의 정보를 현재 스텝의 계산에 활용하여 순차 데이터(sequence data)를 처리하는 기본적인 순환 구조이다. 장기 의존성 문제(long-term dependency problem)에 취약한다.
- LSTM (Long Short-Term Memory): 입력, 망각, 출력 게이트(gate) 메커니즘을 도입하여 장기 의존성 문제를 효과적으로 해결한 RNN의 변형 구조이다.
- GRU (Gated Recurrent Unit): LSTM의 구조를 간소화(업데이트 게이트, 리셋 게이트 사용)하여 계산 효율성을 높이면서 유사한 성능을 보이는 구조이다.
- Bi-LSTM (Bidirectional LSTM): 순방향과 역방향의 LSTM을 모두 사용하여 과거와 미래의 문맥 정보를 동시에 활용하는 구조이다.
- Seq2Seq (Sequence-to-Sequence): 인코더 RNN이 입력 시퀀스를 고정된 크기의 문맥 벡터로 압축하고, 디코더 RNN이 이 문맥 벡터를 받아 출력 시퀀스를 생성하는 구조이다. 기계 번역 등에 사용된다. 초기 Seq2Seq 모델은 고정된 크기의 문맥 벡터가 정보 병목 현상을 일으킬 수 있다는 한계가 있었다.
C. 어텐션 메커니즘 (Attention Mechanism)
- 정의: 어텐션은 모델이 출력 시퀀스의 특정 부분을 생성할 때, 입력 시퀀스 전체에서 관련성이 높은 부분에 '집중'하여 가중치를 부여하는 메커니즘이다. 이는 인간이 정보를 처리할 때 중요한 부분에 집중하는 방식과 유사한다.
- 역할: 초기에는 RNN 기반 Seq2Seq 모델의 한계(고정된 문맥 벡터로 인한 정보 손실)를 극복하기 위해 도입되었다. 디코더가 각 타임 스텝에서 입력 시퀀스의 모든 은닉 상태(hidden states)를 참고하되, 현재 예측과 관련성이 높은 상태에 더 높은 가중치(어텐션 스코어)를 부여하여 동적인 문맥 벡터를 생성한다.
- 핵심 요소 (Query, Key, Value): 일반적인 어텐션 메커니즘은 쿼리(Query, Q), 키(Key, K), 값(Value, V)이라는 세 가지 요소로 설명될 수 있다.
- 진화: 어텐션 메커니즘은 Seq2Seq 모델의 성능을 크게 향상시켰으며, 이후 트랜스포머 아키텍처에서는 순환 구조를 완전히 대체하는 핵심 구성 요소(셀프 어텐션)로 발전했다.
D. Transformer 계열 (Transformer Family)
- Transformer: RNN의 순환 구조를 완전히 제거하고, 셀프 어텐션(Self-Attention) 메커니즘만을 사용하여 입력 시퀀스 내의 요소 간 관계(의존성)를 직접 모델링하는 혁신적인 아키텍처이다. 순환 구조가 없어 병렬 처리가 매우 용이하며, 이는 대규모 모델 학습 시간을 크게 단축시켰다.
- BERT (Bidirectional Encoder Representations from Transformers): Transformer의 인코더 구조만을 사용하여, 문장 내 양방향 문맥을 동시에 고려하여 단어 및 문장 표현을 사전 학습(pre-training)하는 모델이다. 주로 자연어 이해(NLU) 작업에 강점을 보이며, 마스크된 언어 모델(Masked Language Model, MLM)과 다음 문장 예측(Next Sentence Prediction, NSP)이라는 두 가지 목표로 사전 학습된다.
- GPT (Generative Pre-trained Transformer): Transformer의 디코더 구조를 기반으로, 대규모 텍스트 데이터로 사전 학습되어 주로 텍스트 생성(text generation) 작업에 강력한 성능을 보이는 모델이다. 이전 단어들을 바탕으로 다음 단어를 예측하는 방식으로 학습하며, 단방향(왼쪽에서 오른쪽) 문맥만을 고려한다.
- T5 (Text-to-Text Transfer Transformer): 모든 NLP 문제를 텍스트 입력에서 텍스트 출력으로 변환하는 통일된 프레임워크(text-to-text)를 제안한 모델이다. 인코더-디코더 구조를 사용한다.
- 최신 대형 언어 모델 (Large Language Models - LLMs):
E. Vision Transformer (ViT) 계열
- ViT (Vision Transformer): 이미지를 여러 개의 작은 패치(patch)로 나누고, 각 패치를 시퀀스 데이터처럼 처리하여 Transformer 구조를 이미지 인식에 적용한 모델이다.
- DeiT (Data-efficient Image Transformers): ViT를 더 적은 데이터로도 효율적으로 학습시키기 위해 지식 증류(knowledge distillation) 등의 기법을 사용한 모델이다.
- Swin Transformer: 이미지를 계층적(hierarchical)으로 처리하고, 이동된 윈도우(shifted window) 기반의 로컬 어텐션을 사용하여 계산 효율성과 성능을 높인 ViT 변형 모델이다.
- ConvNeXt: CNN의 고전적인 구조(예: ResNet)에 Transformer의 설계 원칙(예: 레이어 정규화, 활성화 함수 변경 등)을 점진적으로 적용하여 CNN의 성능을 크게 향상시킨 모델이다.
F. 그래프 신경망 (Graph Neural Networks - GNN)
- GCN (Graph Convolutional Network): 그래프 구조 데이터에서 노드의 특징을 업데이트할 때, 인접 노드들의 특징 정보를 평균(또는 다른 집계 함수)하여 사용하는 기본적인 그래프 합성곱 방식이다.
- GAT (Graph Attention Network): 노드 특징을 집계할 때, 인접 노드들과의 관계 중요도(어텐션 가중치)를 학습하여 가중 평균을 사용하는 방식이다.
- GraphSAGE (Graph Sample and Aggregate): 대규모 그래프에서 모든 이웃 대신 일부 이웃을 샘플링하여 특징을 집계함으로써 확장성과 효율성을 높인 방식이다.
- Graph Transformer: Transformer의 셀프 어텐션 메커니즘을 그래프 데이터에 적용하여 노드 간의 장거리 의존성 및 복잡한 관계를 모델링하는 구조이다.
G. 생성 모델 (Generative Models)
- GAN (Generative Adversarial Network): 실제 데이터와 유사한 데이터를 생성하는 생성자(Generator)와 생성된 데이터가 실제인지 가짜인지 판별하는 판별자(Discriminator)가 서로 경쟁하며 학습하는 구조이다. 고품질 이미지 생성 등에 뛰어난다.
- VAE (Variational Autoencoder): 확률적인 잠재 공간을 학습하여 데이터를 생성하는 오토인코더 기반 생성 모델이다. (II.H.3 참고)
- Diffusion Models: 데이터에 점진적으로 노이즈를 추가하는 과정(forward process)과 노이즈로부터 원본 데이터를 점진적으로 복원하는 과정(reverse process)을 학습하여 고품질의 다양한 데이터를 생성하는 모델이다. GAN보다 학습이 안정적이고 생성된 샘플의 다양성이 높다는 장점이 있다.
- Latent Diffusion Models (LDM): 고차원 데이터(예: 이미지)를 직접 다루는 대신, 저차원의 압축된 잠재 공간(latent space)에서 확산(diffusion) 및 복원 과정을 수행하여 계산 효율성을 높인 모델이다 (예: Stable Diffusion).
- ControlNet: 사전 학습된 대규모 확산 모델(예: Stable Diffusion)에 추가적인 조건(예: 스케치, 자세)을 입력하여 생성 과정을 제어할 수 있도록 확장한 구조이다.
H. 멀티모달 / 분할 / 3D (Multimodal / Segmentation / 3D)
- SAM (Segment Anything Model): 입력 이미지와 프롬프트(예: 클릭, 박스)를 받아 이미지 내의 어떤 객체든 분할(segmentation)할 수 있는 범용적인 제로샷(zero-shot) 분할 모델이다.
- NeRF (Neural Radiance Fields): 여러 각도에서 촬영된 2D 이미지들로부터 3D 장면을 연속적인 신경망 표현(신경 광채 필드)으로 학습하여, 새로운 시점에서의 이미지를 사실적으로 렌더링하는 기술이다.
IV. 모델 학습 및 평가 (Model Training & Evaluation)
A. 손실 함수 (Loss Functions)
모델의 예측값과 실제 값 사이의 오차를 측정하는 함수이다. 훈련 목표는 이 손실을 최소화하는 것이다.
- 회귀 문제용 (Regression Loss)
- 분류 문제용 (Classification Loss)
- 정보 이론 기반 손실 (Information Theory Based Loss)
B. 최적화 알고리즘 (Optimization Algorithms)
손실 함수를 최소화하기 위해 모델 파라미터(가중치)를 업데이트하는 방법이다.
- 1차 미분 기반 최적화 (First-Order Optimization): 기울기(gradient) 정보만 사용한다.
- 2차 미분 기반 최적화 (Second-Order Optimization): 헤시안 행렬(Hessian matrix) 등 2차 미분(곡률) 정보를 사용한다. 수렴 속도가 빠를 수 있지만 계산 비용이 매우 높다.
- 제약 최적화 (Constrained Optimization): 특정 제약 조건 하에서 목표 함수를 최적화한다.
- 메타휴리스틱 알고리즘 (Metaheuristic Algorithms): 문제에 대한 가정이 적고, 전역 최적해(global optimum)를 찾기 위한 경험적(heuristic) 탐색 기법이다. 주로 복잡하거나 미분 불가능한 문제에 사용된다.
- 이산 최적화 (Discrete Optimization): 결정 변수가 정수 또는 이산적인 값을 갖는 최적화 문제이다.
- 다목적 최적화 (Multi-Objective Optimization): 두 개 이상의 상충하는 목적 함수를 동시에 최적화하는 문제이다. 단일 최적해가 아닌 파레토 최적해(Pareto optimal solutions) 집합을 찾는 것을 목표로 한다.
C. 정규화 기법 (Regularization Techniques)
모델의 복잡도를 제어하여 과적합(Overfitting)을 방지하고 일반화 성능을 높이는 기법이다.
- 매개변수 규제 (Parameter Norm Penalties): 모델의 가중치(파라미터) 크기에 직접 제약을 가한다.
- 구조적/암시적 규제 (Structural/Implicit Regularization): 학습 과정이나 모델 구조 자체에 제약을 가하여 과적합을 막다.
- 특수 규제 (Specialized Regularization)
D. 평가 및 검증 (Evaluation & Validation)
모델의 성능을 측정하고 일반화 능력을 평가하는 방법 및 지표이다.
- 분류 문제용 지표 (Classification Metrics)
- 회귀 문제용 지표 (Regression Metrics)
- 검증 방법 (Validation Methods)
- 불확실성 평가 (Uncertainty Evaluation)
E. 하이퍼파라미터 탐색 (Hyperparameter Tuning/Search)
모델 성능에 영향을 미치는, 학습 전에 사용자가 설정해야 하는 하이퍼파라미터(예: 학습률, 정규화 강도, 트리 깊이)의 최적 조합을 찾는 과정이다.
- Grid Search: 탐색할 하이퍼파라미터 값들의 조합을 격자(grid) 형태로 모두 시도하여 최적 조합을 찾다. 계산 비용이 높다.
- Random Search: 지정된 범위 내에서 하이퍼파라미터 값들을 무작위로 샘플링하여 탐색한다. Grid Search보다 효율적으로 좋은 조합을 찾을 수 있는 경우가 많다.
- Bayesian Optimization: 이전 탐색 결과를 바탕으로 아직 탐색하지 않은 영역 중 성능 개선 가능성이 높은 지점(획득 함수(acquisition function) 최대화)을 확률적으로 선택하여 탐색하는 방식이다. 적은 시도 횟수로 최적 조합을 찾는 데 효과적이다.
- Hyperband: 제한된 자원(예: 시간, 반복 횟수) 하에서 여러 하이퍼파라미터 조합을 병렬로 시도하고, 성능이 낮은 조합은 조기에 중단(early-stopping)하여 유망한 조합에 더 많은 자원을 할당하는 효율적인 탐색 기법이다.
- BOHB (Bayesian Optimization and HyperBand): Hyperband의 효율적인 자원 할당 방식과 Bayesian Optimization의 지능적인 탐색 방식을 결합한 기법이다.
- Optuna: 베이즈 최적화, TPE(Tree-structured Parzen Estimator), CMA-ES 등 다양한 최신 탐색 알고리즘을 지원하고, 분산 환경에서의 병렬 탐색, 탐색 과정 시각화 등을 제공하는 자동화된 하이퍼파라미터 최적화 프레임워크이다.
- Population-Based Training (PBT): 여러 모델(개체군)을 병렬로 훈련시키면서, 주기적으로 성능이 좋은 모델의 가중치와 하이퍼파라미터를 성능이 낮은 모델로 복사하고 약간의 변형(mutation)을 가하는 방식으로, 하이퍼파라미터와 모델 가중치를 동시에 최적화한다.
V. 관련 이론 및 고급 주제 (Related Theory & Advanced Topics)
A. 정보 이론 (Information Theory)
데이터의 불확실성을 정량화하고, 확률 분포 간의 관계를 측정하는 수학적 이론이다. 머신러닝에서 손실 함수 정의, 모델 평가, 특징 선택 등에 활용된다.
- Shannon Entropy: 확률 변수의 불확실성(정보량)을 측정하는 기댓값이다. 분포가 균일할수록 엔트로피가 높다.
- Conditional Entropy: 다른 확률 변수 Y의 값이 주어졌을 때, 확률 변수 X의 남은 불확실성을 측정합니다 (H(X|Y)).
- Joint Entropy: 두 확률 변수 X와 Y가 함께 가질 수 있는 상태에 대한 총 불확실성을 측정합니다 (H(X, Y)).
- Mutual Information (상호 정보량): 두 확률 변수 X와 Y가 공유하는 정보량이다. 즉, Y를 앎으로써 X에 대한 불확실성이 얼마나 감소하는지를 나타냅니다 (I(X; Y) = H(X) - H(X|Y)).
- Cross-Entropy: 실제 분포 P에 대해 예측 분포 Q를 사용하여 정보를 인코딩할 때 필요한 평균 비트 수이다. 분류 문제의 손실 함수로 널리 사용된다.
- KL Divergence (Kullback-Leibler Divergence): 두 확률 분포 P와 Q 사이의 비대칭적인 거리(차이)를 측정한다. P를 Q로 근사할 때의 정보 손실량을 나타냅니다 (D_KL(P | | Q)).
- Jensen-Shannon Divergence (JSD): KL Divergence를 대칭적으로 만들고 값 범위를 또는 [0, log2]로 제한한 거리 척도이다.
B. 설명 가능한 AI (Explainable AI - XAI)
복잡한 인공지능 모델(특히 딥러닝)의 예측 결과를 사람이 이해하고 신뢰할 수 있도록 설명하는 기술 및 방법론이다.
- SHAP (SHapley Additive exPlanations): 게임 이론의 샤플리 값(Shapley value) 개념을 적용하여, 각 특징(feature)이 특정 예측 결과에 얼마나 기여했는지를 공정하게 측정하고 설명하는 통합 프레임워크이다.
- LIME (Local Interpretable Model-agnostic Explanations): 특정 예측 결과 주변의 데이터를 샘플링하고, 이 로컬 영역에서 해석 가능한 간단한 모델(예: 선형 모델)을 학습시켜 해당 예측을 설명하는 모델 불특정(model-agnostic) 기법이다.
- Integrated Gradients (IG): 예측 결과의 변화에 대한 입력 특징의 기여도를 계산할 때, 기준선(baseline) 입력부터 실제 입력까지의 경로를 따라 기울기를 적분하여 특징 중요도를 측정하는 방법이다.
- Grad-CAM (Gradient-weighted Class Activation Mapping): CNN 모델에서 특정 클래스 예측에 중요한 영향을 미친 입력 이미지 영역(특징 맵)을 시각화하여 모델이 어디를 보고 판단했는지 보여주는 기법이다.
C. 분산 학습 및 MLOps (Distributed Learning & MLOps)
대규모 데이터나 모델을 처리하기 위한 기술과 머신러닝 모델의 개발, 배포, 운영을 자동화하고 효율화하는 방법론이다.
- 분산 학습 구조 (Distributed Learning Architectures): 여러 컴퓨팅 자원(장비, 프로세스)을 사용하여 모델 학습을 병렬로 수행한다.
- MLOps (Machine Learning Operations): 머신러닝 모델의 전체 생명주기(데이터 준비, 실험, 훈련, 배포, 모니터링, 재훈련)를 안정적이고 효율적으로 관리하기 위한 원칙과 실천 방법이다. DevOps의 원칙을 머신러닝 시스템에 적용한 것이다.
D. 프라이버시 및 연합 학습 (Privacy & Federated Learning)
데이터 프라이버시를 보호하면서 머신러닝 모델을 학습하고 활용하는 기술이다.
- Federated Learning (연합 학습): 원본 데이터를 중앙 서버로 보내지 않고, 각 사용자(클라이언트)의 로컬 장치에서 데이터를 사용하여 모델을 개별적으로 학습시킨 후, 모델 업데이트(예: 가중치 변화량)만을 중앙 서버로 보내 통합(aggregation)하는 분산 학습 방식이다. 데이터 프라이버시 보호에 유리한다.
- Split Learning (분할 학습): 모델의 일부는 사용자 장치에서, 나머지 부분은 서버에서 나누어 학습하는 방식으로, 연합 학습과 달리 모델 구조를 분할하여 프라이버시를 보호하고 계산 부담을 분산시킵니다.
- Differential Privacy (차분 프라이버시): 데이터셋에 대한 질의(query) 결과나 학습된 모델 파라미터에 통계적인 노이즈를 추가하여, 특정 개인의 정보가 결과에 미치는 영향을 제한함으로써 개인 식별 위험을 수학적으로 보장하는 프라이버시 보호 기법이다.
E. 강화학습 심화 기술 (Advanced Reinforcement Learning Techniques)
- MuZero: 게임 규칙이나 환경 모델을 명시적으로 알지 못해도, 스스로 상태 표현, 전이(dynamics), 보상 함수를 학습하는 모델 기반 강화학습 알고리즘이다. (I.B.3 참고)
- Dreamer (DreamerV3): 환경 모델을 학습하여 잠재 공간(latent space)에서 미래 상태와 보상을 예측하고, 이를 바탕으로 상상(imagination) 속에서 정책을 효율적으로 학습하는 모델 기반 강화학습 구조이다. (I.B.3 참고)
- MADDPG (Multi-Agent Deep Deterministic Policy Gradient): 여러 에이전트가 존재하는 환경에서, 각 에이전트가 다른 에이전트들의 정책 정보를 활용하여 협력 또는 경쟁하며 학습하는 다중 에이전트 강화학습 알고리즘이다.
- QMIX: 개별 에이전트의 Q 함수를 비선형적으로 결합하여 팀 전체의 공동 Q 함수를 추정하고, 이를 통해 협력적인 다중 에이전트 환경에서 분산된 정책을 학습하는 기법이다.
- Offline Reinforcement Learning (오프라인 강화학습): 환경과의 실시간 상호작용 없이, 미리 수집된 고정된 데이터셋(로그 데이터 등)만을 사용하여 정책을 학습하는 강화학습 방식이다. 관련 기법 예시: Conservative Q-Learning (CQL), Implicit Q-Learning (IQL), Advantage-Weighted Actor-Critic (AWAC).
- Constrained Reinforcement Learning (제약 강화학습): 보상 최대화뿐만 아니라, 특정 제약 조건(예: 안전 제약, 비용 제약)을 만족하도록 정책을 학습하는 강화학습 방식이다. 관련 기법 예시: Constrained Policy Optimization (CPO), Shielded Reinforcement Learning.
F. 수학적 최적화 (Mathematical Optimization) - ML과의 관계
머신러닝 모델 학습(손실 함수 최소화) 자체가 최적화 문제이며, 다양한 수학적 최적화 기법들이 직간접적으로 활용된다. (IV.B 최적화 알고리즘과 중복되는 내용이 많으나, 보다 이론적인 관점에서 분류)
- 선형 계획법 (Linear Programming - LP): 선형 목적 함수를 선형 등식/부등식 제약 조건 하에서 최적화한다.
- 이차 계획법 (Quadratic Programming - QP): 이차 목적 함수를 선형 제약 조건 하에서 최적화한다. SVM 등에서 활용된다.
- 비선형 계획법 (Nonlinear Programming - NLP): 비선형 목적 함수 또는 비선형 제약 조건을 갖는 최적화 문제이다. 대부분의 딥러닝 학습이 여기에 해당한다.
- 혼합 정수 계획법 (Mixed-Integer Programming - MIP): 일부 변수는 연속적이고 일부 변수는 정수인 최적화 문제이다.
- 동적 계획법 (Dynamic Programming - DP): 최적 부분 구조(optimal substructure)와 중복되는 부분 문제(overlapping subproblems) 특성을 갖는 문제를 작은 부분 문제로 나누어 해결하고, 그 결과를 저장하여 재활용하는 방식이다. 강화학습의 벨만 방정식(Bellman Equation) 등에서 활용된다.
- 제약 충족 문제 (Constraint Satisfaction Problems - CSP): 변수 집합, 각 변수의 도메인, 변수 간 제약 조건이 주어졌을 때, 모든 제약 조건을 만족하는 변수 값 할당을 찾는 문제이다.
- 이진 결정 다이어그램 (Binary Decision Diagrams - BDD): 부울 함수(Boolean function)를 효율적으로 표현하고 조작하기 위한 데이터 구조이다.
- 유한차분법 (Finite Difference Method): 미분 방정식을 이산적인 격자점(grid points)에서의 함수 값 차이를 이용하여 근사적인 대수 방정식으로 변환하여 수치적으로 해를 구하는 방법이다. (머신러닝 자체보다는 물리 시뮬레이션 등 관련 분야에서 사용)
G. 최신 연구 키워드 (Recent Research Keywords - 2023~2025 기준)
머신러닝 및 딥러닝 분야의 최신 연구 동향을 나타내는 주요 키워드이다.
- Diffusion Models: 고해상도 이미지, 비디오, 오디오 등 다양한 데이터를 생성하는 데 탁월한 성능을 보이는 생성 모델 계열이다. (III.G 참고)
- RAG (Retrieval-Augmented Generation): 대형 언어 모델(LLM)이 답변을 생성할 때, 외부 지식 베이스(예: 문서 데이터베이스)에서 관련 정보를 검색(retrieve)하여 이를 참고함으로써 답변의 정확성과 최신성을 향상시키는 기법이다.
- PEFT (Parameter-Efficient Fine-Tuning): 사전 학습된 대규모 모델(Foundation Model)을 특정 작업에 맞게 미세 조정(fine-tuning)할 때, 모델의 모든 파라미터를 업데이트하는 대신 일부 파라미터(또는 추가된 작은 파라미터)만 학습하여 계산 비용과 메모리 사용량을 크게 줄이는 기법이다. 예시:
- RLHF (Reinforcement Learning from Human Feedback) / DPO (Direct Preference Optimization): 인간의 피드백(선호도 데이터 등)을 사용하여 언어 모델의 출력을 인간의 의도나 가치에 맞게 정렬(alignment)하고, 유해하거나 편향된 출력을 줄여 안전성을 높이는 기법이다.
- Long-Context Transformers: 표준 Transformer 모델이 처리하기 어려운 매우 긴 입력 시퀀스(예: 수십만~수백만 토큰)를 효율적으로 처리할 수 있도록 확장된 아키텍처 및 기법이다 (예: FlashAttention, Ring Attention).
- NeRF (Neural Radiance Fields): 3D 장면을 연속적인 신경망 표현으로 학습하여 새로운 시점 렌더링(novel view synthesis)을 가능하게 하는 기술이다. (III.H 참고)
- SAM (Segment Anything Model): 제로샷(zero-shot)으로 이미지 내의 어떤 객체든 분할할 수 있는 대규모 비전 모델이다. (III.H 참고)
- Foundation Model Compression: 대규모 파운데이션 모델을 경량화하여 모바일 기기나 제한된 환경에서도 사용할 수 있도록 만드는 기술이다. 예시:
- Multimodal Integration: 텍스트, 이미지, 오디오, 비디오 등 여러 종류의 데이터(양식, modality)를 하나의 모델이 동시에 이해하고 처리하며 생성할 수 있는 기술이다. 최신 LLM(예: GPT-4o, Gemini)들이 이러한 방향으로 발전하고 있다.
- 대표 모델 (Representative Models): (III.D 참고) GPT-4o, Gemini, Claude 3, Mistral, LLaMA, Qwen, StableLM 등.