Cómo se entrena un modelo de lenguaje

Arquitectura Transformer y ciclo de optimización

→ Forward pass: datos a través del modelo

← Backward pass: gradientes y pesos

Corpus de
entrenamiento

Wikipedia
libros
código
papers
webs
…

~15×10¹²
tokens

Texto crudo
en gran volumen

›

Tokenización
(BPE)

gen

una

cu…

ID discreto
por token

›

Embeddings
+ RoPE

Vectores + posición
codificada por rotación

›

Bloque Transformer
(× N capas)

× N

LayerNorm

busco

ofrezco

cargo

softmax(QKᵀ/√d)×V

⊕ conexión residual

LayerNorm

MLP: W₁ · act(·) · W₂

⊕ conexión residual

Cada capa refina
la representación

›

Logits &
pérdida

h × W_vocab → P(token)

"sec"✓

.65

"una"

.20

…

.15

Entropía cruzada

L = −log P(t✓)

Token real vs predicción
minimizar L

‹

Backprop
+ Adam

∂L/∂W — regla de la cadena

Actualización:

θ ← θ − α∇L

Pesos ajustados
paso a paso

Ciclo de entrenamiento:

forward pass → calcular pérdida → backpropagation → actualizar pesos con Adam → repetir sobre millones de lotes

↩ × millones

Al finalizar el pre-entrenamiento: los pesos quedan fijos y el modelo puede predecir texto. Las fases posteriores (SFT, RLHF, DPO) ajustan esos pesos para que responda apropiadamente a instrucciones.