Cómo se entrena un modelo de lenguaje

Arquitectura Transformer y ciclo de optimización

→ Forward pass: datos a través del modelo
← Backward pass: gradientes y pesos
Corpus de
entrenamiento
Wikipedia
libros
código
papers
webs
~15×10¹²
tokens
Texto crudo
en gran volumen
Tokenización
(BPE)
El
gen
es
una
se
cu…
ID discreto
por token
Embeddings
+ RoPE
RoPE: pos. relativa 768 dims
Vectores + posición
codificada por rotación
Bloque Transformer
(× N capas)
× N
LayerNorm
Q
busco
K
ofrezco
V
cargo
softmax(QKᵀ/√d)×V
⊕ conexión residual
LayerNorm
MLP: W₁ · act(·) · W₂
ReLU/GELU/SwiGLU
⊕ conexión residual
Cada capa refina
la representación
Logits &
pérdida
h × W_vocab → P(token)
"sec"✓
.65
"una"
.20
.15
Entropía cruzada
L = −log P(t✓)
Token real vs predicción
minimizar L
Backprop
+ Adam
∂L/∂W — regla de la cadena
Capa N Capa N−1 Capa 1 Adam optimizer
Actualización:
θ ← θ − α∇L
Pesos ajustados
paso a paso
Ciclo de entrenamiento:
forward pass → calcular pérdida → backpropagation → actualizar pesos con Adam → repetir sobre millones de lotes
↩ × millones
Al finalizar el pre-entrenamiento: los pesos quedan fijos y el modelo puede predecir texto. Las fases posteriores (SFT, RLHF, DPO) ajustan esos pesos para que responda apropiadamente a instrucciones.