forward pass → calcular pérdida → backpropagation → actualizar pesos con Adam → repetir sobre millones de lotes
↩ × millones
Al finalizar el pre-entrenamiento: los pesos quedan fijos y el modelo puede predecir texto.
Las fases posteriores (SFT, RLHF, DPO) ajustan esos pesos para que responda apropiadamente a instrucciones.