Dentro de la caja negra: del prompt a la respuesta

Generación autoregresiva — token por token

Parte 1 — Traducción del lenguaje a matemáticas
Parte 2 — Motor Transformer y predicción
Tokenización
(BPE)
Ex
pli
ca
qué
es
gen
Palabras → subtokens
cada uno con un ID
Embeddings:
palabras como puntos
gen 0.2 -0.8 1.3 gen ADN ARN alelo locus exón proteína
Conceptos relacionados
se agrupan en el espacio
Capa de atención
(añade contexto)
Query · Key · Value
Q
busco
K
ofrezco
V
cargo
softmax(QKᵀ/√d) × V
Cada token integra
info de los demás
Relevancia calculada
con Q·Kᵀ
Enriquecimiento
profundo × N capas
Capa 1
Capa 2
Capa 3
Capa 4
···
Capa N
1 → gramática
2–4 → semántica
N → intención
Abstracción progresiva
token a token
Predicción del
siguiente token
h_final × W_vocab
"Un"
.38
"La"
.21
"En"
.14
~50k tokens; softmax
da probabilidades
Autoregresión:
token elegido → se añade al contexto → el proceso repite desde Embeddings (KV-cache guarda cálculos previos)
↩ repetir