Dentro de la caja negra: del prompt a la respuesta

Generación autoregresiva — token por token

Parte 1 — Traducción del lenguaje a matemáticas

Parte 2 — Motor Transformer y predicción

Tokenización
(BPE)

pli

qué

gen

Palabras → subtokens
cada uno con un ID

›

Embeddings:
palabras como puntos

Conceptos relacionados
se agrupan en el espacio

›

Capa de atención
(añade contexto)

Query · Key · Value

busco

ofrezco

cargo

softmax(QKᵀ/√d) × V

Cada token integra
info de los demás

Relevancia calculada
con Q·Kᵀ

›

Enriquecimiento
profundo × N capas

Capa 1

Capa 2

Capa 3

Capa 4

···

Capa N

1 → gramática
2–4 → semántica
N → intención

Abstracción progresiva
token a token

›

Predicción del
siguiente token

h_final × W_vocab

"Un"

.38

"La"

.21

"En"

.14

~50k tokens; softmax
da probabilidades

Autoregresión:

token elegido → se añade al contexto → el proceso repite desde Embeddings (KV-cache guarda cálculos previos)

↩ repetir