Tokenización
(BPE)
Palabras → subtokens
cada uno con un ID
›
Embeddings:
palabras como puntos
Conceptos relacionados
se agrupan en el espacio
›
Capa de atención
(añade contexto)
Query · Key · Value
softmax(QKᵀ/√d) × V
Cada token integra
info de los demás
Relevancia calculada
con Q·Kᵀ
›
Enriquecimiento
profundo × N capas
Capa 1
Capa 2
Capa 3
Capa 4
···
Capa N
1 → gramática
2–4 → semántica
N → intención
Abstracción progresiva
token a token
›
Predicción del
siguiente token
~50k tokens; softmax
da probabilidades