Ir al contenido
  1. Posts/

Cómo Andrej Karpathy Construyó un Transformer en 243 Líneas de Código

··263 palabras·2 mins·

🧠 GPT en 243 líneas. Sin librerías. Sin PyTorch. Solo Python puro.

Andrej Karpathy lanzó microGPT: la implementación más minimalista posible de un transformer GPT funcional. Nada de dependencias externas — solo las matemáticas esenciales.

“Train and inference GPT in 243 lines of pure, dependency-free Python. This is the full algorithmic content of what is needed. Everything else is just for efficiency. I cannot simplify this any further.” — Andrej Karpathy, Feb 2026

¿Qué incluye esas 243 líneas?

  1. Motor de autograd → implementación de backpropagation desde cero
  2. Arquitectura GPT → multi-head self-attention, feed-forward, layer norm
  3. Loop de entrenamiento → tokenización, forward pass, cálculo de loss, backprop, update

¿Por qué importa?

La mayoría de los tutoriales de transformers hoy usan PyTorch o TensorFlow — que ocultan la implementación. microGPT elimina todas esas capas de abstracción y muestra exactamente cómo funciona un LLM por dentro.

Ideal para:

  • Estudiantes que quieren entender transformers de verdad
  • Investigadores que quieren un baseline mínimo
  • Cualquiera que quiera ver el “núcleo algorítmico” de GPT sin ruido

💡 Explicación en pocas palabras
#

Los transformers modernos (GPT, BERT, etc.) son básicamente: atención (qué palabras miran a qué otras palabras), feed-forward (procesar esa información), y normalización. microGPT implementa exactamente eso — sin optimizaciones de producción — para que cada línea de código sea comprensible y debuggable.

Más información en el link 👇

También publicado en LinkedIn.
Juan Pedro Bretti Mandarano
Autor
Juan Pedro Bretti Mandarano