Cómo Andrej Karpathy Construyó un Transformer en 243 Líneas de Código

🧠 GPT en 243 líneas. Sin librerías. Sin PyTorch. Solo Python puro.

Andrej Karpathy lanzó microGPT: la implementación más minimalista posible de un transformer GPT funcional. Nada de dependencias externas — solo las matemáticas esenciales.

“Train and inference GPT in 243 lines of pure, dependency-free Python. This is the full algorithmic content of what is needed. Everything else is just for efficiency. I cannot simplify this any further.” — Andrej Karpathy, Feb 2026

¿Qué incluye esas 243 líneas?

Motor de autograd → implementación de backpropagation desde cero
Arquitectura GPT → multi-head self-attention, feed-forward, layer norm
Loop de entrenamiento → tokenización, forward pass, cálculo de loss, backprop, update

¿Por qué importa?

La mayoría de los tutoriales de transformers hoy usan PyTorch o TensorFlow — que ocultan la implementación. microGPT elimina todas esas capas de abstracción y muestra exactamente cómo funciona un LLM por dentro.

Ideal para:

Estudiantes que quieren entender transformers de verdad
Investigadores que quieren un baseline mínimo
Cualquiera que quiera ver el “núcleo algorítmico” de GPT sin ruido

💡 Explicación en pocas palabras
#

Los transformers modernos (GPT, BERT, etc.) son básicamente: atención (qué palabras miran a qué otras palabras), feed-forward (procesar esa información), y normalización. microGPT implementa exactamente eso — sin optimizaciones de producción — para que cada línea de código sea comprensible y debuggable.

Más información en el link 👇

How Andrej Karpathy Built a Working Transformer in 243 Lines of Code

A deep dive into Andrej Karpathy's microGPT. Learn how he built a complete, working transformer in just 243 lines of pure Python.

www.analyticsvidhya.com ↗

También publicado en LinkedIn.

Autor

Juan Pedro Bretti Mandarano

💡 Explicación en pocas palabras#

How Andrej Karpathy Built a Working Transformer in 243 Lines of Code

💡 Explicación en pocas palabras
#