Cómo Funcionan los LLMs: Guía Visual Interactiva Basada en la Clase de Karpathy

🧠 ¿Cómo funcionan realmente los LLMs como ChatGPT?

Esta guía interactiva, basada en la clase técnica de Andrej Karpathy, recorre todo el proceso: desde descargar internet hasta construir un asistente conversacional.

🌐 Recolección de datos — Se rastrean miles de millones de páginas web, se filtran y limpian hasta obtener ~44 TB de texto de calidad (FineWeb).

🔤 Tokenización — El texto se divide en sub-palabras (tokens). GPT-4 usa un vocabulario de 100.000 tokens construido con el algoritmo BPE.

⚙️ Pre-entrenamiento — Una red neuronal Transformer aprende a predecir el siguiente token, ajustando miles de millones de parámetros durante meses de cómputo.

🤖 Modelo base — El resultado es un simulador de texto: completa secuencias de forma sofisticada, pero aún no es un asistente.

🎓 Post-entrenamiento (SFT + RLHF) — Humanos crean conversaciones ideales y califican respuestas. El modelo aprende a imitar al mejor evaluador posible.

🌀 Psicología del LLM — Alucina porque siempre fue entrenado con respuestas confiadas. No tiene memoria persistente. Cada conversación empieza desde cero.

📚 RAG — Para datos actualizados, se recuperan documentos relevantes y se inyectan en el contexto antes de generar la respuesta.

💡 Explicación en pocas palabras
#

Un LLM es básicamente un sistema que aprendió a predecir la siguiente palabra leyendo billones de textos de internet. Luego fue “afinado” por humanos para comportarse como un asistente útil. Cada respuesta que genera es como tirar una moneda muy informada: elige la palabra más probable, una por una, hasta completar la respuesta.

Más información en el link 👇

How LLMs Work — A Visual Deep Dive

ynarwal.github.io ↗

También publicado en LinkedIn.

Autor

Juan Pedro Bretti Mandarano

💡 Explicación en pocas palabras#

How LLMs Work — A Visual Deep Dive

💡 Explicación en pocas palabras
#