
🔍 ¿Qué está pensando realmente un LLM? La interpretabilidad mecanística intenta responder eso.
Esta disciplina no se limita a “¿por qué el modelo dio esta respuesta?” sino que busca entender el mecanismo exacto dentro de la red neuronal: qué neuronas se activan, cómo viaja la información, qué sabe el modelo.
🧠 Conceptos clave:
Residual Stream (flujo residual): El vector de estado oculto que fluye por todas las capas del transformer. Cada capa agrega información al stream, que luego se “desembedea” para predecir el próximo token.
Attention Heads: Cada cabeza de atención tiene una “especialización”. Algunas cabezas rastrean sujetos, otras verbos, otras posiciones. Pueden ser estudiadas individualmente.
Técnicas de análisis:
- 🔬 Activation patching: reemplazar activaciones de una pasada con las de otra para identificar qué causa diferencias en la predicción
- 📊 Logit lens: ver qué token predice el modelo en cada capa intermedia
- 🗺️ Circuitos: identificar subgrafos de la red responsables de una capacidad específica
¿Para qué sirve? Detectar “conocimiento oculto”, entender si las capacidades cognitivas de los LLMs son reales o superficiales, y mejorar la confiabilidad en aplicaciones críticas.
💡 Explicación en pocas palabras#
Cuando un LLM responde “París” a “¿cuál es la capital de Francia?”, la interpretabilidad mecanística pregunta: ¿qué parte exacta de la red activó ese conocimiento geográfico? Es como hacer una resonancia magnética cerebral pero para modelos de IA.
Más información en el link 👇

