Ir al contenido
  1. Posts/

Interpretabilidad Mecanística: Abriendo la Caja Negra de los LLMs

··267 palabras·2 mins·

🔍 ¿Qué está pensando realmente un LLM? La interpretabilidad mecanística intenta responder eso.

Esta disciplina no se limita a “¿por qué el modelo dio esta respuesta?” sino que busca entender el mecanismo exacto dentro de la red neuronal: qué neuronas se activan, cómo viaja la información, qué sabe el modelo.

🧠 Conceptos clave:

Residual Stream (flujo residual): El vector de estado oculto que fluye por todas las capas del transformer. Cada capa agrega información al stream, que luego se “desembedea” para predecir el próximo token.

Attention Heads: Cada cabeza de atención tiene una “especialización”. Algunas cabezas rastrean sujetos, otras verbos, otras posiciones. Pueden ser estudiadas individualmente.

Técnicas de análisis:

  • 🔬 Activation patching: reemplazar activaciones de una pasada con las de otra para identificar qué causa diferencias en la predicción
  • 📊 Logit lens: ver qué token predice el modelo en cada capa intermedia
  • 🗺️ Circuitos: identificar subgrafos de la red responsables de una capacidad específica

¿Para qué sirve? Detectar “conocimiento oculto”, entender si las capacidades cognitivas de los LLMs son reales o superficiales, y mejorar la confiabilidad en aplicaciones críticas.

💡 Explicación en pocas palabras
#

Cuando un LLM responde “París” a “¿cuál es la capital de Francia?”, la interpretabilidad mecanística pregunta: ¿qué parte exacta de la red activó ese conocimiento geográfico? Es como hacer una resonancia magnética cerebral pero para modelos de IA.

Más información en el link 👇

También publicado en LinkedIn.
Juan Pedro Bretti Mandarano
Autor
Juan Pedro Bretti Mandarano