Ineficiencia Energética
Computación masiva y repetitiva en cada token. Un modelo tradicional gasta la misma energía procesando un artículo determinista ("el", "la") que resolviendo una ecuación matemática compleja.
Un entorno experimental y guía de estudio que integra los últimos avances de la neurociencia y la psicología cognitiva para superar los límites de los modelos de lenguaje (LLMs) actuales.
La arquitectura Transformer clásica (Vaswani et al., 2017) ha revolucionado el NLP. Sin embargo, su dependencia de la atención densa (matemáticamente O(N²)) ha creado modelos con problemas estructurales insostenibles.
Computación masiva y repetitiva en cada token. Un modelo tradicional gasta la misma energía procesando un artículo determinista ("el", "la") que resolviendo una ecuación matemática compleja.
Incapacidad de aprender continuamente. Entrenar a un Transformer con información nueva a menudo destruye el conocimiento previo (sobreescritura de pesos), impidiendo una adaptación dinámica.
Interferencia en el espacio vectorial. Mezclar conceptos matemáticos, tono emocional y lógica en un mismo bloque denso provoca alucinaciones cuando los contextos se cruzan de forma inesperada.
El framework compara el modelo estándar frente a 7 nuevos módulos construidos a partir de descubrimientos neurocientíficos. Selecciona una generación para explorar su topología.
Dynamic Connectome Architecture
Enrutamiento escaso (sparse) que imita la eficiencia de las conexiones del conectoma biológico de la mosca de la fruta.
Multi-dimensional Orthogonal Processing
Proyecciones en subespacios ortogonales para compartimentar la lógica, el tono y la semántica, evitando alucinaciones.
Sleep-Cycled Transformers
Algoritmo de consolidación metabólica y poda de pesos offline que imita el sueño humano para permitir aprendizaje continuo.
Glial Modulation & Mixture of Experts
Red glial paralela que actúa como gestor energético, asignando parámetros dinámicamente según la complejidad de la instrucción.
Predictive Minimalist Trace
Sistema de salida temprana (Early Exit) a nivel de token. La red solo consume energía en palabras que generan "sorpresa".
Counterfactual Episodic Network
Simulación latente de escenarios múltiples. La IA piensa "¿Y si...?" e imagina futuros posibles antes de un output crítico.
Vicarious Learning Module
Red estudiante independiente que aprende "en la sombra", imitando la lógica del maestro sin perturbar sus gradientes.
.detach() aislando matemáticamente al estudiante. Destilación del conocimiento en tiempo real.
Las topologías del framework Neuro Transformer se fundamentan en investigaciones neurocientíficas y paralelismos en IA contemporánea. Haz clic para explorar las fuentes de cada módulo y accede directamente a los papers originales a través de los enlaces.
Inspiración: Escasez neuronal y grafos biológicos.
Inspiración: Decodificación ortogonal cortical.
Inspiración: Consolidación de memoria y limpieza metabólica.
Inspiración: Modulación sináptica por células gliales.
Inspiración: Procesamiento predictivo.
Inspiración: Memoria episódica y viaje temporal mental.
Inspiración: Aprendizaje social y latente.
Para evitar la pseudociencia matemática de modelos simulados, el framework exige el cumplimiento de 5 requisitos técnicos obligatorios para evaluación.
Haz clic en los requisitos de la derecha para verificar su implementación en la base de código.
Uso de Datasets reales (HuggingFaceFW/fineweb-edu) y tokenización real (SmolLM-135M). Prohibido el uso de ruido aleatorio para medir el Loss.
Implementación de DCA con torch.sparse, garantizando un ahorro auténtico en VRAM en la GPU, no solo una máscara matemática multiplicativa.
Uso estricto de .detach() en el módulo VLM para evitar fuga de gradientes y la contaminación cruzada en el backpropagation.
El mecanismo PMT realiza el Early Exit aislando tokens específicos (Token Masking), manteniendo la coherencia de la secuencia sin interrumpir el Batch.
Tiempos cronometrados con precisión mediante eventos nativos de hardware en GPU (torch.cuda.Event(enable_timing=True)).
Evaluación comparativa del Transformer Baseline contra nuestras arquitecturas. El objetivo es identificar las combinaciones que ofrecen la mejor relación precisión-eficiencia.
Tiempo de procesamiento (en segundos) para la misma carga de trabajo. Menor es mejor.
Pérdida cruzada (Eje Y, menor es mejor) en función del número de parámetros. Eje X en miles.
Los resultados confirman que la especialización estructural (inspirada en la escasez y ortogonalidad cortical) puede superar el enfoque contemporáneo de escalado por fuerza bruta.
Material didáctico para estudiantes del Departamento de Inteligencia Artificial. Aplica los conceptos de arquitectura avanzada directamente sobre el repositorio oficial.
$ echo "Paso 1: Clonar el entorno de experimentación"
Paso 1: Clonar el entorno de experimentación
$ git clone https://github.com/jacoboariza/neuro_transformer
Cloning into 'neuro_transformer'...
remote: Enumerating objects: 124, done.
Receiving objects: 100% (124/124), 2.5 MiB | 4.2 MiB/s, done.
$ cd neuro_transformer && pip install -r requirements.txt
_
Revisa la gráfica de "Compromiso: Parámetros vs Loss" del Benchmark. Explica por qué el modelo DCA tiene un Loss ligeramente superior al Transformer base, pero aun así es considerado muy superior para arquitecturas de Edge AI (IA en móviles).
Si aplicamos un Early Exit en la Capa 2 para la palabra "perro" pero necesitamos llegar a la Capa 12 para la palabra "cuántico", ¿cómo recomponemos el tensor final para mantener la forma geométrica requerida por PyTorch antes de la proyección del vocabulario?