BasedAI: Zero-Knowledge Large Language Models para crear Modelos de IA Privados y Descentralizados

23 de diciembre de 2024 Gustavo Genez

La privacidad de nuestros datos se ha convertido en uno de los mayores desafíos en la era de la Inteligencia Artificial. Los modelos privados de IA actuales, que son los más usados por el público en general, como Claude Sonnet o GPT-4o, procesan enormes cantidades de información sin realmente, a ciencia cierta, saber que se están protegiendo todos los datos que compartimos. Cada consulta, cada interacción, viaja y se procesa en texto plano, exponiendo potencialmente información sensible.

Figura 1: BasedAI: Zero-Knowledge Large Language Models

para crear Modelos de IA Privados y Descentralizados

Como intento de proponer una solución a este problema, Based Labs, junto al equipo fundador de Pepecoin, han desarrollado BasedAI, un sistema que combina la potencia de los grandes modelos de lenguaje con una robusta protección de la privacidad. Este ha sido presentado en el paper «BasedAI: A decentralized P2P network for Zero Knowledge Large Language Models (ZK-LLMs)» publicado en Marzo de 2024.

Figura 2: BasedAO – A decentralized P2P network

for Zero Knowledge Large Language Models (ZK-LLMs)

El núcleo de este sistema reside en su capacidad para procesar datos de forma completamente cifrada, utilizando una técnica denominada «Cerberus Squeezing«, lo que permite que los modelos de IA trabajen con información cifrada de principio a fin, sin necesidad de descifrarla en ningún momento del proceso,. Utilizan para ello una arquitectura de sistemas basada en comunicaciones Fully-Homomorphic Encryption pero optimizados para LLMs.

La plataforma se construye sobre una red descentralizada, similar en concepto a la cadena de BlockChain, pero optimizada específicamente para el procesamiento de IA. Esta red está compuesta por «Brains«, que actúan como nodos especializados en la ejecución de modelos de lenguaje bajo condiciones de privacidad total.

El problema que resuelve BasedAI

Los LLMs privados operan como cajas negras centralizadas. Cuando interactuamos con estos, nuestros datos atraviesan múltiples servidores y sistemas de procesamiento sin ningún tipo de cifrado real. Esto plantea riesgos significativos, especialmente en sectores críticos como la salud y las finanzas, donde la confidencialidad es fundamental.

Por ejemplo, cuando un médico consulta sobre un caso clínico o una empresa analiza datos confidenciales, esa información queda vulnerable a brechas de seguridad o accesos no autorizados. Además, la centralización del poder computacional genera una dependencia preocupante de un pequeño grupo de empresas tecnológicas, limitando tanto la innovación como el acceso equitativo a estas herramientas avanzadas.

Otro problema es la falta de transparencia en el uso de los datos, puesto que los usuarios no pueden verificar cómo se procesan ni quién tiene acceso a ellos, lo que crea barreras para adoptar IA en áreas donde la privacidad es clave.

Figura 3: Red centralizada vs. Descentralizada (P2P)

La red P2P BasedAI intenta abordar estos desafíos, garantizando que los datos permanezcan protegidos durante todo el proceso, desde el envío de la consulta hasta la recepción de la respuesta. Además de mejorar la seguridad, esta propuesta democratiza el acceso a la computación avanzada de IA. Cualquier persona con recursos computacionales puede unirse a la red como minero o validador, contribuyendo al procesamiento descentralizado mientras recibe recompensas por su participación, con modelo de tokenomics.

¿Cómo funciona BasedAI?

En el corazón de BasedAI encontramos una estructura llamada «Brain» (cerebro). Un Brain funciona como un contenedor especializado que puede ejecutar cualquier modelo de lenguaje de forma privada y segura. El sistema permite la existencia de 1024 Brains, cada uno capaz de operar de forma independiente pero interconectada. La red se sustenta en tres pilares fundamentales:

1.- Los propietarios de los Brains.

2.- Los mineros.

3.- Los validadores.

Los propietarios adquieren sus Brains mediante Pepecoin, ya sea quemando una cantidad específica o realizando un stake por un período determinado. Esta mecánica no solo distribuye los Brains de manera justa, sino que también asegura un compromiso real con la red.

Figura 4: Arquitectura BasedAI – Brains, Mineros y Validadores

Por otra parte, los mineros son el músculo computacional del sistema, pues son los que aportan sus GPUs para procesar las consultas de los usuarios, pero la diferencia es que procesan datos totalmente cifrados con la tecnología Cerberus Squeezing, pudiendo realizar cálculos complejos sobre información cifrada sin necesidad de acceder a su contenido real.

Los validadores, por su parte, actúan como los guardianes, por hacer una analogía. Utilizando CPUs convencionales, verifican que los mineros realicen su trabajo correctamente, manteniendo la integridad de la red sin comprometer la privacidad de los datos. Este sistema de “checks and balances” asegura que cada parte de la red funcione como debe.

Para incentivar la participación y mantener la calidad del servicio, BasedAI utiliza su token nativo, $BASED. Los participantes reciben recompensas por su contribución a la red, con un sistema de emisión que reduce gradualmente la cantidad de tokens generados para controlar la inflación. Las recompensas se distribuyen de manera proporcional al rendimiento y al stake de cada participante.

Figura 5: Token BasedAI

Quizá lo más innovador de BasedAI es su capacidad para transformar cualquier modelo de lenguaje en un ZK-LLM (Zero-Knowledge Large Language Model). Esto significa que cualquier modelo puede operar en la red manteniendo la privacidad total de los datos. La red no solo procesa la información de forma segura, sino que también permite verificar la corrección de los resultados sin revelar los datos subyacentes.

La magia detrás: Cerberus Squeezing

El «Cifrado Homomórfico Completo» o «Fully Homomorphic Encryption» (FHE) permite realizar cálculos sobre datos cifrados, una capacidad esencial para mantener la privacidad. Sin embargo, tradicionalmente este proceso es extremadamente costoso en términos computacionales. Cada operación matemática simple se convierte en una serie compleja de cálculos cuando se realiza sobre datos cifrados, multiplicando exponencialmente el tiempo y los recursos necesarios.

Figura 6: Modelo de consulta sin cifrado homomófico

«Cerberus Squeezing» aborda este problema mediante una técnica de optimización. En lugar de cifrar cada operación de forma individual, agrupa múltiples operaciones en un único cálculo cifrado. La técnica se centra específicamente en optimizar el mecanismo de atención múltiple (Multi-Head Attention) presente en los modelos de lenguaje modernos, en la tan famosa arquitectura Transformer.

Este componente es crucial para el funcionamiento de los modelos de IA, ya que determina qué partes de la información son más relevantes para generar una respuesta. Pues lo que hace esta técnica de optimización es que reorganiza estas operaciones de forma que pueden realizarse de manera más eficiente sin comprometer la seguridad.

Figura 7: Modelo cifrado homomórfico completo

En los resultados mostrados en el paper se observa que las operaciones que antes requerían once pasos computacionales pueden realizarse ahora en solo cinco, manteniendo el mismo nivel de seguridad y privacidad. Esto hace que el sistema sea más rápido y también reduce significativamente los costos de operación, haciendo que la tecnología sea más accesible.

Figura 8: Comparación pasos computaciones con optimización

Además, esta técnica de optimización es compatible con cualquier modelo basado en transformers, incluyendo los modelos más recientes y los que están por venir. Esto significa que la tecnología no solo es útil hoy, sino que está preparada para el futuro de la inteligencia artificial, proporcionando una base sólida para el desarrollo de aplicaciones de IA privada y segura.

Conclusión

BasedAI es una arquitectura innovadora. Su tecnología Cerberus Squeezing mejora significativamente la eficiencia en el procesamiento de datos cifrados, mientras que el modelo descentralizado promete mayor resiliencia al distribuir el poder computacional. Sin embargo, la dependencia de Pepecoin podría limitar la participación, y el límite de 1024 Brains puede sembrar dudas sobre su escalabilidad.

El Cifrado Homomórfico Completo aún debe demostrar su eficacia a gran escala en escenarios reales. Asimismo, el modelo económico basado en el token $BASED dependerá de la adopción del mercado y de la estabilidad de sus incentivos.

Figura 9: Ejemplo de uso para acceso a registros médicos usando

FHE y Cerberus Squeezing con BasedAI

Está claro que el éxito de BasedAI estará ligado tanto a la robustez de su tecnología como a su capacidad de crear un ecosistema sostenible y superar los retos de implementación.

Un saludo,

Autor: Javier del Pino, Investigador d IA en Ideas Locas

Contactar con Javier del Pino Díaz en MyPublicInbox

Comparte esto:

Gustavo Genez

También te puede gustar

¿Has sido atacado por el ransomware REvil/Sodinokibi? Ya puedes descifrar tus datos

Tem0r: construyendo un ransomware para Linux desde 0 (Parte 1)

Hacer un «infector» del Master Boot Record (MBR) de un PC usando Windows con ChatGPT & DeepSeek