El superordenador de Microsoft para OpenAI: ¿Infracción deliberada o innovación amparada por el ‘fair use’?

Análisis por

Sofia S. Vega

Investigadora en bioética, transhumanismo e IA.

El Hecho

En una reciente demanda presentada por The New York Times contra Microsoft y OpenAI, se alega que la compañía de Redmond construyó intencionadamente un superordenador para que OpenAI entrenara sus modelos de inteligencia artificial utilizando obras protegidas por derechos de autor. La demanda sostiene que este sistema, diseñado específicamente para procesar grandes volúmenes de datos textuales, fue utilizado para extraer y replicar contenido del periódico sin autorización, constituyendo una infracción masiva de la propiedad intelectual. El caso, que se suma a otras acciones legales contra empresas de IA, cuestiona la legalidad del entrenamiento de modelos con datos protegidos bajo el paraguas del fair useDoctrina legal que permite el uso limitado de material protegido sin autorización del titular, bajo ciertas condiciones como transformación, no comercial o educativa..

Las Claves Técnicas

El superordenador en cuestión, conocido internamente como ‘Eagle’, es un clúster de miles de GPU NVIDIA A100 interconectadas mediante una red de alta velocidad InfiniBand. Su arquitectura está optimizada para el entrenamiento de modelos de lenguaje de gran escala (LLMModelo de lenguaje grande: red neuronal entrenada con enormes cantidades de texto para generar y comprender lenguaje humano.), como GPT-4. La demanda alega que Microsoft diseñó este sistema con el propósito explícito de permitir a OpenAI procesar conjuntos de datos que incluían artículos del Times y otras obras protegidas, sin licencia. Técnicamente, el entrenamiento implica la tokenización del texto, la creación de representaciones vectoriales y el ajuste de pesos mediante retropropagación, procesos que, según los demandantes, copian y almacenan patrones derivados de las obras originales.

Auditoría Ética

Este caso expone la tensión entre la innovación en IA y los derechos de autor. Por un lado, el web scrapingExtracción automatizada de datos de sitios web, a menudo utilizada para recopilar conjuntos de entrenamiento de IA. masivo de contenido protegido para entrenar modelos plantea un desafío al equilibrio tradicional entre el derecho de autor y el progreso tecnológico. Si se determina que no es ‘fair use’, las consecuencias serían drásticas: desde la eliminación de modelos entrenados con esos datos hasta la imposición de licencias retroactivas, lo que podría frenar el desarrollo de la IA. Además, el caso revela la complicidad de los proveedores de infraestructura cloud, que diseñan hardware específico para facilitar estas prácticas. La transparencia en la procedencia de los datos de entrenamiento y la implementación de auditorías independientes se vuelven imperativas para garantizar un ecosistema de IA ético y legal.

Contexto Forense

El discurso corporativo

«El entrenamiento de modelos de IA con datos disponibles públicamente está amparado por el fair use y es esencial para el progreso tecnológico.»

La realidad técnica

El diseño del superordenador sugiere una intencionalidad en la infracción, y la falta de transparencia sobre los datos de entrenamiento expone a las empresas a riesgos legales y éticos significativos.

> Enlace Satelital

Patrocinador

Inmortaliza tus coordenadas

Convierte datos geográficos y astronómicos en obras de arte decorativas. Planos de ciudades y mapas estelares personalizados en alta resolución.

Entrar a Mapearte