Harvard Abre su Tesoro Literario: Un Millón de Libros para Impulsar la Próxima Generación de IA

· 1 min read

article picture

La Universidad de Harvard ha dado un paso histórico al anunciar la disponibilidad de aproximadamente un millón de libros de dominio público para el entrenamiento de modelos de inteligencia artificial, a través de su nueva Iniciativa de Datos Institucionales (IDI).

Esta colección masiva, respaldada financieramente por Microsoft y OpenAI, proviene del proyecto de digitalización de Google Books e incluye obras clásicas de autores como Shakespeare, Charles Dickens y Dante, junto con textos académicos y diccionarios en diversos idiomas.

La iniciativa surge en un momento clave para el desarrollo de la IA, cuando las empresas tecnológicas enfrentan desafíos para acceder a contenido de calidad para el entrenamiento de sus modelos. Actualmente, varias compañías de medios, incluyendo The Wall Street Journal y The New York Times, han presentado demandas contra empresas de IA por el uso no autorizado de sus contenidos.

Jonathan Zittrain, director de facultad del Laboratorio de Innovación de la Biblioteca de Harvard, explicó que el objetivo del IDI es abordar el creciente interés en textos históricos mientras se preservan los valores institucionales, garantizando el acceso universal a obras de dominio público.

El proyecto también busca asegurar una representación diversa en los futuros modelos de IA. Greg Leppert, director ejecutivo del IDI, destacó la importancia de "nivelar el campo de juego" al hacer que esta extensa colección esté disponible para cualquier interesado en entrenar modelos de lenguaje, desde laboratorios de investigación hasta startups.

La biblioteca de Harvard considera que esta apertura de su base de conocimiento optimizará su capacidad para servir a la humanidad, aprovechando inversiones públicas realizadas a lo largo de siglos para beneficiar a la mayor cantidad posible de personas en la era de la IA.

Esta iniciativa representa un paso importante hacia la democratización del acceso a datos de entrenamiento de alta calidad para modelos de IA, aunque los expertos señalan que un millón de libros históricos podría no ser suficiente para satisfacer todas las necesidades de entrenamiento de las empresas de IA, especialmente en lo que respecta a información contemporánea.