En Resumen

  • La Fundación Wikimedia anunció nuevas alianzas con Ecosia, Microsoft, Mistral AI, Perplexity, Pleias y ProRata para usar contenido de Wikipedia en el entrenamiento de modelos de IA.
  • La fundación señaló que las visitas humanas a Wikipedia cayeron 8% interanual en octubre debido a que los usuarios confían en resúmenes generados por IA.
  • Google enfrenta demandas de Hachette y Cengage por supuesta infracción de derechos de autor al entrenar Gemini con libros sin las licencias apropiadas.

La Fundación Wikimedia ha anunciado una serie de nuevas alianzas con empresas de inteligencia artificial que les permitirán usar contenido de Wikipedia para entrenar y potenciar sus modelos de IA, mientras la organización sin fines de lucro busca asegurar su sostenibilidad a largo plazo en medio de cambios en el comportamiento online.

Los acuerdos fueron firmados a través de Wikimedia Enterprise, el producto comercial de la fundación diseñado para reutilizadores y distribuidores a gran escala de contenido de proyectos de Wikimedia. Los nuevos socios incluyen a Ecosia, Microsoft, Mistral AI, Perplexity, Pleias y ProRata. Se unen a socios existentes como Amazon, Google y Meta.

"En la era de la IA, Wikipedia y su conocimiento creado y curado por humanos nunca ha sido más valioso", señaló la fundación en un comunicado.

"Su conocimiento impulsa chatbots de IA generativa, motores de búsqueda, asistentes de voz y más. Wikipedia es uno de los conjuntos de datos de mayor calidad utilizados en el entrenamiento de Large Language Models (LLM)".

El anuncio se hizo como parte de una actualización vinculada al 25º aniversario de Wikipedia.

La enciclopedia online se encuentra entre los diez sitios web más visitados a nivel mundial y es el único en ese grupo operado por una organización sin fines de lucro. Sus más de 65 millones de artículos, publicados en más de 300 idiomas, son vistos casi 15.000 millones de veces cada mes, según la fundación.

Sin embargo, ha advertido que los patrones de tráfico están cambiando. En octubre, señaló que las visitas humanas a Wikipedia cayeron un 8% interanual, atribuyendo la disminución a que los usuarios confían en resúmenes generados por IA en lugar de visitar el sitio directamente. Casi el 60% de las búsquedas en Google ahora terminan sin un clic, con respuestas en la página a menudo impulsadas por contenido de Wikipedia.

IA vs editores

Los acuerdos llegan en medio de un debate más amplio sobre cómo las empresas de IA obtienen datos de entrenamiento. Los Large Language Models generalmente se entrenan con grandes cantidades de material online, una práctica que ha generado críticas de autores, editores y otros titulares de derechos que argumentan que el uso de obras protegidas por derechos de autor sin permiso es una infracción.

Entre ellos, Reddit está involucrado en varias demandas con empresas de IA por el uso de su contenido para entrenar modelos, aunque ha alcanzado acuerdos de licencia con empresas como Google.

El jueves, las principales editoriales de libros Hachette Book Group y Cengage Group presentaron una moción para unirse a una demanda colectiva existente contra Google, acusando a la empresa de llevar a cabo "una infracción histórica de derechos de autor" para construir su plataforma de IA Gemini. La demanda alega que Google copió libros sin las licencias apropiadas durante sus procesos de entrenamiento de IA. El caso fue presentado originalmente en 2023 por un grupo de autores.

OpenAI enfrenta un caso similar de demandantes como el escritor de "Juego de Tronos" George R.R. Martin.

Las empresas de entretenimiento también están presionando el tema. A mediados de diciembre, Disney envió a Google una carta de cese y desistimiento acusándola de infracción de derechos de autor, incluso cuando Disney llegó a un acuerdo de licencia separado con OpenAI cubriendo cientos de personajes para video generado por IA. Disney ha emitido avisos similares a otras empresas de IA y está involucrada en litigios junto a grandes estudios contra la empresa de generación de imágenes Midjourney.

El mismo mes, una coalición de escritores, actores y tecnólogos lanzó un nuevo grupo de la industria destinado a impulsar estándares ejecutables que regulen cómo se entrena y utiliza la IA en el sector del entretenimiento. Más de 500 figuras prominentes han respaldado la iniciativa, como Natalie Portman, Cate Blanchett, Ben Affleck, Guillermo del Toro y Taika Waititi.

La Comisión Europea también ha abierto una investigación antimonopolio formal sobre si Google violó las reglas de competencia de la UE al usar contenido de editores y YouTube para impulsar sus servicios de IA sin compensación justa o consentimiento.

Si los titulares de derechos de autor finalmente encontrarán recurso no es seguro. Jueces federales en Estados Unidos han entregado recientemente victorias parciales a Meta y Anthropic, dictaminando que su uso de libros protegidos por derechos de autor para entrenar modelos de IA constituía uso justo, mientras criticaban a las empresas por mantener bibliotecas permanentes de obras pirateadas.

Daily Debrief Newsletter

Start every day with the top news stories right now, plus original features, a podcast, videos and more.