Estallan revueltas de datos contra la IA | Máquina cardadora Co., Ltd de Shaanxi

Anuncio

Apoyado por

Hartos de que las empresas de inteligencia artificial consuman contenido en línea sin consentimiento, los escritores de fan fiction, los actores, las empresas de redes sociales y las organizaciones de noticias se encuentran entre los que se rebelan.

Por Sheera Frenkel y Stuart A. Thompson

Sheera Frenkel y Stuart Thompson informan sobre la desinformación en línea y los datos digitales.

Durante más de 20 años, Kit Loffstadt ha escrito fan fiction explorando universos alternativos para héroes de “Star Wars” y villanos de “Buffy, la cazavampiros”, y comparte sus historias de forma gratuita en línea.

Pero en mayo, Loffstadt dejó de publicar sus creaciones después de enterarse de que una empresa de datos había copiado sus historias y las había introducido en la tecnología de inteligencia artificial subyacente a ChatGPT, el chatbot viral. Consternada, escondió sus escritos detrás de una cuenta bloqueada.

Loffstadt también ayudó a organizar un acto de rebelión el mes pasado contra los sistemas de inteligencia artificial. Junto con docenas de otros escritores de fan fiction, publicó una avalancha de historias irreverentes en línea para abrumar y confundir los servicios de recopilación de datos que alimentan el trabajo de los escritores con la tecnología de inteligencia artificial.

“Cada uno de nosotros tiene que hacer todo lo posible para mostrarles que el resultado de nuestra creatividad no es algo que las máquinas puedan cosechar como quieran”, dijo Loffstadt, una actriz de doblaje de 42 años de South Yorkshire en Gran Bretaña.

Los escritores de fan fiction son sólo un grupo que ahora organiza revueltas contra los sistemas de inteligencia artificial mientras la fiebre por la tecnología se ha apoderado de Silicon Valley y el mundo. En los últimos meses, empresas de redes sociales como Reddit y Twitter, organizaciones de noticias como The New York Times y NBC News, autores como Paul Tremblay y la actriz Sarah Silverman han adoptado una posición en contra de que la IA absorba sus datos sin permiso.

Sus protestas han tomado diferentes formas. Los escritores y artistas están bloqueando sus archivos para proteger su trabajo o boicoteando ciertos sitios web que publican contenido generado por IA, mientras que empresas como Reddit quieren cobrar por el acceso a sus datos. Este año se han presentado al menos 10 demandas contra empresas de inteligencia artificial, acusándolas de entrenar sus sistemas en el trabajo creativo de los artistas sin consentimiento. La semana pasada, la Sra. Silverman y los autores Christopher Golden y Richard Kadrey demandaron a OpenAI, el creador de ChatGPT, y a otros por el uso de su trabajo por parte de AI.

En el centro de las rebeliones se encuentra una nueva comprensión de que la información en línea (historias, obras de arte, artículos de noticias, publicaciones en foros y fotografías) puede tener un valor significativo sin explotar.

La nueva ola de IA, conocida como “IA generativa” por el texto, las imágenes y otros contenidos que genera, se construye sobre sistemas complejos, como grandes modelos de lenguaje, que son capaces de producir prosa similar a la humana. Estos modelos se entrenan con montones de todo tipo de datos para que puedan responder las preguntas de las personas, imitar estilos de escritura o producir comedia y poesía.

Esto ha desencadenado una búsqueda por parte de las empresas de tecnología de aún más datos para alimentar sus sistemas de inteligencia artificial. Google, Meta y OpenAI esencialmente han utilizado información de todo Internet, incluidas grandes bases de datos de fan fiction, tesoros de artículos de noticias y colecciones de libros, muchos de los cuales estaban disponibles de forma gratuita en línea. En el lenguaje de la industria tecnológica, esto se conocía como “raspar” Internet.

El GPT-3 de OpenAI, un sistema de inteligencia artificial lanzado en 2020, abarca 500 mil millones de “tokens”, cada uno de los cuales representa partes de palabras que se encuentran principalmente en línea. Algunos modelos de IA abarcan más de un billón de tokens.

La práctica de hacer scraping en Internet existe desde hace mucho tiempo y fue divulgada en gran medida por las empresas y organizaciones sin fines de lucro que la realizaban. Pero las empresas propietarias de los datos no lo entendieron bien ni lo consideraron especialmente problemático. Eso cambió después de que ChatGPT debutó en noviembre y el público aprendió más sobre los modelos de IA subyacentes que impulsaban los chatbots.

"Lo que está sucediendo aquí es una realineación fundamental del valor de los datos", dijo Brandon Duderstadt, fundador y director ejecutivo de Nomic, una empresa de inteligencia artificial. “Anteriormente, la idea era obtener valor de los datos al abrirlos a todos y publicar anuncios. Ahora, la idea es bloquear sus datos, porque puede extraer mucho más valor cuando los usa como entrada para su IA”.

Las protestas por los datos pueden tener poco efecto a largo plazo. Gigantes tecnológicos con mucho dinero como Google y Microsoft ya cuentan con montañas de información patentada y tienen los recursos para licenciar más. Pero a medida que la era del contenido fácil de extraer llega a su fin, es posible que las empresas más pequeñas de IA y las organizaciones sin fines de lucro que esperaban competir con las grandes empresas no puedan obtener suficiente contenido para entrenar sus sistemas.

En un comunicado, OpenAI dijo que ChatGPT fue capacitado en "contenido con licencia, contenido disponible públicamente y contenido creado por entrenadores humanos de IA". Añadió: "Respetamos los derechos de los creadores y autores y esperamos seguir trabajando con ellos para proteger sus intereses".

Google dijo en un comunicado que estaba involucrado en conversaciones sobre cómo los editores podrían gestionar su contenido en el futuro. "Creemos que todos se benefician de un ecosistema de contenido vibrante", dijo la compañía. Microsoft no respondió a una solicitud de comentarios.

Las revueltas de los datos estallaron el año pasado después de que ChatGPT se convirtiera en un fenómeno mundial. En noviembre, un grupo de programadores presentó una propuesta de demanda colectiva contra Microsoft y OpenAI, alegando que las empresas habían violado sus derechos de autor después de que su código se utilizara para entrenar a un asistente de programación impulsado por IA.

En enero, Getty Images, que ofrece fotografías y vídeos de archivo, demandó a Stability AI, una empresa de inteligencia artificial que crea imágenes a partir de descripciones de texto, alegando que la nueva empresa había utilizado fotografías protegidas por derechos de autor para entrenar sus sistemas.

Luego, en junio, Clarkson, un bufete de abogados de Los Ángeles, presentó una propuesta de demanda colectiva de 151 páginas contra OpenAI y Microsoft, describiendo cómo OpenAI había recopilado datos de menores y diciendo que el web scraping violaba la ley de derechos de autor y constituía "robo". El martes, la empresa presentó una demanda similar contra Google.

"La rebelión de los datos que estamos viendo en todo el país es la forma que tiene la sociedad de rechazar esta idea de que las grandes empresas tecnológicas simplemente tienen derecho a tomar toda la información de cualquier fuente y hacerla suya", dijo Ryan Clarkson, el fundador de Clarkson.

Eric Goldman, profesor de la Facultad de Derecho de la Universidad de Santa Clara, dijo que los argumentos de la demanda eran amplios y era poco probable que fueran aceptados por el tribunal. Pero la ola de litigios apenas comienza, dijo, y se avecina una “segunda y tercera ola” que definiría el futuro de la IA.

Las empresas más grandes también están luchando contra los raspadores de IA. En abril, Reddit dijo que quería cobrar por el acceso a su interfaz de programación de aplicaciones, o API, el método a través del cual terceros pueden descargar y analizar la vasta base de datos de conversaciones de persona a persona de la red social.

Steve Huffman, director ejecutivo de Reddit, dijo en ese momento que su empresa "no necesitaba dar todo ese valor a algunas de las empresas más grandes del mundo de forma gratuita".

Ese mismo mes, Stack Overflow, un sitio de preguntas y respuestas para programadores informáticos, dijo que también pediría a las empresas de inteligencia artificial que pagaran por los datos. El sitio tiene casi 60 millones de preguntas y respuestas. Wired informó anteriormente de su medida.

Las organizaciones de noticias también se resisten a los sistemas de inteligencia artificial. En un memorando interno sobre el uso de IA generativa en junio, The Times dijo que las empresas de IA deberían "respetar nuestra propiedad intelectual". Un portavoz del Times se negó a dar más detalles.

Para artistas y escritores individuales, luchar contra los sistemas de inteligencia artificial ha significado repensar dónde publican.

Nicholas Kole, de 35 años, un ilustrador de Vancouver, Columbia Británica, estaba alarmado por cómo su estilo artístico distintivo podía ser replicado por un sistema de inteligencia artificial y sospechaba que la tecnología había alterado su trabajo. Planea seguir publicando sus creaciones en Instagram, Twitter y otros sitios de redes sociales para atraer clientes, pero dejó de publicar en sitios como ArtStation que publican contenido generado por IA junto con contenido generado por humanos.

“Simplemente se siente como un robo sin sentido hacia mí y hacia otros artistas”, dijo Kole. “Me produce un nudo de temor existencial en el estómago”.

En Archive of Our Own, una base de datos de fan fiction con más de 11 millones de historias, los escritores han presionado cada vez más al sitio para que prohíba la extracción de datos y las historias generadas por IA.

En mayo, cuando algunas cuentas de Twitter compartieron ejemplos de ChatGPT que imitaban el estilo de fan fiction popular publicado en Archive of Our Own, decenas de escritores se levantaron en armas. Bloquearon sus historias y escribieron contenido subversivo para engañar a los raspadores de IA. También presionaron a los líderes de Archive of Our Own para que dejaran de permitir contenido generado por IA.

Betsy Rosenblatt, que brinda asesoramiento legal a Archive of Our Own y es profesora de la Facultad de Derecho de la Universidad de Tulsa, dijo que el sitio tenía una política de “máxima inclusión” y no quería estar en la posición de discernir qué historias se escribieron. con IA

Para Loffstadt, la escritora de fan fiction, la lucha contra la IA se produjo mientras escribía una historia sobre “Horizon Zero Dawn”, un videojuego en el que los humanos luchan contra robots impulsados por IA en un mundo postapocalíptico. En el juego, dijo, algunos de los robots eran buenos y otros malos.

Pero en el mundo real, dijo, “gracias a la arrogancia y la avaricia corporativa, se les está obligando a hacer cosas malas”.

Sheera Frenkel es una reportera de tecnología premiada que vive en San Francisco. En 2021, ella y Cecilia Kang publicaron “Una verdad fea: dentro de la batalla por la dominación de Facebook”. Más información sobre Sheera Frenkel

Stuart A. Thompson es reportero del departamento de Tecnología que cubre los flujos de información en línea. Más sobre Stuart A. Thompson

Anuncio