Investigan 21 millones de canciones usadas para entrenar IA sin autorización de artistas

Las empresas mantienen en secreto de dónde obtienen sus datos

La opacidad sobre las fuentes de entrenamiento de IA es central en el conflicto entre la industria tecnológica y los creadores musicales.

En el cruce entre la creación humana y la inteligencia artificial, The Atlantic ha iluminado una práctica que operaba en las sombras: más de 21 millones de canciones —desde íconos globales hasta músicos anónimos— fueron incorporadas sin permiso a los sistemas que hoy generan música sintética. El periodista Alex Reisner ha puesto nombre y cifras a lo que la industria musical sospechaba, convirtiendo una inquietud difusa en evidencia concreta. Lo que se disputa no es solo una compensación económica, sino algo más antiguo y fundamental: el derecho de los creadores a decidir el destino de su propia obra.

Cuatro bases de datos masivas exponen que más de 21 millones de canciones fueron usadas para entrenar IA sin que ningún artista fuera consultado ni compensado.
Nombres como Taylor Swift, The Beatles y Bad Bunny aparecen junto a miles de músicos independientes, revelando que nadie quedó fuera del alcance de esta recolección silenciosa.
Las empresas de IA blindan sus fuentes de datos y esgrimen el 'uso justo' como escudo legal, pero esa defensa enfrenta una creciente resistencia en los tribunales.
Las demandas contra plataformas como Suno y Udio ya están en marcha, y los resultados mixtos de casos anteriores mantienen el desenlace en suspenso.
Las bases de datos publicadas se convierten en evidencia judicial lista para usar: cualquier artista puede verificar si su obra fue tomada y exigir cuentas.

The Atlantic reveló lo que la industria musical temía confirmar: cuatro bases de datos con más de 21 millones de canciones, todas utilizadas para entrenar sistemas de inteligencia artificial, ninguna con el consentimiento de sus creadores. La investigación del periodista Alex Reisner pone escala real a una práctica que operaba en silencio.

Los registros incluyen desde Taylor Swift y The Beatles hasta compositores de jazz y músicos independientes que nadie reconocería por su nombre. Una sola base de datos contiene 12 millones de canciones; otra, 9 millones. La diversidad de los afectados subraya que no se trató de una selección deliberada, sino de una aspiración total: todo lo que existía fue tomado.

Las empresas de IA han mantenido en secreto sus fuentes de entrenamiento y se amparan en el principio de 'uso justo' cuando se les cuestiona. Pero esa doctrina sigue siendo disputada en los tribunales. Ya hay demandas activas contra plataformas como Suno y Udio, y aunque los resultados han sido mixtos, las acusaciones por uso no autorizado están ganando terreno.

Lo que The Atlantic publicó no es solo una denuncia: es un mapa. Cualquier artista o abogado puede buscar si una obra aparece en esos registros y convertirlo en evidencia para litigios futuros. La industria musical, por su parte, responde con herramientas para identificar contenido sintético y con exigencias de transparencia que van más allá del dinero. Lo que está en juego es el control: quién decide cómo se usa lo que alguien creó, y quién se beneficia cuando eso ocurre.

The Atlantic acaba de revelar algo que la industria musical temía: cuatro bases de datos masivas que contienen más de 21 millones de canciones. Todas fueron utilizadas para entrenar sistemas de inteligencia artificial. Ninguno de los artistas cuyas obras aparecen en esas colecciones fue consultado.

La investigación, llevada a cabo por el periodista Alex Reisner, expone la escala real de lo que ha estado sucediendo en silencio. Una de las bases de datos contiene 12 millones de canciones. Otra tiene 9 millones. Las dos restantes superan los 100 mil temas cada una. Los nombres que aparecen en estos registros son imposibles de ignorar: Taylor Swift, Bad Bunny, Billie Eilish, Nirvana, Pearl Jam, Elvis Costello, The Beatles. Pero también hay miles de músicos independientes, compositores de jazz y clásica cuyos nombres nadie reconocería. Todos fueron incluidos sin permiso.

Lo que hace particularmente inquietante este hallazgo es la opacidad que rodea todo el proceso. Las empresas de IA no revelan públicamente de dónde obtienen sus datos de entrenamiento. Mantienen esa información bajo llave. Cuando se les pregunta, argumentan que el uso de estas obras está protegido por el principio de "uso justo", una doctrina legal que permite ciertos usos de material protegido sin autorización. Pero esa interpretación sigue siendo disputada en los tribunales, y nadie sabe realmente si prevalecerá.

Ya hay demandas en marcha contra plataformas como Suno y Udio, empresas que generan música mediante IA. Los acusadores sostienen que estas compañías utilizaron obras protegidas por derechos de autor para entrenar sus sistemas sin consentimiento. Las empresas se defienden con el argumento del uso justo. Es un enfrentamiento que apenas está comenzando, y los resultados de casos anteriores han sido mixtos. Algunos litigios han favorecido a los creadores. Otros no. Pero la tendencia reciente muestra que las acusaciones de piratería y reproducción no autorizada están ganando terreno.

Ahora, las bases de datos publicadas por The Atlantic podrían convertirse en un arma poderosa para los abogados. Cualquiera puede buscar si su canción o la de su cliente aparece en esos registros. Es evidencia concreta. Es un mapa de lo que fue tomado y cómo fue usado. Para los litigios que vienen, esto es oro.

La industria musical ya está reaccionando. Las plataformas de streaming y los sellos discográficos están implementando herramientas para identificar cuándo una canción fue creada por IA, para etiquetar el contenido sintético. Los artistas y sus organizaciones exigen transparencia. Quieren saber exactamente qué datos fueron utilizados, de dónde vinieron, y por qué no fueron consultados. El debate ocurre en un momento en que la preocupación dentro de la industria ha alcanzado un punto crítico. No se trata solo de dinero perdido, aunque eso también importa. Se trata de control: quién decide cómo se usan las obras creadas, y quién se beneficia cuando eso sucede.

Citações Notáveis

Una de las grandes interrogantes es qué compañías utilizaron exactamente estos archivos y bajo qué condiciones, ya que gran parte de la industria mantiene en secreto el origen del material

— Alex Reisner, periodista investigador

A Conversa do Hearth Outra perspectiva sobre a história

Inventor

¿Por qué importa que sepamos exactamente cuáles son esas 21 millones de canciones? ¿No es suficiente saber que fueron usadas?

Model

Porque la especificidad es poder legal. Si un artista puede demostrar que su canción específica fue incluida sin permiso, tiene un caso. Las bases de datos son el mapa del crimen.

Inventor

Las empresas dicen que es "uso justo". ¿Eso no debería protegerlos?

Model

Eso es lo que ellos argumentan. Pero el uso justo tiene límites. Si estás usando algo para competir directamente con el creador original, es más difícil de defender. Una IA que genera música está compitiendo con los músicos.

Inventor

¿Qué pasa con los músicos independientes? Tienen menos recursos para demandar.

Model

Exacto. Los grandes nombres como Taylor Swift pueden contratar abogados costosos. Un compositor de jazz independiente no puede. Pero ahora tienen estas bases de datos públicas. Podrían unirse en demandas colectivas.

Inventor

¿Crees que esto va a cambiar cómo las empresas entrenan sus modelos?

Model

Probablemente. Si pierden estos litigios, tendrán que ser más cuidadosas. Pero mientras tanto, seguirán argumentando que es legal. El dinero en juego es demasiado grande.

Inventor

¿Y los artistas que ya fueron dañados? ¿Hay alguna forma de compensarlos?

Model

Eso depende de los tribunales. Pero al menos ahora hay evidencia clara de lo que sucedió. Antes, todo era secreto.

Quer a matéria completa? Leia o original em La Cuarta ↗

Investigan 21 millones de canciones usadas para entrenar IA sin autorización de artistas

Citações Notáveis

Cobertura Relacionada

Receba o Register no seu e-mail