OpenAI entrena a nuevo modelo de Inteligencia Artificial trascribiendo videos de YouTube: 'NYT'

La empresa tuvo un debate sobre si el uso de metrajes en la red social habría violado derechos de autor

Foto: Reuters

Internacional > Ciencias

Efe

06/04/2024 | Nueva York, Estados Unidos

OpenAI creó un programa para transcribir más de un millón de horas de videos de Youtube con el objetivo de entrenar el modelo de generación de texto GPT-4, su modelo más avanzado abierto al público, según una exclusiva de The New York Times (NYT) publicada este sábado.

El diario asegura que OpenAI, una empresa sin ánimo de lucro, desarrolló un programa bautizado como Whisper que extrajo texto de más de un millón de horas en videos para obtener datos de entrenamiento de modelos de generación de lenguaje, conocidos como LLM.

Las fuentes consultados por el NYT aseguran que el equipo encargado de Whisper incluía a Greg Brockman, presidente de OpenAI.

La empresa mantuvo un debate interno sobre si la extracción de texto de los vídeos alojados en la plataforma propiedad de Google suponían una violación de términos de uso. Según el artículo, OpenAI consideró que necesitaba más datos de entrenamiento en 2021 y discutió si obtenerlos de Youtube, podcast o audiolibros.

Te puede interesar: Exponen los retos para crear inteligencia artificial para la lengua maya

En una reciente entrevista el consejero ejecutivo de YouTube, Neal Mohan, aseguró que si OpenAI ha usado vídeos de la plataforma para entrenar ‘Sora’, su modelo de generación de vídeos realistas, estaría violando sus términos de servicio.

“Los creadores de contenido que vienen a Youtube tienen ciertas expectativas, entre ellas que los términos de servicio se cumplen. Nuestros términos permiten extraer cierto contenido como el título, el nombre de canal o el nombre del creador para facilitar la web abierta”, explicó Mohan.

“No está permitido descargar las transcripciones o partes de los videos. Eso es una violación clara de nuestro términos de contenido”, añadió el directivo. La portavoz de OpenAI Lindsay Held indicó en una respuesta a la exclusiva obtenida por The Verge que la compañía crea bases de datos “únicas” y utiliza “numerosas fuentes disponibles públicamente y realiza acuerdos para obtener dato que no es público”.

Google transcribe los videos de Youtube para obtener texto para alimentar a sus modelos de generación de texto, algo que violaría los derechos de los creadores que suben sus videos a la plataforma, según fuentes consultadas por el diario.

Los derechos sobre el contenido usado para entrenar modelos de Inteligencia Artificial aún no están bien definidos y la competitividad para conseguir los mejores modelos de generación de contenido realista está llevando a empujar las fronteras de la legalidad en derechos de autor.

El gigante tecnológico Meta, creador de Facebook, debatió el año pasado si comprar la editorial Simon & Schuster para obtener acceso a su material de largo formato, según el contenido de reuniones entre gerentes, abogados e ingenieros de la compañía a los que tuvo acceso el NYT.

Sigue leyendo:

– Microsoft está desarrollando un agente animado con inteligencia artificial para Xbox

– Así es cómo la inteligencia Artificial predice el sabor y calidad de la cerveza

– Desde asteroides a monstruos: TikTok inundada por teorías conspirativas con Inteligencia Artificial

Edición: Fernando Sierra

'Chicharito' firma con el Atlético Dallas, equipo de expansión en la USL Championship

''Quiero ayudar a crear una cultura ganadora e inspirar a jóvenes'', señala el delantero

Hace 1 h | Ciudad de México

'Chicharito' firma con el Atlético Dallas, equipo de expansión en la USL Championship

Quintana Roo > Ecología

México deberá pagar a Calica por clausurarla; la empresa se inconforma por el monto de la multa

La empresa manifestó su inconformidad; pedían una indemnización de mil 700 mdd

La Jornada Maya

Hace 1 h | Playa del Carmen, QRoo

México deberá pagar a Calica por clausurarla; la empresa se inconforma por el monto de la multa

Internacional > Deportes

Sabalenka y Djokovic encabezan los equipos inscritos en dobles mixtos del Abierto de Estados Unidos

El torneo se llevará a cabo el 25 y 26 de agosto; Townsend-Zverev, otra dupla a seguir

Hace 2 h | Nueva York, EU

Sabalenka y Djokovic encabezan los equipos inscritos en dobles mixtos del Abierto de Estados Unidos

Yucatán > Ecología

Convocan en Mérida a marcha en defensa de las Dunas de Chuburná

Exigen detener un proyecto inmobiliario que ha desmontado vegetación protegida

La Jornada Maya

Hace 2 h | Mérida

OpenAI entrena a nuevo modelo de Inteligencia Artificial trascribiendo videos de YouTube: 'NYT'

La empresa tuvo un debate sobre si el uso de metrajes en la red social habría violado derechos de autor

Lo más reciente

'Chicharito' firma con el Atlético Dallas, equipo de expansión en la USL Championship

México deberá pagar a Calica por clausurarla; la empresa se inconforma por el monto de la multa

Sabalenka y Djokovic encabezan los equipos inscritos en dobles mixtos del Abierto de Estados Unidos

Convocan en Mérida a marcha en defensa de las Dunas de Chuburná

Sabalenka y Djokovic encabezan los equipos inscritos en dobles mixtos del Abierto de Estados Unidos

Riesgo mundial de que resurja epidemia de VIH por recortes de financiamiento de EU: Onusida

La diversidad lingüística mundial está muriendo: solo se habla 10% de las lenguas existentes, alertan investigadores

Europa arde: incendios se extienden a Portugal y evacuan a miles en España y Francia

Francia: Detienen a un hombre por ataque con cuchillo contra tres mujeres en París

Beltrán, Jones y Kent rinden tributo a su tierra y la familia en la ceremonia del Salón de la Fama

Espriella, presidente electo de Colombia, romperá relaciones con Cuba y Nicaragua al asumir el cargo

Suplementos