Teknologi

Apple hingga NVIDIA Ketahuan Curi Transkrip Video YouTube untuk Latih AI

Oleh Media Formasi 2 menit baca
placeholder image

Pada awal April lalu, YouTube mengirimkan pesan yang jelas kepada pengembang model AI bahwa mengunduh data dari platform dan menggunakannya untuk melatih model AI merupakan pelanggaran yang jelas terhadap persyaratan layanan YouTube.

Dilansir dari Tweak Town, sentimen ini diperkuat pada minggu yang sama dengan komentar publik YouTube tentang kontennya yang digunakan untuk melatih model AI, tetapi itu berasal dari juru bicara Google yang mengatakan kepada New York Times bahwa pengambilan atau pengunduhan konten YouTube yang tidak sah dilarang.

Laporan baru dari Proof News menemukan bahwa YouTube telah diambil datanya, dan beberapa perusahaan teknologi terbesar yang mengembangkan AI telah menggunakannya untuk melatih model.

Menurut investigasi Proof News , subtitle dari 172.535 video YouTube diambil dari lebih dari 48.000 saluran, dan beberapa saluran ini mencakup kreator terkemuka di platform tersebut seperti MKBHD (19 juta pelanggan), MrBeast (289 juta), Jacksepticeye (31 juta), PewDiePie (111 juta), Stephen Colbert, John Oliver, Jimmy Kimmel, dan banyak lagi. Khususnya, transkripsi video tersebut adalah berkas subtitle.

Laporan tersebut menemukan bahwa Apple, NVIDIA, Salesforce, Anthropic, dan perusahaan lain menggunakan kumpulan data yang disebut Pile, yang dapat diakses dan terbuka bagi siapa saja yang memiliki akses internet. Selain itu, laporan tersebut menyatakan bahwa Apple, NVIDIA, dan Salesforce telah menyatakan dalam makalah penelitian mereka masing-masing bahwa Pile digunakan untuk melatih model AI mereka.

Dalam kasus Apple, kumpulan data Pile digunakan untuk melatih OpenELM, model AI baru yang dirilis pada bulan April, hanya beberapa minggu sebelum perusahaan Cupertino tersebut meluncurkan Apple Intelligence.

Perlu dicatat bahwa semua perusahaan teknologi besar yang tercantum di atas tidak mengunduh transkripsi video YouTube, karena itu adalah EleutherAI, yang membuat kumpulan data untuk tujuan pendidikan dan akademis.

Namun, tampaknya perusahaan teknologi besar menemukan kumpulan data tersebut dan memutuskan untuk menggunakannya untuk melatih model mereka. Hal ini menimbulkan pertanyaan tentang apa yang terjadi ketika sebuah perusahaan menggunakan kumpulan data dari pihak ketiga untuk melatih model AI, tetapi kumpulan data tersebut berisi data yang tidak disetujui pengguna untuk digunakan untuk tujuan pelatihan.

Berikut deskripsi dari Proof News:

" Perusahaan AI pada umumnya merahasiakan sumber data pelatihan mereka, tetapi penyelidikan oleh Proof News menemukan beberapa perusahaan AI terkaya di dunia telah menggunakan materi dari ribuan video YouTube untuk melatih AI. Perusahaan melakukannya meskipun ada peraturan YouTube yang melarang pengumpulan materi dari platform tersebut tanpa izin.
Investigasi kami menemukan bahwa subtitle dari 173.536 video YouTube, yang diambil dari lebih dari 48.000 saluran, digunakan oleh perusahaan-perusahaan besar di Silicon Valley, termasuk Anthropic, NVIDIA, Apple, dan Salesforce. Kumpulan data tersebut, yang disebut YouTube Subtitles, berisi transkrip video dari saluran pendidikan dan pembelajaran daring seperti Khan Academy, MIT, dan Harvard. The Wall Street Journal, NPR, dan BBC juga menggunakan video mereka untuk melatih AI, seperti halnya "The Late Show With Stephen Colbert," "Last Week Tonight With John Oliver," dan "Jimmy Kimmel Live,"

Tentang Penulis

Media Formasi
Media FormasiPenulis di Media Formasi

Media Formasi adalah bagian dari tim editorial Media Formasi yang berdedikasi untuk memberikan berita dan informasi terkini seputar dunia pop kultur, hobi, dan teknologi di Indonesia.

Punya pertanyaan atau ingin menghubungi tim redaksi? Email kami di [email protected]