@Walrus 🦭/acc #walrus $WAL
Ketika saya memikirkan AI dataset hub, saya tidak melihatnya sebagai gudang data murni, melainkan sebagai 'tulang punggung' dari seluruh rantai nilai AI.

Data tidak hanya dikumpulkan dan disimpan, tetapi juga dinormalisasi, dikenali, dilacak, dan digunakan kembali sepanjang siklus hidup model.

Dalam konteks AI yang semakin bergantung pada data besar, beragam, dan memiliki siklus hidup panjang, pertanyaan inti bagi saya bukan lagi 'apakah ada data atau tidak', melainkan di mana data tersebut disimpan, siapa yang mengendalikannya, dan bagaimana nilai yang dihasilkan dari data tersebut didistribusikan.

Ini alasan mengapa saya melihat penyimpanan data pelatihan di Walrus sebagai pendekatan yang layak untuk dieksplorasi lebih dalam.

Melihat kondisi saat ini, sebagian besar data pelatihan AI berada dalam silo terpusat: cloud Big Tech, server internal perusahaan, atau basis data tertutup.

Ketika saya bekerja dengan tim AI, saya melihat tiga masalah yang berulang.

Pertama, risiko terpusat: data bisa diblokir, dihapus, atau kondisi aksesnya berubah hanya karena keputusan kebijakan.

Kedua, kurangnya kemampuan untuk diverifikasi: hampir tidak mungkin mengetahui apakah dataset yang digunakan untuk melatih model telah dimodifikasi atau dipilih secara selektif.

Ketiga, distribusi nilai sangat timpang: pencipta data, pembersih data, dan penanda data sering kali tidak mendapatkan apa-apa meskipun dataset tersebut menghasilkan model bernilai puluhan atau ratusan juta dolar.

Bagi saya, Walrus adalah lapisan infrastruktur yang membuka cara berpikir yang baru.

Alih-alih menganggap data AI hanya sebagai 'bahan baku masukan', Walrus memungkinkan saya melihat dataset sebagai aset jangka panjang yang dapat diidentifikasi, memiliki sejarah, dan dapat dikaitkan langsung dengan mekanisme ekonomi.

Fokus Walrus pada penyimpanan data besar, tahan lama, dan dapat dirujuk dalam jangka panjang sangat sesuai dengan sifat data pelatihan, yang tidak perlu sering berubah tetapi membutuhkan keandalan yang sangat tinggi.

Dalam model AI dataset hub yang saya bayangkan, setiap dataset—atau bahkan setiap shard dari dataset—disimpan di Walrus dalam bentuk blob yang tidak dapat diubah.

Ketika dipublikasikan ke Walrus, dataset memiliki ID berbasis konten, artinya cukup mengubah satu bit saja maka ID-nya sudah berbeda.

Bagi saya, ini sangat penting: ini menciptakan kemampuan untuk melacak secara akurat data mana yang digunakan untuk melatih suatu model, dan versi mana yang digunakan.

Tidak lagi ada istilah seperti 'dataset mirip versi lama' atau 'diperbarui sedikit tapi tidak dicatat'.

Ini adalah fondasi untuk AI mendekati reproducibility yang sesungguhnya, bukan hanya berhenti pada level makalah atau blog.

AI dataset hub menurut saya bukan sekadar tempat untuk mengunggah dan mengunduh data.

Ini adalah lapisan koordinasi.

Di Walrus, hub dapat membangun lapisan metadata yang erat terkait dengan setiap dataset: asal-usul, lisensi, domain, bahasa, metode pengumpulan, tingkat sensitivitas, bahkan bias yang telah ditemukan.

Ketika saya sebagai pengguna dataset untuk fine-tune model, saya tidak hanya mengambil data mentah, tetapi juga memahami konteksnya secara jelas.

Ini membantu saya membuat keputusan yang jauh lebih baik dalam proses pelatihan dan evaluasi model.

Salah satu hal yang saya hargai adalah kemampuan untuk merancang akses yang fleksibel.

Tidak semua data pelatihan harus dibuka sepenuhnya.

Dalam kenyataannya, saya sering menemui dataset yang sensitif atau bersifat properti.

Menggabungkan Walrus dengan smart contract, AI dataset hub dapat memungkinkan akses terkendali oleh banyak model: staking token untuk membaca, membayar untuk mengunduh, atau hanya memungkinkan verifikasi checksum tanpa mengizinkan salinan penuh.

Ini menciptakan area abu-abu yang sangat menarik antara data terbuka dan data tertutup, alih-alih harus memilih salah satu dari dua pilihan.

Dari sisi ekonomi, ini adalah bagian yang paling menarik bagi saya.

Ketika dataset disimpan di Walrus dan digunakan oleh berbagai model, dataset tersebut mulai menciptakan aliran nilai yang berulang.

AI dataset hub dapat memberikan bagi hasil langsung kepada kontributor data: setiap kali dataset digunakan untuk pelatihan atau fine-tune, sebagian biaya akan secara otomatis didistribusikan kembali.

Bagi saya, ini adalah cara yang sangat 'on-chain native' untuk menyelesaikan masalah siapa yang mendapat manfaat dari AI, alih-alih bergantung pada perjanjian hukum yang rumit dan kurang transparan.

Dari sudut pandang MLOps, penyimpanan data pelatihan di Walrus membuat pipeline menjadi lebih modular.

Alih-alih mengkodekan secara langsung bucket S3 atau jalur internal, pipeline hanya perlu merujuk ke ID dataset.

Model card dapat mencatat dengan jelas model ini dilatih pada dataset mana, versi mana.

Ketika saya perlu melakukan audit, rollback, atau membandingkan performa antar pelatihan, semuanya jelas dan dapat direplikasi.

Dalam konteks regulasi AI yang semakin ketat, ini merupakan keunggulan besar.

Salah satu kasus penggunaan yang sangat cocok menurut saya adalah dataset yang dikurasi oleh komunitas.

Misalnya, sebuah komunitas yang fokus pada hukum, biomedis, atau bahasa dengan sumber daya terbatas dapat bersama-sama membangun dataset, menyimpannya di Walrus, dan mengelolanya melalui AI dataset hub.

Dataset tidak dimiliki oleh satu perusahaan saja, tetapi juga tidak tanpa pemilik.

Keputusan untuk membuka akses, penetapan harga, atau pembaruan dataset dapat diatur melalui DAO.

Ini adalah hal yang hampir tidak pernah berhasil dilakukan oleh Web2 secara efektif.

Tentu saja, saya tidak berpikir Walrus adalah solusi ajaib.

Pelatihan AI membutuhkan throughput tinggi, sementara penyimpanan terdesentralisasi lebih mengutamakan daya tahan dan integritas.

Namun kenyataannya, pipeline modern umumnya memiliki cache, prefetch, dan lapisan streaming.

Bagi saya, Walrus harus berperan sebagai sumber kebenaran, sementara performa dioptimalkan di lapisan di atasnya.

Akhirnya, AI dataset hub yang menyimpan data pelatihan di Walrus, bagi saya, bukan hanya soal infrastruktur.

Ini adalah cara saya membayangkan masa depan AI: di mana data dianggap sebagai aset, kontributor data memiliki hak yang jelas, dan model hanyalah lapisan nilai yang dibangun di atas data yang transparan.

Jika AI benar-benar ingin menjadi kekayaan publik dalam jangka panjang, maka cara kita menyimpan dan mengelola data pelatihan sekarang akan menentukan banyak hal di masa depan.