Belakangan ini, kita banyak menjumpai sejumlah keunikan yang berasal dari “kelompok” yang dapat diprogram, atau yang biasa kita sebut sebagai “kecerdasan buatan” alias artificial intelligence (AI). Meskipun kehadiran mereka sering kali tampak nyata dalam kehidupan sehari-hari dengan turut berperan membantu kita di ranah layanan pelanggan, terlibat dalam video game, serta turut meramaikan media sosial kita; kenyataaannya pemahaman akan penggunaannya seringkali masih diabaikan. Saat ini, AI bahkan telah menyusup ke dalam aktivitas finansial kita dengan teknologi AI seperti ChatGPT untuk melakukan transaksi jual-beli saham hingga membuat keputusan investasi.
Di sisi lain, konsensus dan ketidakjelasan yang menyelimuti teknologi AI ini menandakan bahwa keandalan output yang dihasilkan olehnya adalah hanya seandal variabel yang mengaturnya. Dalam situasi yang sangat kompleks dan beragam ini, transparansi dan kualitas data serta algoritma yang mengendalikan teknologi ini sangatlah penting. Minimnya kesadaran akan faktor-faktor penting yang menyelimutinya seperti tingkat kepercayaan dan kualitas dapat menyebabkan bias, misinformasi, dan potensi terjadinya kerentanan terhadap manipulasi yang dilakukan oleh aktor-aktor jahat. Oleh karena itu, kita perlu meningkatkan kemampuan kita untuk memahami cara kerja alat-alat sehubungan AI ini dan juga motif di balik aktivitas mereka. Kita perlu memahami AI.
Model bahasa besar alias large language model (LLM) merupakan sistem AI yang diprogram menggunakan rangkaian set data teks yang komprehensif. Tujuan rancangannya adalah untuk memunculkan teks yang mirip seperti tulisan manusia sebagai tanggapan terhadap masukan. Penggunaan istilah “besar” merujuk pada besarnya model dalam hal jumlah parameter dan volume data pembelajaran. Sebagai contoh, GPT-3 dari OpenAI, proses pembelajarannya menggunakan model kolosal yang menggabungkan 175 miliar variabel dari jumlah teks yang sangat besar.
Model-model ini tentunya memerlukan pemahaman mendalam terhadap teks yang mereka hasilkan, karena model-model ini bergantung pada kemampuan mengenali pola-pola dari data pembelajaran yang ada untuk menghasilkan output yang dapat diprediksi. Prinsip yang mendasarinya tetap konsisten: yaitu data pembelajaran yang komprehensif dan berkualitas tinggi dapat mendorong terwujudnya prediksi yang akurat.
Sebaliknya, “model yang dipatenkan” biasanya dibuat oleh suatu lembaga atau perusahaan tertentu dan meliputi suatu rancangan yang desain, struktur, dan algortima programnya dapat melindungi kekayaan intelektual pembuatnya. Penggunaan istilah ini sering kali dipadankan dengan model sumber terbuka (open source) yang cetak birunya (blueprint) dapat diakses oleh publik untuk digunakan, diubah, dan disebarluaskan. Gambaran pentingnya adalah bahwa model yang dipatenkan pada dasarnya tidak jauh berbeda dengan LLM. Istilah-istilah tersebut hanya memberi penekanan pada karakteristik lain dari model.
Kita Menuai Apa yang Kita Tabur
Suatu model seperti GPT-3 dari OpenAI dapat menjadi LLM sekaligus memiliki hak kepemilikan. Seperti yang telah disampaikan sebelumnya, model-model ini diprogram menggunakan set data yang luas dan kompleks, sehingga menimbulkan risiko ketidaksesuaian dalam kualitas output yang dihasilkan karena adanya gangguan pada set data yang diprogram — sebuah istilah yang kami sebut sebagai keracunan data (data poisoning). Keamanan siber (cyber security) memberikan analogi yang tepat untuk hal tersebut: “sampah masuk, sampah keluar”. Seperti halnya praktik kebersihan siber (cyber hygiene), kualitas dan seleksi data yang digunakan untuk membuat model sangatlah berpengaruh terhadap hasil, sehingga mampu mendeteksi anomali secara akurat sekaligus membantu mengembangkan inovasi.
Pertanyaannya adalah bagaimana kita bisa mencegah keracunan data? Kuncinya terletak pada proses pengambilan dan pemilihan data yang dilakukan dengan cermat, sehingga dapat menghindari akumulasi data yang serampangan. Perhatian khusus terhadap pengumpulan data yang berkualitas tinggi akan menjaga keakuratan output dari suatu model, terlepas dari apakah model tersebut merupakan model eksklusif atau open source. Kuantitas data tidak menjadi penentu utama dalam menentukan efektivitas suatu model, melainkan kualitas dan relevansi dari data yang dihasilkan.
Data untuk Jaringan Internet yang Tidak Bias dan Aman Digunakan
Transparansi algoritma (algorithmic transparency) memerlukan kejelasan mengenai cara kerja algoritma secara umum. Sebagai contoh, sebuah algoritma pengambil keputusan pinjaman (loan decision making algorithm) sebaiknya memberikan penjelasan mengenai faktor-faktor yang perlu dipertimbangkan (pendapatan, skor kredit) beserta bobot dari masing-masing faktor tersebut. Sementara, akuntabilitas algoritma (algorithmic accountability), sebagai padanan dari transparansi algoritma, mengharuskan entitas pengguna untuk bertanggung jawab atas pengambilan keputusan algoritmanya, terutama apabila hasilnya menunjukkan indikasi terjadinya bias atau diskriminasi.
Mempertimbangkan penggunaan pembelajaran mesin alias machine learning (ML) dalam intrusion detection systems (IDS) dapat membantu organisasi dalam memantau jaringan dari potensi ancaman atau pelanggaran kebijakan. ML meningkatkan kemampuan IDS dengan mengaktifkan kemampuan mengenali ancaman berdasarkan data yang sudah ada sebelumnya. Namun, terlepas dari kemajuan, transparansi, dan akuntabilitas yang sudah diterapkan; tantangan akan tetap ada.
Di dalam konteks ini, transparansi algoritma menjelaskan bahwa pengguna IDS harus memahami dasar pengambilan keputusan. Karakteristik apa yang menandakan adanya ancaman? Bagaimana cara membedakan aktivitas normal dan berbahaya? Meskipun mengungkapkan mekanisme sistem yang tepat malah justru dapat membantu calon penyerang — tentunya harus dihindari, pengguna harus memiliki informasi yang cukup demi memercayai dan menavigasi sistem secara efektif.
Akuntabilitas algoritma menghadirkan pertanyaan tentang tanggung jawab jika terjadi kesalahan respons positif atau negatif. Penyedia IDS harus bisa bertanggung jawab terhadap kesalahan ini, terutama jika timbul dari kelemahan algoritma.
Kini, tantangannya terletak pada bagaimana kita dapat menjaga keseimbangan antara transparansi, akuntabilitas, perlindungan pada kepentingan kepemilikan, dan mencegah potensi serangan oleh pihak luar. Ini adalah tanggung jawab yang meliputi banyak aspek, memerlukan pertimbangan yang berbeda-beda dan pendekatan yang seimbang. Penting juga untuk memahami tingkat kerumitan teknis dalam memahami proses pengambilan
keputusan beberapa algoritma, seperti jaringan saraf (neural networks), dan melindungi informasi kepemilikan. Terlepas dari hambatan-hambatan ini, konsensus di antara para ahli sudah jelas: kita harus berupaya meningkatkan transparansi dan akuntabilitas algoritma. Kita perlu berupaya menghadirkan AI yang lebih mudah dipahami.