Jawaban singkat
Inferensi AI adalah proses saat model yang telah dilatih digunakan. Proses ini mengolah prompt, gambar, file audio, atau masukan lainnya, lalu menghasilkan hasil. Setiap respons ChatGPT, pembuatan gambar berbasis AI, atau permintaan rekomendasi memerlukan daya komputasi untuk inferensi.
Inferensi adalah eksekusi model AI
Dalam bidang kecerdasan buatan (AI), inferensi berarti menerapkan model yang telah dilatih pada data baru. Model tersebut menganalisis masukan dan menghasilkan prediksi, jawaban, atau konten yang dihasilkan. Berbeda dengan proses pelatihan, inferensi tidak mengajarkan pengetahuan baru kepada model. Sebaliknya, inferensi menggunakan parameter yang telah dipelajari sebelumnya untuk merespons pengguna secara real time.
Pelatihan dan penyimpulan berbeda
Pelatihan membangun model dengan memproses set data yang sangat besar dalam waktu yang lama dengan menggunakan komputasi yang sangat besar. Inferensi adalah fase operasional di mana pengguna berinteraksi dengan model yang telah dilatih. Pelatihan biasanya lebih intensif dalam hal komputasi per kejadian, tetapi inferensi terjadi secara terus menerus dalam skala global.
Inferensi membutuhkan GPU dan perangkat keras khusus
Inferensi AI modern sering kali berjalan pada GPU atau akselerator AI yang dioptimalkan untuk pemrosesan paralel. Model bahasa yang besar dapat membutuhkan bandwidth memori dan daya komputasi yang signifikan, terutama saat melayani jutaan pengguna secara bersamaan.
Inferensi mengkonsumsi listrik
Setiap permintaan inferensi mengkonsumsi listrik melalui perangkat keras komputasi, jaringan, penyimpanan, dan infrastruktur pendingin. Seiring dengan meningkatnya adopsi AI di seluruh dunia, beban kerja inferensi menjadi bagian yang semakin penting dari permintaan listrik pusat data global.
Inferensi dapat dioptimalkan
Penyedia AI secara terus menerus mengoptimalkan inferensi melalui pengelompokan, kuantisasi, penyulingan model, caching, dan perangkat keras yang lebih efisien. Teknik-teknik ini bertujuan untuk mengurangi latensi, konsumsi listrik, dan biaya operasional dengan tetap menjaga kualitas model.
