Jawaban singkat
Inferensi terjadi ketika model AI yang sudah terlatih memproses permintaan, gambar, file audio, atau input lain untuk menghasilkan hasil. Setiap respons ChatGPT, pembuatan gambar AI, atau permintaan rekomendasi memerlukan perhitungan inferensi.
Inferensi adalah eksekusi model AI
Selama inferensi, model yang terlatih menganalisis data yang masuk dan menghasilkan prediksi atau konten yang dihasilkan. Tidak seperti pelatihan, inferensi tidak mengajarkan model pengetahuan baru. Sebaliknya, inferensi menggunakan parameter yang telah dipelajari sebelumnya untuk merespons pengguna secara real time.
Pelatihan dan penyimpulan berbeda
Pelatihan membangun model dengan memproses set data yang sangat besar dalam waktu yang lama dengan menggunakan komputasi yang sangat besar. Inferensi adalah fase operasional di mana pengguna berinteraksi dengan model yang telah dilatih. Pelatihan biasanya lebih intensif dalam hal komputasi per kejadian, tetapi inferensi terjadi secara terus menerus dalam skala global.
Inferensi membutuhkan GPU dan perangkat keras khusus
Inferensi AI modern sering kali berjalan pada GPU atau akselerator AI yang dioptimalkan untuk pemrosesan paralel. Model bahasa yang besar dapat membutuhkan bandwidth memori dan daya komputasi yang signifikan, terutama saat melayani jutaan pengguna secara bersamaan.
Inferensi mengkonsumsi listrik
Setiap permintaan inferensi mengkonsumsi listrik melalui perangkat keras komputasi, jaringan, penyimpanan, dan infrastruktur pendingin. Seiring dengan meningkatnya adopsi AI di seluruh dunia, beban kerja inferensi menjadi bagian yang semakin penting dari permintaan listrik pusat data global.
Inferensi dapat dioptimalkan
Penyedia AI secara terus menerus mengoptimalkan inferensi melalui pengelompokan, kuantisasi, penyulingan model, caching, dan perangkat keras yang lebih efisien. Teknik-teknik ini bertujuan untuk mengurangi latensi, konsumsi listrik, dan biaya operasional dengan tetap menjaga kualitas model.
