Resposta curta
A inferência ocorre quando um modelo de IA já treinado processa uma mensagem, uma imagem, um ficheiro de áudio ou outra entrada para gerar um resultado. Cada resposta do ChatGPT, geração de imagem de IA ou pedido de recomendação requer computação de inferência.
A inferência é a execução do modelo de IA
Durante a inferência, um modelo treinado analisa os dados de entrada e produz previsões ou conteúdo gerado. Ao contrário da formação, a inferência não ensina novos conhecimentos ao modelo. Em vez disso, utiliza parâmetros previamente aprendidos para responder aos utilizadores em tempo real.
A formação e a inferência são diferentes
O treino constrói o modelo através do processamento de conjuntos de dados maciços durante longos períodos, utilizando grandes quantidades de computação. A inferência é a fase operacional em que os utilizadores interagem com o modelo treinado. A formação é normalmente mais intensiva em termos de computação por evento, mas a inferência ocorre continuamente à escala global.
A inferência requer GPUs e hardware especializado
A inferência moderna de IA é frequentemente executada em GPUs ou aceleradores de IA optimizados para processamento paralelo. Os grandes modelos de linguagem podem exigir uma largura de banda de memória e uma potência de computação significativas, especialmente quando servem milhões de utilizadores em simultâneo.
A inferência consome eletricidade
Cada solicitação de inferência consome eletricidade por meio de hardware de computação, rede, armazenamento e infraestrutura de resfriamento. À medida que a adoção da IA cresce em todo o mundo, as cargas de trabalho de inferência estão a tornar-se uma parte cada vez mais importante da procura global de eletricidade dos centros de dados.
A inferência pode ser optimizada
Os fornecedores de IA optimizam continuamente a inferência através de loteamento, quantização, destilação de modelos, armazenamento em cache e hardware mais eficiente. Estas técnicas visam reduzir a latência, o consumo de eletricidade e os custos operacionais, mantendo a qualidade do modelo.
