Resposta curta
A inferência de IA é o momento em que um modelo já treinado é utilizado. Este processa um prompt, uma imagem, um ficheiro de áudio ou outro tipo de entrada e devolve um resultado. Cada resposta do ChatGPT, cada geração de imagens por IA ou cada pedido de recomendação requer recursos computacionais de inferência.
A inferência é a execução do modelo de IA
Na IA, a inferência consiste na aplicação de um modelo treinado a novos dados. O modelo analisa os dados introduzidos e produz previsões, respostas ou conteúdo gerado. Ao contrário do treino, a inferência não ensina novos conhecimentos ao modelo. Em vez disso, utiliza parâmetros aprendidos anteriormente para responder aos utilizadores em tempo real.
A formação e a inferência são diferentes
O treino constrói o modelo através do processamento de conjuntos de dados maciços durante longos períodos, utilizando grandes quantidades de computação. A inferência é a fase operacional em que os utilizadores interagem com o modelo treinado. A formação é normalmente mais intensiva em termos de computação por evento, mas a inferência ocorre continuamente à escala global.
A inferência requer GPUs e hardware especializado
A inferência moderna de IA é frequentemente executada em GPUs ou aceleradores de IA optimizados para processamento paralelo. Os grandes modelos de linguagem podem exigir uma largura de banda de memória e uma potência de computação significativas, especialmente quando servem milhões de utilizadores em simultâneo.
A inferência consome eletricidade
Cada solicitação de inferência consome eletricidade por meio de hardware de computação, rede, armazenamento e infraestrutura de resfriamento. À medida que a adoção da IA cresce em todo o mundo, as cargas de trabalho de inferência estão a tornar-se uma parte cada vez mais importante da procura global de eletricidade dos centros de dados.
A inferência pode ser optimizada
Os fornecedores de IA optimizam continuamente a inferência através de loteamento, quantização, destilação de modelos, armazenamento em cache e hardware mais eficiente. Estas técnicas visam reduzir a latência, o consumo de eletricidade e os custos operacionais, mantendo a qualidade do modelo.
