Dal thermal testbed alla produzione: Qwen 2.5-Coder 32B su €300 di GPU usate. — Lab

Tre anni fa il primo test di inferenza locale è durato 180 secondi prima del thermal shutdown. Quattro generazioni di hardware dopo, lo stesso sistema esegue oggi in produzione Qwen 2.5-Coder 32B — un modello da 32 miliardi di parametri — su due GPU usate acquistate per €300 complessivi.

Non è una scelta di budget. È il risultato di una disciplina ingegneristica esplicita: validate cheap, deploy expensive. Si valida la struttura termica, acustica e meccanica sull'hardware più economico che riproduce il workload reale; solo quando il sistema regge dodici ore continuative a piena utilizzazione si passa alla configurazione di produzione.

Il passaggio dal testbed K80 alla configurazione di produzione non è stato lineare. Tra le due ci sono state cinque revisioni hardware complete, ognuna con un problema diverso da risolvere: dinamica termica, stress meccanico delle vibrazioni, vincoli driver, percorsi cavi, struttura di mounting, configurazione di rete interna.

La quarta generazione, oggi in operatività continuativa, eredita dalla testbed K80 tutto quello che funziona — disegno CAD in alluminio custom, componenti stampati 3D, vincoli sui percorsi cavi misurati sotto carico reale, profilo acustico compatibile con conversazione a un metro — e aggiunge la rete interna a decine di Gbps che il modello da 32B richiede per restare reattivo.

Le caratteristiche fisiche sono note: 8 GPU al 100% per 12 ore continuative, range termico 35–52°C, zero drift sull'intera finestra di carico. Per riferimento, una K80 in un server standard gira a 75–90°C sotto lo stesso carico. Niente datacenter. Niente raffreddamento a liquido. Ambiente residenziale.

Cosa significa operativamente. Un modello da 32B parametri eseguito localmente in coding assistance reale, con latenze utili a una sessione interattiva, senza dipendere da un'API esterna, senza che il codice o il contesto del progetto lasci la macchina. Il costo marginale di una query è elettrico, non a token.

Il punto non è "self-hosting come hobby". Il punto è che la sovranità dell'inferenza è una scelta di architettura: dove gira il modello determina dove finiscono i dati che lo nutrono. Su un sistema validato sotto carico per dodici ore, quella scelta diventa operativamente sostenibile, non più solo teorica.

Il sistema continua a evolversi. La quinta generazione è già in disegno.

Documentazione hardware completa nel paper "Notes from building a local AI inference system" (PDF, allegato all'articolo Due paper tecnici).