Processori fotonici: come il calcolo basato sulla luce accelera l’inferenza IA (2025)

Inferenza basata sulla luce

I processori fotonici non sono più una curiosità puramente accademica. Entro il 2025, diverse aziende e gruppi di ricerca hanno dimostrato che la luce può gestire alcune parti della matematica che sta dietro alle reti neurali più velocemente e con un consumo energetico inferiore rispetto agli approcci esclusivamente elettronici—soprattutto per le moltiplicazioni di matrici che dominano l’inferenza. L’idea di base è semplice: invece di spingere elettroni attraverso i transistor per moltiplicare e sommare valori, si codificano i numeri nella luce e si lascia che l’interferenza ottica svolga la parte più pesante del lavoro. Ciò che rende tutto questo praticabile oggi è l’ecosistema che lo circonda: fotonica su silicio più matura, packaging migliorato, chiplet di interconnessione ottica e una comprensione più chiara di quando la fotonica batte davvero le GPU e quando invece no.

Perché la luce può superare gli elettroni nei carichi di lavoro di inferenza

La maggior parte dell’inferenza IA moderna—che si tratti di un modello linguistico che genera token o di un modello visivo che classifica immagini—si riduce a calcolo lineare. In pratica, significa grandi moltiplicazioni di matrici ripetute milioni di volte. La fotonica è naturalmente adatta a questo perché interferenza e sfasamenti possono rappresentare operazioni di moltiplicazione e accumulo in parallelo. Invece di eseguire ogni moltiplicazione in modo elettronico, un circuito ottico può applicare molti “pesi” in una sola volta mentre un fascio attraversa una rete di interferometri. Il risultato non è magia; è fisica applicata al calcolo analogico ad altissima banda.

Questo vantaggio fisico emerge in due punti che contano per chi gestisce infrastrutture: throughput ed energia per operazione. I segnali ottici possono propagarsi e mescolarsi a velocità effettive molto elevate e—cosa fondamentale—spostare informazioni con la luce spesso richiede meno energia rispetto a farle viaggiare su lunghe connessioni in rame alla stessa banda. Per questo, nel 2025, la storia della fotonica è strettamente legata al movimento dei dati: anche quando il calcolo è ibrido (ottico + elettronico), ridurre il costo di trasferire attivazioni e pesi può migliorare in modo concreto l’efficienza dell’inferenza in un rack.

Tuttavia, il beneficio dipende dal tipo di carico. Il calcolo fotonico è più forte quando il lavoro è dominato da layer lineari densi e quando il sistema riesce a “nutrire” il core ottico con dati in modo continuo. Se invece il modello passa molto tempo su funzioni non lineari, operazioni sparse, logica con ramificazioni o conversioni di precisione frequenti, i vantaggi possono ridursi rapidamente perché l’elettronica deve comunque gestire il controllo e ripulire i risultati.

Come funziona davvero la moltiplicazione di matrici fotonica

Molti motori fotonici per l’IA si basano su reti di interferometri Mach–Zehnder (MZI). In termini semplici, un MZI può funzionare come una “manopola” regolabile che cambia il modo in cui due percorsi di luce si combinano. Disponendo migliaia di queste manopole in una griglia, è possibile implementare una trasformazione di matrice: gli input vengono codificati nelle intensità o nelle fasi della luce, la rete applica la matrice dei pesi tramite interferenza e i rivelatori leggono l’output riconvertendolo in elettronica. È per questo che il calcolo fotonico viene spesso descritto come analogico: la fisica rappresenta valori continui, anche se il sistema digitale circostante li tratta come numeri.

Poiché la parte ottica è analogica, la calibrazione è fondamentale. Deriva termica, tolleranze di fabbricazione e stabilità del laser influenzano tutte l’accuratezza. Nei sistemi del 2025, questo viene gestito di solito con loop di feedback, ricalibrazioni periodiche e strategie a precisione mista—utilizzando la fotonica per la moltiplicazione principale e l’elettronica per compensazione, scaling e controllo dell’errore. Non è tanto un limite quanto una realtà ingegneristica: si accetta una complessità maggiore nella calibrazione per ridurre il costo energetico di base dell’algebra lineare.

Un altro punto pratico riguarda la precisione. Il calcolo fotonico è spesso più interessante per l’inferenza a precisione ridotta (ad esempio, formati comparabili a 8 bit o inferiori come accuratezza effettiva), perché molti modelli in produzione tollerano la quantizzazione. La tendenza del settore verso l’inferenza quantizzata aiuta la fotonica: se lo stack è già ottimizzato per un’aritmetica efficiente e leggermente “rumorosa”, gli acceleratori fotonici possono integrarsi più facilmente rispetto a scenari che richiedono un comportamento floating point rigoroso.

Come appaiono i “veri” processori fotonici nel 2025

Il modo più utile per capire la fotonica nel 2025 è separare due categorie: (1) motori di calcolo fotonico che eseguono parti della matematica delle reti neurali usando la luce, e (2) tecnologie di interconnessione ottica che spostano dati tra chip usando la luce. Entrambe possono accelerare l’inferenza, ma lo fanno in modi diversi. I motori di calcolo mirano a ridurre energia e tempo spesi nelle operazioni di matrice. Le interconnessioni ottiche mirano a ridurre energia e latenza del movimento dei tensori tra GPU, memoria e acceleratori—spesso il vero collo di bottiglia nell’inferenza su larga scala.

Dal lato del calcolo, Lightmatter ha posizionato Envise come un sistema di computing fotonico pensato per carichi di lavoro IA, mirando esplicitamente a prestazioni ed efficienza energetica. L’azienda presenta Envise come un prodotto di computing fotonico per reti neurali, segnalando che la fotonica viene confezionata come sistema distribuibile e non soltanto come dimostrazione da laboratorio.

Dal lato delle interconnessioni, i chiplet ottici stanno diventando un tema serio. Ayar Labs, ad esempio, ha annunciato un approccio a chiplet ottico UCIe destinato alle architetture di scale-up per l’IA, con l’obiettivo di mantenere gli acceleratori in comunicazione ad altissima banda su distanze che sarebbero problematiche per il rame a potenze simili. In pratica, questo può tradursi in un utilizzo migliore: meno tempo in attesa dei dati, più tempo dedicato all’inferenza.

Fotonica “interconnect-first”: far scalare i sistemi di inferenza

I grandi cluster di inferenza sono sempre più vincolati dal movimento dei dati. Man mano che i modelli crescono, spesso servono model parallelism, tensor parallelism o pipeline parallelism—anche solo per l’inferenza—perché i pesi non entrano più comodamente in un singolo dispositivo. Questo rende il “fabric” tra dispositivi un limite di prestazioni di primo livello. I collegamenti ottici possono aiutare perché offrono alta banda con minori perdite su distanza, evitando parte dei problemi di integrità del segnale che emergono quando si spinge il rame al limite.

La direzione Optical I/O di Ayar Labs è pensata per l’integrazione in ecosistemi chiplet, e questo è importante perché il settore sta standardizzando sul packaging a chiplet. Nel 2025, il loro messaggio si concentra su chiplet Optical I/O per lo scale-up dell’IA, segno che la fotonica punta ad architetture di sistema mainstream e non a macchine di nicchia costruite su misura.

Lightmatter ha inoltre enfatizzato l’interconnessione fotonica con prodotti come Passage, inclusi annunci legati a Passage M1000 e componenti associati pensati per collegamenti chip-to-chip ad altissima velocità. Questo è rilevante per l’inferenza perché è semplice: una volta che il modello viene shardato tra dispositivi, i token al secondo possono diventare un problema di rete tanto quanto di calcolo.

Inferenza basata sulla luce

Realtà di adozione: costi, toolchain e dove la fotonica rende davvero

Per la maggior parte dei team, la domanda difficile non è “La fotonica è veloce?”, ma “Dove conviene davvero?”. Nel 2025, gli acceleratori fotonici risultano più convincenti quando l’inferenza è dominata da layer lineari densi, quando il costo energetico è un vincolo primario (ad esempio, data centre vicini al limite di potenza) e quando l’operatore riesce a mantenere un’elevata utilizzazione. Se un core fotonico resta inattivo in attesa dei dati o passa troppo tempo a convertire rappresentazioni, il vantaggio teorico della fisica può trasformarsi rapidamente in un progetto costoso e poco pratico.

Le toolchain stanno migliorando, ma restano un punto da valutare. Il calcolo fotonico spesso richiede il mapping dei layer della rete neurale su reti ottiche, la gestione delle strategie di quantizzazione e la calibrazione. Questo significa che lo stack software deve offrire le giuste astrazioni: un compilatore che sappia schedulare GEMM ottiche (moltiplicazioni di matrici), supporto runtime per la calibrazione e modelli di prestazioni chiari per prevedere quando un layer dovrebbe girare in fotonica rispetto all’elettronica. Le organizzazioni che già investono molto nell’ottimizzazione dell’inferenza—quantizzazione, kernel fusion, pianificazione della memoria—sono in genere quelle meglio posizionate per valutare correttamente la fotonica.

Esiste anche un futuro ibrido. Molti sistemi “fotonici” non sono computer puramente ottici; sono sistemi misti. L’elettronica gestisce ancora controllo, non-linearità, indirizzamento della memoria e parti della pipeline di accumulo. In pratica, lo scenario più probabile nel breve termine è che la fotonica acceleri l’algebra lineare più pesante, mentre packaging avanzato e Optical I/O riducano il costo di spostare dati in un sistema multi-chip.

Checklist pratica per gli ingegneri nel 2025

Primo, misura se il tuo carico di inferenza è davvero matrix-bound. Se il profiling mostra che la maggior parte di tempo ed energia viene spesa in GEMM dense e nel traffico di memoria che le alimenta, gli approcci fotonici meritano un’analisi. Se invece il carico è dominato da overhead dell’attenzione, accessi di memoria irregolari, logica di instradamento o post-processing significativo, potresti vedere benefici limitati da un core di calcolo ottico—anche se i collegamenti ottici possono comunque aiutare a livello di cluster.

Secondo, valuta il rischio di integrazione. Il calcolo fotonico introduce calibrazione e sensibilità ambientale, quindi serve un piano di monitoraggio e manutenzione. Se le operazioni del data centre possono supportare cicli di ricalibrazione periodici e hai una storia di affidabilità chiara, la fotonica diventa più realistica. Nel 2025, diverse analisi e contributi del settore sottolineano che l’hardware IA scalabile e sostenibile è legato ai circuiti integrati fotonici, ma il carico ingegneristico resta non banale.

Terzo, considera la strada delle interconnessioni anche se non adotti subito il calcolo fotonico. Chiplet Optical I/O e fotonica su silicio per i collegamenti possono portare benefici concreti riducendo energia e latenza del movimento dati. Intel, ad esempio, ha parlato pubblicamente dei progressi nella fotonica su silicio per blocchi di costruzione di interconnessione ottica ad alta banda, riflettendo quanta attenzione stia ricevendo la connettività ottica man mano che i sistemi IA crescono.