Processadores Fotónicos: Como a Computação com Luz Acelera a Inferência de IA (2025)

Inferência baseada em luz

Os processadores fotónicos já não são apenas uma curiosidade académica. Em 2025, várias empresas e equipas de investigação demonstraram que a luz pode executar parte da matemática por trás das redes neuronais com maior velocidade e menor consumo energético do que abordagens puramente electrónicas — sobretudo nas multiplicações matriciais que dominam a inferência. A ideia central é simples: em vez de empurrar electrões através de transístores para multiplicar e acumular números, codificam-se valores em luz e deixa-se a interferência óptica fazer o trabalho pesado. O que torna isto viável hoje é o ecossistema à volta: fotónica de silício mais madura, melhor empacotamento, chiplets de interligação óptica e uma compreensão mais clara de onde a fotónica supera realmente as GPUs e onde não o faz.

Porque é que a luz pode superar os electrões em cargas de trabalho de inferência

A maior parte da inferência moderna de IA — seja um modelo de linguagem a produzir tokens ou um modelo de visão a classificar imagens — resume-se a álgebra linear. Na prática, isso significa grandes multiplicações matriciais repetidas milhões de vezes. A fotónica é naturalmente forte aqui porque a interferência e os desvios de fase podem representar operações de multiplicar-e-acumular em paralelo. Em vez de executar cada multiplicação electronicamente, um circuito óptico pode aplicar muitos “pesos” de uma só vez à medida que um feixe atravessa uma malha de interferómetros. O resultado não é magia; é física a executar computação analógica com largura de banda extremamente elevada.

Esta vantagem física surge em dois pontos que interessam aos operadores: débito e energia por operação. Os sinais ópticos podem propagar-se e misturar-se a taxas efectivas muito altas e — de forma crucial — mover informação com luz pode custar menos energia do que movê-la por longas pistas de cobre à mesma largura de banda. Por isso, em 2025, a história da fotónica está intimamente ligada ao movimento de dados: mesmo quando o cálculo é híbrido (óptico + electrónico), reduzir o custo de transportar activaçōes e pesos pode melhorar de forma real a eficiência da inferência num rack.

No entanto, o benefício depende da carga de trabalho. A computação fotónica é mais forte quando a tarefa é dominada por camadas lineares densas e quando o sistema consegue manter o núcleo óptico bem alimentado com dados. Se o modelo passar muito tempo em funções não lineares, operações esparsas, lógica com ramificações ou conversões frequentes de precisão, os ganhos podem diminuir rapidamente, porque a electrónica continua a ter de gerir o controlo e “limpar” os resultados.

Como funciona, na prática, a multiplicação matricial fotónica

Muitos motores fotónicos para IA usam malhas de interferómetros de Mach–Zehnder (MZI). Em termos simples, um MZI funciona como um “botão” ajustável que altera a forma como dois caminhos de luz se combinam. Ao organizar milhares destes botões numa malha, é possível implementar uma transformação matricial: as entradas são codificadas em intensidades ou fases de luz, a malha aplica a matriz de pesos através de interferência, e os detectores lêem a saída de volta para a electrónica. É por isso que a computação fotónica é frequentemente descrita como analógica: a física representa valores contínuos, mesmo que o sistema digital à volta os trate como números.

Como a parte óptica é analógica, a calibração é crítica. Variações de temperatura, tolerâncias de fabrico e estabilidade do laser influenciam a exactidão. Em sistemas de 2025, isto costuma ser gerido com ciclos de realimentação, recalibração periódica e estratégias de precisão mista — usando fotónica para a maior parte da multiplicação e electrónica para compensação, escalonamento e controlo de erro. Isto não é uma fraqueza, mas uma realidade de engenharia: troca-se alguma complexidade de calibração por uma redução do custo energético fundamental da álgebra linear.

Outro ponto prático é a precisão. A computação fotónica tende a ser mais atractiva para inferência com precisão reduzida (por exemplo, formatos comparáveis a 8 bits ou menos em exactidão efectiva), porque muitos modelos em produção toleram quantização. A tendência do sector para inferência quantizada ajuda a fotónica: se o seu stack de produção já está optimizado para aritmética eficiente e ligeiramente ruidosa, aceleradores fotónicos encaixam com mais naturalidade do que em cenários que exigem comportamento estritamente em ponto flutuante.

Como são os processadores fotónicos “reais” em 2025

A forma mais útil de compreender a fotónica em 2025 é separar duas categorias: (1) motores de computação fotónica que executam partes da matemática de redes neuronais usando luz, e (2) tecnologia de interligação óptica que move dados entre chips usando luz. Ambas podem acelerar a inferência, mas fazem-no de maneiras diferentes. Os motores de computação procuram reduzir a energia e o tempo gastos em operações matriciais. A interligação óptica procura reduzir a energia e a latência de mover tensores entre GPUs, memória e aceleradores — muitas vezes o verdadeiro gargalo em implantações de inferência em grande escala.

Do lado da computação, a Lightmatter tem posicionado o Envise como um sistema de computação fotónica concebido para cargas de trabalho de IA, visando explicitamente desempenho e eficiência energética. A empresa apresenta o Envise como um produto de computação fotónica para redes neuronais, o que indica que a fotónica está a ser empacotada como um sistema implantável e não apenas como uma demonstração de laboratório.

Do lado da interligação, os chiplets ópticos estão a tornar-se um tema sério. A Ayar Labs, por exemplo, anunciou uma abordagem de chiplet óptico UCIe destinada a arquitecturas de scale-up para IA, com o objectivo de manter aceleradores a comunicar com largura de banda muito elevada em distâncias onde o cobre seria problemático ao mesmo nível de potência. Na prática, isto pode traduzir-se em melhor utilização: menos tempo à espera de dados, mais tempo a fazer inferência.

Fotónica primeiro na interligação: como escalar sistemas de inferência

Clusters grandes de inferência são cada vez mais limitados pelo movimento de dados. À medida que os modelos crescem, é comum precisar de paralelismo de modelo, paralelismo de tensores ou paralelismo em pipeline — mesmo para inferência — porque os pesos já não cabem de forma simples num único dispositivo. Isso faz com que a “malha” entre dispositivos se torne um limitador de desempenho de primeira ordem. Ligações ópticas podem ajudar porque oferecem alta largura de banda com menor perda ao longo da distância e evitam parte dos problemas de integridade de sinal que surgem quando se força o cobre a extremos.

A direcção de I/O óptico da Ayar Labs está pensada para integração em ecossistemas de chiplets, o que é importante porque o sector está a normalizar empacotamentos baseados em chiplets. A comunicação da empresa em 2025 foca chiplets de I/O óptico para scale-up de IA, um sinal de que a fotónica está a ser orientada para arquitecturas convencionais e não para máquinas de nicho.

A Lightmatter também tem destacado interligação fotónica com produtos como o Passage, incluindo anúncios em torno do Passage M1000 e componentes relacionados destinados a ligações chip-a-chip muito rápidas. A relevância para inferência é directa: quando o modelo é repartido por vários dispositivos, o seu tokens-por-segundo efectivo pode tornar-se um problema de rede tanto quanto um problema de computação.

Inferência baseada em luz

Realidade de implementação: custos, toolchains e onde a fotónica encaixa melhor

Para a maioria das equipas, a pergunta difícil não é “A fotónica é rápida?”, mas “Onde é que compensa?”. Em 2025, aceleradores fotónicos são mais convincentes em cenários onde a inferência é dominada por camadas lineares densas, onde o custo energético é uma restrição principal (por exemplo, centros de dados a bater em limites de potência) e onde é possível manter alta utilização. Se um núcleo fotónico ficar ocioso à espera de dados ou passar tempo a converter representações, a vantagem teórica da física transforma-se num projecto caro e pouco prático.

As toolchains estão a melhorar, mas continuam a ser um factor. A computação fotónica pode exigir mapear camadas de redes neuronais para malhas ópticas, gerir estratégias de quantização e lidar com calibração. Isso significa que a stack de software tem de expor as abstrações certas: um compilador que saiba agendar GEMMs ópticos (multiplicações matriciais), suporte de runtime para calibração e modelos de desempenho claros para prever quando uma camada deve correr em fotónica em vez de electrónica. Organizações que já investem fortemente em optimização de inferência — quantização, fusão de kernels, planeamento de memória — tendem a estar melhor posicionadas para avaliar fotónica com rigor.

Há também um futuro híbrido. Muitos sistemas “fotónicos” não são computadores puramente ópticos; são sistemas mistos. A electrónica continua a tratar do controlo, das não linearidades, do endereçamento de memória e de partes do pipeline de acumulação. Na prática, o padrão mais provável no curto prazo é a fotónica acelerar a álgebra linear mais pesada, enquanto o empacotamento avançado e o I/O óptico reduzem o custo de mover dados num sistema multi-chip.

Checklist prática de decisão para engenheiros em 2025

Primeiro, quantifique se a sua carga de inferência é realmente dominada por matrizes. Se o profiling mostrar que a maior parte do tempo e da energia está em GEMMs densos e no tráfego de memória que os alimenta, abordagens fotónicas valem uma avaliação. Se, em vez disso, o trabalho for dominado por overhead de atenção, acesso irregular à memória, lógica de encaminhamento ou pós-processamento significativo, o benefício de um núcleo de computação óptico pode ser limitado — mesmo que ligações ópticas continuem a ajudar à escala de cluster.

Segundo, avalie o risco de integração. A computação fotónica introduz calibração e sensibilidade ambiental, por isso é preciso um plano para monitorização e manutenção. Se as operações do seu centro de dados conseguem suportar ciclos de calibração periódicos e existe uma história clara de fiabilidade, a fotónica torna-se mais realista. Cobertura de investigação e do sector em 2025 destaca repetidamente que hardware escalável e sustentável para IA está ligado a circuitos integrados fotónicos, mas o esforço de engenharia não é trivial.

Terceiro, considere o caminho da interligação mesmo que não adopte computação fotónica imediatamente. Chiplets de I/O óptico e fotónica de silício para ligações podem trazer benefícios concretos ao reduzir energia e latência do movimento de dados. A Intel, por exemplo, tem sido pública sobre avanços em fotónica de silício para blocos de construção de interligações ópticas de alta largura de banda, reflectindo quanta atenção a indústria está a dedicar à conectividade óptica à medida que sistemas de IA escalam.