Un solo chip entrega 1PetaOps / seg.
Groq llama a su arquitectura Tensor Streaming Processor (TSP). Hace dos años, dijo que había reclutado a ocho de las diez personas que desarrollaron la Unidad de Procesamiento de Tensor (TPU) de Google.
La compañía ha recaudado $ 62.3 millones en fondos.
La arquitectura de Groq es equivalente a un cuatrillón de operaciones por segundo, o 1e15 operaciones / sy capaz de hasta 250 trillones de operaciones de punto flotante por segundo (FLOPS).
"Las principales compañías de GPU han estado diciendo a los clientes que esperaban poder ofrecer un rendimiento de PetaOp / s en los próximos años; Groq lo anuncia hoy ", dice el CEO de Groq Jonathan Ross," la arquitectura Groq es mucho más rápida que cualquier otra cosa disponible para inferencia, en términos de baja latencia e inferencias por segundo. Tuvimos el primer respaldo de silicio, el primer día de encendido, los programas que se ejecutaron en la primera semana, que se muestrearon a socios y clientes en menos de seis semanas, con el silicio A0 entrando en producción ”
Con una mentalidad de primer software, la arquitectura TSP de Groq afirma lograr flexibilidad de cómputo y paralelismo masivo sin la sobrecarga de sincronización de las arquitecturas tradicionales de GPU y CPU.
La arquitectura de Groq puede admitir modelos de aprendizaje automático nuevos y tradicionales, y actualmente está en funcionamiento en sitios de clientes en sistemas x86 y no x86.
La arquitectura está diseñada específicamente para los requisitos de rendimiento de visión por computadora, aprendizaje automático y otras cargas de trabajo relacionadas con IA.
La planificación de ejecución ocurre en el software, liberando bienes de silicio dedicados a la ejecución dinámica de instrucciones.
El control estricto proporcionado por esta arquitectura proporciona un procesamiento determinista que es especialmente valioso para aplicaciones donde la seguridad y la precisión son primordiales.
En comparación con las arquitecturas tradicionales complejas basadas en CPU, GPU y FPGA, el chip de Groq también optimiza la calificación y la implementación, lo que permite a los clientes implementar de manera simple y rápida sistemas escalables de alto rendimiento por vatio.
