Taalas stellt das herkömmliche Chipdesign in Frage, indem es komplette KI-Modelle direkt in Silizium einbettet
Ein völlig anderes Prozessordesign bettet ganze KI-Modelle in Silizium ein und bietet extrem hohe Geschwindigkeit und Leistung für Inferenz-Workloads der nächsten Generation.
Die neue KI-Prozessorarchitektur von Taalas stellt das herkömmliche Chipdesign in Frage, indem sie ganze KI-Modelle direkt in Silizium einbettet und die Inferenzleistung und -effizienz erheblich steigert. Dieser Ansatz macht herkömmliche Software-Implementierungsebenen überflüssig, ermöglicht sofortige Reaktionen und senkt die Betriebskosten erheblich.
Im Gegensatz zu Allzweck-GPUs und KI-Beschleunigern, bei denen Flexibilität im Vordergrund steht, ist diese Architektur auf die Spezialisierung auf ein einzelnes Modell ausgelegt. Jeder Chip ist speziell für ein bestimmtes KI-Modell konzipiert und verankert seine Parameter und sein Gewicht fest im Silizium selbst. Diese Änderung steigert die Leistung im Vergleich zu bestehenden Lösungen um ein bis zwei Größenordnungen.
Zu den Hauptmerkmalen gehören:
Es verbindet ein vollständiges KI-Modell (Gewichte + Parameter) direkt mit dem Silizium
Es bietet eine 10–100-mal höhere Inferenzleistung als GPUs
Latenzzeit unter einer Millisekunde mit mehr als 14.000 Token pro Sekunde
Bis zu 100-mal niedrigere Kosten pro Token für Inferenz-Workloads
Schneller Chip-Entwicklungszyklus (~2 Monate pro Modell)**
Der Prozessor kann innerhalb von zwei Monaten nach der Veröffentlichung eines Modells entwickelt werden, was eine schnelle Bereitstellung optimierter Hardware ermöglicht. Erste Demonstrationen zeigen eine Latenzzeit von unter einer Millisekunde und einen Durchsatz von mehr als 14.000 Token pro Sekunde bei herkömmlichen Modellen, sodass die Ausgaben nahezu augenblicklich erscheinen.
Dieser Leistungssprung führt auch zu großen wirtschaftlichen Vorteilen. Die Inferenzkosten werden auf einen Bruchteil von einem Prozent pro Million Token reduziert – viel niedriger als bei GPU-basierten Systemen – und ermöglichen es Cloud-Anbietern möglicherweise, viel mehr Anfragen zu geringeren Kosten zu bearbeiten.
Das Design bringt jedoch Kompromisse mit sich. Durch die Konzentration auf ein einzelnes Modell geht die Programmierbarkeit des Chips verloren und er kann nicht für andere Workloads verwendet werden. Während begrenzte Flexibilität eine breitere Akzeptanz einschränken kann, ist die Architektur ein wichtiger Schritt in Richtung einer extremen Spezialisierung auf KI-Hardware.
Diese Entwicklung stellt eine zunehmende Verlagerung der Branche hin zu domänenspezifischem Silizium dar, bei dem Leistungs- und Effizienzgewinne den Bedarf an Allzweck-Computing überwiegen. Bei breiter Anwendung könnte dieser modellgesteuerte Ansatz die KI-Infrastruktur neu gestalten, insbesondere für hochvolumige Inferenz-Workloads.