"Conversational speed" ist halt so eine Sache.
Um das mal zu illiustrieren habe ich gerade zum Spaß dem genannten llama3.3 70b auf meinem M3 Max eine relativ simple Aufgabe gestellt (Fähre soll Anzahl von Autos über den Fluss befördern, hat bestimmte Kapazität, bestimmte Überquerungszeit, bestimmte Lade/Entladezeit, wie lange dauert es?).
Das System generiert dabei mehrere Seiten Text um beim Ergebnis anzukommen. Ca. 7.5 token/s, Dauer: 167778 ms, also mehr als 2,5 Minuten.
Also, es geht schon, aber schnell ist anders. Wenn ich jetzt bei halber Speicherbandbreite doppelte Laufzeit = über 5 Minuten warten müsste, weiß nicht ob ich damit glücklich wäre.