US-Firma Luma: „DeepSeek ist das Beste, was der westlichen KI-Welt passieren konnte“

Das Start-up von Amit Jain wurde gerade mit vier Milliarden Dollar bewertet. Seine KI-Modelle belegen in diversen Rankings obere Plätze, liegen teils noch vor OpenAI. Der US-amerikanische Tech-Unternehmer ist einer der gefragtesten Gründer weltweit. Jain jedoch zeigt seinen neuen Wohlstand nicht, erscheint im Interview in schwarzen Nike-Sneakern und einem Pullover von Alpha Industries – und erklärt: „Luma ist eines von drei Unternehmen auf der westlichen Hemisphäre, das in der Lage ist, hochqualitative Videomodelle zu produzieren.“ Seine stärksten Konkurrenten seien Google und OpenAI, zwei Konzerne mit gewaltigem Einfluss. Ein Wettbewerb, in den der Underdog mit sichtbarem Ehrgeiz geht.
Der studierte Mathematiker begann seine Karriere im Silicon Valley. 2017 heuerte er bei Apple an, entwickelte Kameralinsen und arbeitete an der Datenbrille Vision Pro. Vier Jahre später gründete Jain seine Firma Luma. Mit der App ließen sich Gegenstände abfotografieren und in 3D darstellen; das Modell „Genie“ war eine Art frühe Bild-KI. Sprachmodelle steckten damals noch in den Anfängen, Rechenleistung für KI-Training war knapp.
Kurz nachdem OpenAI Pläne für seine Video-KI Sora vorlegte, veröffentlichte Luma ein eigenes Modell – Anfang 2024 als eines der ersten Unternehmen weltweit. Konkurrent Synthesia hatte bereits wenige Wochen zuvor seinen Videoassistenten auf den Markt gebracht und erste Aufmerksamkeit erzeugt. Ein Jahr lang arbeitete Luma an Dream Machine. Anhand kurzer Beschreibungen generierte das Tool Clips, die nur wenige Sekunden lang waren. Dream Machine ließ beispielsweise den Papst in weißer Bomberjacke über den Laufsteg marschieren. Gefälschte Videos von Dream Machine, Synthesia und anderen Anbietern überfluteten rasch die sozialen Netzwerke.
„Das Modell war nicht sehr gut, hat aber Spaß gemacht und vor allem den Proof of Concept gezeigt“, sagt Jain. Er wollte beweisen, dass auch ein kleines Unternehmen im KI-Wettlauf mithalten kann. Mit Ray 2 brachte Luma im Februar 2025 ein Modell heraus, das hohe Qualität bot und zugleich skalierbar war. Im September folgte Ray 3 – und der Durchbruch.
In einer Series-C-Finanzierungsrunde investierten Wagniskapitalgeber 900 Millionen Dollar und bewerteten das Start-up mit einem Vielfachen zur vorherigen Runde. Rund 70 Millionen Dollar hatten Investoren wie Nvidia und General Catalyst zuvor eingebracht. Medien zufolge lag die Bewertung bis dato bei höchstens 300 Millionen Dollar. Ray 3 löste einen massiven Höhenflug aus.
Rechenzentrum in Saudi-Arabien
Neuer Großgesellschafter der Kalifornier ist Humain, eine staatlich finanzierte KI-Firma aus Saudi-Arabien. Kern der Partnerschaft ist ein neues Gigawatt-Rechenzentrum, das Lumas Forschungsarbeit versorgen soll. Rechenzentren, die für Sprachmodelle ausgelegt sind, reichten für visuelle KI auf Dauer nicht aus, erklärt Jain. Daher habe er einen starken Partner gesucht. Digitale Souveränität spiele für US-Unternehmen ohnehin keine Rolle. Zudem gehöre Saudi-Arabien zu den wachstumsstärksten Märkten seiner Firma.
Wie viel Umsatz Luma erzielt, verrät das Start-up ebenso wenig wie seine Mitarbeiterzahl. Lediglich einige Kunden kommuniziert das Techunternehmen: Adobe hat Ray 3 noch im September in seine Firefly-Software integriert – neben der deutschen Bild-KI von Black Forest Labs. Auch Konzerne wie Coca-Cola, diverse Hollywood-Studios und die japanische Werbeagentur Dentsu zahlen monatliche Lizenzgebühren für die Technologie. Sie erstellen KI-generierte Werbevideos, Clips für Mitarbeiterschulungen oder – so hofft CEO Jain – komplette Spielfilme.

Noch sind die Clips höchstens zehn Sekunden lang, mit präzisen Prompts lassen sich aber schon heute mehrere Sequenzen zu kleinen Erzählungen verbinden. Bis die Video-KI lange, logisch aufgebaute Geschichten erzählen kann, dauere es jedoch noch, sagt der Gründer. Die Stoßrichtung aber ist klar: Lumas Modelle sollen Hollywood bereichern. „Die meisten Videomodelle sind für soziale Medien gedacht. Luma produziert hochwertige, kinoreife Clips“, so Jain über das Alleinstellungsmerkmal seiner Software.
Ray 3 liefert HDR-Videos, erlaubt Farbkorrekturen, merkt sich kreative Vorlieben – und kann denken. Die Technologie ist ein sogenanntes Reasoning-Videomodell. Während Chatbots ihre Gedankengänge erklären, setzt die Video-KI Szenen neu zusammen, wenn sie unlogisch erscheinen. Diese Art von Video-KI ist komplett neu und laut Jain einer der Höhepunkte der technologischen Entwicklung. Seiner Meinung nach wird es kaum noch Fortschritte in dem Bereich geben, eher gehen Video-KI-Anwendungen weiter in die Breite.
„KI-generierte Videos haben 2024 den Proof of Concept erzielt, 2025 war ein Jahr der Skalierung und 2026 werden die Modelle überall vorhanden sein“, sagt Jain. Eine ähnliche Bewegung habe man bei Sprachmodellen gesehen: 2022 der Nachweis, 2023 der Durchbruch mit ChatGPT, heute Alltag.
Luma versteht sich als Forschungsfirma, finanziert über Lizenzen. Die aktuellen Videomodelle seien erst der Anfang, erklärt Jain. „Unser ultimatives Ziel ist es, ein Robotergehirn zu bauen.“ Etwas, woran alle ambitionierten KI-Forscher arbeiten – sozusagen der heilige Gral der Mathematik. Roboter müssen nicht nur navigieren, sondern auch verstehen, was um sie herum passiert und wie sich beispielsweise Materialien verhalten, die sie transportieren. Artificial General Intelligence, kurz AGI, heißt diese Technologie – künstliche allgemeine Intelligenz. Sie ähnelt menschlicher Intelligenz und umfasst Fähigkeiten aus sämtlichen KI-Systemen.
„Die Idee ist, ein Gehirn zu bauen, das in jeder Modalität denken kann: Bild, Video, Audio, Text“, sagt Jain. Das menschliche Gehirn unterscheide hier nicht. Wer Entscheidungen treffe, denke sprachlich; wer eine Brücke entwerfe, visualisiere die Struktur. Dieser Prozess solle auf KI übertragen werden. „Die erste Welle von KI-Modellen versteht nur Text. Das ist hilfreich, aber eher für Aufgaben wie Coden oder Schreiben. Wenn KI auch in der physischen Welt nützlich sein soll, müssen wir Informationen mithilfe von Videos sammeln und sie mit Sprache kombinieren.“
Größte Konkurrenz in China
Solche KI-Systeme nennen Forscher World Models – Weltmodelle. „Das wird eine neue Art von Intelligenz sein, die eine neue Art von Training benötigt“, so der US-Unternehmer. Noch ist das Konzept abstrakt. Mit seinen aktuellen Videomodellen will Luma im ersten Schritt Trainingsdaten erzeugen. „Bis die Roboter-KI so weit ist, wird es aber noch ein paar Jahre dauern.“ Diese Intelligenz müsse präziser arbeiten, in Echtzeit reagieren und brauche enorme Rechenleistung. Rechenzentren dieser Größe gebe es bisher nicht – einer der Gründe für die verlangsamte Forschung.
„Unsere größte Konkurrenz sind Unternehmen wie Alibaba“, betont Luma-Gründer Jain. „Die meisten unserer Kunden ignorieren die chinesischen Anbieter, weil sie eh nicht mit ihnen zusammenarbeiten können. Aber für die Forscher ist dieser Wettbewerb entscheidend.“ In den Bestenlisten tauchen neben den US-Konzernen immer wieder chinesische KI-Firmen auf Spitzenpositionen auf.
Neben Googles Modell Veo und Sora von OpenAI spielen vor allem die Technologien von TikTok-Erfinder ByteDance, dessen Konkurrenz Kuaishou, sowie von Baidu und MiniMax in den oberen Rängen mit. Einzig das von Investoren finanzierte US-Start-up Runway erzielt ähnliche Erfolge wie Luma. „DeepSeek ist das Beste, was der westlichen KI-Welt passieren konnte. Es hat gezeigt, dass auch anderswo gute KI-Modelle entstehen und wir weiter vorankommen müssen“, so Luma-Gründer Jain über den Wettbewerb aus Fernost. Das DeepSeek-Sprachmodell sprang im Januar auf die Spitzenplätze sämtlicher Rankings und überzeugte mit hoher Qualität bei niedrigen Kosten – ein Schlag für die etablierten Techkonzerne.
„Europa hingegen stellt keinen Wettbewerber für die Vereinigten Staaten dar“, führt Jain weiter aus. „Es gibt zwar gute europäische Unternehmen, aber ihre Modelle schaffen es nicht bis an die Spitze.“ Synthesia ist einer der bekannteren Namen und sitzt in London, besteht aber aus einem internationalen Team. Black Forest Labs, dessen neues Bildmodell Flux 2 aktuell in den oberen Positionen vertreten ist, hatte 2024 auch eine Video-KI angekündigt. Bislang hat das Team aus dem Schwarzwald allerdings kein Modell veröffentlicht.
Zwar gibt es im Internet genug Videomaterial, EU-Verordnungen erschweren allerdings den Zugang und damit auch das Training. Dieser Umstand, gepaart mit dem immensen Bedarf an Rechenanforderungen, schränkt europäische KI-Firmen ein. Für Luma bedeutet es einen Vorsprung.
Lesen Sie auch: „Wir brauchen mehr Kapital, als Europa derzeit bereitstellen kann“













