OpenAI gab Anfang dieser Woche bekannt, dass die meisten Benutzer bis zum Herbst warten müssen, um auf die erweiterte Sprachfunktion von GPT-4o zuzugreifen, aber es sieht so aus, als hätten einige glückliche Menschen einen ersten Blick darauf geworfen, was mit dem Sprachassistenten der nächsten Generation möglich ist.
Reddit-Benutzer Rosie die Schöpferin Er war einer der wenigen Glücklichen. Sie haben eine Aufnahme einer neuen, noch nie gehörten GPT-4o-Stimme geteilt, die eine Horrorgeschichte erzählt, komplett mit geschichtenbezogenen Soundeffekten wie Donner und Schritten. Sambhav Gupta, Autor von Amnesty International Der Clip wurde zuerst auf X hervorgehobenum größere Aufmerksamkeit zu erregen.
Es scheint, als wäre es ein Fehler gewesen, dass Rosie Zugang bekam. OpenAI teilte mir in einer Erklärung mit, dass einige Benutzer fälschlicherweise Zugriff auf das Modell erhalten hätten, dies wurde jedoch inzwischen korrigiert.
Was hören wir in dem durchgesickerten Video?
Jedes Video, das wir bisher mit fortgeschrittenem GPT-4o-Audio hatten, stand unter der Kontrolle von OpenAI, und obwohl es fantastisch aussah, war es auf benutzerdefinierte Anwendungsfälle beschränkt.
Das neue Video von RozziTheCreator scheint die Fähigkeit auf natürlichere Weise zu demonstrieren, einschließlich einer Soundeffektfunktion, von der wir noch nie zuvor gehört haben.
Ich schickte RozziTheCreator eine Nachricht über das Erlebnis und sie sagten: „Es kam aus heiterem Himmel, es sah gleich aus, der einzige Unterschied war der Klang.“ Die Entdeckung geschah spät in der Nacht, als RozziTheCreator versuchte, dem Chatbot eine Frage zu stellen: „Ich habe die Änderung entdeckt.“
Es dauerte nur ein paar Minuten und laut RozziTheCreator war es „voller Fehler“, so dass nicht viel Zeit blieb, viel einzufangen, aber es gelang ihnen, einen Ausschnitt dieser erstaunlichen Geschichte aufzunehmen.
„Es begann verrückt zu werden, Dinge zu wiederholen und auf Dinge zu reagieren, die ich nicht gesagt hatte“, so RozziTheCreator, bevor er zur normalen Grundstimme zurückkehrte, die alle anderen tatsächlich verwenden können.
Im Video können Sie GPT-4o hören, wie er die Geschichte eifrig und locker erzählt, untermalt von Soundeffekten. „Stellen Sie sich vor, da ist diese kleine Stadt, jeder kennt irgendwie jeden aus dem Video, und da ist dieses kleine Haus am Ende der Straße“, erklärte er.
Die Geschichte geht weiter über zwei Teenager, die während eines Sturms das Haus überprüfen, „mit nichts als einer Taschenlampe und ihren Telefonen, um Licht zu finden“.
Was ist also beim Rollout schief gelaufen?
OpenAI führt langsam eine ganze Reihe neuer Funktionen ein. Frühe Plus-Benutzer sollten diesen Monat erweitertes GPT-4o für Audio erhalten, aber aufgrund einiger Sicherheitsprobleme und Bedenken, ob sie über die Hardware-Infrastruktur verfügten oder nicht, verzögerte sich dies.
Ich fragte OpenAI, was dazu geführt habe, dass RozziTheCreator Zugriff erhalten habe, und ein Unternehmenssprecher sagte mir: „Während des Testens der Funktion haben wir versehentlich Einladungen an eine kleine Anzahl von ChatGPT-Benutzern gesendet. Das war ein Fehler und wir haben ihn behoben.“
Sie bestätigten, dass die ersten Plus-Benutzer nächsten Monat Zugang erhalten, für die meisten Menschen wird es jedoch länger dauern. Die Erklärung für den ersten Rollout wird darin bestehen, „Feedback zu sammeln und eine Erweiterung auf der Grundlage unserer Erkenntnisse zu planen“.
Es gibt also noch keinen Ton für GPT-4o, aber dies ist das jüngste in einer Reihe von Beispielen dafür, dass GPT-4o sich von seinen Einschränkungen befreien und seine vollen Fähigkeiten nutzen möchte. Ich habe persönlich Beispiele dafür gesehen, wie Audiodateien in einer Minute live geparst wurden und in der nächsten Minute den Code durchliefen.
Das hat dazu geführt, dass ich mich noch mehr über die volle Leistungsfähigkeit des Geräts freute und mich mehr über die Verzögerung ärgerte – so verständlich das auch sein mag.
Mehr aus Toms Reiseführer
„Hipsterfreundlicher Entdecker. Preisgekrönter Kaffeefan. Analyst. Problemlöser. Störenfried.“
More Stories
Dieses 100-W-GaN-Ladegerät ist dünn und faltbar
Kuo: Das RAM-Upgrade auf 12 GB im nächsten Jahr wird auf das iPhone 17 Pro Max beschränkt sein
Verdansk kehrt endlich zu Call of Duty Warzone zurück und die Fans freuen sich darüber