Kyutai
 stellte gestern Moshi vor, ein natives multimodales Open-Source-Grundmodell in Echtzeit, das zuhören und sprechen kann, und sorgte damit bei der Präsentation und im Internet für aufgeregten Aufruhr.

Warum ist es so aufregend?

Moshi kann Emotionen verstehen und ausdrücken, wobei es unterschiedliche Akzente für die Eingabe und Ausgabe verwendet. Es kann auch zuhören und Audio und Sprache erzeugen, während es einen Fluss textlicher Gedanken aufrechterhält. Moshi kann auch zwei Audioströme gleichzeitig verarbeiten, sodass es gleichzeitig zuhören und sprechen kann.

Sehr viel näher an einem Menschen (oder Skynet).

Was ist daran so neuartig?

  • Gesprächsqualität. Der Tonfall macht 70% von Sprachgesprächen aus, z. B. Telefongespräche, während Wörter die restlichen 30% ausmachen. Das Kyutai-Team führte eine Audio-Sprachmodell das Audiodaten in „Pseudowörter“ umwandelt und das nächste Audiosegment aus dem vorherigen Audiodaten vorhersagt, um eine natürliche Konversation zu ermöglichen und so die Qualität von Sprachgesprächen zu verbessern.
  • Konversationslatenz. Die maximale Latenz, die wir für ein natürliches Gespräch tolerieren können, liegt bei etwa 150 Millisekunden. Als erste Version kann das Moshi-Modell eine Latenz zwischen 160 ms und 200 ms liefern. Nicht perfekt, aber wenn man bedenkt, dass GPT4o etwa 232 bis 320 ms, das ist ziemlich bemerkenswert, insbesondere wenn man bedenkt, dass es sich um ein kleines Team mit nur 8 Vollzeitkräften handelt.Moshi, läuft in Echtzeit
  • Zugänglichkeit. Das Modell kann auf Geräten wie Laptops oder Mobiltelefonen ausgeführt werden, was es für Verbraucher wesentlich zugänglicher macht.Modellkomprimierung, um es am Rand verfügbar zu machen

Na und?

  • An einen Geschäftsinhaber oder ein Unternehmen, Kundeninteraktionen sind das Herzstück jedes Unternehmens. Da die meisten Unternehmen ihre KI-Strategie entwickeln, ist die Nutzung eines LLM zur Verbesserung des Kundenerlebnisses über Chat ein wichtiger Teil davon, allerdings textbasiert. Die nächste Phase dieser Strategie besteht darin, das Kundenerlebnis auf Sprachebene oder in einem sogenannten Multimodalitätsmodell zu verbessern, das unmittelbar bevorsteht.  
  • Zu einem Startup, das Einbinden eines Closed-Source- oder Open-Source-LLM reicht nicht mehr aus. Wie bettet man eine Sprachaufforderung in seine App ein? Perplexity führt jetzt eine kostenpflichtige Funktion für sprachbasierte Aufforderungen ein. Das ist noch nicht großartig, aber es ist im Trend.
  • Wie ist diese Angelegenheit für Asien? Asien, insbesondere Südostasien, ist ein nicht homogener Markt, und die Unterschiede in Sprache und lokalem Dialog sind die größten Herausforderungen für die Geschäftsexpansion. Das LLM- und Voice-Modell ist eine großartige Möglichkeit, diese Herausforderung zu lösen und Einzelpersonen und Unternehmen dabei zu helfen, sich in der Region zurechtzufinden. Die Telefonhersteller, insbesondere die chinesischen, unternehmen Schritte, um diese Herausforderung und Chance anzugehen.

Wie haben Sie das gemacht?

Kyutai entwickelte Helium, ein Sprachmodell mit 7 Milliarden Parametern, und trainierte Moshi vorab mit einer Kombination aus synthetischem Text und Audiodaten aus diesem Sprachmodell. Bei genauerer Betrachtung umfasste Moshis Feinabstimmung 100.000 synthetische Konvertierungen, die mit Text-to-Speech-Technologie (TTS) umgesetzt wurden, und seine Stimme wurde mit synthetischen Daten trainiert, die von einem anderen TTS-Modell generiert wurden.

Was kommt als nächstes für Kyutai?

Wir können einen technischen Bericht und offene Modellversionen erwarten; zukünftige Iterationen werden auf der Grundlage von Benutzerfeedback mit einer äußerst liberalen und freizügigen Lizenzierungsstrategie verfeinert, um die Akzeptanz zu fördern.

Um die vollständige Keynote anzusehen, klicken Sie bitte auf Hier.

Und schließlich: Achten Sie auf den Osten; die Doubao Das Modell von Bytedance mit den umfangreichsten Video- und Audioinhalten wird der beeindruckendste Player in diesem Bereich sein.

Veröffentlicht von Leo Jiang
VORHERIGER BEITRAG
Das gefällt dir vielleicht auch

Hinterlassen Sie Ihren Kommentar:

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert