OpenAI, das führende KI -Labor, hat letztes Jahr den ChatGPT Advanced Voice -Modus gestartet, aber es hat mich nicht beeindruckt. Als es freigegeben wurde, hatte Openai seine Fähigkeiten niedergeschlagen, und der Sprachmodus weigerte sich, menschliche Ausdrücke zu erzeugen. Googles Gemini Live stützte sich dagegen auf eine TTS -Engine, um gesprochene Wörter zu generieren und eine Robotererfahrung zu liefern.
Enter Sesame, ein von Oculus-Mitbegründer Brendan Iribe und Ankit Kumar gegründeter KI-Startup, der die KI-Industrie im Sturm erobert hat. Sesames „Maya“ (weibliche) und „Miles“ (männliche) Stimme sind so natürlich und engagiert, dass ich zum ersten Mal der Meinung bin, dass KI die Grenze zwischen Maschine und menschlichem Interaktion wirklich verwischt hat.
Chatgpt kann endlich Ihre Kamera für Echtzeit-Interaktion durchsehen
Sesam vermeidet es, sie Sprachassistenten zu bezeichnen, und bezeichnet sie stattdessen als „Konversationist“ und „Sprachbegleiter“, was eine typische Beschreibung ist. Ich werde Ihre Zeit nicht mehr verschwenden und werde Sie direkt zu meiner Interaktion mit Sesames Maya Voice Companion bringen.
Meine ansprechende Interaktion mit Sesames Maya
Wie Sie hören können, beginnt Maya mit einem natürlichen Ton und macht eine Pause, um zu hören, was Sie sagen. Es gibt Mikropausen dazwischen und Verschiebungen in der Tonalität, die in vorhandenen Sprachassistenten fehlt. Es kann lachen, das Tempo verändern, betonen, ausdrucksstarke Hinweise geben und sogar Ihre Stimmung aus Ihrer Stimme erkennen. In einer Interaktion lachte ich plötzlich, um den KI -Sprachbegleiter zu testen, und es sagte mir: “Warum kicherst du?“
Was ich interessant finde, ist, dass Sesames Voice -Begleiter Ihnen etwas Raum zum Nachdenken und Nachdenken bietet. Dadurch fühlen sich Gespräche viel an natürlicher. Um Ihnen ein weiteres Beispiel zu geben, wenn Sesames Maya spricht, gibt es subtile Zögern, die das Gefühl haben, vor dem Antworten zu denken, genau wie Menschen. Es fühlt sich fast so an, als ob das Gespräch organisch ist und das Sprachmodell nicht einfach programmierte Antworten liest.
Beachten Sie, dass sich die Sprachinteraktion, während beide Teilnehmer gleichzeitig sprechen und zuhören können-, dass Sesam sagt, dass es nicht wirklich Vollduplex ist, da sie die Sprache verarbeitet, nachdem Sie fertig sind. Menschen hingegen können die Informationen verarbeiten, während die andere Person noch spricht.
Ich habe verblüffende Assistent ausprobiert, und Google sollte absolut besorgt sein
Trotzdem in seiner aktuellen Form Sesames Sprachbegleiter fühlt sich wirklich menschlich an. Es hat das unheimliche Tal in der AI -Rede endlich gebrochen, etwas, das frühzeitig mit Chatgpt Advanced Voice -Modus demonstriert ist. Was ich sagen kann ist, dass es so gestaltet ist, dass es nicht nur reden, sondern auch Beziehen Sie den Benutzer mit einem differenzierten Ton, Tonhöhe und Kontextbewusstsein einwas dem Gespräch Tiefe verleiht.
Was ist die Technologie hinter Sesames Sprachbegleiter?
Erstens arbeitet Sesam immer noch an seinen Sprachbegleitern, und dies ist ein Frühe Forschungsdemo. Das Team wird von Andreessen Horowitz durch die A16Z VC -Firma unterstützt. Wenn Sie jetzt zu der zugrunde liegenden Technologie kommen, die alles zum Ticken bringt, hat sich Sesam a entwickelt, Konversationssprachmodell (CSM), ein transformatorbasiertes multimodales Modell für die Sprachgenerierung.
Das Unternehmen hat drei Modelle mit kleinen Decoder geschult: winzige (1B -Parameter), klein (3B) und Medium (8b). Sie sind in fast 1 Million Stunden meist englischen Audios geschult, sodass die Gespräche derzeit auf die englische Sprache mit mehrsprachigen Fähigkeiten beschränkt sind.
Das Ziel des Unternehmens ist es, a zu entwickeln Full-Duplex-Modell mit Langzeitgedächtnis und adaptiver Persönlichkeit. Sesam arbeitet an einem Leichte Brille Tragbar, mit dem Sie den ganzen Tag mit dem Voice Companion sprechen können, was mich an den Film „sie“ erinnert. Es kann auch die Welt um Sie herum sehen und in den kommenden Monaten auf die Hinzufügung der Sichtfähigkeit hinweisen.
Wenn Sie also von Sesames Sprachbegleiter beeindruckt sind, klicken Sie auf den Link unten und interagieren Sie kostenlos mit Maya oder Meilen. Es wird empfohlen, Google Chrome für die beste Erfahrung zu verwenden.