Zum Hauptinhalt springen
KI-Assistenten auf Website Excellence Builders.ai können in drei verschiedenen Modi sprechen. Jeder Modus bestimmt, wie die Sprache eines Anrufers verstanden wird und wie die Antwort des Assistenten generiert wird:
Die Wahl des richtigen Modus kann die Antwortzeit, Natürlichkeit und das gesamte Anruferlebnis verbessern.

1. Pipeline

Bezeichnung in UIPipeline
FunktionsweiseSpeech-to-Text → LLM → Text-to-Speech
Latenz~800 – 1500 ms (abhängig von Sprache & Modell)
Am besten fürKomplexes Denken, dynamische Prompts, mehrzeilige Antworten
Der Pipeline-Modus transkribiert zunächst die Worte des Anrufers in Text, führt diesen Text durch das Sprachmodell und wandelt die Antwort dann wieder in Audio um. Es ist ein bewährter Ansatz, der maximale Flexibilität bietet:
  • Unterstützt alle Stimmen in der Bibliothek (einschließlich benutzerdefinierter geklonter Stimmen).
  • Verarbeitet lange Antworten oder Antworten im Absatzstil gut.
  • Ermöglicht dem LLM, Variablen einzufügen und früheren Kontext sauber zu referenzieren.

Wann Pipeline wählen

  1. Sie benötigen ausführliche, mehrzeilige Antworten (z.B. Support-Anfragen, detaillierte Erklärungen).
  2. Der Assistent muss über strukturierte Daten oder komplexe Prompts nachdenken.
  3. Sie bevorzugen absolute Kontrolle über die gesprochene Stimme (Klon oder Markenstimme).

2. Speech-to-Speech (Multimodal)

Bezeichnung in UISpeech-to-speech
FunktionsweiseDirekte Speech-to-Speech-Generierung (kein Zwischentext)
Latenz~300 – 600 ms (ultra niedrig)
Am besten fürNatürlicher Austausch, kurze & reaktive Antworten
Der Speech-to-Speech-Modus überspringt separate Transkription und TTS. Stattdessen verwendet er ein multimodales Modell, das direkt zuhört und spricht und einen natürlicheren Gesprächsfluss erzeugt:
  • Schneller Sprecherwechsel – Anrufer erleben nahezu sofortige Antworten.
  • Generiert ausdrucksstärkere Prosodie nativ (Intonation, Füllwörter).
  • Unterstützt derzeit ein begrenztes Stimmenset, aber es werden regelmäßig weitere hinzugefügt.

Wann Speech-to-Speech wählen

  1. Das Gespräch muss sich schnell anfühlen (Vertrieb, Buchungsbestätigungen).
  2. Ihre Antworten sind im Allgemeinen kurze Sätze oder schnelle Bestätigungen.
  3. Sie sind mit den vom System bereitgestellten Stimmoptionen für schnellere Interaktion einverstanden.
Speech-to-Speech entwickelt sich schnell weiter. Wenn Sie eine benutzerdefinierte geklonte Stimme mit niedriger Latenz benötigen, versuchen Sie Dualplex.

3. Dualplex (Beta)

Bezeichnung in UIDualplex
FunktionsweiseMultimodales STT + LLM (Speech-to-Speech) mit ElevenLabs TTS-Ausgabe
LatenzNiedrig (variiert je nach Stimme und Modell)
Am besten fürSchnelle, natürliche Antworten mit hochwertigen/Markenstimmen (geklont)
Dualplex kombiniert die Reaktionsfähigkeit von Speech-to-Speech mit den Premium-Stimmen und dem Klonen von ElevenLabs, das in Pipeline verwendet wird. Der Assistent verwendet das multimodale Modell, um den Anrufer zu verstehen und die Antwort zu planen, und rendert dann die endgültige Sprache durch ElevenLabs für eine konsistente, hochwertige Ausgabe.
  • Nahezu sofortiger Sprecherwechsel ähnlich wie Speech-to-Speech.
  • Zugriff auf die ElevenLabs-Stimmbibliothek, einschließlich benutzerdefinierter geklonter Stimmen.
  • Ideal für kurze bis mittlere Antworten mit ausdrucksstarker Prosodie.
  • Empfohlene Standardeinstellung für die meisten Anwendungsfälle heute; derzeit in Beta.

Wann Dualplex wählen

  1. Sie möchten schnellen Austausch, benötigen aber eine Marken- oder geklonte Stimme.
  2. Sie möchten eine ausdrucksstärkere Wiedergabe, ohne auf präzise Stimmwahl zu verzichten.
  3. Sie sind damit einverstanden, eine neue Funktion zu verwenden, die sich noch in Beta befindet.

Modi wechseln

Sie können den Modus für jeden Assistenten unter Assistent → Einstellungen → Voice Engine auswählen. Testen Sie alle drei Modi, um zu sehen, welcher das beste Gleichgewicht zwischen Geschwindigkeit und Qualität für Ihren Anwendungsfall bietet. Dualplex ist derzeit als Beta gekennzeichnet.
Profi-Tipp: Nehmen Sie zwei Anrufe auf – einen in jedem Modus – und vergleichen Sie die vom Anrufer wahrgenommene Latenz und das Engagement, um zu entscheiden, welcher zu Ihrem Ablauf passt.