Die Wahl des richtigen Modus kann die Antwortzeit, Natürlichkeit und das gesamte Anruferlebnis verbessern.
1. Pipeline
| Bezeichnung in UI | Pipeline |
| Funktionsweise | Speech-to-Text → LLM → Text-to-Speech |
| Latenz | ~800 – 1500 ms (abhängig von Sprache & Modell) |
| Am besten für | Komplexes Denken, dynamische Prompts, mehrzeilige Antworten |
- Unterstützt alle Stimmen in der Bibliothek (einschließlich benutzerdefinierter geklonter Stimmen).
- Verarbeitet lange Antworten oder Antworten im Absatzstil gut.
- Ermöglicht dem LLM, Variablen einzufügen und früheren Kontext sauber zu referenzieren.
Wann Pipeline wählen
- Sie benötigen ausführliche, mehrzeilige Antworten (z.B. Support-Anfragen, detaillierte Erklärungen).
- Der Assistent muss über strukturierte Daten oder komplexe Prompts nachdenken.
- Sie bevorzugen absolute Kontrolle über die gesprochene Stimme (Klon oder Markenstimme).
2. Speech-to-Speech (Multimodal)
| Bezeichnung in UI | Speech-to-speech |
| Funktionsweise | Direkte Speech-to-Speech-Generierung (kein Zwischentext) |
| Latenz | ~300 – 600 ms (ultra niedrig) |
| Am besten für | Natürlicher Austausch, kurze & reaktive Antworten |
- Schneller Sprecherwechsel – Anrufer erleben nahezu sofortige Antworten.
- Generiert ausdrucksstärkere Prosodie nativ (Intonation, Füllwörter).
- Unterstützt derzeit ein begrenztes Stimmenset, aber es werden regelmäßig weitere hinzugefügt.
Wann Speech-to-Speech wählen
- Das Gespräch muss sich schnell anfühlen (Vertrieb, Buchungsbestätigungen).
- Ihre Antworten sind im Allgemeinen kurze Sätze oder schnelle Bestätigungen.
- Sie sind mit den vom System bereitgestellten Stimmoptionen für schnellere Interaktion einverstanden.
Speech-to-Speech entwickelt sich schnell weiter. Wenn Sie eine benutzerdefinierte geklonte Stimme mit niedriger Latenz benötigen, versuchen Sie Dualplex.
3. Dualplex (Beta)
| Bezeichnung in UI | Dualplex |
| Funktionsweise | Multimodales STT + LLM (Speech-to-Speech) mit ElevenLabs TTS-Ausgabe |
| Latenz | Niedrig (variiert je nach Stimme und Modell) |
| Am besten für | Schnelle, natürliche Antworten mit hochwertigen/Markenstimmen (geklont) |
- Nahezu sofortiger Sprecherwechsel ähnlich wie Speech-to-Speech.
- Zugriff auf die ElevenLabs-Stimmbibliothek, einschließlich benutzerdefinierter geklonter Stimmen.
- Ideal für kurze bis mittlere Antworten mit ausdrucksstarker Prosodie.
- Empfohlene Standardeinstellung für die meisten Anwendungsfälle heute; derzeit in Beta.
Wann Dualplex wählen
- Sie möchten schnellen Austausch, benötigen aber eine Marken- oder geklonte Stimme.
- Sie möchten eine ausdrucksstärkere Wiedergabe, ohne auf präzise Stimmwahl zu verzichten.
- Sie sind damit einverstanden, eine neue Funktion zu verwenden, die sich noch in Beta befindet.
Modi wechseln
Sie können den Modus für jeden Assistenten unter Assistent → Einstellungen → Voice Engine auswählen. Testen Sie alle drei Modi, um zu sehen, welcher das beste Gleichgewicht zwischen Geschwindigkeit und Qualität für Ihren Anwendungsfall bietet.Dualplex ist derzeit als Beta gekennzeichnet.
Profi-Tipp: Nehmen Sie zwei Anrufe auf – einen in jedem Modus – und vergleichen Sie die vom Anrufer wahrgenommene Latenz und das Engagement, um zu entscheiden, welcher zu Ihrem Ablauf passt.
