Assistenten-Modi

KI-Assistenten auf Website Excellence Builders.ai können in drei verschiedenen Modi sprechen. Jeder Modus bestimmt, wie die Sprache eines Anrufers verstanden wird und wie die Antwort des Assistenten generiert wird:

Die Wahl des richtigen Modus kann die Antwortzeit, Natürlichkeit und das gesamte Anruferlebnis verbessern.

1. Pipeline


Bezeichnung in UI	`Pipeline`
Funktionsweise	Speech-to-Text → LLM → Text-to-Speech
Latenz	~800 – 1500 ms (abhängig von Sprache & Modell)
Am besten für	Komplexes Denken, dynamische Prompts, mehrzeilige Antworten

Der Pipeline-Modus transkribiert zunächst die Worte des Anrufers in Text, führt diesen Text durch das Sprachmodell und wandelt die Antwort dann wieder in Audio um. Es ist ein bewährter Ansatz, der maximale Flexibilität bietet:

Unterstützt alle Stimmen in der Bibliothek (einschließlich benutzerdefinierter geklonter Stimmen).
Verarbeitet lange Antworten oder Antworten im Absatzstil gut.
Ermöglicht dem LLM, Variablen einzufügen und früheren Kontext sauber zu referenzieren.

Wann Pipeline wählen

Sie benötigen ausführliche, mehrzeilige Antworten (z.B. Support-Anfragen, detaillierte Erklärungen).
Der Assistent muss über strukturierte Daten oder komplexe Prompts nachdenken.
Sie bevorzugen absolute Kontrolle über die gesprochene Stimme (Klon oder Markenstimme).

2. Speech-to-Speech (Multimodal)


Bezeichnung in UI	`Speech-to-speech`
Funktionsweise	Direkte Speech-to-Speech-Generierung (kein Zwischentext)
Latenz	~300 – 600 ms (ultra niedrig)
Am besten für	Natürlicher Austausch, kurze & reaktive Antworten

Der Speech-to-Speech-Modus überspringt separate Transkription und TTS. Stattdessen verwendet er ein multimodales Modell, das direkt zuhört und spricht und einen natürlicheren Gesprächsfluss erzeugt:

Schneller Sprecherwechsel – Anrufer erleben nahezu sofortige Antworten.
Generiert ausdrucksstärkere Prosodie nativ (Intonation, Füllwörter).
Unterstützt derzeit ein begrenztes Stimmenset, aber es werden regelmäßig weitere hinzugefügt.

Wann Speech-to-Speech wählen

Das Gespräch muss sich schnell anfühlen (Vertrieb, Buchungsbestätigungen).
Ihre Antworten sind im Allgemeinen kurze Sätze oder schnelle Bestätigungen.
Sie sind mit den vom System bereitgestellten Stimmoptionen für schnellere Interaktion einverstanden.

Speech-to-Speech entwickelt sich schnell weiter. Wenn Sie eine benutzerdefinierte geklonte Stimme mit niedriger Latenz benötigen, versuchen Sie Dualplex.

3. Dualplex (Beta)


Bezeichnung in UI	`Dualplex`
Funktionsweise	Multimodales STT + LLM (Speech-to-Speech) mit ElevenLabs TTS-Ausgabe
Latenz	Niedrig (variiert je nach Stimme und Modell)
Am besten für	Schnelle, natürliche Antworten mit hochwertigen/Markenstimmen (geklont)

Dualplex kombiniert die Reaktionsfähigkeit von Speech-to-Speech mit den Premium-Stimmen und dem Klonen von ElevenLabs, das in Pipeline verwendet wird. Der Assistent verwendet das multimodale Modell, um den Anrufer zu verstehen und die Antwort zu planen, und rendert dann die endgültige Sprache durch ElevenLabs für eine konsistente, hochwertige Ausgabe.

Nahezu sofortiger Sprecherwechsel ähnlich wie Speech-to-Speech.
Zugriff auf die ElevenLabs-Stimmbibliothek, einschließlich benutzerdefinierter geklonter Stimmen.
Ideal für kurze bis mittlere Antworten mit ausdrucksstarker Prosodie.
Empfohlene Standardeinstellung für die meisten Anwendungsfälle heute; derzeit in Beta.

Wann Dualplex wählen

Sie möchten schnellen Austausch, benötigen aber eine Marken- oder geklonte Stimme.
Sie möchten eine ausdrucksstärkere Wiedergabe, ohne auf präzise Stimmwahl zu verzichten.
Sie sind damit einverstanden, eine neue Funktion zu verwenden, die sich noch in Beta befindet.

Modi wechseln

Sie können den Modus für jeden Assistenten unter Assistent → Einstellungen → Voice Engine auswählen. Testen Sie alle drei Modi, um zu sehen, welcher das beste Gleichgewicht zwischen Geschwindigkeit und Qualität für Ihren Anwendungsfall bietet. Dualplex ist derzeit als Beta gekennzeichnet.

Profi-Tipp: Nehmen Sie zwei Anrufe auf – einen in jedem Modus – und vergleichen Sie die vom Anrufer wahrgenommene Latenz und das Engagement, um zu entscheiden, welcher zu Ihrem Ablauf passt.

Einführung

Erste Schritte

KI-Assistenten Übersicht

Kampagnen

Leads

Benutzerdefinierte Dashboards

Telefonnummern

Eingehende Anrufe

Ausgehende Anrufe

KI-Prompting & Gesprächsgestaltung

Automatisierung & Integrationen

Kosten & Preise

Nummernbereitstellung

Fehlerbehebung & FAQs

1. Pipeline

Wann Pipeline wählen

2. Speech-to-Speech (Multimodal)

Wann Speech-to-Speech wählen

3. Dualplex (Beta)

Wann Dualplex wählen

Modi wechseln

​1. Pipeline

​Wann Pipeline wählen

​2. Speech-to-Speech (Multimodal)

​Wann Speech-to-Speech wählen

​3. Dualplex (Beta)

​Wann Dualplex wählen

​Modi wechseln

1. Pipeline

Wann Pipeline wählen

2. Speech-to-Speech (Multimodal)

Wann Speech-to-Speech wählen

3. Dualplex (Beta)

Wann Dualplex wählen

Modi wechseln