Schnellstart-Anleitung
Bereit, Ihren ersten KI-Assistenten einzurichten? Hier ist der wesentliche Ablauf:- Anrufrichtung wählen: Eingehend (beantwortet Anrufe) oder Ausgehend (tätigt Anrufe)
- Assistentenname festlegen: Interne Bezeichnung wie “Support-Bot” oder “Vertriebs-Bot”
- Telefonnummern konfigurieren: Plattformnummern, SIP oder Anrufer-ID zuweisen
- Stimme & Sprache auswählen: Aus integrierten Stimmen wählen oder benutzerdefinierte klonen
- Erweiterte Einstellungen anpassen: Modelle, Timing und Audio-Parameter feinabstimmen
Folgen Sie dieser Seite Abschnitt für Abschnitt, um Ihren Assistenten zu konfigurieren. Jede Einstellung enthält detaillierte Erklärungen und Best Practices, um Ihnen bei der richtigen Wahl zu helfen.
Anrufrichtung & Grundeinrichtung
Assistententyp
Wählen Sie, ob Ihr Assistent eingehende oder ausgehende Anrufe bearbeitet. Diese grundlegende Wahl beeinflusst, welche anderen Optionen verfügbar werden. Eingehend (Anrufe empfangen): Bearbeitet eingehende Anrufe von Kunden. Siehe Übersicht eingehende Anrufe. Ausgehend (Anrufe tätigen): Initiiert Anrufe an Leads oder Kunden. Siehe Übersicht ausgehende Anrufe.Assistentenname
Ein beschreibender Name zur Identifizierung Ihres Assistenten im Dashboard. Verwenden Sie etwas Einprägsames, das den Zweck des Assistenten beschreibt (z.B. “Vertriebs-Qualifizierer”, “Support-Bot”, “Termin-Planer”).Telefonnummern-Konfiguration
Ihr Assistent benötigt eine Telefonnummer zum Betrieb. Die verfügbaren Optionen hängen von Ihrer Anrufrichtungswahl ab.Für ausgehende Assistenten
Sie können verwenden:- Plattformnummern: Direkt von unserer Plattform gemietete Nummern
- SIP-Nummern: Verbinden Sie Ihr bestehendes VOIP/PBX-System
- Nur Anrufer-ID: Verifizieren Sie den Besitz einer bestehenden Nummer, um sie bei ausgehenden Anrufen anzuzeigen
Für eingehende Assistenten
Sie können verwenden:- Plattformnummern: Direkt von unserer Plattform gemietete Nummern
- SIP-Nummern: Verbinden Sie Ihr bestehendes VOIP/PBX-System
Preise & Kosten
- Plattformnummern: Monatliche Mietgebühren ab $3,99/Monat. Siehe Dedizierte Nummer mieten für detaillierte Preise.
- SIP-Integration: Keine monatliche Gebühr, nur $0,00045/Min. für KI-Bridging. Siehe SIP-Integrations-Preise.
- Anrufer-ID: Keine monatliche Gebühr, regionsbasierte Minutenraten (z.B. $0,01/Min. in den USA). Siehe Anrufer-ID-Preise.
Engine-Typ (Sprachverarbeitungsmodus)
Wählen Sie, wie Ihre KI Sprache verarbeitet und Antworten generiert. Jeder Modus ist für unterschiedliche Anwendungsfälle optimiert. Siehe Assistenten-Modi für detaillierte Vergleiche.Pipeline-Modus
Traditionelle Speech-to-Text → LLM → Text-to-Speech-Pipeline. Bietet maximale Kontrolle über Stimmauswahl und Antwortgenerierung. Am besten für: Komplexe Überlegungen, Funktionsaufrufe, benutzerdefinierte StimmanforderungenSpeech-to-Speech-Modus
Direkte Sprache-zu-Sprache-Generierung ohne Zwischentext-Verarbeitung. Bietet den natürlichsten Gesprächsfluss. Am besten für: Schnelle Gespräche, natürlicher Hin-und-Her-DialogDualplex-Modus (Beta)
Kombiniert schnelle multimodale Verarbeitung mit Premium-ElevenLabs-Sprachausgabe. Am besten für: Die meisten Anwendungsfälle - empfohlene StandardeinstellungSprachkonfiguration
Primärsprache
Die Hauptsprache, die Ihr Assistent für Spracherkennung und -synthese verwenden wird. Dies beeinflusst:- Spracherkennungsgenauigkeit
- Verfügbare Stimmoptionen
- Füllwort-Audio-Phrasen
- Stimmmodell-Auswahl
Sekundärsprachen
Zusätzliche Sprachen, die Ihr Assistent verstehen und sprechen kann. Nützlich für:- Mehrsprachigen Kundensupport
- Internationale Unternehmen
- Code-Switching-Gespräche
KI-Stimmauswahl
Ihr Assistent kann aus vorhandenen Stimmen wählen, benutzerdefinierte Stimmen klonen oder Stimmen aus der ElevenLabs-Bibliothek anfordern.Stimmoptionen
Sie haben drei Möglichkeiten, die perfekte Stimme für Ihren Assistenten zu erhalten: 1. Aus vorhandenen Stimmen wählen:- Professionelle Stimmen: Vortrainierte, hochwertige Optionen von ElevenLabs
- Mehrere Akzente: Verfügbar für die meisten Sprachen
- Geschlechtsoptionen: Männliche und weibliche Stimmen für jede Sprache
- Tonvielfalt: Von formell geschäftlich bis lässig gesprächig
- Klares, hochwertiges Audiosample (1-5 Minuten empfohlen)
- MP3- oder WAV-Format
- Konsistentes Sprechtempo und Ton
- Minimaler Hintergrundgeräusch
- Durchgehend dieselbe Stimme verwendet
- Nehmen Sie sich selbst oder einen Sprecher beim Lesen eines Beispieltextes auf
- Laden Sie die Audiodatei in den Assistenteneinstellungen hoch
- Warten Sie, bis das Training abgeschlossen ist (wenige Minuten bis Stunden)
- Testen Sie die geklonte Stimme vor der Verwendung in der Produktion
- Markenkonsistenz mit Unternehmenssprecher
- Persönliche Note für Kundenbeziehungen
- Stimme an spezifische Geschäftspersona anpassen
Zeitzonen-Konfiguration
Zeitzone
Legen Sie die Zeitzone fest, in der Ihr Assistent arbeitet. Dies beeinflusst:- Zeitbasierte Variablen in Gesprächen
- Terminplanungsfunktionen
- “Aktuelle Zeit”-Referenzen in System-Prompts
- Zeitstempel in Anrufprotokollen und Datenextraktion
Audio-Verbesserungseinstellungen
Umgebungsgeräusch
Optionales Hintergrundgeräusch, das unter die Stimme Ihres Assistenten gemischt wird, um Verarbeitungsverzögerungen zu überbrücken und ein natürlicheres Audioerlebnis zu schaffen. Optionen:- Keine: Kein Hintergrundgeräusch (Standard)
- Büro: Subtile Büroumgebungsgeräusche
Füllwort-Audio
Kurze Gesprächsphrasen wie “mhm”, “okay”, “Ich verstehe”, die während der KI-Verarbeitungszeit abgespielt werden. Siehe Füllwort-Audio-Leitfaden für vollständige Details.Vorteile
- Beseitigt unangenehme Stille während der Verarbeitung
- Hält Anrufer engagiert
- Schafft natürlicheren Gesprächsfluss
- Reduziert Auflege-Raten
Positive Antworten
Positive Antworten
“Großartig!”, “Perfekt!”, “Super!”
Negative Antworten
Negative Antworten
“Hmm.”, “Ich verstehe.”, “Okay.”
Fragen-Antworten
Fragen-Antworten
“Richtig?”, “Wirklich?”, “Wie so?”
Neutrale Antworten
Neutrale Antworten
“Okay.”, “Ich verstehe.”, “Verstanden.”
Standardmäßig aktivieren - die meisten Gespräche profitieren von Füllwörtern. Testen Sie mit Ihrer Zielgruppe und passen Sie Phrasen an die Persönlichkeit Ihres Assistenten an.
Erweiterte Einstellungen
LLM-Modellauswahl
Wählen Sie das beste Sprachmodell für den Modus Ihres Assistenten. Siehe LLM-Modellauswahl-Leitfaden für detaillierte Empfehlungen. Empfohlene Modelle nach Modus:| Modell | Stärken | Am besten für |
|---|---|---|
| GPT-5 Mini | Ausgewogene Überlegung mit geringer Latenz | Pipeline-Modus für komplexe Überlegungen |
| GPT-5 Realtime | Ultra-niedrige-Latenz-Sprachwendungen | Speech-to-Speech und Dualplex |
| GPT-4o | Starke Überlegung und multimodales Verständnis | Komplexe Aufgaben (höhere Latenz) |
| Gemini Flash 2.0/2.5 | Ultra-schnell für Sprachwendungen | Dualplex/Multimodal für minimale Latenz |
- Geschwindigkeit ist kritisch: Verwenden Sie GPT-5 Realtime oder Gemini Flash 2.0/2.5
- Umfangreiche Überlegung benötigt: Verwenden Sie GPT-4o oder GPT-5 Mini mit Füllwort-Audios zur Latenzausgleichung
LLM-Temperatur
Bereich: 0.0 - 1.0 | Standard: 0.1 Passen Sie den Kreativitätsgrad der KI bei der Generierung von Antworten an. Niedrigerer Wert ergibt bessere Funktionsaufrufergebnisse.Niedriger (0.0-0.3)
Stabiler: Vorhersagbare Antworten, besser für Funktionsaufrufe und Geschäftsanwendungen
Höher (0.7-1.0)
Zufälliger: Kreative und vielfältige Antworten, gut für lockere Gespräche
Besonderes Verhalten: Für GPT-5 Mini- und GPT-5 Nano-Modelle im Pipeline-Modus wird die Temperatur automatisch auf 1.0 für optimale Leistung gesetzt.
Dauereinstellungen
Steuern Sie Timing und Anruflimits, um Benutzererfahrung und Kosten zu optimieren:Erneutes Engagement-Intervall
Erneutes Engagement-Intervall
Bereich: 7 - 600 Sekunden | Standard: 30 SekundenKI versucht, den Benutzer erneut anzusprechen, wenn innerhalb dieser Zeit keine Antwort erkannt wird.Empfohlen: 30-60 Sekunden für professionelle Anrufe.
Maximale Anrufdauer
Maximale Anrufdauer
Bereich: 20 - 1200 Sekunden | Standard: 600 Sekunden (10 Minuten)Anruf wird automatisch beendet, wenn dieser Wert erreicht wird.Empfohlen: 5-10 Minuten für Lead-Qualifizierung zur Kostenkontrolle.
Maximale Stillezeitdauer
Maximale Stillezeitdauer
Bereich: 1 - 120 Sekunden | Standard: 40 SekundenAnruf wird beendet, wenn Benutzer innerhalb dieser Zeit nicht antwortet.Empfohlen: 30-45 Sekunden für Balance zwischen Geduld und Effizienz.
Klingelzeit
Klingelzeit
Bereich: 1 - 60 Sekunden | Standard: 30 SekundenWie lange der Anruf klingelt, bevor er als unbeantwortet markiert wird. Gut, wenn Sie Voicemail vermeiden möchten, indem Sie einen niedrigeren Wert einstellen.
Anrufschutzeinstellungen
Rauschunterdrückung
Rauschunterdrückung
Standard: AktiviertFiltert Hintergrundgeräusche des Anrufers für klarere Spracherkennung. AUSSCHALTEN, wenn Audio-Clipping auftritt.
Anruf bei Voicemail beenden
Anruf bei Voicemail beenden
Standard: AktiviertBeendet Anruf sofort, wenn Voicemail bei ausgehenden Anrufen erkannt wird (spart Kosten).
Anrufe aufzeichnen
Anrufe aufzeichnen
Standard: AktiviertZeichnet Anruf-Audio zur Überprüfung und Analyse auf. Stellen Sie Compliance mit lokalen Aufzeichnungsgesetzen sicher.
Maximale anfängliche Stille
Maximale anfängliche Stille
Bereich: 1 - 120 Sekunden | Standard: 20 Sekunden (wenn aktiviert)Wenn aktiviert, Anruf beenden, wenn keine erste Benutzerantwort innerhalb dieser Zeit. Zählt nur vom Anrufstart bis zur ersten Benutzerantwort.Anwendungsfall: Erkennen, ob tatsächlich jemand ans Telefon gegangen ist.
Synthesizer-Einstellungen
Konfigurieren Sie Text-to-Speech-Stimmparameter für natürlich klingende Gespräche. Verfügbar für: Nur Pipeline- und Dualplex-Modi. Speech-to-Speech-Modus verwendet native Stimmgenerierung.Stimmabstimmungs-Parameter
Feinabstimmung der Stimmcharakteristiken Ihres Assistenten für optimale Leistung:Stimmstabilität
Stimmstabilität
Bereich: 0.0 - 1.0 | Standard: 0.7Niedrigere Einstellungen machen die Stimme expressiver, aber weniger vorhersagbar, während höhere Einstellungen sie stetiger, aber weniger emotional machen.
Expressiver (0.0-0.3)
Dynamische und vielfältige Wiedergabe, aber weniger vorhersagbar
Stabiler (0.7-1.0)
Konsistent und stetig, aber weniger emotionaler Bereich
Stimmähnlichkeit
Stimmähnlichkeit
Bereich: 0.0 - 1.0 | Standard: 0.5Bestimmt, wie genau die KI die Originalstimme nachahmt. Höhere Einstellungen können unerwünschtes Rauschen aus der Originalaufnahme enthalten.
Stabiler (0.0-0.4)
Saubereres Audio, aber weniger genau zur Originalstimme
Ähnlicher (0.6-1.0)
Genau zum Original, kann aber Hintergrundgeräusche enthalten
Sprechgeschwindigkeit
Sprechgeschwindigkeit
Bereich: 0.7 - 1.2 | Standard: 1.0Passen Sie die Geschwindigkeit der KI-Sprache für optimales Verständnis und Benutzererfahrung an.
Langsamer (0.7-0.85)
Besser für komplexe Informationen oder ältere Demografien
Normal (0.9-1.1)
Standard-Gesprächstempo für die meisten Anwendungsfälle
Schneller (1.15-1.2)
Schnelle Gespräche oder zeitsensitive Szenarien
Transkriptions-Einstellungen
Konfigurieren Sie Speech-to-Text-Erkennung für optimale Genauigkeit und Geschwindigkeit. Verfügbar für: Nur Pipeline-Modus. Speech-to-Speech- und Dualplex-Modi verwenden integrierte Transkription.Anbieterauswahl
Wählen Sie den besten Transkriptor für Ihre Sprache und Ihren Anwendungsfall. Der Anbieter, der zur Transkription der Benutzersprache verwendet wird.Azure
Genauigkeit: ⭐⭐⭐⭐
Latenz: LangsamerAm besten für höchste Transkriptionstreue, wenn Genauigkeit kritisch ist.
Gladia
Genauigkeit: ⭐⭐⭐
Latenz: SchnellerGuter Allrounder für die meisten Sprachen. Unterstützt mehrsprachige Konfigurationen.
Deepgram
Genauigkeit: ⭐⭐⭐
Latenz: SchnellerSolide Wahl für Englisch und Hauptsprachen.
Verschiedene Sprachen, Akzente oder Hintergrundgeräusche können jeden Anbieter unterschiedlich beeinflussen. Testen Sie, welcher für Ihre spezifische Sprache und Audio-Einrichtung besser funktioniert.
Endpunkt-Konfiguration
KI-Wendeerkennung
Verwendet KI zur intelligenten Erkennung, wann der Anrufer zu Ende gesprochen hat
Sprachaktivitätserkennung (VAD)
Standard: Traditionelle SprachaktivitätserkennungWählen Sie, wie die KI das Ende der Benutzerphrase erkennt
Sprachaktivitätserkennung (VAD)
Steuern Sie, wann Ihr Assistent zu sprechen beginnt und aufhört. Siehe Leitfaden zum Umgang mit Unterbrechungen für detaillierte VAD-Konfiguration.Endpunkt-Empfindlichkeit
Endpunkt-Empfindlichkeit
Bereich: 0 - 5 Sekunden | Standard: 0.5Passen Sie die Zeit an, die die KI wartet, bis der Benutzer nach dem letzten Wort spricht. Niedrigere Werte machen die KI schneller, höhere Werte sind besser für lange Benutzerphrasen.
- 0 (Schneller): Schnelle Antworten, kann aber Anrufer unterbrechen
- 5 (Langsamer): Wartet länger, reduziert Unterbrechungen
Unterbrechungs-Empfindlichkeit
Unterbrechungs-Empfindlichkeit
Wie leicht der Assistent stoppt, wenn der Anrufer dazwischenredet. Steuert die Empfindlichkeit zur Erkennung, wann ein Anrufer versucht zu unterbrechen.
Minimale Unterbrechungswörter
Minimale Unterbrechungswörter
Erfordern Sie mindestens N Anruferwörter vor der Unterbrechung des Assistenten.
Verwendung: Verhindert falsche Auslöser durch Hintergrundgeräusche oder kurze Töne.
