Zum Hauptinhalt springen
Konfigurieren Sie die grundlegenden Einstellungen für Ihren KI-Assistenten, einschließlich Anrufrichtung, Telefonnummern, Stimmauswahl und technische Parameter.

Schnellstart-Anleitung

Bereit, Ihren ersten KI-Assistenten einzurichten? Hier ist der wesentliche Ablauf:
  1. Anrufrichtung wählen: Eingehend (beantwortet Anrufe) oder Ausgehend (tätigt Anrufe)
  2. Assistentenname festlegen: Interne Bezeichnung wie “Support-Bot” oder “Vertriebs-Bot”
  3. Telefonnummern konfigurieren: Plattformnummern, SIP oder Anrufer-ID zuweisen
  4. Stimme & Sprache auswählen: Aus integrierten Stimmen wählen oder benutzerdefinierte klonen
  5. Erweiterte Einstellungen anpassen: Modelle, Timing und Audio-Parameter feinabstimmen
Testen Sie immer Ihre Änderungen, indem Sie den Assistenten anrufen oder eine kleine Kampagne durchführen, um zu bestätigen, dass er sich wie erwartet verhält.
Folgen Sie dieser Seite Abschnitt für Abschnitt, um Ihren Assistenten zu konfigurieren. Jede Einstellung enthält detaillierte Erklärungen und Best Practices, um Ihnen bei der richtigen Wahl zu helfen.

Anrufrichtung & Grundeinrichtung

Assistententyp

Wählen Sie, ob Ihr Assistent eingehende oder ausgehende Anrufe bearbeitet. Diese grundlegende Wahl beeinflusst, welche anderen Optionen verfügbar werden. Eingehend (Anrufe empfangen): Bearbeitet eingehende Anrufe von Kunden. Siehe Übersicht eingehende Anrufe. Ausgehend (Anrufe tätigen): Initiiert Anrufe an Leads oder Kunden. Siehe Übersicht ausgehende Anrufe.

Assistentenname

Ein beschreibender Name zur Identifizierung Ihres Assistenten im Dashboard. Verwenden Sie etwas Einprägsames, das den Zweck des Assistenten beschreibt (z.B. “Vertriebs-Qualifizierer”, “Support-Bot”, “Termin-Planer”).

Telefonnummern-Konfiguration

Ihr Assistent benötigt eine Telefonnummer zum Betrieb. Die verfügbaren Optionen hängen von Ihrer Anrufrichtungswahl ab.

Für ausgehende Assistenten

Sie können verwenden:
  • Plattformnummern: Direkt von unserer Plattform gemietete Nummern
  • SIP-Nummern: Verbinden Sie Ihr bestehendes VOIP/PBX-System
  • Nur Anrufer-ID: Verifizieren Sie den Besitz einer bestehenden Nummer, um sie bei ausgehenden Anrufen anzuzeigen

Für eingehende Assistenten

Sie können verwenden:
  • Plattformnummern: Direkt von unserer Plattform gemietete Nummern
  • SIP-Nummern: Verbinden Sie Ihr bestehendes VOIP/PBX-System
Hinweis: Nur-Anrufer-ID-Nummern können keine eingehenden Anrufe bearbeiten - sie werden nur bei ausgehenden Anrufen angezeigt.

Preise & Kosten

  • Plattformnummern: Monatliche Mietgebühren ab $3,99/Monat. Siehe Dedizierte Nummer mieten für detaillierte Preise.
  • SIP-Integration: Keine monatliche Gebühr, nur $0,00045/Min. für KI-Bridging. Siehe SIP-Integrations-Preise.
  • Anrufer-ID: Keine monatliche Gebühr, regionsbasierte Minutenraten (z.B. $0,01/Min. in den USA). Siehe Anrufer-ID-Preise.
Siehe Telefonnummern-Typen für detaillierte Erklärungen und SIP-Integrationsleitfaden für VOIP-Einrichtung.

Engine-Typ (Sprachverarbeitungsmodus)

Wählen Sie, wie Ihre KI Sprache verarbeitet und Antworten generiert. Jeder Modus ist für unterschiedliche Anwendungsfälle optimiert. Siehe Assistenten-Modi für detaillierte Vergleiche.

Pipeline-Modus

Traditionelle Speech-to-Text → LLM → Text-to-Speech-Pipeline. Bietet maximale Kontrolle über Stimmauswahl und Antwortgenerierung. Am besten für: Komplexe Überlegungen, Funktionsaufrufe, benutzerdefinierte Stimmanforderungen

Speech-to-Speech-Modus

Direkte Sprache-zu-Sprache-Generierung ohne Zwischentext-Verarbeitung. Bietet den natürlichsten Gesprächsfluss. Am besten für: Schnelle Gespräche, natürlicher Hin-und-Her-Dialog

Dualplex-Modus (Beta)

Kombiniert schnelle multimodale Verarbeitung mit Premium-ElevenLabs-Sprachausgabe. Am besten für: Die meisten Anwendungsfälle - empfohlene Standardeinstellung

Sprachkonfiguration

Primärsprache

Die Hauptsprache, die Ihr Assistent für Spracherkennung und -synthese verwenden wird. Dies beeinflusst:
  • Spracherkennungsgenauigkeit
  • Verfügbare Stimmoptionen
  • Füllwort-Audio-Phrasen
  • Stimmmodell-Auswahl
Siehe Sprachunterstützung für alle verfügbaren Sprachen und Akzente.

Sekundärsprachen

Zusätzliche Sprachen, die Ihr Assistent verstehen und sprechen kann. Nützlich für:
  • Mehrsprachigen Kundensupport
  • Internationale Unternehmen
  • Code-Switching-Gespräche
Hinweis: Die KI kann erkennen, welche Sprache der Kunde spricht, und entsprechend antworten.

KI-Stimmauswahl

Ihr Assistent kann aus vorhandenen Stimmen wählen, benutzerdefinierte Stimmen klonen oder Stimmen aus der ElevenLabs-Bibliothek anfordern.

Stimmoptionen

Sie haben drei Möglichkeiten, die perfekte Stimme für Ihren Assistenten zu erhalten: 1. Aus vorhandenen Stimmen wählen:
  • Professionelle Stimmen: Vortrainierte, hochwertige Optionen von ElevenLabs
  • Mehrere Akzente: Verfügbar für die meisten Sprachen
  • Geschlechtsoptionen: Männliche und weibliche Stimmen für jede Sprache
  • Tonvielfalt: Von formell geschäftlich bis lässig gesprächig
2. Benutzerdefinierte Stimme klonen: Erstellen Sie eine benutzerdefinierte Stimme, indem Sie Audiosamples hochladen: Anforderungen:
  • Klares, hochwertiges Audiosample (1-5 Minuten empfohlen)
  • MP3- oder WAV-Format
  • Konsistentes Sprechtempo und Ton
  • Minimaler Hintergrundgeräusch
  • Durchgehend dieselbe Stimme verwendet
Prozess:
  1. Nehmen Sie sich selbst oder einen Sprecher beim Lesen eines Beispieltextes auf
  2. Laden Sie die Audiodatei in den Assistenteneinstellungen hoch
  3. Warten Sie, bis das Training abgeschlossen ist (wenige Minuten bis Stunden)
  4. Testen Sie die geklonte Stimme vor der Verwendung in der Produktion
Anwendungsfälle:
  • Markenkonsistenz mit Unternehmenssprecher
  • Persönliche Note für Kundenbeziehungen
  • Stimme an spezifische Geschäftspersona anpassen
3. Aus ElevenLabs-Bibliothek anfordern: Sie können spezifische Stimmen aus der öffentlichen ElevenLabs-Bibliothek anfordern - kontaktieren Sie den Support, um sie Ihrem Konto hinzuzufügen. Durchsuchen Sie die ElevenLabs Voice Library, um Tausende professioneller Stimmen in verschiedenen Sprachen, Akzenten und Anwendungsfällen zu entdecken. Siehe Stimmauswahl-Leitfaden für detaillierte Einrichtungsanweisungen.

Zeitzonen-Konfiguration

Zeitzone

Legen Sie die Zeitzone fest, in der Ihr Assistent arbeitet. Dies beeinflusst:
  • Zeitbasierte Variablen in Gesprächen
  • Terminplanungsfunktionen
  • “Aktuelle Zeit”-Referenzen in System-Prompts
  • Zeitstempel in Anrufprotokollen und Datenextraktion
Wichtig: Wählen Sie die Zeitzone, in der Ihr Unternehmen tätig ist oder wo sich die meisten Kunden befinden. Der Assistent verwendet diese für alle zeitbezogenen Berechnungen oder Planungen.

Audio-Verbesserungseinstellungen

Umgebungsgeräusch

Optionales Hintergrundgeräusch, das unter die Stimme Ihres Assistenten gemischt wird, um Verarbeitungsverzögerungen zu überbrücken und ein natürlicheres Audioerlebnis zu schaffen. Optionen:
  • Keine: Kein Hintergrundgeräusch (Standard)
  • Büro: Subtile Büroumgebungsgeräusche
Lautstärkeregelung: Passen Sie den Pegel des Umgebungsgeräuschs relativ zur Stimme an. Niedrigere Werte sind normalerweise besser - zu viel Hintergrundgeräusch kann die Spracherkennung stören.
Ausschalten oder Lautstärke verringern, wenn der Assistent den Kunden nicht klar hört.

Füllwort-Audio

Kurze Gesprächsphrasen wie “mhm”, “okay”, “Ich verstehe”, die während der KI-Verarbeitungszeit abgespielt werden. Siehe Füllwort-Audio-Leitfaden für vollständige Details.

Vorteile

  • Beseitigt unangenehme Stille während der Verarbeitung
  • Hält Anrufer engagiert
  • Schafft natürlicheren Gesprächsfluss
  • Reduziert Auflege-Raten
Sprachbewusste Konfiguration: Füllphrasen werden automatisch für Ihre gewählte Sprache eingestellt:
“Großartig!”, “Perfekt!”, “Super!”
“Hmm.”, “Ich verstehe.”, “Okay.”
“Richtig?”, “Wirklich?”, “Wie so?”
“Okay.”, “Ich verstehe.”, “Verstanden.”
Anpassung: Sie können die Standardphrasen für jede Kategorie bearbeiten, um sie an Ihre Markenstimme oder regionale Präferenzen anzupassen.
Standardmäßig aktivieren - die meisten Gespräche profitieren von Füllwörtern. Testen Sie mit Ihrer Zielgruppe und passen Sie Phrasen an die Persönlichkeit Ihres Assistenten an.

Erweiterte Einstellungen

LLM-Modellauswahl

Wählen Sie das beste Sprachmodell für den Modus Ihres Assistenten. Siehe LLM-Modellauswahl-Leitfaden für detaillierte Empfehlungen. Empfohlene Modelle nach Modus:
ModellStärkenAm besten für
GPT-5 MiniAusgewogene Überlegung mit geringer LatenzPipeline-Modus für komplexe Überlegungen
GPT-5 RealtimeUltra-niedrige-Latenz-SprachwendungenSpeech-to-Speech und Dualplex
GPT-4oStarke Überlegung und multimodales VerständnisKomplexe Aufgaben (höhere Latenz)
Gemini Flash 2.0/2.5Ultra-schnell für SprachwendungenDualplex/Multimodal für minimale Latenz
Schnellauswahl-Leitfaden:
  • Geschwindigkeit ist kritisch: Verwenden Sie GPT-5 Realtime oder Gemini Flash 2.0/2.5
  • Umfangreiche Überlegung benötigt: Verwenden Sie GPT-4o oder GPT-5 Mini mit Füllwort-Audios zur Latenzausgleichung

LLM-Temperatur

Bereich: 0.0 - 1.0 | Standard: 0.1 Passen Sie den Kreativitätsgrad der KI bei der Generierung von Antworten an. Niedrigerer Wert ergibt bessere Funktionsaufrufergebnisse.

Niedriger (0.0-0.3)

Stabiler: Vorhersagbare Antworten, besser für Funktionsaufrufe und Geschäftsanwendungen

Höher (0.7-1.0)

Zufälliger: Kreative und vielfältige Antworten, gut für lockere Gespräche
Besonderes Verhalten: Für GPT-5 Mini- und GPT-5 Nano-Modelle im Pipeline-Modus wird die Temperatur automatisch auf 1.0 für optimale Leistung gesetzt.

Dauereinstellungen

Steuern Sie Timing und Anruflimits, um Benutzererfahrung und Kosten zu optimieren:
Bereich: 7 - 600 Sekunden | Standard: 30 SekundenKI versucht, den Benutzer erneut anzusprechen, wenn innerhalb dieser Zeit keine Antwort erkannt wird.Empfohlen: 30-60 Sekunden für professionelle Anrufe.
Bereich: 20 - 1200 Sekunden | Standard: 600 Sekunden (10 Minuten)Anruf wird automatisch beendet, wenn dieser Wert erreicht wird.Empfohlen: 5-10 Minuten für Lead-Qualifizierung zur Kostenkontrolle.
Bereich: 1 - 120 Sekunden | Standard: 40 SekundenAnruf wird beendet, wenn Benutzer innerhalb dieser Zeit nicht antwortet.Empfohlen: 30-45 Sekunden für Balance zwischen Geduld und Effizienz.
Bereich: 1 - 60 Sekunden | Standard: 30 SekundenWie lange der Anruf klingelt, bevor er als unbeantwortet markiert wird. Gut, wenn Sie Voicemail vermeiden möchten, indem Sie einen niedrigeren Wert einstellen.
Kostenoptimierung: Niedrigere Dauerlimits helfen, Minutenkosten zu kontrollieren, besonders wichtig für Kampagnen mit hohem Volumen.

Anrufschutzeinstellungen

Standard: AktiviertFiltert Hintergrundgeräusche des Anrufers für klarere Spracherkennung. AUSSCHALTEN, wenn Audio-Clipping auftritt.
Standard: AktiviertBeendet Anruf sofort, wenn Voicemail bei ausgehenden Anrufen erkannt wird (spart Kosten).
Standard: AktiviertZeichnet Anruf-Audio zur Überprüfung und Analyse auf. Stellen Sie Compliance mit lokalen Aufzeichnungsgesetzen sicher.
Bereich: 1 - 120 Sekunden | Standard: 20 Sekunden (wenn aktiviert)Wenn aktiviert, Anruf beenden, wenn keine erste Benutzerantwort innerhalb dieser Zeit. Zählt nur vom Anrufstart bis zur ersten Benutzerantwort.Anwendungsfall: Erkennen, ob tatsächlich jemand ans Telefon gegangen ist.

Synthesizer-Einstellungen

Konfigurieren Sie Text-to-Speech-Stimmparameter für natürlich klingende Gespräche. Verfügbar für: Nur Pipeline- und Dualplex-Modi. Speech-to-Speech-Modus verwendet native Stimmgenerierung.

Stimmabstimmungs-Parameter

Feinabstimmung der Stimmcharakteristiken Ihres Assistenten für optimale Leistung:
Bereich: 0.0 - 1.0 | Standard: 0.7Niedrigere Einstellungen machen die Stimme expressiver, aber weniger vorhersagbar, während höhere Einstellungen sie stetiger, aber weniger emotional machen.

Expressiver (0.0-0.3)

Dynamische und vielfältige Wiedergabe, aber weniger vorhersagbar

Stabiler (0.7-1.0)

Konsistent und stetig, aber weniger emotionaler Bereich
Bereich: 0.0 - 1.0 | Standard: 0.5Bestimmt, wie genau die KI die Originalstimme nachahmt. Höhere Einstellungen können unerwünschtes Rauschen aus der Originalaufnahme enthalten.

Stabiler (0.0-0.4)

Saubereres Audio, aber weniger genau zur Originalstimme

Ähnlicher (0.6-1.0)

Genau zum Original, kann aber Hintergrundgeräusche enthalten
Für geklonte Stimmen: Bei 0.5 beginnen und schrittweise erhöhen. Höhere Ähnlichkeit kann unerwünschte Artefakte aus der Originalaufnahme einführen.
Bereich: 0.7 - 1.2 | Standard: 1.0Passen Sie die Geschwindigkeit der KI-Sprache für optimales Verständnis und Benutzererfahrung an.

Langsamer (0.7-0.85)

Besser für komplexe Informationen oder ältere Demografien

Normal (0.9-1.1)

Standard-Gesprächstempo für die meisten Anwendungsfälle

Schneller (1.15-1.2)

Schnelle Gespräche oder zeitsensitive Szenarien

Transkriptions-Einstellungen

Konfigurieren Sie Speech-to-Text-Erkennung für optimale Genauigkeit und Geschwindigkeit. Verfügbar für: Nur Pipeline-Modus. Speech-to-Speech- und Dualplex-Modi verwenden integrierte Transkription.

Anbieterauswahl

Wählen Sie den besten Transkriptor für Ihre Sprache und Ihren Anwendungsfall. Der Anbieter, der zur Transkription der Benutzersprache verwendet wird.

Azure

Genauigkeit: ⭐⭐⭐⭐ Latenz: LangsamerAm besten für höchste Transkriptionstreue, wenn Genauigkeit kritisch ist.

Gladia

Genauigkeit: ⭐⭐⭐ Latenz: SchnellerGuter Allrounder für die meisten Sprachen. Unterstützt mehrsprachige Konfigurationen.

Deepgram

Genauigkeit: ⭐⭐⭐ Latenz: SchnellerSolide Wahl für Englisch und Hauptsprachen.
Verschiedene Sprachen, Akzente oder Hintergrundgeräusche können jeden Anbieter unterschiedlich beeinflussen. Testen Sie, welcher für Ihre spezifische Sprache und Audio-Einrichtung besser funktioniert.

Endpunkt-Konfiguration

KI-Wendeerkennung

Verwendet KI zur intelligenten Erkennung, wann der Anrufer zu Ende gesprochen hat

Sprachaktivitätserkennung (VAD)

Standard: Traditionelle SprachaktivitätserkennungWählen Sie, wie die KI das Ende der Benutzerphrase erkennt

Sprachaktivitätserkennung (VAD)

Steuern Sie, wann Ihr Assistent zu sprechen beginnt und aufhört. Siehe Leitfaden zum Umgang mit Unterbrechungen für detaillierte VAD-Konfiguration.
Feinabstimmung dieser Einstellungen, wenn Unterbrechungsprobleme oder träge Antworten auftreten.
Bereich: 0 - 5 Sekunden | Standard: 0.5Passen Sie die Zeit an, die die KI wartet, bis der Benutzer nach dem letzten Wort spricht. Niedrigere Werte machen die KI schneller, höhere Werte sind besser für lange Benutzerphrasen.
  • 0 (Schneller): Schnelle Antworten, kann aber Anrufer unterbrechen
  • 5 (Langsamer): Wartet länger, reduziert Unterbrechungen
Wie leicht der Assistent stoppt, wenn der Anrufer dazwischenredet. Steuert die Empfindlichkeit zur Erkennung, wann ein Anrufer versucht zu unterbrechen.
Erfordern Sie mindestens N Anruferwörter vor der Unterbrechung des Assistenten. Verwendung: Verhindert falsche Auslöser durch Hintergrundgeräusche oder kurze Töne.
Profi-Tipp: Beginnen Sie mit Standard-VAD-Einstellungen und passen Sie basierend auf echten Anruftests an. Erhöhen Sie die Endpunkt-Empfindlichkeit, wenn Anrufer unterbrochen werden, verringern Sie sie, wenn Antworten langsam wirken.