WhatsApp & Telegram Sprachnachrichten mit KI: Mein Setup

Wenn ich im Auto sitze, kann ich nicht tippen. Aber mein KI-Assistent schickt mir trotzdem Updates — als Sprachnachricht in meiner eigenen Stimme. Hier zeige ich dir, wie ich ElevenLabs für automatische Sprachnachrichten eingerichtet habe.

Die Vision: Proaktive Sprachnachrichten
Stell dir vor, dein KI-Assistent informiert dich automatisch über wichtige Ereignisse — aber nicht als Text, sondern als natürliche Sprachnachricht. Das ist nicht nur praktischer beim Autofahren, sondern fühlt sich auch viel persönlicher an.
Was mein Setup macht:
- Sendet mir einen täglichen Briefing als Sprachnachricht (Termine, Wetter, wichtige E-Mails)
- Benachrichtigt mich bei dringenden Ereignissen
- Antwortet auf meine Sprachnachrichten mit Sprachnachrichten
- Nutzt meine geklonte Stimme — fühlt sich an wie ein Gespräch mit mir selbst
Die Komponenten
Für dieses Setup brauchst du:
- ElevenLabs Account: Für die Text-to-Speech Synthese
- Messaging-Integration: Telegram Bot API oder WhatsApp Business API
- Orchestrierung: n8n, Make, oder eigener Code
- Optional: Voice Clone für personalisierte Stimme
Schritt 1: ElevenLabs API einrichten
Zuerst brauchst du einen API-Zugang bei ElevenLabs:
- Registriere dich und wähle mindestens den Starter-Plan ($5/Monat für 30.000 Zeichen)
- Gehe zu "Profile" → "API Key" und kopiere deinen Schlüssel
- Notiere dir auch die Voice ID deiner gewünschten Stimme (findest du in der Voice Library)
API Test mit curl
curl -X POST "https://api.elevenlabs.io/v1/text-to-speech/VOICE_ID" \
-H "xi-api-key: YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{"text":"Hallo, das ist ein Test.", "model_id":"eleven_multilingual_v2"}' \
--output test.mp3
Wenn du eine MP3-Datei erhältst, funktioniert alles.
Schritt 2: Telegram Bot erstellen
Telegram ist einfacher einzurichten als WhatsApp. So geht's:
- Öffne Telegram und suche nach "@BotFather"
- Sende
/newbotund folge den Anweisungen - Du erhältst einen Bot-Token — bewahre ihn sicher auf
- Optional: Setze ein Profilbild und eine Beschreibung
Bot für Sprachnachrichten konfigurieren
In Telegram können Bots Sprachnachrichten als OGG (Opus) senden. ElevenLabs liefert MP3, also brauchst du eine Konvertierung:
# Mit ffmpeg konvertieren ffmpeg -i input.mp3 -c:a libopus output.ogg
Schritt 3: Automatisierung mit n8n
n8n ist ein Open-Source Automatisierungstool, das perfekt für diesen Use Case ist.
Workflow-Übersicht
- Trigger: Zeitgesteuert (Cronjob) oder Event-basiert (Webhook)
- Text generieren: Mit OpenAI oder eigenem Prompt den Text erstellen
- TTS: Text an ElevenLabs API senden, Audio-Datei erhalten
- Konvertieren: MP3 zu OGG für Telegram
- Senden: Sprachnachricht via Telegram Bot API versenden
n8n Workflow-Nodes
HTTP Request für ElevenLabs:
- Method: POST
- URL: https://api.elevenlabs.io/v1/text-to-speech/{$node["Config"].json["voice_id"]}
- Headers: xi-api-key, Content-Type: application/json
- Body: {"text": "{$node["Text"].json["message"]}", "model_id": "eleven_multilingual_v2"}
- Response Format: File
Schritt 4: WhatsApp Integration (Alternative)
WhatsApp ist komplizierter, aber für Business-Anwendungen oft bevorzugt:
Option A: WhatsApp Business API
- Offiziell, aber erfordert Business-Verifizierung
- Kosten pro Nachricht
- Zuverlässig und regelkonform
Option B: WhatsApp Web Gateway
- Inoffiziell, aber einfacher einzurichten
- Tools wie Baileys oder whatsapp-web.js
- Risiko: Account-Sperrung möglich
Für persönliche Nutzung empfehle ich Telegram — es ist developer-freundlicher und hat weniger Einschränkungen.
Schritt 5: Voice Clone für Personalisierung
Der Clou: Lass die Sprachnachrichten in deiner eigenen Stimme generieren.
- Nimm 3-5 Minuten deiner Stimme auf (klar, ohne Hintergrundgeräusche)
- Lade das Sample bei ElevenLabs im Voice Lab hoch
- Wähle "Professional Voice Cloning" für beste Qualität
- Verwende die neue Voice ID in deiner Automatisierung
Das Ergebnis: Dein KI-Assistent spricht mit deiner Stimme. Surreal, aber unglaublich nützlich.
Praktische Anwendungsfälle
Tägliches Briefing
Jeden Morgen um 7:00 Uhr eine Zusammenfassung:
- Termine des Tages
- Wichtige E-Mails
- Wetter-Vorhersage
- Aktuelle Nachrichten (optional)
Dringende Benachrichtigungen
Echtzeit-Alerts bei:
- Wichtige E-Mail von bestimmten Absendern
- Kalender-Erinnerungen
- Monitoring-Alerts (Server down, etc.)
Bidirektionale Konversation
Antworte per Sprache, der Bot transkribiert und antwortet wieder per Sprache:
- Du sendest Sprachnachricht
- Whisper API transkribiert zu Text
- GPT generiert Antwort
- ElevenLabs wandelt in Sprache
- Bot sendet Sprachnachricht zurück
Kosten kalkulieren
Eine typische Sprachnachricht hat 200-500 Zeichen. Bei ElevenLabs:
| Szenario | Zeichen/Monat | Plan | Kosten |
|---|---|---|---|
| 1 Briefing/Tag | ~15.000 | Starter | $5/Monat |
| + 5 Alerts/Tag | ~60.000 | Creator | $22/Monat |
| Heavy Use | ~200.000 | Pro | $99/Monat |
Tipps für natürliche Sprachnachrichten
Text optimieren
- Kurze Sätze verwenden
- Keine komplizierten Aufzählungen
- Zahlen ausschreiben ("drei Uhr" statt "15:00")
- Pausen einbauen mit "..."
Kontext hinzufügen
Statt "Du hast einen Termin" sage "Hey, kurze Erinnerung: In einer Stunde hast du deinen Call mit Thomas."
Varianz einbauen
Nutze verschiedene Intros und Formulierungen, damit es nicht roboterhaft wirkt.
Troubleshooting
Sprachnachrichten kommen nicht an
- Prüfe den Bot-Token
- Stelle sicher, dass du den Chat mit dem Bot gestartet hast
- Überprüfe das Audio-Format (Telegram braucht OGG Opus)
Stimme klingt unnatürlich
- Stability-Setting anpassen (50-75% ist meist ideal)
- Text überarbeiten für natürlicheren Fluss
- Anderes Voice Model testen
API-Fehler
- Rate Limits beachten
- Zeichenkontingent prüfen
- API-Key auf Gültigkeit testen
Fazit: Dein persönlicher Sprach-Assistent
Mit ElevenLabs, einem Messaging-Bot und etwas Automatisierung hast du einen Assistenten, der proaktiv in deiner Stimme mit dir kommuniziert. Das ist keine Zukunftsmusik — ich nutze dieses Setup täglich.
Der Aufwand für die Einrichtung beträgt etwa 2-4 Stunden. Danach läuft alles automatisch. Für mich hat es die Art verändert, wie ich mit meinen digitalen Systemen interagiere — weniger Bildschirmzeit, mehr Hands-free-Nutzung.
🎙️ Starte mit deinem Voice-Assistenten
ElevenLabs bietet die Stimmen, den Rest baust du selbst. Die kostenlose Testversion reicht für den Prototypen.
ElevenLabs kostenlos testen →Tags
Über den Autor

Jan Koch
KI Experte, Berater und Entwickler. Ich helfe Unternehmern und Entwicklern, KI effektiv einzusetzen - von der Strategie bis zur Implementierung.