Neu: KI-Workshops für UnternehmenMehr erfahren
Künstliche Intelligenz

WhatsApp & Telegram Sprachnachrichten mit KI: Mein Setup

Jan Koch
Jan Koch
KI Experte & Berater
5 Min.
Transparenz-Hinweis: Dieser Artikel enthält Affiliate-Links. Bei einem Kauf über diese Links erhalte ich eine Provision – für dich entstehen keine Mehrkosten. Ich empfehle nur Produkte, die ich selbst nutze und von denen ich überzeugt bin.

Wenn ich im Auto sitze, kann ich nicht tippen. Aber mein KI-Assistent schickt mir trotzdem Updates — als Sprachnachricht in meiner eigenen Stimme. Hier zeige ich dir, wie ich ElevenLabs für automatische Sprachnachrichten eingerichtet habe.

Voice Assistant Architektur

Die Vision: Proaktive Sprachnachrichten

Stell dir vor, dein KI-Assistent informiert dich automatisch über wichtige Ereignisse — aber nicht als Text, sondern als natürliche Sprachnachricht. Das ist nicht nur praktischer beim Autofahren, sondern fühlt sich auch viel persönlicher an.

Was mein Setup macht:

  • Sendet mir einen täglichen Briefing als Sprachnachricht (Termine, Wetter, wichtige E-Mails)
  • Benachrichtigt mich bei dringenden Ereignissen
  • Antwortet auf meine Sprachnachrichten mit Sprachnachrichten
  • Nutzt meine geklonte Stimme — fühlt sich an wie ein Gespräch mit mir selbst

Die Komponenten

Für dieses Setup brauchst du:

  1. ElevenLabs Account: Für die Text-to-Speech Synthese
  2. Messaging-Integration: Telegram Bot API oder WhatsApp Business API
  3. Orchestrierung: n8n, Make, oder eigener Code
  4. Optional: Voice Clone für personalisierte Stimme

Schritt 1: ElevenLabs API einrichten

Zuerst brauchst du einen API-Zugang bei ElevenLabs:

  1. Registriere dich und wähle mindestens den Starter-Plan ($5/Monat für 30.000 Zeichen)
  2. Gehe zu "Profile" → "API Key" und kopiere deinen Schlüssel
  3. Notiere dir auch die Voice ID deiner gewünschten Stimme (findest du in der Voice Library)

API Test mit curl

curl -X POST "https://api.elevenlabs.io/v1/text-to-speech/VOICE_ID" \
     -H "xi-api-key: YOUR_API_KEY" \
     -H "Content-Type: application/json" \
     -d '{"text":"Hallo, das ist ein Test.", "model_id":"eleven_multilingual_v2"}' \
     --output test.mp3

Wenn du eine MP3-Datei erhältst, funktioniert alles.

Schritt 2: Telegram Bot erstellen

Telegram ist einfacher einzurichten als WhatsApp. So geht's:

  1. Öffne Telegram und suche nach "@BotFather"
  2. Sende /newbot und folge den Anweisungen
  3. Du erhältst einen Bot-Token — bewahre ihn sicher auf
  4. Optional: Setze ein Profilbild und eine Beschreibung

Bot für Sprachnachrichten konfigurieren

In Telegram können Bots Sprachnachrichten als OGG (Opus) senden. ElevenLabs liefert MP3, also brauchst du eine Konvertierung:

# Mit ffmpeg konvertieren
ffmpeg -i input.mp3 -c:a libopus output.ogg

Schritt 3: Automatisierung mit n8n

n8n ist ein Open-Source Automatisierungstool, das perfekt für diesen Use Case ist.

Workflow-Übersicht

  1. Trigger: Zeitgesteuert (Cronjob) oder Event-basiert (Webhook)
  2. Text generieren: Mit OpenAI oder eigenem Prompt den Text erstellen
  3. TTS: Text an ElevenLabs API senden, Audio-Datei erhalten
  4. Konvertieren: MP3 zu OGG für Telegram
  5. Senden: Sprachnachricht via Telegram Bot API versenden

n8n Workflow-Nodes

HTTP Request für ElevenLabs:

  • Method: POST
  • URL: https://api.elevenlabs.io/v1/text-to-speech/{$node["Config"].json["voice_id"]}
  • Headers: xi-api-key, Content-Type: application/json
  • Body: {"text": "{$node["Text"].json["message"]}", "model_id": "eleven_multilingual_v2"}
  • Response Format: File

Schritt 4: WhatsApp Integration (Alternative)

WhatsApp ist komplizierter, aber für Business-Anwendungen oft bevorzugt:

Option A: WhatsApp Business API

  • Offiziell, aber erfordert Business-Verifizierung
  • Kosten pro Nachricht
  • Zuverlässig und regelkonform

Option B: WhatsApp Web Gateway

  • Inoffiziell, aber einfacher einzurichten
  • Tools wie Baileys oder whatsapp-web.js
  • Risiko: Account-Sperrung möglich

Für persönliche Nutzung empfehle ich Telegram — es ist developer-freundlicher und hat weniger Einschränkungen.

Schritt 5: Voice Clone für Personalisierung

Der Clou: Lass die Sprachnachrichten in deiner eigenen Stimme generieren.

  1. Nimm 3-5 Minuten deiner Stimme auf (klar, ohne Hintergrundgeräusche)
  2. Lade das Sample bei ElevenLabs im Voice Lab hoch
  3. Wähle "Professional Voice Cloning" für beste Qualität
  4. Verwende die neue Voice ID in deiner Automatisierung

Das Ergebnis: Dein KI-Assistent spricht mit deiner Stimme. Surreal, aber unglaublich nützlich.

Praktische Anwendungsfälle

Tägliches Briefing

Jeden Morgen um 7:00 Uhr eine Zusammenfassung:

  • Termine des Tages
  • Wichtige E-Mails
  • Wetter-Vorhersage
  • Aktuelle Nachrichten (optional)

Dringende Benachrichtigungen

Echtzeit-Alerts bei:

  • Wichtige E-Mail von bestimmten Absendern
  • Kalender-Erinnerungen
  • Monitoring-Alerts (Server down, etc.)

Bidirektionale Konversation

Antworte per Sprache, der Bot transkribiert und antwortet wieder per Sprache:

  1. Du sendest Sprachnachricht
  2. Whisper API transkribiert zu Text
  3. GPT generiert Antwort
  4. ElevenLabs wandelt in Sprache
  5. Bot sendet Sprachnachricht zurück

Kosten kalkulieren

Eine typische Sprachnachricht hat 200-500 Zeichen. Bei ElevenLabs:

Szenario Zeichen/Monat Plan Kosten
1 Briefing/Tag ~15.000 Starter $5/Monat
+ 5 Alerts/Tag ~60.000 Creator $22/Monat
Heavy Use ~200.000 Pro $99/Monat

Tipps für natürliche Sprachnachrichten

Text optimieren

  • Kurze Sätze verwenden
  • Keine komplizierten Aufzählungen
  • Zahlen ausschreiben ("drei Uhr" statt "15:00")
  • Pausen einbauen mit "..."

Kontext hinzufügen

Statt "Du hast einen Termin" sage "Hey, kurze Erinnerung: In einer Stunde hast du deinen Call mit Thomas."

Varianz einbauen

Nutze verschiedene Intros und Formulierungen, damit es nicht roboterhaft wirkt.

Troubleshooting

Sprachnachrichten kommen nicht an

  • Prüfe den Bot-Token
  • Stelle sicher, dass du den Chat mit dem Bot gestartet hast
  • Überprüfe das Audio-Format (Telegram braucht OGG Opus)

Stimme klingt unnatürlich

  • Stability-Setting anpassen (50-75% ist meist ideal)
  • Text überarbeiten für natürlicheren Fluss
  • Anderes Voice Model testen

API-Fehler

  • Rate Limits beachten
  • Zeichenkontingent prüfen
  • API-Key auf Gültigkeit testen

Fazit: Dein persönlicher Sprach-Assistent

Mit ElevenLabs, einem Messaging-Bot und etwas Automatisierung hast du einen Assistenten, der proaktiv in deiner Stimme mit dir kommuniziert. Das ist keine Zukunftsmusik — ich nutze dieses Setup täglich.

Der Aufwand für die Einrichtung beträgt etwa 2-4 Stunden. Danach läuft alles automatisch. Für mich hat es die Art verändert, wie ich mit meinen digitalen Systemen interagiere — weniger Bildschirmzeit, mehr Hands-free-Nutzung.

🎙️ Starte mit deinem Voice-Assistenten

ElevenLabs bietet die Stimmen, den Rest baust du selbst. Die kostenlose Testversion reicht für den Prototypen.

ElevenLabs kostenlos testen →

Tags

SprachnachrichtenTelegramWhatsAppElevenLabsAutomation

Über den Autor

Jan Koch

Jan Koch

KI Experte, Berater und Entwickler. Ich helfe Unternehmern und Entwicklern, KI effektiv einzusetzen - von der Strategie bis zur Implementierung.

Jeden Dienstag

KI Einfach Machen

Erhalte jeden Dienstag eine kurze E-Mail mit relevanten KI-Beispielen für Unternehmer, praxisnahen Tipps und Zukunftsausblicken.

1.000+ Abonnenten • Kein Spam • Jederzeit abmelden