Podcast ohne eigene Stimme? So funktioniert's mit ElevenLabs

Kann man einen erfolgreichen Podcast haben, ohne selbst zu sprechen? Spoiler: Ja, absolut. In diesem Guide zeige ich dir, wie das mit ElevenLabs funktioniert — inklusive meiner Erfahrungen aus der Praxis, konkreten Workflows und den ethischen Fragen, die du dir stellen solltest.

Warum einen KI-Podcast?
Die Gründe, warum Menschen KI-Stimmen für Podcasts nutzen:
- Zeitersparnis: Script schreiben geht schneller als fehlerfrei aufnehmen
- Konsistenz: Keine schlechten Aufnahme-Tage, keine Stimmschwankungen
- Skalierung: Tägliche Episoden ohne Burnout
- Anonymität: Persönliche Stories teilen ohne Stimm-Identifikation
- Multilingualität: Ein Podcast in 10 Sprachen mit derselben "Stimme"
- Barrierefreiheit: Für Menschen, die nicht sprechen können oder wollen
Welche Podcast-Formate funktionieren?
Ideal für KI-Stimmen
- News/Zusammenfassungen: Täglich aktuelle Infos, script-basiert
- Storytelling: Geschichten vorlesen, Fiction
- Educational: Lern-Podcasts zu spezifischen Themen
- Meditation/ASMR: Ruhige, konsistente Stimme gefragt
- Dokumentationen: Narration über visuelle Inhalte
Weniger geeignet
- Interview-Podcasts: Authentische Gespräche schwer zu faken
- Comedy: Timing und Spontanität sind schwer
- Personal Branding: Deine Stimme IST die Marke
Setup: Von Null zum ersten Podcast
Schritt 1: Konzept und Format
Definiere:
- Thema: Worum geht es? (Nische besser als Mainstream)
- Format: Solo? Dialog? Narration?
- Länge: 10-20 Minuten pro Episode funktioniert gut
- Frequenz: KI ermöglicht täglich, aber Qualität vor Quantität
Schritt 2: Stimme wählen
Bei ElevenLabs hast du mehrere Optionen:
Stock Voices
Professionelle, vorgefertigte Stimmen. Schnell, keine Zusatzkosten.
- Pro: Sofort verfügbar, hochwertig
- Con: Andere nutzen dieselbe Stimme
Voice Cloning
Klone deine eigene Stimme oder lizenziere eine.
- Pro: Einzigartig, dein "Branding"
- Con: Benötigt Sample-Material
Voice Design
Erstelle eine komplett neue Stimme nach Beschreibung.
- Pro: Einzigartig, keine Copyright-Fragen
- Con: Trial-and-Error bis es passt
Schritt 3: Script schreiben
Das Script ist der wichtigste Faktor für Qualität.
Struktur pro Episode
- Intro (30 Sek): Begrüßung, Thema ankündigen
- Hook (60 Sek): Warum sollte man weiterhören?
- Hauptteil (10-15 Min): Der eigentliche Content
- Takeaway (60 Sek): Was soll der Hörer mitnehmen?
- Outro (30 Sek): CTA, nächste Episode
Schreiben für TTS
- Kurze Sätze (max. 20 Wörter)
- Natürliche Sprache, wie du sprechen würdest
- Pausen mit "..." markieren
- Betonungen mit Satzzeichen steuern
- Zahlen ausschreiben
Schritt 4: Audio generieren
Für Podcast-Längen empfehle ich die Projects-Funktion in ElevenLabs:
- Neues Project erstellen
- Script als TXT importieren
- Stimme und Einstellungen wählen
- Kapitelweise generieren
- Einzelne Stellen bei Bedarf korrigieren
- Gesamtes Audio exportieren
Schritt 5: Post-Production
- Intro/Outro Musik: Macht einen Riesenunterschied
- Normalisierung: Lautstärke angleichen
- EQ: Stimme leicht anheben, Bass reduzieren
- Export: MP3 128-192kbps für Podcasts optimal
Tools: Audacity (kostenlos), Descript, Adobe Audition, Riverside.fm.
Schritt 6: Hosting und Distribution
Podcast-Hosts für KI-generierte Inhalte:
- Buzzsprout: Einfach, gute Analytics
- Anchor (Spotify): Kostenlos, direkte Spotify-Integration
- Transistor: Professionell, multiple Shows
- Podbean: Gut für Monetarisierung
Hinweis: Die meisten Plattformen haben (noch) keine Regeln gegen KI-Stimmen. Das kann sich ändern.
Zwei-Stimmen-Podcast: Der Dialog
Ein "Gespräch" zwischen zwei KI-Stimmen klingt natürlicher als ein Monolog:
Script-Format
SPRECHER A: Willkommen zurück bei Tech Explained! Heute... SPRECHER B: Ja, und ich bin besonders gespannt auf... SPRECHER A: Lass uns direkt einsteigen. Also...
Workflow
- Script für beide Sprecher schreiben
- Stimme A generieren (alle A-Parts)
- Stimme B generieren (alle B-Parts)
- In DAW zusammenschneiden
- Timing anpassen für natürlichen Fluss
Kosten kalkulieren
Eine typische 20-Minuten-Episode hat ~2.500-3.000 Wörter = ~15.000-20.000 Zeichen.
| Frequenz | Zeichen/Monat | ElevenLabs Plan | Kosten |
|---|---|---|---|
| 1x/Woche | ~80.000 | Creator ($22) | $22/Monat |
| 3x/Woche | ~240.000 | Pro ($99) | $99/Monat |
| Täglich | ~600.000 | Scale ($330) | $330/Monat |
Ethik und Transparenz
Die große Frage: Solltest du offenlegen, dass eine KI spricht?
Argumente für Transparenz
- Ehrlichkeit baut Vertrauen auf
- Es wird sowieso irgendwann auffallen
- Du vermeidest rechtliche Grauzonen
- Manche finden KI-Podcasts interessant
Argumente dagegen
- Vorurteile gegenüber KI-Stimmen
- Der Inhalt zählt, nicht die Produktion
- Bücher nennen auch nicht den Drucker
Meine Empfehlung
Sei transparent. Ein kurzer Hinweis in den Show Notes reicht: "Dieser Podcast nutzt KI-gestützte Sprachsynthese. Der Inhalt wurde von [Name] recherchiert und geschrieben."
Erfolgsfaktoren
Content ist King
Die beste Stimme hilft nicht bei schlechtem Inhalt. Investiere 80% deiner Zeit in Script und Recherche.
Konsistenz
KI ermöglicht regelmäßige Veröffentlichung. Nutze das — Algorithmen belohnen Konsistenz.
Nische finden
In Mainstream-Themen konkurrierst du mit Persönlichkeiten. In Nischen zählt der Inhalt mehr.
Community aufbauen
Interagiere mit Hörern über Social Media, Newsletter, Discord. Die Stimme ist synthetisch, du nicht.
Fazit: Die Stimme ist nur das Medium
Ein KI-Podcast mit ElevenLabs ist technisch einfach umzusetzen. Die echte Arbeit liegt im Inhalt — genau wie bei traditionellen Podcasts.
Wenn du wertvolle Informationen, Geschichten oder Perspektiven hast, ist die KI-Stimme ein legitimes Werkzeug, um sie zu teilen. Die Qualität ist heute gut genug, dass die meisten Hörer keinen Unterschied merken.
Die Frage ist nicht "Kann ich einen KI-Podcast machen?" sondern "Habe ich etwas zu sagen?"
🎙️ Starte deinen Podcast
Mit ElevenLabs generierst du professionelle Podcast-Audio in Minuten statt Stunden.
ElevenLabs kostenlos testen →Tags
Über den Autor

Jan Koch
KI Experte, Berater und Entwickler. Ich helfe Unternehmern und Entwicklern, KI effektiv einzusetzen - von der Strategie bis zur Implementierung.