Welche Speech-Modelle bietet Nodion.ai an?

Nodion.ai bietet die Qwen3-ASR-Familie für Speech-to-Text (0.6B und 1.7B Parameter) und die Qwen3-TTS-Familie für Text-to-Speech (0.6B und 1.7B Parameter), inklusive individuellem Voice Cloning. Alle Modelle sind Open Source.

Ist die Nodion.ai Speech API DSGVO-konform?

Ja. Wie alle Nodion.ai-Dienste läuft die Speech API vollständig auf EU-basierter GPU-Infrastruktur in Schweden und Finnland. Keine Daten verlassen die EU. Betrieben von der Nodion GmbH, einem deutschen Unternehmen. Dies ist besonders wichtig für Sprachdaten, die gemäß DSGVO biometrische Daten sind.

Was ist individuelles Voice Cloning?

Individuelles Voice Cloning ermöglicht es Ihnen, eine synthetische Stimme zu erstellen, die wie ein bestimmter Sprecher klingt. Laden Sie eine kurze Audio-Referenz hoch und das Modell generiert Sprache in dieser Stimme. Alle Sprachdaten verbleiben auf EU-Infrastruktur.

Welche Sprachen werden unterstützt?

Qwen3-ASR- und TTS-Modelle unterstützen mehrere Sprachen, darunter Englisch, Deutsch, Französisch, Spanisch, Chinesisch, Japanisch, Koreanisch und viele mehr. Ideal für mehrsprachige europäische Unternehmen.

Inference Embeddings Rerank Images Speech Guard

KI Speech-to-Text &
Text-to-Speech,
entwickelt für Europa.

Hauptsitz Deutschland 100% EU-Datenresidenz

Audio transkribieren und Sprache generieren auf europäischen GPUs.
Open-Source-Modelle mit individuellem Voice Cloning.
Ihre Sprachdaten verlassen niemals die EU.

Kostenloses Konto erstellen 5 Min./Monat kostenlos

// Modelle + Preise

Speech-Modelle

Wir betreiben die Qwen3-ASR- und TTS-Modellfamilien für Spracherkennung und Synthese. Mehrsprachig, offene Gewichte und optimiert für produktive Workloads. Individuelles Voice Cloning inklusive.

Alle Modelle laufen auf modernen Blackwell- oder neueren Chips für ideale Performance. Free Tier bei allen Modellen inklusive.

Qwen

Speech-to-Text

Qwen3-ASR-0.6B

Schnelle, leichtgewichtige Transkription. Ideal für Hochdurchsatz- oder Echtzeit-Workloads.

0,006 € / Minute Coming soon

Parameter0.6B

AufgabeSpeech-to-Text

SprachenMehrsprachig

Preis0,006 € / Min.

Qwen3-ASR-1.7B

Höhere Genauigkeit für komplexes Audio. Am besten für Meetings, Anrufe und laute Umgebungen.

0,01 € / Minute Coming soon

Parameter1.7B

AufgabeSpeech-to-Text

SprachenMehrsprachig

Preis0,01 € / Min.

Text-to-Speech

Qwen3-TTS-0.6B

Schnelle Sprachsynthese mit natürlicher Intonation. Ideal für Benachrichtigungen und kurze Inhalte.

0,015 € / 1K Zeichen Coming soon

Parameter0.6B

AufgabeText-to-Speech

Eigene StimmeJa

Preis0,015 € / 1K Zeichen

Qwen3-TTS-1.7B

Premiumqualität-Synthese. Ausdrucksstarke, natürliche Sprache für Hörbücher, Assistenten und kundenorientierte Inhalte.

0,020 € / 1K Zeichen Coming soon

Parameter1.7B

AufgabeText-to-Speech

Eigene StimmeJa

Preis0,020 € / 1K Zeichen

Free tier

5 Min. Transkription & Synthese/Monat Keine Kreditkarte nötig

Individuelles Voice Cloning

Erstellen Sie eine synthetische Stimme, die wie ein bestimmter Sprecher klingt. Stellen Sie eine kurze Audio-Referenz bereit und das TTS-Modell generiert neue Sprache in dieser Stimme. Ideal für Markenstimmen, virtuelle Assistenten oder personalisierte Inhalte.

Funktioniert mit beiden TTS-Modellen. Kein Fine-Tuning erforderlich. Ohne zusätzliche Kosten in jedem TTS-API-Aufruf enthalten.

1. Laden Sie ein kurzes Audio-Sample hoch (10+ Sekunden empfohlen)
2. Referenzieren Sie die Stimme in Ihren TTS-API-Aufrufen
3. Generieren Sie Sprache in dieser Stimme aus beliebigem Text

Alle Sprachdaten verbleiben auf EU-Infrastruktur. Keine Sprachdaten werden nach der Verarbeitung gespeichert, es sei denn, Sie erstellen ausdrücklich ein gespeichertes Stimmprofil.

// Was Sie damit bauen können

Anwendungsfälle

Speech-APIs ermöglichen eine Vielzahl von Anwendungen. Von Transkriptions- Pipelines bis hin zu sprachgesteuerten Produkten.

Meeting- & Anruf-Transkription

Transkribieren Sie Meetings, Anrufe und Interviews in Echtzeit oder aus Aufnahmen. Mehrsprachige Unterstützung für europäische Teams, die sprachübergreifend arbeiten.

Sprachassistenten & Chatbots

Kombinieren Sie Speech-to-Text und Text-to-Speech für vollständig sprachgesteuerte KI-Assistenten. Verarbeiten Sie Spracheingaben, generieren Sie eine Antwort und geben Sie diese als Sprache aus.

Inhaltsvertonung

Verwandeln Sie Artikel, Dokumentationen oder E-Learning-Inhalte in natürlich klingendes Audio. Nutzen Sie eigene Stimmen für eine konsistente Markenidentität in allen Inhalten.

Barrierefreiheit

Machen Sie Ihre Anwendung barrierefrei mit Text-to-Speech für sehbeeinträchtigte und Speech-to-Text für hörbeeinträchtigte Nutzer. Standardmäßig DSGVO-konform.

// Für Teams, die mehr brauchen

Sie brauchen mehr? Der Business Plan deckt alle Nodion.ai- Produkte ab: Inference, Embeddings, Images, Speech und mehr. 500 €/Monat, dedizierte GPU-Kapazität, 99,5 % SLA.

Business Plan ansehen →

// Erste Schritte

API-Dokumentation

Die Speech API folgt dem OpenAI Audio API-Format. Nutzen Sie dieselben Endpunkte und SDKs, die Sie bereits kennen.

            # Base URL

            https://api.nodion.ai/v1

Speech-to-Text

            # Transcribe audio

            curl https://api.nodion.ai/v1/audio/transcriptions \

              -H "Authorization: Bearer $NODION_API_KEY" \

              -F file=@meeting.mp3 \

              -F model=qwen/qwen3-asr-1.7b

Text-to-Speech

            # Generate speech

            curl https://api.nodion.ai/v1/audio/speech \

              -H "Authorization: Bearer $NODION_API_KEY" \

              -H "Content-Type: application/json" \

              -d '{

                "model": "qwen/qwen3-tts-1.7b",

                "input": "Welcome to Nodion, your European AI platform."

              }' \

              --output speech.mp3

Unterstützt: /v1/audio/transcriptions, /v1/audio/speech. Eigene Stimme über den voice-Parameter. Mehrere Audioformate.

// warum das wichtig ist

DSGVO-nativ. Sprachdaten sind biometrische Daten gemäß DSGVO. Unsere Infrastruktur stellt sicher, dass sie niemals die EU verlassen. Keine transatlantischen Transfers. Keine Angemessenheitsbeschluss-Risiken.

Nordische grüne Energie. GPU-Cluster in Schweden und Finnland laufen mit erneuerbarer Energie. Kaltes Klima bedeutet natürliche Kühlung, weniger Energieverschwendung, kleinerer Fußabdruck.

Keine US-Abhängigkeit. Deutsches Unternehmen. EU-Server. Open-Source-Modelle. Volle Souveränität ohne Hyperscaler-Abhängigkeit.

Nur Open Source. Jedes Modell, das wir betreiben, ist vollständig offen. Sie können die Gewichte einsehen, die Architektur verstehen und die Ausgaben überprüfen.

OpenAI-kompatible API. Drop-in-Ersatz. Ändern Sie Ihre Base-URL und Sie verarbeiten Sprache auf souveräner europäischer Infrastruktur.

Bereit loszulegen?

5 minutes of transcription and synthesis per month. No credit card required.

Kostenloses Konto erstellen

KI Speech-to-Text &Text-to-Speech,entwickelt für Europa.

Speech-Modelle

Anwendungsfälle

API-Dokumentation

Speech-to-Text

Text-to-Speech

Bereit loszulegen?

KI Speech-to-Text &
Text-to-Speech,
entwickelt für Europa.