Projektleiter Florian Ostermann bastelt privat an einem eigenen Sprachassistenten. Im Interview verrät er, welche Vorteile das hat und welche Funktionen er noch vermisst.
Alle Testergebnisse für Sprachassistenten

Florian Ostermann ist Projektleiter bei test und betreute unter anderem den Test Smarter Lautsprecher. © Stiftung Warentest / Hendrik Rauch
Wie bastelt man sich einen eigenen Sprachassistenten?
Zunächst einmal braucht man Hardware: einen smarten Lautsprecher, ein Mikrofon und vor allem einen Computer, der das System steuert. Ich verwende dafür einen Raspberry-Pi-Rechner, er hat nur 40 Euro gekostet. Und dann kommt die Software hinzu: Die stammt in meinem Fall von einem Open-Source-Projekt namens „Rhasspy“ – sie ist komplett gratis.
Wie heißt Dein Sprachassistent und was machst Du damit?
Er hört auf den Namen Jarvis, wie der Assistent in den Iron-Man-Comics. Ich kann damit zum Beispiel das Licht einschalten, den Fernsehsender wechseln oder den Wetterbericht abrufen. Die Fähigkeiten lassen sich beliebig erweitern.
Welche Funktionen vermisst Du im Vergleich zu Alexa und Co?
Alle Testergebnisse für Sprachassistenten
Ich kann Jarvis bislang keine Wissensfragen stellen oder mit ihm per Sprachbefehl die Musikwiedergabe steuern.
Warum hast Du Dich für ein eigenes System entschieden?
Vor allem aus Datenschutzgründen. Amazon Echo und andere smarte Lautsprecher hören uns passiv immer zu und senden unsere Daten an Serverfarmen großer Konzerne. Ich habe hingegen alles selbst unter Kontrolle: Meine Daten gehen nicht in die Cloud.
Kann das jeder?
Man muss schon technikaffin sein: Linux-Kenntnisse helfen, man sollte das Arbeiten mit der Kommandozeile beherrschen und auch Erfahrung im Programmieren mitbringen.
Wie viel Zeit geht dafür drauf?
Die Ersteinrichtung von Hard- und Software ist in wenigen Stunden erledigt. Aber das Programmieren dauert Tage: Da probiert man viel herum, scheitert immer wieder und muss dann herausfinden, woran es liegt. Und da ich ab und zu neue Fähigkeiten nachrüsten will, ist das vermutlich ein nie endendes Projekt.

Grundausstattung. Lautsprecher, Mikro und ein grüner Mini-Computer – das ist die Basis für ein Assistenz-System. © Stiftung Warentest / Hendrik Rauch
Was klappt bei Alexa, Google Assistant und Siri besser als bei Jarvis?
Meine Sprachbefehle müssen derzeit noch einen genau vorgegebenen Wortlaut haben. Alexa, Google und Siri sind da flexibler: Sie verstehen oft auch alternative Formulierungen, kommen also mit natürlichem Sprachgebrauch besser zurecht.
Wo siehst Du als Bastler und Testleiter Verbesserungspotenzial bei den großen Anbietern?
Ich glaube, dass sich Sprachassistenten und Datenschutz noch besser vereinen lassen als bisher. Bei seinen Pixel-Handys arbeitet Google zum Beispiel schon an lokaler Spracherkennung – das heißt, dass die Spracheingaben des Nutzers nicht in die Cloud gehen, sondern auf dem Handy bleiben. Das würde ich mir bei smarten Lautsprechern künftig auch wünschen.
Worüber ärgerst und freust Du Dich am meisten bei Deinem Sprachassistenten?
Manchmal nervt mich Jarvis tatsächlich. Zum Beispiel wenn ich ihn auffordere, den Fernseher einzuschalten, er aber antwortet: „Ich habe den Fernseher ausgeschaltet.“ Auf der anderen Seite ist es ein tolles Gefühl, wenn ich abends einfach „Jarvis, gute Nacht“ sage und sofort alle Lampen in meiner Wohnung ausgehen.
Alle Testergebnisse für Sprachassistenten
-
- Amazon, Google, Apple, Microsoft und Facebook – die Enthüllungen der letzten Monate haben gezeigt: Wo sogenannte „künstliche Intelligenz“ zur Spracherkennung...
-
- Smart Speaker im Test: Dabei sind mehrere, die Alexa und auch Google Assistant unterstützen, vier Smart Speaker haben einen Bildschirm. Wo stimmen Sound und Datenschutz?
-
- Sobald es funktioniert, nennt es niemand mehr künstliche Intelligenz. Dieser Spruch wird dem US-amerikanischen Informatiker John McCarthy zugeschrieben. Er gilt als...
Diskutieren Sie mit
Nur registrierte Nutzer können Kommentare verfassen. Bitte melden Sie sich an. Individuelle Fragen richten Sie bitte an den Leserservice.
Nutzerkommentare können sich auf einen früheren Stand oder einen älteren Test beziehen.
Warentest hat die Barrierefreiheit von Alexa mit "sehr gut" bewertet. Dieser Einschätzung würde ich nur bedingt folgen. Ja, einstellbare Sprachgeschwindigkeit und adaptives Zuhören sind sehr wichtige Funktionen. Völlig außen vor bleiben jedoch Menschen mit Schwierigkeiten bei der exakten Artikulation von Wörtern. Kann das Triggerwort "Alexa" (oder eine der anderen wählbaren Triggerwörter) nicht hinreichend gut ausgesprochen werden, bleibt der Nutzer außen vor. Gemäß meinen Erfahrungen ist Alexa bei der Bewertung des Triggerwortes deutlich intoleranter als bei der nachfolgenden Kommunikation. Wünschenswert hier wäre eine Einlernfunktion für Alexa, die es dem Nutzer ermöglicht, ein indiviuelles Triggerwort in seiner individuellen Artikulation abzulegen.
Mit freundlichem Gruß
JuttaS