ivanka test-setup

felix schwenzel, , in artikel    

letzte woche kam der raspberry und ein ps3 eye kamera/mikrofon, das ich neben den anderen komponenenten für ivanka bestellt hatte. auf die lieferung von eckstein, mit dem aufsteckmikrofon-hat und lautsprecher, warte ich noch immer. ich versuche ja eher weniger bei amazon zu bestellen, aber wenn man sich anguckt wie eckstein meine bestellung händelte, fühle ich mich inspiriert dann doch wieder lieber bei amazon zu bestellen. von eckstein wurde vor allem stille geliefert, erst als ich nach über einer woche nachfragte, antwortete man mir, dass es störungen im zulieferungsprozess gäbe (meine worte) und ich mich noch mindestens eine woche gedulden müsse.

trotzdem konnte ich mir meine neue sprachassistentin, die alexa ablösen soll, zusammenbauen. an den raspberry schloss ich, neben den kamera/mikorofon von sony, dass gerade mal 10 euro kostet aber 4 richtmikrofone verbaut hat und exzellente empfehlungen für sprachassistenten hat, einen batteriebetriebenen mini-lautsprecher, der noch bei uns rumlag, an den kopfhörerausgang an. auf eine SD-karte kopierte ich raspbian, so wie die hervorragende snips-doku das empfiehlt, der ich schritt für schritt folgte.

das betriebsystem und snips selbst zu installieren ging schnell und war nicht übermässig anspruchsvoll. die tools, insbesondere das snips eigene sam, macht die installation wirklich einfach — wenn man mindestens weiss was eine kommandozeile ist. ein bisschen kniffelig war ein konfigurationsaspekt, der eher schlecht dokumentiert ist. seit ein paar releases lässt die snips konfigurationsdatei (/etc/snips.toml) nämlich zu, dass man, statt des mosquitto mqtt-servers auf dem raspberry, auch seinen vorhandenen, eigenen mosquitto nutzen kann. das problem (bei mir) war allerdings, dass mit dem externen, also dem vorhandnen mqtt-server, nichts mehr richtig funktionierte. die spracherkennung funktionierte noch, aber weder der demo-client noch nachinstallierte apps wollten richtig funktionieren. nach einigen stunden debugging war klar, mit externem mqtt geht’s nicht. zu viele komponenten, vor allem aber zu viele fertige action-scripte haben den lokalen mqtt-server hardgecodet auf localhost:1883.

das ist aber auch kein problem, ich habe den lokalen snips-mosquitto einfach in meinen eigenen mosquitto gebridged. in der /etc/mosquitto/mosquitto.conf habe ich folgendes ergänzt:


connection snipsmqtt
address <remote ip>:<port>
remote_username <username>
remote_password <password>
remote_clientid snips
start_type automatic
topic hermes/dialogueManager/# in
topic hermes/asr/# in
topic hermes/hotword/# out
topic hermes/intent/# out
topic hermes/asr/# out
topic hermes/hotword/# out
topic hermes/nlu/# out
topic hermes/tts/# in

damit leitet der snips-mosquitto alle relevanten topics an meinen homeassistant-mqtt-server weiter und empfängt alles was homeassistant zurückschickt.

snips nutzt mqtt als bus. das heisst, alle snips-komponenten kommunizieren über mqtt. der snips-audioserver sendet ständig audiosample-schnipsel über mqtt, die wiederum von der snips wake-/hotword-komponente aufgefangen und analysiert werden. schlägt die hotword komponente alarm, schnappt die ASR-komponente (Automatic Speech Recognition) die audio-samples auf und versucht gesprochenen worte aus den audio-samples zu extrahieren. die extrahierten, gesprochenen sätze werden dann wieder über mqtt an die NLU-komponente (Natural Language Understanding) weitergegeben, die aus den worten den sinn zu exrahieren versucht. danach übernehmen scripte, aktionen oder dialog-komponenten und am ende die tts-komponente (Text to Speech). alles über mqtt.

bevor ich weiter in technische details gehe, fang ich mal mit dem fazit an: das funktioniert alles sehr, sehr gut, mit ein paar abstrichen.

sowohl das eingebaute, mitgelieferte hot-/wakeword (auf deutsch nur eins: „hey snips“), als auch die spracherkennung und analyse funktioniere solide. die standardmässige sprachausgabe, die, wie alles andere, lokal auf dem raspberry stattfindet, ist ein bisschen erbärmlich. pico2wave hört sich noch schlimmer an, als die unheimlichen, von apple mitgelieferten tts-stimmen (auf deutsch „Anna“, auf englisch „Alex“, „Fred“, „Samantha“ und „Victoria“).

ebenso enttäuschend wie die sprachsynthese, ist die personalisierte, „custom“ hotword-erstellung. ein bisschen war das ja der witz, eine sprachassistin zu haben die wir nicht mit „alexa“ aufrufen müssen, sondern mit „ivanka“. snips liefert ein python-script mit dem die aufnahme von audio-schnipseln wirklich einfach ist und diese persönlichen modelle reagieren dann auch auf „ivanka“, aber eben auch auf geschirrklappern, naseschnäuzen, husten oder wenn die beifahrerin etwas lauter redet. auf was diese persönlichen modelle nicht reagieren: wenn die beifahrerin „ivanka“ sagt. um universelle hotword-modelle zu bauen, die mit verschiedenen, möglichst allen stimmen und dialekten funktionieren, benötigt man tausende verschiedene sprachsamples mit denen dann das modell trainiert wird.

die schwächen der weckwort-erkennung, sowie der standard text-zu-sprache-komponente, lassen sich aber dank der extrem modularen bauweise von snips gut beheben. weil eben alles über den mqtt-bus geht und die komponenten nicht direkt, sondern eben über über mqtt-nachrichten kommunizieren, kann man einfach komponenten ergänzen oder austauschen. dazu in einem anderen artikel mehr.

der rest von snips funktioniert aber, wie gesagt, enorm befriedigend. die spracherkennung, das anlegen, pflegen von skills, intents, slots und die integration in home-assistant funktionieren so gut, dass ich die original alexa bereits vor vier tagen ausgestöpselt habe. die von uns am häufigsten genutzten alexa-funktionen (lichtsteuerung in der küche, timer, einkaufsliste (via bring), wetter) konnte ich bereits alle in snips nachbauen. dazu in separaten artikeln mehr.

was mich an der original-alexa damals sehr begeistert hat war, dass sie mich auch hörte (wenn’s ruhig war), wenn ich neben der küche auf dem klo sass und sagte: „alexa, licht im flur ausschalten!“ ich fand das gleichzeitig (technisch) beeindruckend, aber auch ein bisschen creepy. wenn alexa mich bei geöffneten türen (und ruhe) auch auf dem klo hört, was hört sie sonst noch alles? mein provisorischer snips-setup mit dem ps3 eye kamera/mikrofon funktioniert aber erstaunlicherweise genauso gut! ohne sonderlich laut zu werden, kann ich snips auch auf dem klo sitzend sagen, das licht im flur an (oder aus) zu schalten.

ich bin gespannt, ob der etwas kompaktere mikrofon-hat, wenn er denn irgendwann mal von eckstein geliefert wird, genauso beeindruckend funktionieren wird.

snips
von links: alexa (offline), ps3 eye kamera/mikrofon, raspberry und ein lautsprecher. dazwischen bastelkram.

die original alexa liegt noch in der küche, allerdings offline und kabellos, als kandis-dosen-beschwerer. so richtig vermisst habe ich sie in den letzten tagen, seit dem sie offline ist, nicht. snips ist toll!

ivanka

felix schwenzel, , in notiert    

ich mag alexa. sie sitzt seit etwa über einem jahr bei uns auf dem küchentisch und hilft mir und der beifahrerin dabei unsere verschiedenen ansichten darüber auszutragen, was die richtige beleuchtungsstärke ist. die beifahrerin braucht in der küche festbeleuchtung und sagt immer: „alexa, licht an“. ich reduziere das dann gerne: „alexa, küche 70%“, damit es in der küche nicht allzu gleissend ist. vorm ins bett gehen sage ich „alexa, alles aus“ oder drücke auf den lichtschalter, aber in beiden fällen sagt alexa dann auch „gute nacht“.

ich habe alexa auch beigebracht sich in meinem namen bei der beifahrerin zu bedanken, wenn ich nicht da bin und sie die spülmaschine einschaltet (eigentlich meine aufgabe). alexa begrüsst uns auch, wenn wir nach hause kommen.

wenn gäste da sind sage ich immer: „alexa, pupsgenerator“ und auch wenn ich der einzige bin der dann lacht, finde ich das eine grossartige krönung von 40 jahren forschung in den bereichen KI und maschinellem lernen.

was alexa nicht kann: den vorhang öffnen (weil „öffnen“ für schlösser vorgesehen ist und das schlossöffnen derzeit aus sicherheitsgründen von amazon deaktiviert ist). auch „alexa, das essen ist fertig“ will alexa nicht verstehen, weshalb ich immer selbst auf den essen-ist-fertig-knopf unter dem tisch drücken muss, der den essensgong betätigt und das licht runterdimmt.

letzte woche hat die beifahrerin citizenfour gesehen. seit dem möchte sie alexa nicht mehr in der küche haben. ich finde das nur mitteltraurig, mir ist alexa auch zunehmend unheimlich und widerspricht meinem besteben, unsere wohnung ohne cloud-gedöns zu automatisiern und zu bedienen.

grundsätzlich klappt das bereits ganz gut, die wohnungsautomatisierungen funktionieren auch ohne internet: vorletzte woche bin ich (sehr) früh morgens wach geworden, und wie gewohnt leuchteten mir funzelige nachtlichter den weg zum klo, die küche machte sich gerade so hell, wie es meine schlaftrunkenen augne aushalten — ohne dass ich auch nur einen schalter betätigen oder mit irgendwem reden musste.

nur die (selbstgemachte) uhr an der wand zeigte die falsche uhrzeit an. das lag daran, dass die fritzbox meinte, es läge eine kabelstörung „18 meter“ von ihr entfernt vor (genauso hat es die fritzbox ausgedrückt) und keine internetverbindung herstellen könnte. die wanduhr hat offenbar einen kleinen fehler, sie fragt einen externen zeitserver ab, statt die fritzbox nach der zeit zu fragen (die fritzbox kann man als NTP-server nutzen, wie ich seit kurzem weiss). nach einem neustart der fritzbox schien die kabelstörung dann auch behoben, aber wichtiger war: alle sensoren und aktoren hier in der wohnung konnten problemlos weiter miteinander über das lokale netzwerk reden, solange das internet weg war.

jedenfalls, alexa muss weg aus der küche. weil die beifahrerin das so will und ich ihr im prinzip (leider) recht geben muss. deshalb habe ich mir jetzt bei amazon (sic!) einen raspberry pi 3 für 32,00 € gekauft und bei eckstein einen mikrofon hat für 10,00 €. mit netzteil und einem kleinen lautsprecher und versandkosten machte das genau 60,04 €, genau 5 cent mehr als der aktuelle echo dot.

auf den raspberry soll snips, eine (relativ) quelloffene stimm-butler applikation, die spracherkennung auch offline und nach eigenen bedürfnissen anpassbar anbietet. einen namen für den apparat haben wir auch schon gefunden, sie soll ivanka heissen.

ich bin sehr gespannt und auch noch sehr optimistisch, was ich ivanka alles beibringen kann.

eisensack

felix schwenzel, , in notiert    

eier aus mango (symbolbild)

ich hatte immer den eindruck, dass englisch als vorherschende sprache in der populärmusik vor allem einen zweck hat: die peinlichkeit der texte zu kaschieren. spätestens wenn man liedtexte auf deutsch übersetzt, fällt einem ihre schwachsinnigkeit auf. über den umweg der fremdsprache lässt sich auch auf den grössten quatsch souveränität projezieren. über den umweg des denglischen, können wir sachen sagen, die uns in der muttersprache peinlich wären.

andererseits ist das auch unsinn: mit einer gewissen haltung oder souveränität, lässt sich grosser quatsch auch muttersprachlich ausdrücken — ohne allzu peinlich zu wirken. udo lindenberg zeigt das bereits seit gefühlt zweihundert jahren.

aber trotzdem flüchten wir, egal ob gesungen, geschrieben oder gesprochen, immer gerne ins denglische um profanes, langweiliges aufzupeppen: wir machen aus dem betrachten von leinwänden oder grossbildschirmen ereignisse, indem wir von public viewing sprechen. statt jemanden zu schmähen, dissen wir, abstimmen hört sich als voten viel digitaler und moderner an.

und wenn wir männer dafür loben wollen, dass sie ihren beruf ganz gut ausüben, sagen wir balls of steel, weil sich verhärtungen im geschlechtsbereich einfach nicht so beeindruckend anhört.

weil ich aber auch ein grosser freund der akkuratesse bin, habe ich überlegt, wie man balls of steel übersetzen könnte. eier aus stahl liegt nahe, zeigt aber gleich warum das ausser jan böhmermann niemand sagt: ohne ironischen bruch spülen die eier aus stahl viel zu viel pathos nach oben. und pathos bei der beschäftigung mit männlichen geschlechtorganen möchten die meisten männer nach kräften vermeiden, weshalb die ausflucht ins englische logisch erscheint.

stahlnüsse fände ich ganz niedlich, aber gegenüber bällen sind nüsse natürlich auch eine herabsetzung, aber gerade das macht dieses lob sympatisch.

enthielten der hodensack tatsächlich testikel aus gehärtetem eisen, wäre das fraglos sehr unpraktisch, aber so richtig fällt einem dieser umstand erst auf, wenn man die situation im schritt mit eisensack beschriebe.

ganz abgesehen davon habe ich mich beim schreiben gerade gefragt, ob man auch aus der metalisierung anderer männlicher körperteile vermeintliche komplimente konstruieren könnte. schon die ersten versuche zeigen — eher nicht:

anus aus stahl, eisenfinger, metallkopf, silberohr, blechzunge, kupferschwanz.

* * *

achso, ich bin abgeschwiffen. eigentlich wollte ich nur dieses video verlinken:

die faz veröffentlicht einen text von alexander gauland, der durchwirkt ist von ideen, die hitler 1933 in ner rede gepitcht hat. jakob augstein findet den text „klug“ und zitiert indirekt hitlers ideen. so schleichen fasch- & populismus ins establishment. (via)

* * *

ix sehe es ähnlich wie @mspro: er hat das „feindbild der afd rekonstruiert“ und analysiert und damit das faschistoide gedankenbild der afd passgenau paraphrasiert. diese paraphrasierung zeigt jetzt eben auch, dass diese „klugen“ gedanken schon 1933 populär waren und aufs die populistische strategie der afd beschreiben, so dass gauland oder seine ghostwriter sich offenbar der einfachheit halber gleich bei michael seemann bedient haben.

ich finde übrigens auch, dass michael seemann sich, anders als augstein, sehr viel differenzierter von diesem gedankenbild distanziert. das liebäugeln von augstein mit dem populismus (der für ihn gerne von links kommen kann) sehe ich eher kritisch.

witzeleien von @sixtus zum thema wie hier finde ich da wenig hilfreich, obwohl er später auch diesen text getwittert hat, in dem michael seemann nochmal ausführlich seine einschätzung darstellt — was dann eben auch ziemlich hilfreich ist bei der einschätzung der ganzen sache ist.

kurz: hut up @mspro!

„Filmkritik muss wieder mehr trollen“, findet alexander buchholz. find ix auch.
dasfilter.com/film/ein-film-mit-stuetzraedern…

Der Film würde Zweitklässler unterfordern, so kunstlos ausformuliert und offensichtlich wird der Bildungsroman wegerzählt. Entweder sind Grundschuldkinder seine angepeilte Zielgruppe oder aber, Florian Maria Georg Christian Graf Henckel von Donnersmarck hält sein Publikum für mächtig schwer von Begriff. In dem Film wird kaum etwas nicht unmissverständlich proklamiert. Da sagt Paula Beer, nachdem ihr Nazivater sie unfruchtbar gemacht hat: „Ich kann keine Kinder kriegen.“ Dreißig Minuten später sagt sie: „Ich kann doch Kinder kriegen.“ In diesem Stil geht das die ganze Zeit. Es ist zum Heulen. Alles begleitet von Max Richters Musik, die einem immer, aber auch wirklich immer, ganz haarklein vorschreiben will, was man zu fühlen hat. Ein Film mit Stützrädern unten dran, formal hüftsteif und die ganze Laufzeit über ausgeleuchtet wie eine Zahnarztpraxis, merkwürdigerweise auch in den Szenen, die im Dunkeln spielen – keine Ahnung, wie die das hinbekommen haben. Nicht eine Sekunde lang sieht Werk ohne Autor nicht wie ein abfotografiertes Filmset aus, sind die Protagonisten mehr als eindimensionale Abziehbilder. Nichts atmet hier. Ein überkontrollierter Riesenaufwand, alles für die Katz. Und all das nur, um die übliche Mär zu erzählen von den traumatisierten männlichen Identitäten, die sich mit Frauenleichen reparieren müssen.