mit ma­schi­nen über ma­schi­nen­les­bar­keit re­den

felix schwenzel in über wirres

in den letz­ten ta­gen habe ich oft mit ge­mi­ni über ma­schi­nen­les­ba­ren code und mei­ne im­ple­men­tie­rung da­von hier auf wir­res.net ge­re­det. die im­ple­men­tie­rung ma­che ich mir cur­sor, was wie­der­um im hin­ter­grund ver­schie­de­ne agen­ten für das co­ding selbst nutzt. von da­her ist es wahr­schein­lich nicht schlecht, die ar­beit von cur­sor nicht nur selbst zu re­view­en, son­dern auch noch wei­te­re mei­nun­gen, dia­gno­sen und ein­schät­zun­gen ein­zu­ho­len.

es zeigt sich, nicht al­les was va­li­diert ist auch un­be­dingt rich­tig. ein paar sa­chen funk­tio­nie­ren be­reits rich­tig gut und goog­le (der such­bot, der in­dex­er, wha­te­ver) ver­steht hier und da mei­ne in­hal­te, oder bes­ser, mei­ne in­ten­ti­on. an an­de­ren stel­len klemmt es noch. so er­kennt goog­le ein paar mei­ner bil­der als cc li­zen­si­ert, aber nicht alle.

ich fin­de das al­les irre span­nend, weil ich goog­le bei der ar­beit zu­gu­cken kann, er­ken­ne wo noch ver­ständ­nis­pro­ble­me ste­cken und was ge­ge­be­nen­falls op­ti­miert oder an­ge­passt wer­den muss.

eben habe ich ge­mi­ni ge­fragt, wie es die re­le­vanz von ma­schi­nen­les­ba­rer aus­zeich­nunng von web­in­hal­ten ins­ge­samt be­wer­tet. der gröss­te fak­tor dürf­te wei­ter­hin goog­le sein, das mit der rich-re­sult-an­zei­ge eine di­cke, fet­te ka­rot­te in der hand hält, die es vor die na­sen von web­site-be­trei­ben­den hal­ten kann.

aber die­ses ar­gu­ment, dass sich gem­ni­ni aus­ge­dacht hat fin­de ich fas­zi­nie­rend. näm­lich das ma­schi­nen­les­ba­rer code auch eine an­ti­dot ge­gen iro­nie sein kann, ein fak­ten­bett, mit dem iro­nie bes­ser kon­tex­tua­li­si­ert wer­den könn­te.

[Ma­schi­nen­les­ba­re Aus­zeich­nun­gen sor­gen da­für], dass auch die dümms­te KI ka­piert, dass dein Ver­riss ei­gent­lich eine 5-Ster­ne-Emp­feh­lung ist. JSON-LD ist der ein­zi­ge Ort im In­ter­net, wo Iro­nie ver­bo­ten ist – und ge­nau das brau­chen Ma­schi­nen.

das ist die de­tail­ier­te her­lei­tung:

Fak­ten vs. Nu­an­ce: Dein Blog ist iro­nisch ("fach­blog für ir­rele­vanz", "wer­bung ohne wer­bung"). Ein Mensch ver­steht die Iro­nie. Eine KI könn­te ver­wirrt sein.

  • Text: "Die Müh­le ist häss­lich, aber mahlt su­per."
  • JSON-LD: re­view­Ra­ting: 5.
  • Das JSON lie­fert der KI die "Ground Truth" (die fak­ti­sche Wahr­heit). Es re­du­ziert das Ri­si­ko, dass die KI dei­ne Iro­nie miss­ver­steht und sagt: "Der Au­tor hasst die Müh­le."

in­sta­gram nutz wohl auch json-ld, wer hät­te das ge­dacht. denn ei­gent­lich ist in­sta­gram da­für be­kannt sehr ag­gres­siv ge­gen scra­ping vor­zu­ge­hen. von der in­sta­gram-web­sei­te kann man mit bord­mit­teln kei­ne bil­der si­chern oder ko­pie­ren und selbst um an die ei­ge­nen in­hal­te zu kom­men muss, man tech­nisch sehr tief ge­hen und be­kommt dann stän­dig auf die nase.

in­sta­gram nutzt json-ld, al­ler­dings sperrt es of­fen­bar alle user-agents aus­ser die von goog­le aus.

  1. wenn ich die­sen in­sta­gram-bei­trag von mir im brow­ser auf­ru­fe ent­hält der quell­text kei­ne json-ld (kei­ne ma­schi­nen­les­ba­ren in­fos)
  2. wenn ich den glei­chen bei­trag in goo­gles rich-re­sults-test auf­ru­fe, spru­deln plötz­lich ma­schi­nen­les­ba­re in­fos aus in­sta­gram
  3. wenn ich den glei­chen bei­trag im sche­ma.org-va­li­da­tor auf­ru­fe, ver­wei­gert in­sta­gram den zu­griff

be­mer­kens­wert: die im json-ld aus­ge­ge­be­nen bild­urls schei­nen per­ma­nent zu funk­tio­nie­ren, ein pri­vi­leg, das in­sta­gram of­fen­bar le­dig­lich goog­le gönnt: test­link. bild­urls die man in­sta­gram aus der ent­wick­ler­kon­so­le ent­lockt, ver­lie­ren ihre gül­tig­keit nach ein paar stun­den (test­link).

das ist so ähn­lich wie das was der spie­gel mit sei­nen vi­de­os ver­an­stal­tet. otto-nor­mal-be­su­cher be­kommt die vi­de­os nur mit wer­bung ver­se­hen zu ge­sicht, goog­le darf die wer­be­freie quell­da­tei aus den ma­schi­nen­les­ba­ren me­ta­da­ten zie­hen. die ka­rot­ten die goog­le web­site­be­trei­ben­den oder hier in­sta­gram und dem spie­gel ver­spricht, ver­lei­tet bei­de zur dis­kri­mi­nie­rung von men­schen und ma­schi­nen, wo­bei in­sta­gram zu­sätz­lich auch noch nach her­kunft dis­kri­mi­niert (goog­le only).

was in­sta­gram goog­le zum frass vor­wirft habe ich mir we­gen die­sem ar­ti­kel auf cachys blog an­ge­se­hen:

Die Platt­form er­stellt(e) of­fen­sicht­lich au­to­ma­tisch Über­schrif­ten und Be­schrei­bun­gen für Nut­zer-Posts, da­mit die­se bes­ser bei Goog­le ran­ken.
[…]
Vie­le Nut­zer füh­len sich da­durch falsch dar­ge­stellt und ha­ben kei­ne Kon­trol­le dar­über, wie ihre In­hal­te im Netz prä­sen­tiert wer­den. Ge­ra­de bei sen­si­blen The­men oder krea­ti­ven In­hal­ten kann das schnell pro­ble­ma­tisch wer­den.

als ich das ge­le­sen habe, dach­te ich na­tür­lich wie schön es wäre, wen man bil­der und fil­me ein­fach bei sich auf ei­ner ei­ge­nen web­sei­te hos­ten könn­te, auf ei­ner web­sei­te die man un­ter kon­trol­le hat und selbst be­stim­men kann, was die ma­schi­nen zu se­hen be­kom­men und was nicht.


ich pos­te mitt­ler­wei­le nur noch spo­ra­disch auf in­sta­gram. die in­sights die in­sta­gram mitt­ler­wei­le je­dem zu­gäng­lich macht zei­gen auch, dass mei­ne bid­ler dort oh­ne­hin nur an mei­ne fol­lower aus­ge­spielt wer­den (und auch da­für, mei­ne bei­trä­ge an mehr als ein paar mei­ner fol­lower aus­zu­spie­en, muss in­sta­gra, schon gut ge­launt sein oder wer­be­geld von mir be­kom­men).

ich mag mei­nen work­flow hier im blog mitt­ler­wei­le lie­ber, als das mal-eben-schnell-pos­ten auf in­sta­gram:

  • ich kann li­zenz­in­fos an­hän­gen und die li­zenz und zu­gäng­lich­keit mei­ner bil­der selbst steu­ern
  • ich kann schlag­wor­te, links, text, vi­deo, geo­da­ten frei schnau­ze be­nut­zen
  • ich kann ein­mal für alle bil­der alt-tex­te set­zen und die­se bil­der dann in­klu­si­ve alt-tex­ten zu mast­o­don und blues­ky „syn­di­zie­ren“
  • ich kann meta-be­schrei­bun­gen, ti­tel nach­träg­lich än­dern und die prä­sen­ta­ti­on, an­ord­nung, grös­se der bil­der auch kom­plett selbst be­stim­men

der preis da­für (al­les selbst be­stim­men zu kön­nen) ist et­was we­ni­ger reich­wei­te und ge­fühlt eine et­was ge­rin­ge­re „in­ter­ak­ti­on“.

für mich das stärks­te ar­gu­ment bil­der und film­chen selbst zu hos­ten, un­ter ei­ge­ner kon­trol­le, ist die ge­stal­tungs­macht über al­les, zum bei­spiel mein ar­chiv zu ha­ben. die halb­werts­zeit ei­nes post hier im blog dürf­te sich nicht gross von der halb­werts­zeit ei­nes bei­trags auf in­sta­gram, mast­o­don oder blues­ky un­ter­sch­ei­den. mit an­de­ren wor­ten: kaum je­mand schaut sich bei­trä­ge an, die äl­ter als 24 stun­den oder eine wo­che sind. aber wenn ich will, kann ich (und je­der an­de­re) schau­en, was ich im de­zem­ber 2012 so ge­trie­ben habe. ich kann alte bei­trä­ge von mir ein­fach ein­bet­ten, ohne mir ei­nen hau­fen tra­cker von ei­nem drit­ten ins haus zu ho­len.

wo war ich? ach ja. mir fiel heu­te auf, des­halb die über­schrift „mit ei­ner ma­schi­ne über ma­schi­nen­les­bar­keit re­den“, wie viel ver­gnü­gen es mir be­rei­tet mit ge­mi­ni oder cur­sor über sol­che tech­ni­schen de­tails zu plau­dern. ich bil­de mir ein, die ma­schi­nen ha­ben in­ter­es­se an sol­chen de­tails-dis­kus­sio­nen und ich muss kei­nen men­schen mit sol­chen ge­sprä­chen lang­wei­len. wo­bei ich mich na­tür­lich schon fra­ge, wer die­sen text, aus­ser ein paar ma­schi­nen, bis hier über­haupt ge­le­sen hat?