ma­schi­nen­les­ba­rer kee­se

felix schwenzel

chris­toph kee­se schreibt:

Im­mer wenn ich Ro­bots.txt, die von Goog­le be­vor­zug­te Rech­te­spra­che, kri­ti­sie­re, ha­gelt es Vor­wür­fe der Lüge und Dumm­heit. Man­che mei­nen, ich sei dumm und ver­lo­gen zu­gleich.

und dann zählt er eine lis­te von „In­for­ma­tio­nen“ auf, „die man in [eine] gute ma­schi­nen­les­ba­re Rech­te­spra­che ein­tra­gen kön­nen soll­te, und die von an­de­ren Markt­teil­neh­mern zu be­rück­sich­ti­gen wä­ren“. fast alle in­for­ma­tio­nen die kee­se auf­lis­tet kann man be­reits jetzt in ver­lags­pro­duk­te die von ver­la­gen ins netz ge­stellt wer­den ein­tra­gen oder ge­nau­so wie er for­dert um­set­zen. ei­ni­ge die­ser in­form­tio­nen wer­den vom axel-sprin­ger-ver­lag be­reits auf sei­nen web­sei­ten ge­nutzt, vie­le nicht. was der­zeit kei­ne such­ma­schi­ne und kein ag­gre­ga­tor aus­wer­tet, sind preis­in­for­ma­tio­nen. die­se wä­ren aber ohne wei­te­res ma­schi­nen­les­bar in jede ver­lags­sei­te ein­bett­bar. so­bald ein ver­lag an­fängt die­se ma­schi­nen­les­bar ein­ge­bet­te­ten prei­se für ag­gre­ga­ti­on oder vers­nip­pung oder zu­gäng­lich­ma­chung ein­zu­kla­gen, wer­den such­ma­schi­nen die­se preis­in­for­ma­ti­on ga­ran­tiert sehr schnell be­ach­ten. al­ler­dings ziert sich der axel-sprin­ger-ver­lag bis­her sehr, die­se prei­se ir­gend­je­man­dem zu nen­nen. so sag­te ma­thi­as döpf­ner kürz­lich:

Nach An­ga­ben von Döpf­ner hat das US-Un­ter­neh­men auch nach Jah­ren der Aus­ein­an­der­set­zung „noch nie nach dem Preis ge­fragt, der uns vor­schwebt“.

auch die men­schen­les­ba­re „rech­te­spra­che“ des axel-sprin­ger-ver­lags, bei­spiels­wei­se die „nut­zungs­re­geln“ die das sprin­ger-blatt „die welt“ ins netz stellt, zäh­len die rech­te die kee­se ger­ne in ei­ner ma­schi­nen­les­ba­ren rech­te­spra­che se­hen möch­te nicht son­der­lich dif­fe­ren­ziert auf:

Der In­halt der in­ter­ak­ti­ven Web­sei­ten von DIE WELT ist ur­he­ber­recht­lich ge­schützt. Die Ver­viel­fäl­ti­gung, Än­de­rung, Ver­brei­tung oder Spei­che­rung von In­for­ma­tio­nen oder Da­ten, ins­be­son­de­re von Tex­ten, Text­tei­len oder Bild­ma­te­ri­al, ist ohne vor­he­ri­ge Zu­stim­mung von DIE WELT nicht ge­stat­tet.

die­se nut­zungs­rech­te kom­men mir vor, wie ein un­dif­fer­ten­zier­ter, gro­ber, recht­li­cher klotz oder in kee­ses wor­ten ein „licht­schal­ter“. auf der web­sei­te der welt kann ich aus­ser den oben zi­tier­ten gro­ben nut­zungs­be­din­gun­gen (die de­fac­to al­les ver­bie­ten) kei­ne in­for­ma­tio­nen zur ge­werb­li­chen nut­zung, li­zen­sie­rung, ag­gre­ga­ti­on, ar­chi­vie­rung oder wei­ter­ga­be fin­den.

tat­sa­che ist, dass der gross­teil von dem was kee­se hier for­dert be­reits exis­tiert und in der pra­xis funk­tio­niert. ich gehe kee­ses lis­te wei­ter un­ten mal im de­tail durch.


ich wun­de­re mich in wel­che ka­te­go­rie die ag­gre­ga­ti­on von ver­lags­in­hal­ten durch so­zia­le netz­wer­ke fällt. denn auf fast al­len web­sei­ten des axel-sprin­ger-ver­lags wer­den die nut­zer (üb­ri­gens ohne dif­fe­ren­zie­rung in ge­werb­li­che und pri­va­te nut­zer) auf­ge­for­dert die in­hal­te über so­zia­le netz­wer­ke (twit­ter, goog­le-plus, face­book) zu agg­re­gie­ren. bei der nut­zung die­ser but­tons kann es durch­aus pas­sie­ren, dass ich in­hal­te „an Ge­wer­be“ wei­ter­ge­be. oder als ge­wer­be­trei­ben­der in­hal­te an „Pri­vat­per­so­nen“ wei­ter­ge­be. sol­len twit­ter, face­book, goog­le-plus küf­tig dann auch die ma­schi­nen­les­ba­ren rech­te­spra­che ho­no­rie­ren? muss twit­ter den „tweet“-but­ton künf­tig für ge­wer­be­trei­ben­de de­ak­ti­vie­ren, wenn die sei­te ma­schi­nen­les­bar als nicht-ge­werb­lich-agg­re­gier­bar aus­ge­zeich­net ist?


Name des Text­au­to­ren (✓)
mach­bar mit aut­hor­ship-mark­up. wird auch auf vie­len sei­ten des axel-sprin­ger-ver­lags ein­ge­setzt. was ist ei­gent­lich mit au­torin­nen?

Name des Bild­au­to­ren (✓)
so­weit ich sehe der­zeit nicht ma­schi­nen­les­bar mach­bar, al­ler­dings wird das auch in den sel­tens­ten fäl­len men­schen­les­bar ge­macht. meis­ten steht am foto et­was wie „Foto: dpa“, „Fo­tos: © ZDF“, „Foto: AFP“, oft gar nichts (bei­spiel 1, bei­spiel 2)

es spricht aber nichts da­ge­gen, den bild­au­to­ren in die ma­schi­nen­les­ba­re bild­un­ter­schrift ein­zu­tra­gen. das geht be­spiels­wei­se mit ei­ner bil­der-XML-site­map. da­mit kann man auch die bild-li­zenz ma­schi­nen­les­bar an­ge­ben.

[nach­trag 12.12.2012 23:33]
meh­re­re kom­men­ta­to­ren und tors­ten kleinz wei­sen dar­auf hin, dass man au­toren-in­for­ma­tio­nen auch in den EXIF oder IPTC-da­ten von bil­dern ab­spei­chern kön­ne. da­mit kann man wohl auch die li­zenz, bzw. li­zen­in­for­ma­tio­nen ein­bet­ten.

Name des Ver­lags (falls vor­han­den) (✓)
wel­cher ver­lag hat denn in deutsch­land noch kei­nen na­men? ab­ge­se­hen da­von ist es mög­lich den na­men des ver­lags ne­ben dem au­toren­na­men an­zu­ge­ben und wird bei­spiels­wei­se so bei der welt ge­macht. da­für kann kann man ei­ner­seits klas­si­che meta-tags nut­zen, die es — glau­be ich — seit un­ge­fähr 20 jah­ren in die­ser form gibt:

oder wie die welt es be­reits nutzt, mit ei­nem ein­fa­chen, von goog­le aus­ge­wer­te­ten me­ta­tag im hea­der der sei­te:

Name der Web­sei­te (✓)
ist mit meta-tags, og-tags oder di­ver­sen mi­cro­for­ma­ten mög­lich und das wird auch von den meis­ten ag­gre­ga­to­ren und such­ma­schi­nen aus­ge­wer­tet:

Name der be­auf­trag­ten Clea­ring- oder Ab­rech­nungs­stel­le (✘)
Name der das Recht wahr­neh­men­den Ver­wer­tungs­ge­sell­schaft (✘)
da es die­se clea­ring- oder ab­rech­nungs­stel­len of­fen­bar noch nicht gibt, ist das na­tür­lich un­sinn eine an­ge­ben zu wol­len. ich habe auch auf kei­ner web­sei­te des axel-sprin­ger-ver­lags hin­wei­se auf eine sol­che clea­ring­stel­le ge­fun­den, we­der ma­schi­nen­les­bar oder men­schen­les­bar. gäbe es eine clea­ring­stel­le, lässt die sich si­cher­lich gut in die ma­schi­nen­les­ba­ren li­zenz­in­for­ma­tio­nen (sie­he un­ten) ein­bet­ten.

an­de­rer­seits ist das für mich lo­gisch schwer nach­zu­voll­zie­hen; kee­se for­dert, dass such­ma­schi­nen et­was be­rück­sich­ti­gen für das erst durch ein leis­tungs­schutz­ge­setz eine recht­li­che grund­la­ge ge­schaf­fen wür­de?

Ein­zu­hal­ten­de Zeit­ver­zö­ge­rung bei Nut­zung durch Drit­te (✓)
das ist bei­reits jetzt un­pro­ble­ma­tisch um­zu­set­zen. se­riö­se ag­gre­ga­to­ren re­spek­tie­ren die ro­bots.txt an­wei­sun­gen die man auch ei­nem ein­zel­nen ar­ti­kel mit­ge­ben kann. es wäre also kein pro­blem das ver­lags­sei­tig zu lö­sen: je­der ar­ti­kel der erst nach ei­ner be­stimm­ten zeit durch drit­te ge­nutzt wer­den soll, be­kommt ein­fach für die zeit in der er nicht ge­nutzt wer­den darf ei­nen ro­bots-meta-tag:

so­bald der ar­ti­kel durch drit­te ge­nutzt wer­den darf, steht auf der sei­te

Ge­werb­li­che Ko­pie er­laubt / nicht er­laubt (?)
Preis für ge­werb­li­che Ko­pie (✘)
Ma­xi­mal An­zahl der ge­werb­li­chen Ko­pien (?)
ich ver­ste­he nicht was das ge­nau be­deu­ten soll. ich fer­ti­ge ja eine ko­pie in mei­nem brow­ser-cache an, wenn ich eine web­sei­te auf­ru­fe. ma­che ich das be­ruf­lich, hand­le ich ge­werb­lich. die­se rechts­an­wei­sung wür­de nur sinn ma­chen, wenn es ein leis­tungs­schutz­recht gäbe dass die ge­werb­li­che nut­zung (im sin­ne von le­sen oder ab­spei­chern, aus­dru­cken, in ein in­tra­net ko­pie­ren) kos­ten­pflich­tig ma­chen wür­de. da­nach sieht es aber nicht aus, denn selbst die CDU/CSU/FDP-ko­ali­ti­on woll­te sich auf die­sen irr­sinn nicht ein­las­sen.

Ge­werb­li­che Ag­gre­ga­ti­on er­laubt / nicht er­laubt (✓)
ver­ste­he ich auch nicht. 90 pro­zent der mir be­kann­ten ag­gre­ga­to­ren und such­ma­schi­nen han­deln ge­werb­lich. ich ken­ne kei­ne aus pri­vat­ver­gnü­gen be­trie­be­ne such­ma­schi­ne. ag­gre­ga­ti­on wird fast aus­schliess­lich von fir­men be­rie­ben. die­se ge­werb­li­che ag­gre­ga­ti­on lässt sich aber bes­tens mit der ro­bots.txt aus­schlies­sen. ag­gre­ga­to­ren und such­ma­schi­nen die für die ag­gre­ga­ti­on zah­len möch­ten kann ja ein er­wei­ter­ter ro­bots.txt an­ge­bo­ten wer­den:

Preis für ge­werb­li­che Ag­gre­ga­ti­on (✘)
das wun­dert mich jetzt auch. laut ma­thi­as döpf­ner möch­te der sprin­ger-ver­lag gar nicht sa­gen was so­et­was kos­tet, son­dern möch­te da­nach ge­fragt wer­den (sie­he döpf­ner-zi­tat oben).

wozu dann also eine ma­schi­nen­les­ba­re in­for­ma­ti­on for­dern, wenn der axel-sprin­ger-ver­lag die­se in­for­ma­ti­on gar nicht öf­fent­lich (mit)tei­len möch­te?

Ma­xi­ma­le Län­ge der Ag­gre­ga­ti­on (✓)
auch das lässt sich in der re­gel für alle mög­li­chen for­men der ag­gre­ga­ti­on fest­le­gen. face­book, goog­le+, aber in den meis­ten fäl­len auch die goog­le-su­che, nut­zen den text des de­scrip­ti­on-tags. eine an­wei­sung wie die­se:

führt zu ei­ner snip­pet-an­zei­ge wie die­ser:

wäre der de­scrip­ti­on-text kür­zer, wür­de er auch kür­zer an­ge­zeigt.

Ge­werb­li­che Ar­chi­vie­rung er­laubt / nicht er­laubt (✓)
auch die ar­chi­vie­rung lässt sich per ro­bots.txt oder die­ser an­wei­sung steu­ern:

da nie­mand pri­va­te ar­chi­vie­rung dif­fern­zie­ren, ver­bie­ten oder kon­trol­lie­ren kann, reicht die ro­bots.txt hier voll­kom­men aus: sie schliesst in der pra­xis aus­schliess­lich ge­werb­li­che ar­chi­vie­rung aus.

Preis für ge­werb­li­che Ar­chi­vie­rung (✘)
sie­he ge­werb­li­che ag­gre­ga­ti­on.

Ma­xi­ma­le Dau­er der Ar­chi­vie­rung (✓)
sie­he ge­werb­li­che ag­gre­ga­ti­on; soll­te es ag­gre­ga­to­ren oder such­ma­schi­nen ge­ben, die sich dem li­zenz­mo­dell ei­nes ver­la­ges für ar­chi­vie­rung beu­gen wol­len, kann mit die­sen leicht eine an­wei­sung ver­ein­bart wer­den die das re­gelt, für alle an­de­ren gilt no­ar­chi­ve:

Ge­werb­li­che Teaser er­laubt / nicht er­laubt (✓)
Preis für ge­werb­li­che Teaser (✘)
Ma­xi­ma­le Län­ge ge­werb­li­cher Teaser (✓)
war­um un­ter­schei­det kee­se zwi­schen snip­pet und teaser? such­ma­schi­nen und so­zia­le netz­wer­ke zei­gen der­zeit snip­pets an de­ren wort­laut und län­ge man mit dem de­scrip­ti­on meta- oder og-tag fest­le­gen kann. wozu an die­ser stel­le ei­ner er­wei­te­rung auf kom­plet­te teaser? sol­len such­ma­schi­nen mit dem LSR even­tu­ell dazu ge­bracht wer­den nicht nur snip­pets kos­ten­pflich­tig an­zu­zei­gen, son­dern auch teaser?

setzt man der ein­fach­heit hal­ber teaser mit snip­pets gleich, lässt sich die an­zei­ge von teasern bei ge­werb­li­chen (also al­len) such­ma­schi­nen über die ro­bots.txt steu­ern. wenn ein ver­lag die teaser ein­prei­sen möch­te, kann er das ja ma­chen, alle an­de­ren soll­ten dann auch ver­zich­ten dür­fen:

Wei­ter­ga­be an Pri­vat­per­so­nen er­laubt / nicht er­laubt (?)
Preis für Wei­ter­ga­be an Pri­vat­per­so­nen (?)
Wei­ter­ga­be an Ge­wer­be er­laubt / nicht er­laubt (?)
Preis für Wei­ter­ga­be an Ge­wer­be (?)
da­fuck? was könn­te kee­se da­mit mei­nen? was soll wei­ter­ge­ge­ben wer­den dür­fen? ein ar­ti­kel? ein such­ergeb­nis? ein snip­pet? ein teaser? eine url? was be­deu­tet „wei­ter­ga­be“? wie gibt man ar­ti­kel auf web­sei­ten in kee­ses sinn „wei­ter“? auf face­book? per mail? per usb-stick? als schwarz-weiss ko­pie?

An­zei­ge des Au­toren­na­mens zwin­gend / nicht zwin­gend (✓)
ah. hier­mit soll wohl ge­zeigt wer­den: das #lsr ist auch gut für die rech­te der au­toren. auf al­len sei­ten des axel-sprin­ger-ver­la­ges die ich stich­pro­ben­ar­tig ge­prüft habe und auf de­nen aut­hor­ship-mark­up ver­wen­det wur­de, zeigt sich in den such­ergeb­nis­sen auch der au­toren­na­me.

Ver­än­de­run­gen er­laubt / nicht er­laubt (?)
Mas­hups er­laubt / nicht er­laubt (?)
hat das et­was mit ag­gre­ga­to­ren, such­ma­schi­nen oder ge­werb­li­chen nut­zern zu tun? an wel­cher stel­le ver­än­dern oder mas­hup­pen such­ma­schi­nen oder ag­gre­ga­to­ren ver­lags­er­zeug­nis­se? ist das ernst­haft ein pro­blem? und wenn das so wäre, wäre es nicht ein an­fang das in die nut­zungs­be­din­gun­gen der je­wei­li­gen ver­lags­an­ge­bo­te zu schrei­ben? oder in die nut­zungs­li­zenz, die be­reits jetzt in jede web­sei­te ma­schi­nen- und men­schen­les­abr und ein­bett­bar ist, per dub­lin core me­ta­da­ta oder rel="dc:li­cen­se" (info) oder rel="li­cen­se" (info).


[nach­trag 12.12.2012, 23:33]
vie­le der ar­gu­men­te die ich hier auf­zäh­le hat be­reits mi­cha­el but­scher in ei­nem kom­men­tar un­ter kee­ses ar­ti­kel auf­ge­lis­tet:

“Wei­ter­ga­be an [...] er­laubt / nicht er­laubt”

Für die meis­ten Such­ma­schi­nen/Ag­gre­ga­to­ren nicht re­le­vant, die ge­ben al­len­falls Snip­pets wei­ter und die vor­he­ri­ge Prü­fung, ob der je­wei­li­ge Nut­zer ge­werb­lich ist, ist dann doch et­was viel ver­langt.
In­ter­es­sant wäre das al­len­falls für Ag­gre­ga­to­ren mit zah­len­den (meist ge­werb­li­chen) Kun­den. Für die­sen Spe­zi­al­fall ist das LSR aber über­di­men­sio­niert.

und in ei­nem wei­te­ren kom­men­tar, in dem er sich selbst zi­tiert und er­gänzt:

“Sie könn­ten auch das von mir skiz­zier­te tech­ni­sche Zwei­stu­fen­mo­dell ver­wen­den: Wer ACAP un­ter­stützt, darf zu den da­mit de­fi­nier­ten Be­din­gun­gen, wer nicht, wird mit ro­bots.txt/Meta-Tags aus­ge­sperrt.”

In­zwi­schen weiß ich, daß der ACAP-Stan­dard so­gar schon ei­nen Schal­ter ent­hält, der ge­nau das tut (Igno­rie­ren der ro­bots.txt-De­fi­ni­tio­nen nach bis­he­ri­gem Stan­dard).
Die­ser Schal­ter er­gibt na­tür­lich nur Sinn, wenn die Au­toren von ACAP da­mit rech­ne­ten, daß eben nicht alle Such­ma­schi­nen und Ag­gre­ga­to­ren den ACAP-Stan­dard un­ter­stüt­zen wür­den.

das acap-pro­to­koll, auf das sich kee­se be­reits ein­mal in al­ler län­ge be­zo­gen hat­te, lohnt si­cher ei­nen wei­te­ren blick. ich fra­ge mich aber, war­um der axel-sprin­ger-ver­lag das pro­to­koll nicht ein­fach nutzt. es ist ab­wärts­kom­pa­ti­bel und die im­ple­men­tie­rung dau­ert laut acap-web­site kei­ne 30 mi­nu­ten.

und zu­min­dest goog­le liest die struk­tu­rier­ten da­ten des acap-pro­to­kolls durch­aus ein, wie man in goo­gles rich snip­pet tool sieht (klick auf „Goog­le Cus­tom Search“):