Von Klassifikation zu Schlagwort

Als Einführung sei auf den Aufsatz „Schlagwort UND Klassifikation“ hingewiesen. Die Überarbeitung der Klassifizierung ist hier dokumentiert (LinkScreenshot, PDF). Hier ein Blick auf die alte Systematik:

  • Aa LEXIKA
  • Ab BIBLIOGRAPHIEN
  • B SCHRIFTLICHE ÜBERLIEFERUNG – ARCHIVALIEN
  • C KUNSTSAMMELN – KUNSTVERWALTUNG
  • D KUNST & ANDERE GEBIETE
  • E ÄSTHETIK – KUNSTTHEORIE – KUNSTWISSENSCHAFT
  • F SOZIOLOGIE DER KUNST
  • G MATERIAL & TECHNIK
  • H MORPHOLOGIE
  • Ik IKONOGRAPHIE
  • Ka KUNST ALLGEMEIN
  • Kb ARCHITEKTUR
  • Kc ARCHIT.-PLASTISCHE ANLAGEN
  • Kd PLASTIK
  • Ke MALEREI
  • Kf GRAPHIK – BUCHWESEN
  • Kg ANGEWANDTE KUNST
  • Kh PHOTOGRAPHIE & FILM
  • Ki THEATER
  • Kk NEW MEDIA

Bei der Erstellung der Neuen Systematik waren drei Fälle zu beobachten:

  1. Eine 1:1 Übereinstimmung einer Klasse der Neuen Systematik mit einem Schlagwort der SWD.
    Hierzu gehört etwa die Klasse Kb Architektur (Plon, Screenshot) mit dem äquivalenten SWD Schlagwort Architektur.
  2. Eine Übereinstimmung einer Klasse der Neuen Systematik mit einer Kombination aus mehreren SWD Schlagworten.
    Hierzu gehört etwa die Klasse F Kunst & Gesellschaft mit der äquivalenten Kombination aus den beiden SWD Schlagworten Kunst und Gesellschaft (Plon, Screenshot).
  3. Der eher seltene Fall, daß sich keine äquivalentes Schlagwort finden liess: in diesem Fall wurde die Klasse dennoch verwendet und versucht, zumindest die jeweiligen Unterklassen mit der SWD zu verbinden.
    Hierzu gehört etwa die Klasse E Ästhetik – Kunsttheorie – Kunstwissenschaft (Plon, Screenshot), zu der äquivalente SWD Schlagworte fehlen. Zu den Unterklassen im Systematikbaum — 01 Kunstphilosophie, Ästhetik & Kunstanschauung02 Kunsttheorie & Kunstliteratur03 Kunstwissenschaft04 Künste & Kunstgattungen05 Künstler & Kunstwerk06 Kunst & Wissenschaft — gibt es jedoch teilweise wieder SWD Äquivalente.

Die finalisierte Systematik ist hier (Screenshot) abgelegt. Dazu gibt es eine komprimierte Auflistung der verwendeten Begriffe als PDF (Konvertierung in HTML). Hier als Überblick die Oberklassen:

B Inschrift & Schriftkultur
C Kulturerbe – Kulturgut
E Ästhetik – Kunsttheorie – Kunstwissenschaft
F Kunst & Gesellschaft
Ik Ikonographie
Ka Kunst allgemein
Kb Architektur
Kd Plastik
Ke Malerei
Kf Graphik – Zeichnung – Buchwesen
Kg Angewandte Kunst – Kunsthandwerk
Kh Photographie
Ki Darstellende Kunst
Kk Neue Medien – Medienkunst
W Religion

Graphische Visualisierung als MindMap

Die hierarchische Struktur der Neuen Systematik eignet sich vorzüglich für eine Anzeige als Mindmap. Verschiedene Ansätze wurden dazu geprüft:

  • die Klasssen und jeweils daran angebunden alle ihre Eigenschaften einschliesslich der SWD Schlagworte (Mindomo, Screenshot, Ausschnitt);
  • die Klassen simplifiziert mit SWD Schlagworten (violett) als eigene Knoten (Mindomo, Screenshot);
  • eine Ansicht mit Referenzierungen auf eine separate SWD Schlagwortliste (rechts, violett) (Mindomo, Screenshot, Ausschnitt).

Gut erkennbar wird hierbei die grundsätzliche diverse Struktur der beiden Systeme, die nur verknüpft (referenziert), aber nicht deckungsgleich übereinandergelegt werden können.

Benutzfreundlicher ist jedoch eine übersichtliche Anzeige des gesamten Baumes unter Verzicht auf die übermäßig komplexe Darstellung der jeweiligen SWD Abhängigkeiten. Dies ermöglicht es, die komplette Struktur der Neuen Systematik in einer einzigen Mindmap zu generieren. Hier ein Screenshot mit den Zweigen noch eingeklappt:

Mind42 Mindmap (kompletter Datensatz)
Mind42 Mindmap (kompletter Datensatz)

Hier ein Ausschnitt. Und hier ein Link auf die gesamte Mindmap auf Mind42.

Listenansicht

Ein ganz anderer Weg ist die Erstellung einer aufklappbaren Listenansicht — wie etwa hier in einer frühen Version (Screenshot). Eine solche Listenansicht kann bei Bedarf (mouse over) auch die SWD Informationen einblenden sowie Links auf Kubikat aufrufen. Hier unten ein Screenshot (Life-Version):

Liste mit Link auf Kubikat und zusätzlicher Angabe der SWD Schlagworte
Liste mit Link auf Kubikat und zusätzlicher Angabe der SWD Schlagworte

Verwendung zur parataktischen Konsultation anderer Systeme

Die Möglichkeit, die selbst entwickelte, proprietäre Systematik über die SWD Schlagworte mit regulären OPACs zu verbinden, macht das System zur Verwendung in verschiedenen Szenarien interessant. So kann die proprietäre Systematik etwa …

  • mehrsprachig sein;
  • auf spezielle Bedürfnisse zugeschnitten sein;
  • verschiedene (auch fremde oder anderssprachige) OPACs über die SWD abfragen;
  • modifiziert werden ohne die zugrundeliegende Datenbasis anzufassen.

Bei den meisten Systemen kann ein Link auf einen bestimmten OPAC Eintrag (semi-)automatisch gebildet werden.

Für die Anwendung des hier vorgeschlagenen Systems ist es demnach lediglich nötig, die spezifische Struktur der URL zu wissen, also etwa:

Kubikat:
http://aleph.mpg.de/F?func=find-a&find_code=WSW&request=[SWD_Schlagwort]&request_op=AND&find_code=WTI&request=&request_op=AND&find_code=WKO&request=&request_op=AND&find_code=WSW&request=&filter_code_1=WSP&filter_request_1=&filter_code_2=WYR&filter_request_2=&filter_code_3=WYR&filter_request_3=&filter_code_4=WEF&filter_request_4=&local_base=KUB01&filter_code_7=WCO
Heidelberg:
http://katalog.ub.uni-heidelberg.de/cgi-bin/search.cgi?fsubmit=1&kat1=sw&var1=[SWD_Schlagwort]&op1=AND&kat2=ti&var2=&op2=AND&kat3=au&var3=&bestand=lok&sprache=ENG&art=f&opt=&f%5Bteil2%5D=&pagesize=20&autocomp=on&vr=1
Karlsruher Virtueller Katalog:
http://kvk.ubka.uni-karlsruhe.de/hylib-bin/kvk/nph-kvk2.cgi?maske=kvk-last&title=KIT+Library%3A+Karlsruhe+Virtual+Catalog+KVK+%3A+Search+results&head=http%3A%2F%2Fwww.ubka.uni-karlsruhe.de%2Fkvk%2Fkvk%2Fkvk-kit-head-en-2010-11-08.html&header=http%3A%2F%2Fwww.ubka.uni-karlsruhe.de%2Fkvk%2Fkvk%2Fkvk-kit-header-en-2010-11-08.html&spacer=http%3A%2F%2Fwww.ubka.uni-karlsruhe.de%2Fkvk%2Fkvk%2Fkvk-kit-spacer-en-2010-11-08.html&footer=http%3A%2F%2Fwww.ubka.uni-karlsruhe.de%2Fkvk%2Fkvk%2Fkvk-kit-footer-en-2010-11-08.html&css=none&lang=en&input-charset=utf-8&kvk-session=M1DC8TDW&ALL=&target=_blank&Timeout=120&TI=&PY=&AU=&SB=&CI=&SS=&ST=[SWD_Schlagwort]&PU=&VERBUENDE=&kataloge=SWB&kataloge=BVB&kataloge=NRW&kataloge=HEBIS&kataloge=HEBIS_RETRO&kataloge=GBV&kataloge=DDB
Getty Research Library:
http://library.getty.edu/vwebv/search?searchArg=[keyword]&searchCode=GETG%5E&searchType=0&recCount=25

Bei nicht deutschsprachigen OPACs muss das Schlagwort natürlich übersetzt werden. Wenn die Suche nach Kulturpolitik auf die Ressourcen der Getty Research Library übertragen werden soll, muss nach “cultural policy” gesucht werden (n.b. die Anführungszeichen sind hier nötig!):

http://library.getty.edu/vwebv/search?searchArg=%22cultural+policy%22&searchCode=GETG%5E&searchType=0&recCount=25

Und hier nun eine kurze Demo:

Wie schon ein kurzer Test zeigt, fallen die Ergebnisse positiv aus: die Klassen (bzw. umgesetzt dann Schlagworte) Künstler, Kunstvermittlung und Kulturpolitik geben wie zu erwarten sehr nutzbare Ergebnisse; Kunst und Gesellschaft ebenfalls, da hier die Kombination Kunst & Gesellschaft ausgewertet wird; zu Laienkunst – Volkskunst hingegen gibt es keine Äquivalenzen in der SWD und auch keine deutschsprachigen Resultate.

Export/Austauschformate

Als Austauschformat eignet sich bislang das Freemind Format am besten, da es XML basiert und gut dokumentiert ist (Demo, FreeMind User Guide by Shailaja Kumar). Zudem ist hier ein hervorragender Desktop Editor vorhanden (Freemind), der auch in eine Vielzahl von Formaten exportiert:

Editieren mit Freemind
Editieren mit Freemind

Das Freemind-Format ermöglicht es, sowohl die hierarchische Struktur der Systematik als auch, bei Bedarf, die äquivalenten SWD Schlagworte abzubilden. Im untenstehenden Beispiel sind die Font-Anweisungen zum besseren Verständnis grau ausgeblendet.

<node COLOR="#000000" ID="ID_1363771781918" POSITION="left" TEXT="F Kunst & Gesellschaft">
     <font BOLD="true" ITALIC="false" SIZE="12" />
     <attribute NAME="SWD" VALUE="Kunst; Gesellschaft"/>
     <attribute NAME="keyword" VALUE="art and society"/>
   <node COLOR="#000000" ID="ID_1363771781919" TEXT="F.01 Künstler">
     <font BOLD="false" ITALIC="false" SIZE="12" />
     <attribute NAME="SWD" VALUE="Künstler"/>
     <attribute NAME="keyword" VALUE="artist"/>
   </node>
   <node COLOR="#000000" ID="ID_1363771781920" TEXT="F.02 Laienkunst &#8212; Volkskunst">
     <font BOLD="false" ITALIC="false" SIZE="12" />
     <!-- no SWD equivalent -->
     <attribute NAME="keyword" VALUE="folk art"/>
   </node>
   <node COLOR="#000000" ID="ID_1363771781921" TEXT="F.03 Kulturpolitik">
     <font BOLD="false" ITALIC="false" SIZE="12" />
     <attribute NAME="SWD" VALUE="Kulturpolitik"/>
     <attribute NAME="keyword" VALUE="cultural policy"/>    
   </node>
   <node COLOR="#000000" ID="ID_1363771781922" TEXT="F.04 Kunstvermittlung">
     <font BOLD="false" ITALIC="false" SIZE="12" />
     <attribute NAME="SWD" VALUE="Kunstvermittlung"/>
     <attribute NAME="keyword" VALUE="art education"/>
   </node>
 </node>

Alternativ sind natürlich auch Mind42, Mindmeister etc. benutzbar, die jedoch proprietäre (und teils auch binäre) Formate benutzen, dafür jedoch direkt im Browser ausgeführt werden können.

Eine Weiterentwicklung dieses Formates, ev. auch mit Schema-Anbindung, sowie die Bereitstellung von XSL-T Transformationen ist angedacht. Eventuell wäre auch eine kleine Web-Plattform zum Austausch verschiedener solcher Systematiken von Nutzen, bei dem sich Bibliotheken schnell eine für sie optimale Systematik runterladen bzw. zusammenstellen könnten.

Download

Zur Zeit stellen wir die ff. Datenformate zum Download bereit:

Davon abgeleitet stellen wir die Neue Systematik auch von Font-Anweisungen und weiteren Attributen gereinigt bereit:

Als reine Endprodukte zur raschen Konsultation, aber nicht zur Weiterverarbeitung, sind auch Text-, Grafik- und Bildformate geeignet. Hier einige Textformate zum Download:

Posted in Annotation | Comments Off on Von Klassifikation zu Schlagwort

Preparing Digitized Pages using Aftershot Pro

Introduction

The following is an efficient way to prepare scanned book or manuscript pages for use in digitization projects. In fact, it’s kind of a shortcut to have a fast workflow which nonetheless allows for visual control of quality issues.

RAW Input

The  input files should always – repeat: always – be RAW files, at least if the digitizations are done by commercial cameras using CMOS sensors. In case of dedicated scanners TIFFs will be the only available output.

In either case, aim for the best available gamut setting (like AdobeRGB color space) and a fitting file format, like 12bit or 14bit for NEFs and CR2s – or whatever your RAW formats are – and 16bit for TIFFs generated from scanners. In case of the latter, LZW compression does wonders without inflicting losses.

A conversion into the DNG format is not useful and in fact to be avoided because it does not preserve the original output stream from the camera sensor or the scanner but instead only its conversion and interpretation. Different DNGs generated from the same RAW file – say: in 2008, in 2012 and 2014 – are in fact different.

Preserving Recto/Verso

Front and back sides of scanned pages should be saved in separate directories, aptly named recto and verso. Some operations like renaming and cropping will be much faster this way.

Your folder will thus have the following structure:

root
  └signature
      └recto
      └verso

Obviously, this is not necessary if you always scan both pages of a book in a single operation.

Image Operations

For the following operations I will be using Aftershot Pro, originally developed by Bibble but now (unfortunately) in Corel’s hands. FLOSS software like Darktable is obviously preferrable and I might change my workflow accordingly.

We don’t need no separate import operation, as Aftershot allows direct access to the recto and verso folders. This comes handy and is – at least in our case, where keywords and metadata are not much important – much better than, say, Lightroom’s or Capture One’s behaviour.

Right now, I apply the following operations. Some of these are important only if your are using camera devices like the »Wolfenbütteler Buchspiegel« which use a mirror. Here is a link to the relevant Aftershot Presets files stored in .AfterShotPro/Presets/.

  • Mirroring
  • Recto
  • Verso
  • White Balance
  • EV & Perfectly Clear
  • Wavelet Sharpen
  • Copyright Information

Fortunately, the possibilities of a RAW developing engine like Aftershot allows for intensive fine tuning and instant control.

Cropping

Nearly always there will be the need to crop the images because they do not show the 2:3 ratio of FF cameras. Aftershot allows to do this once, copy the crop settings and and to apply them to the rest of the images.

Renaming Files

As the files are for now in sequential order only and both recto and verso need to be brought together, we will have to rename them.

Here is the schema used in Aftershot:  [opath-2]-[3rseq]-[opath-1]

Export

Exporting the files is only for specified workflows, e.g. the generation of PDF’s via convert -compress jpeg -quality 75 -limit memory 22000 *.jpg [filename].pdf. These PDFs may be enhanced with indices as described here.

Please note that exports are not in any way suitable to serve as archival formats: only the RAW files (maybe accompanied by the XMP sidecar files generated by Aftershot) represent the original captured data.

Posted in Imaging | Comments Off on Preparing Digitized Pages using Aftershot Pro

Poor Man’s TOC Generation

Introduction

The following aims to be a quick method to prepare digitized documents for online publication.

As for tools, we only require a PDF editor like Adobe Acrobat or the excellent PDFStudio which is also available on Linux.

The document to be published will either be scanned and saved directly as PDF or the PDF editor will be used to group the single scans together and save them as single PDF.

The Metadata

As for the metadata, we use the already existing provisions for PDF: title, author and date fit into the standard fields of the PDF document properties. More detailed information, including (where available) a reference and a link to the OPAC, can be saved inside the IPTC container, which is an international exchange standard.

The TOC

In order to achieve a structured document, i.e. a document containing a table of contents (TOC), we have to manually create bookmarks which link the headers of books, chapters, sections and sub-sections to their specific pages.

In a second step we will then order these bookmarks in a hierarchical (structured) manner: a chapter is inside a book, a section is inside a chapter and so on.

What we want to achieve looks like this:

Arithmeticae libri duo
  | P. Ramus lectori
        | Errata corrige
  | P. Rami arithmeticae Liber I
        | Cap. I De notis arithmeticis
        | Cap. II De additione
        | Cap. III De subductione

Creating the Bookmarks

To create the bookmarks, we use the existing tools of the PDF editor.

Normally, you choose the page you want to bookmark (e.g. the beginning of a chapter), choose “Add Bookmark” from the menu and type in the text of the title.

This can usually done quite rapidly.

Click here for a video.

Re-Ordering the Bookmarks into a TOC

As we already said, in order to get a structured, hierarchical TOC the bookmarks have to be re-ordered.

Normally you do this by choosing an entry, holding down the mouse button and pushing the entry up and left or right until the outline resembles the book structure.

This takes some time to get used to, but even a long document should be finished in a couple of minutes.

Click here for a video.

Here is an example: link.

That’s it on the user side – the document is now ready to be used in the system!

Generating Images and Webpages

The following steps are for the administrator of the web site only.

PDF Tools

In Linux, we can use the pdftoppm & pdftohtml tools to generate the images and the web page.

pdftohtml -s -xml -i document.pdf

gives the following output:

 < ?xml version="1.0" encoding="UTF-8"?>
< !DOCTYPE pdf2xml SYSTEM "pdf2xml.dtd"/>
<pdf2xml producer="poppler" version="0.20.4"/>
<page number="1" height="1246" width="910"/>
<page number="2" height="1245" width="988"/>
<page number="3" height="1275" width="951"/>
<page number="4" height="1270" width="987"/>
<page number="5" height="1281" width="1002"/>
<page number="6" height="1286" width="967"/>
<page number="7" height="1283" width="1005"/>
<page number="8" height="1270" width="944"/>
<page number="9" height="1271" width="989"/>
<page number="10" height="1283" width="1005"/>
<page number="11" height="1280" width="959"/>
<page number="12" height="1271" width="989"/>
<page number="13" height="1270" width="945"/>
<page number="14" height="1270" width="988"/>
<page number="15" height="1270" width="945"/>
<page number="16" height="1270" width="988"/>
<page number="17" height="1281" width="960"/>
<page number="18" height="1283" width="1005"/>
<page number="19" height="1272" width="948"/>
<page number="20" height="1271" width="989"/>
<page number="21" height="1278" width="955"/>
<page number="22" height="1283" width="1005"/>
<page number="23" height="1280" width="957"/>
<page number="24" height="1285" width="1007"/>
<page number="25" height="1270" width="944"/>
<page number="26" height="1283" width="1005"/>
<page number="27" height="1276" width="953"/>
<page number="28" height="1272" width="991"/>
<page number="29" height="1287" width="967"/>
<page number="30" height="1273" width="992"/>
<outline>
 <item page="4">Arithmeticae libri duo</item>
 </outline><outline>
  <item page="5">P.Ramus lectori</item>
  </outline><outline>
   <item page="9">Errata geometriae et corrigito</item>
  </outline>
 <item page="10">P. Rami arithmeticae liber I</item>
  <outline>
   <item page="10">Cap. I. De notis arithmeticis</item>
   <item page="10">Cap. II. De additione</item>
   <item page="12">Cap. III. De subdictione</item>
  </outline>

The file contains everything we need to build a webpage: the numbered scan list, the scan dimensions, and the corresponding TOC including the references to the scans.

A customized XSL-T can now generate the actual (X)HTML.

The Images

The images instead are generated by the following command:

pdftoppm -scale-to 1300 -jpeg document.pdf d001

The output are JPEGs with a maximum height/width of 1300px.

Alternatively one could output PNGs, as a first step, and in a second step build WEBPs for even faster page loading and lower server load. As of now, unfortunately, WEBPs are only supported in Chrome.

Posted in Annotation | Comments Off on Poor Man’s TOC Generation