Eine PDF-Bibliothek mit Obsidian erschließen

Was nutzt das ganze Wissen im Bücherregal oder auf der Festplatte, wenn man dann nicht weiß, wo was genau zu finden ist. Da reichen schon ein paar Hefte oder PDF … und die Sucherei geht los.
Ein gut gepflegtes Inhaltsverzeichnis kann schon sehr helfen, natürlich am besten elektronisch geführt. Es reichen aber nicht die Überschriften allein, da müsste auch eine Verschlagwortung dabei sein. Und dann wäre freilich auch eine Suchfunktion ganz gut – sprich, wir brauchen eine Datenbank! Wirklich?

Meine Erfahrungen mit Datenbanken sind in der Summe bei dieser Art der Anwendung nicht so besonders gut. Denn ich hatte immer auch mit der Datenbank selbst zu kämpfen. Da klappten Updates nicht, gingen Umbauten schief, wurde der anstehende Systemwechsel nicht geschafft – Datenverlust. Da war die Bedienung ziemlich hakelig, da ging es nicht so einfach, mal den Rechner zu wechseln. Kurz gesagt, das nervte alles und ich habe damit viel Zeit in den Sand gesetzt.

Eine Weile habe ich mich mit der gezielten Ablage in einer Verzeichnisstruktur begnügt. Das funktioniert ohne viel Aufwand, wird allerdings bei größeren Datenbeständen auch wieder unhandlich. Man kann sich zwar die Dateien vom Betriebssystem durch Indexierung für eine schnelle Suche vorbereiten – doch dann werden die Suchergebnisse zu unscharf. Die großen Textmengen in den PDFs führen zu vielen Treffern, die eigentlich nicht relevant sind.

Oktober 2022 stieß ich aber auf Obsidian, eine Software, die als Notiz-Management-Programm angeboten wird. Nach kurzer Zeit kam ich auf die Idee, meine PDF-Bibliothek mit diesem Programm zu erschließen. Und siehe da, es funktioniert so fantastisch, dass ich hier darüber schreiben muss!

Obsidian

Anfangs war ich ziemlich skeptisch. Sollte ich es wieder mit einem neuen Tool versuchen, schon wieder viel Zeit investieren für am Ende nichts?
Ein paar Einführungsvideos bei YouTube ließen mich aber aufmerken:

  • das Tool ist Open Source und ohne Kosten für meine Zwecke verwendbar
  • Obsidian läuft auf allen gängigen Betriebssystemen
  • die entstehenden Daten sind auch außerhalb des Programmes les- und verwertbar (Markdown)
  • das Programmhandling ist innerhalb weniger Minuten klar (wenn man ein Grundverständnis von Computerarbeit hat und z.B. mit Verzeichnissen umgehen kann und weiß, was die Zwischenablage ist)

Mal gucken, was da geht!

3600 Seiten mit 1600 Artikeln

Meine komplette Sammlung der „Weißenfelser Heimatboten“ wartet schon lange auf eine datentechnische Inhalts-Erfassung. Die hier bei SCHAUFOTO.de zu findende Auflistung aller Artikel ist ja nicht schlecht – besser als gar nichts …

Doch das ist eben nur ein Inhaltsverzeichnis.
Jetzt bin ich in der Lage, eine datenbankartige Aufschlüsselung der Inhalte mit Schlagworten, Autorenverzeichnis, Serienkatalogen und integrierter Ansicht zusammenzubauen, die in ihrer Bedienbarkeit und Flexibilität wohl kaum zu übertreffen ist.
Etwas mehr als die Hälfte der Hefte wurden bisher katalogisiert. (Januar 2023) Das sind etwa 1000 Datensätze. Das Programm zeigt keinerlei Schwäche und macht richtig Spaß beim gezielten Suchen und Recherchieren.
Bevor ich aber zur Beschreibung meines Handlings komme, noch ein paar

Vorüberlegungen

Was ich hier zeige, beruht schon mal auf einer relativ aufwändigen Vorarbeit. Ich habe nämlich alle Hefte, bevor ich sie binden ließ, mit 300 DPI entrasternd eingescannt und nach anschließender OCR (Texterkennung) abgespeichert. Damit wurde die komplette Sammlung ohne Probleme auf meinem 10 Zoll Tablet auf SD-Karte zum Lesen vorhaltbar. Das ist schon ziemlich luxuriös – aber eben in Sachen Suche und Recherche noch nicht dort, wo es sein könnte. Fantastisch ist, dass es Obsidian auch für Android gibt. Wenn ich mit der Datenerfassung fertig bin, kann ich also das Verzeichnissystem auf die SD-Karte kopieren und habe dann die gesamte Funktionalität auf meinem Tablet. Ich habe das eben mit dem aktuellen Datenbestand durchgespielt – ein Traum! (Wenn auch kleiner im Bild und etwas langsamer in der Reaktion.)

Man bekommt also tatsächlich ein systemübergreifendes Datenhandling, das sich ohne Konvertierungs-Firlefanz einsetzen lässt. Eine Kopie zu machen, ist ein Kinderspiel – und da liegt bei meinem Beispiel auch ein wenig die Gefahr, dass man sich Ärger einhandelt.
Die Verwendung der PDFs innerhalb von Obsidian für mich selbst geht in Ordnung. Eine Kopie des Obsidian-Systems mit den PDFs einfach weiterzugeben, geht nicht in Ordnung! – Ich wollte nur mal kurz darauf hinweisen.

Programm-Vorbereitung

Prinzipielles (und etwas mehr) zum Programm gibt es ganz gut bei YouTube: https://www.youtube.com/playlist?list=PLzp2ZLXTBP0uMYXsnxVjJMrtWJ9JIncPC

Wer sich nicht überfordert fühlt, kann auch gleich hier weitermachen:
Meine Programmeinstellungen in Screenshots – ohne weitere Erklärungen – gibt es auf einer extra Seite:
Meine Obsidian-Voreinstellungen. (Ich hoffe, alle relevanten Einstellungen erwischt zu haben.)

Zum inneren Aufbau meines Obsidian-Systems

Auch wenn man es (gerade!) mit Obsidian hinbekommt, in einen unstrukturierten Haufen, Struktur hinein zu zaubern, möchte ich nicht darauf verzichten, eine Struktur vorzugeben. Diese Struktur leitet sich aus meinen Vorstellungen ab, was ich alles im System abbilden will. Und daraus resultiert dieser Verzeichnisaufbau:

Die Struktur hält sich im Wesentlichen an meine echten Heimatboten-Bände. Unter „Band 1 – 1992-1994“ sind z.B. alle erfassten Artikel und alle PDFs aus dem Band 1 abgespeichert.
Unter „Autoren“ sind alle erfassten Autoren mit einer Link-Liste zu allen ihren Beiträgen abrufbar. Außerdem sind dort alle Artikel, die über die Autoren selbst berichten, direkt unter dem Autoren-Namen zu finden.
Unter „Serien“ gibt es Link-Listen die zu den einzelnen Artikeln von den jeweiligen Artikel-Serien führen. Diese Link-Listen werden jeweils bei allen Serienbeiträgen angehängt und ermöglichen somit den schnellen Zugriff auf die einzelnen Folgen.
Unter „Vorlagen“ gibt es nur einen Eintrag – eben meine Vorlage für alle Artikel-Erfassungen.
Unter „Weißenfelser Heimatbote“ ist ein kurzer, interner Begleittext samt Statistik zu finden.
(Hinweis: Die gesamte Funktionalität wird ohne Plugins realisiert.)

Wie aus dem Screenshot erahnbar, bin ich noch nicht ganz fertig mit der Datenerfassung. Ich lade dazu ein, mir beim Anlegen von zwei Datensätzen zuzusehen. Ich denke, dabei werden viele Obsidian-Prinzipien klar.

Mein Arbeitsbildschirm

Bei dieser Art von Bildschirmarbeit freut man sich über jeden Pixel, den man hat. Schließlich gilt es, nicht nur die Überschriften abzutippen, sondern auch die Texte zu lesen – oder wenigstens zu überfliegen – damit man zu aussagefähigen Schlagwörtern kommt.

Ich lege mir den PDF-Reader auf die linke Seite und stelle dessen Screen-Anteil so ein, dass ich eine Seite komplett sehen und lesen kann. Den Rest vom Bildschirm bekommt Obsidian.

Ein neues Heft einbauen

Mit der Erfassung eines neuen Heftes zu beginnen, bedeutet erstmal, die Vorlage anzupassen.
Dies ist hier ziemlich lapidar: Aus der Heftnummer 2 wird die 3.

Auch wenn diese Vorlage einen sehr schlichten Eindruck macht, hilft sie deutlich bei der Arbeit.

Das Titelbild ist dabei

Der „Weißenfelser Heimatbote“ hat immer ein Titelbild, das ich wie einen Artikel erfasse. Hier wird also die Bildbeschriftung zum Titel des Datensatzes (= Notiz in Obsidian). Wenn es keine Beschriftung gibt, muss ich eben mir was ausdenken.

Den ersten Datensatz für das neue Heft lege ich über die rechte Maustaste an, mit der ich auf das Verzeichnis von Band 6 klicke. (Hinweis: Es gibt oft mehrere Wege, um zum Ziel zu kommen. Die hier gezeigten Klickwege zeigen meine bevorzugte Arbeitsweise.)

„Neue Notiz“ anklicken. Die neue Notiz wird mit dem markierten Titel „Unbenannt“ angezeigt – jetzt kann man sofort den gewünschten Titel eintippen.
Dieser wäre: Kleine Kalandstraße/… doch da funkt Obsidian dazwischen.

Also mache ich aus dem Schrägstrich einen Bindestrich – und kann den Rest meines Titels ohne weitere Meldung eingeben.
Nun kommt die Vorlage zum Einsatz. (Hinweis: Ich gehe hier nicht weiter darauf ein, wie man sich eine Vorlage anlegt – weil das ganz einfach ist und unnötig Platz beanspruchen würde.)
Da ich nur eine einzige Vorlage verwende, brauche ich lediglich das entsprechende Symbol ganz links anklicken – und es geht weiter. (Hinweis: Gäbe es mehrere Vorlagen, würde noch ein Zwischenmenü zur Auswahl erscheinen.)

Die Zeile „Untertitel…“ wird durch ein Leerzeichen ersetzt. Hinter „Autor“ tippe ich „unbekannt“ ein. Statt „Seite 12…“ kommt „Titel“ hin.

Schlagwörter sind #hashtags

Und jetzt kommen wir zum Wesentlichen, zur Verschlagwortung.
Eine Datenbank, die nur den Titel, den Autor und den Fundort enthalten würde, wäre wenig nützlich. Denn viel zu oft sagt der Titel viel zu wenig über den Inhalt – man könnte dann auch nur wenig finden.
Die Schlagwortvergabe entscheidet darüber, wie gut die inhaltliche Erschließung des Datenbestandes funktionieren kann.

Wenn man mit einem Obsidian-Projekt beginnt, sind einem oft die Feinheiten der möglichen Verschlagwortung noch nicht ganz klar. Diese sind nämlich immer auch projektbezogen verschieden. Doch da muss man sich nicht heiß machen: Mit jeder neuen Eingabe und Korrektur wird das System besser und gedeiht zusehens. Mindmachine Obsidian!

Im hier gezeigten Beispiel komme ich zu folgenden Schlagwörtern:
#kleine_kalandstraße #jüdenstraße #foto #titel #weißenfels

Die zwei Straßennamen kommen zwar schon im Titel vor, werden aber trotzdem noch zusätzlich verschlagwortet, damit später die Verbindung zu anderen Artikeln mit gleichem Hashtag auch offensichtlich wird.
Der Begriff „#foto“ meint hier, dass es sich um ein einzelnes Bild, um eine Fotografie handelt. Andernorts verwende ich auch noch das Schlagwort „#fotografie“ – dies meint, dass es sich um einen Artikel handelt, bei dem es um das Thema Fotografie geht. (Um Fotografen, um eine Foto-Ausstellung …)
(Hinweis: Ich schreibe meine Hashtags immer nur mit kleinen Buchstaben. Das geht schneller und ist weniger Fehleranfällig. Leerzeichen sind in Hashtags nicht vorgesehen und müssen anders dargestellt werden. Z.B. mit dem Unterstrich „_“.)

Sieh, was du gefunden hast!

Bis jetzt ist nur der erste Datensatz zum Heft 3 aus dem Jahre 2007 in Text-Form im Obsidian-System. Nun wird dem Ganzen noch die Ansicht des Artikels selbst hinzugefügt.

Dafür mache ich erstmal drei Leerzeilen – und füge dann über die Zwischenablage die PDF-Datei des Heftes ein. Dies hat zur Folge, dass das System eine Kopie der PDF in den Unterordner „PDFs“ ablegt und eine Ansicht in Obsidian zur Verfügung stellt.
Das funktioniert allerdings nur genau so, wenn meine Voreinstellungen umgesetzt wurden.

Der Vorteil von dem ganzen Prozedere ist: Es ist alles beisammen, was zum System dazu gehört. Ab sofort gilt: Wenn ich innerhalb von Obsidian etwas verschiebe, bleibt es korrekt verlinkt. Ein sehr wichtiger Fakt!
(Voreinstellungen beachten!)

Der erste richtige Artikel

Die nächste Obsidian-Notiz wird so wie vorher beschrieben angelegt. Beim weiteren Ablauf gibt es aber ein paar bemerkenswerte Stellen.

Der Notiztitel ist glasklar: „Die Schönburg“ – Dann wird wieder die Vorlage bemüht, die Untertitelzeile mit einem Leerzeichen bereinigt, um dann zum Autor zu kommen.

Mit Halbautomatik geht’s schneller

Da ich auch eine Autoren-Artikelliste führe, haben alle Autoren eine eigene Seite (Notiz). „Gerhard Bach“ ist ein sehr fleißiger Autor beim „Weißenfelser Heimatboten“. Es gibt also schon lange die Autorenseite „Gerhard Bach“. Damit gleich die Verlinkung zur Autorenseite gelegt wird, schreibe ich den Namen in zwei eckigen Klammern.

Schon bei der Eingabe vergleicht Obsidian die Zeichen mit seinem Notizbestand und macht mir Vorschläge zur Verlinkung. Das ist sehr praktisch und hilft auch Schreibfehler zu vermeiden.

In diesem Fall klicke ich also „Gerhard Bach“ an und vervollständige damit meine Eingabe.
Dies ist freilich nur so, wenn es den Eintrag auch schon gibt. Ist man am Anfang eines Obsidian-Projektes verfährt man aber nicht anders. Man tut so als gäbe es die Seite. Das System meldet, dass es den Eintrag nicht gibt – was aber nicht unbedingt als Fehlermeldung zu bewerten ist. Denn man muss nur auf den Link klicken und erzeugt damit sofort die betreffende Seite, die auch gleich geöffnet wird, damit man seine Inhalte eintragen kann. (Wiki-Prinzip)

Hinweis: Die auf diese Art automatisch erzeugte Notiz wird im Hauptverzeichnis des Obsidian-Systems abgespeichert (nicht im Verzeichnis der Autoren). Es gilt also, an dieser Stelle nachzugreifen: In der linken Verzeichnis-Liste einfach per Drag and Drop die Notiz ins gewünschte Verzeichnis ziehen. Die Verlinkung bleibt korrekt erhalten.

Als nächstes kommen die Seitenzahlen dran. Da gibt es beim Heimatboten die Besonderheit, dass übers Jahr hinweg fortlaufende Seitenzahlen verwendet werden. Das heißt im konkreten Beispiel, dass der Artikel mit der gedruckten Seitenzahl 67 beginnt, was aber tatsächlich im Heft die dritte Seite ist.
Diese Daten entnehme ich aus der Ansicht im PDF-Reader und ersetze damit die Vorlage-Daten.

Und dann kommen wieder die Schlagwörter dran. Auch hier hilft die automatische Vervollständigung ungemein.

Wie zu sehen, werden auch Zeichenfolgen innerhalb der Schlagwörter angezeigt. Das hilft sehr, wenn man sich nicht mehr richtig an die schon verwendeten Tags erinnern kann.
Meine Tags sind: #schönburg #ludwig_der_springer #burg #baugeschichte

Seitengenaue Anzeige der PDF

Im Gegensatz zum Einbau der Ansicht der Titelseite, wird jetzt mit der PDF, die schon im Obsidian-Verzeichnis-System (Vault) ist, gearbeitet.

Per Drag and Drop die Datei in die vorher erstellte Leerzeile ziehen – fast fertig.
Fast fertig deshalb, weil im Moment ja wieder das Titelbild zu sehen ist und nicht der Anfang vom Artikel.

Nun gibt es ein wenig das Problem, dass man nicht unbedingt alles auf dem Bildschirm sieht, was vorhanden ist. Denn eigentlich wird die Anzeige der PDF über einen Link realisiert. Diesen sieht man aber nicht. Erst wenn man den Cursor in die Zeile über der PDF positioniert und einen Schritt nach rechts mit der Pfeiltaste macht, wird der Link sichtbar und – darauf kommt es jetzt an – editierbar:

Zu sehen ist ein Ausrufezeichen, gefolgt von dem Link in zwei eckigen Klammern.
Das Ausrufezeichen fordert Obsidian auf, von der verlinkten Datei – wenn möglich – eine interne Ansicht zu zeigen. Im Umkehrschluss bedeutet dies: Wenn man das Ausrufezeichen entfernt, sieht man nur noch den Link. Eine Ansicht der Datei bekommt man dann erst, wenn man auf den Link klickt.

Aber wir wollen ja die Ansicht – wir wollen sie nur seitengenau. Und das geht so:

![[Heimatbote-2007-3.pdf#page=3]]

So sieht es nach der Anpassung aus:

Fehlt nur noch der Eintrag in der Artikelliste des Autoren. Dazu klicke ich den Link „Gerhard Bach“. Auf der nun geöffneten Autorenseite mache ich mir eine neue Leerzeile und beginne mit der eckigen Doppelklammer, in die der Link zur Artikel-Seite geschrieben werden soll. Auch hier unterstützt das Programm und zeigt flugs die letzten editierten Notizen an, wo ich nur noch auswählen muss.

Flexibel bleiben!

Bei der Arbeit an solch einem Projekt wird man feststellen, dass es immer wieder Besonderheiten gibt, auf die man reagieren möchte.

Da gibt es z.B. abgedruckte Leserbriefe, die sich auf einen Artikel beziehen. Warum nicht so einen Leserbrief gleich mit beim Artikel zur Anzeige bringen! Das ist mit den bis hier gezeigten Funktionen problemlos machbar und bringt deutlichen Mehrwert gegenüber der gebunden Hefte-Sammlung.

Auch Artikel-Serien werden besser handhabbar. Dafür habe ich mir den Ordner „Serien“ angelegt, in denen zu jeder Serie eine Notiz gespeichert ist, die alle Artikel einer Serie verlinkt.

Das Bild oben zeigt einen Teil solch einer Serien-Notiz. Das Bild unten zeigt die Verwendung im Anhang an den 4. Teil.

Kurz und gut:

Obsidian bietet schon in der Grundausstattung viele Möglichkeiten, sich eine PDF-Bibliothek datentechnisch zu erschließen. Und das sehr einsteigerfreundlich, wie ich finde!

Ich bleibe jedenfalls weiter dran und werde die fertige Version des „Weißenfelser Heimatboten Vault“ auch ins Internet zur allgemeinen Verfügung stellen – dann freilich ohne die PDFs, was ein nicht ganz so schönes Ergebnis liefert, aber zu Recherchezwecken immer noch deutlich besser ist, als ein simples Inhaltsverzeichnis.