PDF-Dokumente

PDF-Dokumente importieren

Der Import von PDF-Dokumenten in ein MAXQDA-Projekt kann auf verschiedene Weise erfolgen, z.B.

  • durch Klicken-und-Ziehen von PDF-Dateien aus dem Windows Explorer oder macOS Finder direkt in das Fenster „Liste der Dokumente“,
  • durch Klick auf das Plussymbol in der „Liste der Dokumente“ oder
  • durch Klick auf das Symbol Texte, PDFs, Tabellen auf dem Tab Import.
Datenimport starten über den Tab „Import“

Im Abschnitt Daten importieren und gruppieren finden Sie generelle Hinweise zum Import von Daten und deren Strukturierung in MAXQDA.

Hinweis: Die Darstellung von PDF-Inhalten in MAXQDA unterstützt keine Formularinhalte. Damit Inhalte aus PDF-Formularen angezeigt werden, empfiehlt es sich, das PDF vor dem Import über einen PDF-Drucker in eine neue PDF-Datei abzuspeichern, welche die Formulareinträge als reinen Text enthält.

Farbhervorhebungen und Kommentare

Farbhervorhebungen im PDF-Dokument werden beim Import in MAXQDA als Codierungen übernommen. Im Codesystem wird ein Code mit dem Namen “Word-/PDF-Hervorhebung” auf oberster Ebene angelegt. Für jede Farbe wird ein Subcode mit einem englischen Farbnamen ergänzt und den entsprechenden Textstellen zugeordnet. Falls eine Farbhervorhebung einne Kommentar enthält, wird dieser als Kommentar zum jeweiligen codierten Segment übernommen.

Hinweis: Beim Import der Farbhervorhebung sind leichte Farbabweichungen zum Original möglich, da MAXQDA aus einer Liste von hinterlegten Farben diejenige auswählt, die am besten passt.

Freie Kommentare im PDF-Dokument, die nicht zu einer Farbhervorhbebung gehören, werden als In-Dokument-Memos importiert. Mehrere aufeinander bezogene Kommentare oder Diskussionsverläufe werden in einem Memo zusammengefasst.

Die Übernahme von Farbhervorhebungen und Kommentaren lässt sich in den Einstellungen des Fensters „Liste der Dokumente“ ein- und ausschalten. Um die Einstellungen zu öffnen, klicken Sie auf das Zahnrad in der Titelleiste des Fensters.

Absätze in PDF-Dateien

PDF-Dokumente weisen – anders als Textdokumente – von sich aus keine Absatzstruktur auf. MAXQDA versucht daher, anhand von verschiedenen Kriterien Absätze in PDF-Dokumenten zu erkennen, sodass beispielsweise die Funktionen zum Suchen von Wörtern innerhalb eines Absatzes oder das Autocodieren von Absätzen verwendbar sind.

Die Absatzerkennung funktioniert in den meisten PDF-Dokumenten sehr gut, aber bitte berücksichtigen Sie folgende Einschränkungen:

  • In PDF-Dokumenten gibt es keine Absätze über Seitengrenzen hinweg. Das heißt, auch wenn inhaltlich ein Absatz auf der nächsten Seite fortgesetzt wird, endet der Absatz für MAXQDA am Seitenende.
  • Fußnotenzeichen im Text werden ggf. als Absatzende erkannt.
  • Die Qualität der Absatzerkennung hängt sehr davon ab, wie das PDF erstellt wurde und welche Struktur es aufweist. In PDF-Dokumenten, die aus gescannten Texten mit Hilfe von Texterkennung (OCR) erzeugt wurden, wird die Qualität der Absatzerkennung schlechter ausfallen als in PDF-Dokumenten, die z.B. direkt aus Word erstellt wurden.

Besonderheiten von PDF-Dokumenten

Bei der Arbeit mit PDF-Dokumenten gibt es einige Besonderheiten zu beachten, da das PDF-Format von seiner Technologie her nicht für die Textbearbeitung ausgelegt ist, sondern ursprünglich als Layout-Format für den Druck konzipiert wurde und da die Dokumente deutlich größer sein können als einfache Text-Dokumente.

PDF-Dateien außerhalb der MAXQDA-Projektdatei speichern

Standardmäßig werden alle PDF-Dateien, die kleiner als 5 MB groß sind, beim Einfügen in das MAXQDA-Projekt auch in diesem gespeichert. PDF-Dateien, die größer als 5 MB sind, werden beim Import nicht physisch im Projekt gespeichert, sondern im Ordner für externe Dateien abgelegt, und es wird nur eine Referenz auf die extern gespeicherte Datei erzeugt.

Sie können sowohl den Schwellenwert von 5 MB als auch den Speicherort für extern gespeicherte Dokumente in den globalen Einstellungen von MAXQDA anpassen. Die gobalen Einstellungen rufen Sie über das Einstellungssymbol ganz unten links im MAXQDA-Haupfenster auf. 

Tipp: Wenn Sie in einem Projekt mit sehr vielen großen PDF-Dateien arbeiten (z.B. mit einer Gesamtgröße von mehr als 50 MB), ist es sinnvoll alle unbhängig von ihrer Dateigröße extern zu speichern, damit die MAXQDA-Datei klein bleibt und leicht gesichert werden kann.
Weitere Informationen finden Sie im Abschnitt zu extern gespeicherten Dateien.

Text- und Bildsegmente im PDF codieren

In PDF-Dokumenten kann mit der Maus sowohl Text selektiert und codiert werden als auch ein Bildrahmen aufgezogen werden, der codiert werden kann. Bei der Anzahl der Codehäufigkeiten nimmt MAXQDA keine Unterscheidungen zwischen Bild- und Textcodierungen vor, wohl aber bei der Segmentsuche: die Suche nach Überschneidungen und Nähe von Bildsegmenten mit Textsegmenten liefert immer 0 Treffer, z.B. bei der Komplexen Segmentsuche und im Code-Relations-Browser.

Wenn Texte als eingescannte PDF-Dateien vorliegen, muss vor dem Import in MAXQDA mit einem geeigneten Programm eine Texterkennung (eine sogenannte OCR-Erkennung) durchgeführt werden, damit später in MAXQDA Text markiert und codiert werden kann—ansonsten lassen sich nur Bildsegmente markieren.

Textauszug aus Bildern und PDFs mit OCR

MAXQDA unterstützt die optische Zeichenerkennung (OCR) zum Extrahieren von Text aus Bildern und PDF-Dokumenten. Diese Funktion ist besonders nützlich, wenn Sie mit gescannten PDFs oder Bilddateien arbeiten, in denen der Text nicht direkt ausgewählt werden kann.

  1. Dokument öffnen:
    • Öffnen Sie das PDF-Dokument oder das Bild im "Dokumentenbrowser".
  2. Textbereich für OCR auswählen:
    • Verwenden Sie die Maus, um einen Rahmen/Rechteck um den Teil des Dokuments zu zeichnen, aus dem Sie Text extrahieren möchten.
  3. OCR durchführen:
    • Klicken Sie mit der rechten Maustaste auf den ausgewählten Bereich und wählen Sie Text aus Bild extrahieren (OCR).
  4. Sprache auswählen:
    • Ein Dialogfenster erscheint, in dem Sie die Sprache des Dokuments zur genauen Texterkennung auswählen müssen.
    • Klicken Sie auf OK, um fortzufahren, oder auf Abbrechen, um den Vorgang abzubrechen.
  5. Ausgezogenen Text überprüfen und bearbeiten:
    • MAXQDA analysiert den ausgewählten Bereich und extrahiert den Text, der in einem anderen Dialogfenster angezeigt wird.
    • Sie können den ausgezogenen Text bei Bedarf bearbeiten.
  6. Text speichern oder kopieren:
    • Kopieren: Klicken Sie auf diese Option, um den ausgezogenen Text in die Zwischenablage zu kopieren.
    • Als Memo speichern: Klicken Sie auf diese Option, um den ausgezogenen Text als Memo in Ihrem Projekt zu speichern.
    • Als Dokument speichern: Klicken Sie auf diese Option, um den ausgezogenen Text als neues Dokument in Ihrem Projekt zu speichern.
    • Schließen: Klicken Sie auf diese Option, um das Dialogfenster zu schließen, ohne den ausgezogenen Text zu speichern.

Text aus einem PDF-Dokument als eigenes Text-Dokument einfügen

Nachdem ein PDF-Dokument in ein MAXQDA-Projekt importiert wurde, können Sie den Text aus dem PDF-Dokument extrahieren. Bilder und Formatierungen werden dabei ignoriert, es wird nur der reine Text als neues Text-Dokument in der „Liste der Dokumente“ eingefügt.

Die Möglichkeit, Text aus einer PDF-Datei zu extrahieren und als Textdokument zu speichern, funktioniert derzeit nur bei PDF-Dateien, die eine lesbare Textebene enthalten.

Klicken Sie hierzu auf ein oder mehrere PDF-Dokumente in der „Liste der Dokumente“ und wählen Sie die Funktion PDF-Text als neues Dokument einfügen aus. Direkt unterhalb des angeklickten Dokuments erscheint der neue Text.

Funktion aus dem Kontextmenü eines PDF-Dokuments aufrufen
Tipp: Bei vielen PDF-Texten wird es durch diese Umwandlung möglich, bei der Textsuche nach dem gemeinsamen Vorkommen von Wörtern innerhalb von Absätzen zu suchen.

Wenn Sie die Kopf- oder Fußzeilen einer PDF-Datei ausschließen haben, wie im folgenden Abschnitt beschrieben, werden diese Bereiche auch bei der Konvertierung einer PDF-Datei in ein Textdokument ausgeschlossen.

Bereiche aus PDF-Dokumenten ausschließen

Die Kopf- und Fußzeilen von PDFs können von allen MAXQDA-Analysen, wie z.B. Worthäufigkeiten und MAXDictio-basierten Analysen, ausgeschlossen werden. Sie können die Ausschlussbereiche ganz einfach mit der Maus anpassen, indem Sie mithilfe der entsprechenden Pfeile am oberen und unteren Rand der Seite die Bereiche aufziehen und so die Kopf- und Fußzeile separat anpassen. Klicken Sie dazu auf das entsprechende Symbol in der Symbolleiste des Dokument-Browser und klicken Sie auf Speichern, um die Änderungen für alle Seiten der PDF-Datei anzuwenden.

Bereiche aus PDF-Dokumenten ausschließen

War diese Seite hilfreich?