PDF-Dokumente importieren
Der Import von PDF-Dokumenten in ein MAXQDA-Projekt kann auf verschiedene Weise erfolgen, z.B.
- durch Klicken-und-Ziehen von PDF-Dateien aus dem Windows Explorer oder macOS Finder direkt in das Fenster „Liste der Dokumente“,
- durch Klick auf das Plussymbol in der „Liste der Dokumente“ oder
- durch Klick auf das Symbol Texte, PDFs, Tabellen auf dem Tab Import.

Im Abschnitt Daten importieren und gruppieren finden Sie generelle Hinweise zum Import von Daten und deren Strukturierung in MAXQDA.
Farbhervorhebungen und Kommentare
Farbhervorhebungen im PDF-Dokument werden beim Import in MAXQDA als Codierungen übernommen. Im Codesystem wird ein Code mit dem Namen “Word-/PDF-Hervorhebung” auf oberster Ebene angelegt. Für jede Farbe wird ein Subcode mit einem englischen Farbnamen ergänzt und den entsprechenden Textstellen zugeordnet. Falls eine Farbhervorhebung einne Kommentar enthält, wird dieser als Kommentar zum jeweiligen codierten Segment übernommen.
Freie Kommentare im PDF-Dokument, die nicht zu einer Farbhervorhbebung gehören, werden als In-Dokument-Memos importiert. Mehrere aufeinander bezogene Kommentare oder Diskussionsverläufe werden in einem Memo zusammengefasst.
Die Übernahme von Farbhervorhebungen und Kommentaren lässt sich in den Einstellungen des Fensters „Liste der Dokumente“ ein- und ausschalten. Um die Einstellungen zu öffnen, klicken Sie auf das Zahnrad in der Titelleiste des Fensters.
Absätze in PDF-Dateien
PDF-Dokumente weisen – anders als Textdokumente – von sich aus keine Absatzstruktur auf. MAXQDA versucht daher, anhand von verschiedenen Kriterien Absätze in PDF-Dokumenten zu erkennen, sodass beispielsweise die Funktionen zum Suchen von Wörtern innerhalb eines Absatzes oder das Autocodieren von Absätzen verwendbar sind.
Die Absatzerkennung funktioniert in den meisten PDF-Dokumenten sehr gut, aber bitte berücksichtigen Sie folgende Einschränkungen:
- In PDF-Dokumenten gibt es keine Absätze über Seitengrenzen hinweg. Das heißt, auch wenn inhaltlich ein Absatz auf der nächsten Seite fortgesetzt wird, endet der Absatz für MAXQDA am Seitenende.
- Fußnotenzeichen im Text werden ggf. als Absatzende erkannt.
- Die Qualität der Absatzerkennung hängt sehr davon ab, wie das PDF erstellt wurde und welche Struktur es aufweist. In PDF-Dokumenten, die aus gescannten Texten mit Hilfe von Texterkennung (OCR) erzeugt wurden, wird die Qualität der Absatzerkennung schlechter ausfallen als in PDF-Dokumenten, die z.B. direkt aus Word erstellt wurden.
Besonderheiten von PDF-Dokumenten
Bei der Arbeit mit PDF-Dokumenten gibt es einige Besonderheiten zu beachten, da das PDF-Format von seiner Technologie her nicht für die Textbearbeitung ausgelegt ist, sondern ursprünglich als Layout-Format für den Druck konzipiert wurde und da die Dokumente deutlich größer sein können als einfache Text-Dokumente.
PDF-Dateien außerhalb der MAXQDA-Projektdatei speichern
Standardmäßig werden alle PDF-Dateien, die kleiner als 5 MB groß sind, beim Einfügen in das MAXQDA-Projekt auch in diesem gespeichert. PDF-Dateien, die größer als 5 MB sind, werden beim Import nicht physisch im Projekt gespeichert, sondern im Ordner für externe Dateien abgelegt, und es wird nur eine Referenz auf die extern gespeicherte Datei erzeugt.
Sie können sowohl den Schwellenwert von 5 MB als auch den Speicherort für extern gespeicherte Dokumente in den globalen Einstellungen von MAXQDA anpassen. Die gobalen Einstellungen rufen Sie über das Einstellungssymbol ganz unten links im MAXQDA-Haupfenster auf.
Text- und Bildsegmente im PDF codieren
In PDF-Dokumenten kann mit der Maus sowohl Text selektiert und codiert werden als auch ein Bildrahmen aufgezogen werden, der codiert werden kann. Bei der Anzahl der Codehäufigkeiten nimmt MAXQDA keine Unterscheidungen zwischen Bild- und Textcodierungen vor, wohl aber bei der Segmentsuche: die Suche nach Überschneidungen und Nähe von Bildsegmenten mit Textsegmenten liefert immer 0 Treffer, z.B. bei der Komplexen Segmentsuche und im Code-Relations-Browser.
Wenn Texte als eingescannte PDF-Dateien vorliegen, muss vor dem Import in MAXQDA mit einem geeigneten Programm eine Texterkennung (eine sogenannte OCR-Erkennung) durchgeführt werden, damit später in MAXQDA Text markiert und codiert werden kann—ansonsten lassen sich nur Bildsegmente markieren.
Textauszug aus Bildern und PDFs mit OCR
MAXQDA unterstützt die optische Zeichenerkennung (OCR) zum Extrahieren von Text aus Bildern und PDF-Dokumenten. Diese Funktion ist besonders nützlich, wenn Sie mit gescannten PDFs oder Bilddateien arbeiten, in denen der Text nicht direkt ausgewählt werden kann.
- Dokument öffnen:
- Öffnen Sie das PDF-Dokument oder das Bild im "Dokumentenbrowser".
- Textbereich für OCR auswählen:
- Verwenden Sie die Maus, um einen Rahmen/Rechteck um den Teil des Dokuments zu zeichnen, aus dem Sie Text extrahieren möchten.
- OCR durchführen:
- Klicken Sie mit der rechten Maustaste auf den ausgewählten Bereich und wählen Sie Text aus Bild extrahieren (OCR).
- Sprache auswählen:
- Ein Dialogfenster erscheint, in dem Sie die Sprache des Dokuments zur genauen Texterkennung auswählen müssen.
- Klicken Sie auf OK, um fortzufahren, oder auf Abbrechen, um den Vorgang abzubrechen.
- Ausgezogenen Text überprüfen und bearbeiten:
- MAXQDA analysiert den ausgewählten Bereich und extrahiert den Text, der in einem anderen Dialogfenster angezeigt wird.
- Sie können den ausgezogenen Text bei Bedarf bearbeiten.
- Text speichern oder kopieren:
Kopieren: Klicken Sie auf diese Option, um den ausgezogenen Text in die Zwischenablage zu kopieren.
Als Memo speichern: Klicken Sie auf diese Option, um den ausgezogenen Text als Memo in Ihrem Projekt zu speichern.
Als Dokument speichern: Klicken Sie auf diese Option, um den ausgezogenen Text als neues Dokument in Ihrem Projekt zu speichern.
- Schließen: Klicken Sie auf diese Option, um das Dialogfenster zu schließen, ohne den ausgezogenen Text zu speichern.
Text aus einem PDF-Dokument als eigenes Text-Dokument einfügen
Nachdem ein PDF-Dokument in ein MAXQDA-Projekt importiert wurde, können Sie den Text aus dem PDF-Dokument extrahieren. Bilder und Formatierungen werden dabei ignoriert, es wird nur der reine Text als neues Text-Dokument in der „Liste der Dokumente“ eingefügt.
Klicken Sie hierzu auf ein oder mehrere PDF-Dokumente in der „Liste der Dokumente“ und wählen Sie die Funktion PDF-Text als neues Dokument einfügen aus. Direkt unterhalb des angeklickten Dokuments erscheint der neue Text.

Wenn Sie die Kopf- oder Fußzeilen einer PDF-Datei ausschließen haben, wie im folgenden Abschnitt beschrieben, werden diese Bereiche auch bei der Konvertierung einer PDF-Datei in ein Textdokument ausgeschlossen.
Bereiche aus PDF-Dokumenten ausschließen
Die Kopf- und Fußzeilen von PDFs können von allen MAXQDA-Analysen, wie z.B. Worthäufigkeiten und MAXDictio-basierten Analysen, ausgeschlossen werden. Sie können die Ausschlussbereiche ganz einfach mit der Maus anpassen, indem Sie mithilfe der entsprechenden Pfeile am oberen und unteren Rand der Seite die Bereiche aufziehen und so die Kopf- und Fußzeile separat anpassen. Klicken Sie dazu auf das entsprechende Symbol in der Symbolleiste des Dokument-Browser und klicken Sie auf Speichern, um die Änderungen für alle Seiten der PDF-Datei anzuwenden.
