Het extraheren van tekst uit PDF's is moeilijk en vereist bijna altijd veel zorg.
Ik zou beginnen met de commandoregelhulpmiddelen zoals pdftotext en zien wat ze uitspugen. Het probleem is dat PDF's de tekst in willekeurige volgorde kunnen opslaan, onhandige coderingen van lettertypen kunnen gebruiken en dingen kunnen doen zoals het gebruik van ligatuurkarakters (de samengevoegde 'ff' en 'ij' die u in het juiste zetwerk ziet) om u te gooien.
pdftotext is installeerbaar op elk Linux-systeem ...