Hallo Paul,
Bij dat scannen krijg je in de praktijk nooit je pagina's allemaal mooi recht gescand. Ik heb een draaiplateau. Dan kan ik met één camera uit de voeten. Elke oneven pagina staat dan wel op zijn kop. Dat kan ik in Scan Tailor gemakkelijk draaien. Dan kan je de tekstblokken selecteren, zodat je andere rommel buitensluit.
Tenslotte kan je de resolutie opgeven en ook kiezen waar je alle tekstblokken op uitlijnt. Wij westerlingen kiezen de linkerbovenhoek. Het programma kan ook rechts naar links schriftsoorten aan. Dan maak je een andere keuze.
Tesseract zou de beste OCR geven. Ik heb het gelijk geprobeerd en krijg alleen maar rommel:
rn , .¤D °H••u U
... ,= ,. . ::_,,;°.E,,¤ ··.¤ ,=..;=· ‘·-
~ za. B’·=·= ¤:>=¤°·"‘g "'8.,"·¤"5~··~·=v. E
'\:I u |=·¤ .
•»..«¤ .. aqua Ep I: mv
‘·1 ï°"°’¥`·‘5+=i$E`5‘ä°ïä ··•=”ï°‘*"äE·=_5äg.ä'¤B
¤ · -°'¤ ¤¤¤ >¤o•·ï~ "'¤«.·¤"•.°~`«=•«:u
z ¤ =E'*"E.,¤•°=€‘.c(_,~§u¤°*J '°·¤u¤'°¤¤·¤ wou '=
- ,; ~·-·;¤¤03:~ ··_=.¤:¤ _¤» ;:1,=_§¤¤3-¤'=.,.:>=°
Ik heb helaas nog nooit iets fatsoenlijks gezien in Linux qua OCR. Daar moet ik nog eens op studeren.
Zo met een afbeelding gaat inderdaad vrij aardig. Het enige is dat je geen zoekactie op een woord kan doen.
Dat kan bij een tekst-gebaseerde pdf wel. Dat kan je bij een echt boek overigens ook niet. Maar in een beetje pdf-editor (nee, ik ga hier niet Acrobat in mijn mond nemen ... .) kan je aan een pdf notities hangen en bladwijzers. Dat is heel handig!
Ik heb op het werk alle officiële richtlijnen in een dergelijke pdf met later toegevoegde bladwijzers. Dat bevalt me uitstekend. De eerste richtlijnen waren trouwens ook drukwerk. Die zijn nog ouderwets ingescand. Wel met een scanner met sheetfeeder. Het duurde alleen erg lang. Verder was het een enorme sjouw om de stapel papier naar die scanner te krijgen. Die stond namelijk in Zweden.
Hier een plaatje van het apparaat in actie: