Le pire cauchemard du thésard
Qu’y a-t-il de pire dans une thèse ? La bibliographie.
Qu’y a-t-il de pire dans une bibliographie ? La bibliographie dite « généraliste » ; le genre de truc où on cherche, mais on sait pas bien quoi…
Qu’y a-t-il de pire dans un biblio généraliste ? Le fichier PDF de 1000 pages correspondant à un vieux livre des années 70, tapé à la machine. Autrement dit : chaque page est équivalente à une image, il n’y a pas un seul mot, donc pas la peine d’essayer d’y chercher quoi que ce soit (Ctrl-F, la fameuse fonction « recherche »).
CQFD
Ba, c’est facile de battre ton dragon !!
Un petit coup d’OCR, et pfiew, il se prend 300% de dégat aux ctrl+f !
http://www.labnol.org/software/convert-scanned-pdf-images-to-text-with-google-ocr/5158/
😉
Hu ?!?
Je regarde ça ce soir de plus près… 😉
C’est excellent, même pas besoin de payer ^^
En gros, c’est le même principe que la reconnaissance de caractères parfois livrée avec des logiciels de scan…
Je n’y avais pas pensé. Mais bon, j’imagine que ça a une certaine fiabilité… En l’occurence, pour un document tapé à la machine, sur deux colonnes, et de plutôt mauvaise qualité, ça ne doit pas faire de miracles, si ? Cela dit, j’essayerai quand même à l’occasion.
Exactement Ekho.
Au contraire, si c’est tapé à la machine, il y a de très bon résultat ! (après ça dépend de ce que tu appelles mauvaise qualité, hein)
On arrive même à reconnaitre de l’écriture manuscrite avec de l’OCR (à condition qu’elle soit relativement « propre »)
La prochaine fois que j’ai un problème avec ma thèse, je demanderai directement à Djo, il aura ptetre une réponse !!!
(je ne sais pas si ça marche, mais il a quand même défoncer le problème : « une porte fermée? On n’a pas la clé? Attends, j’ai le bélier pas loin » :D)
Et est-ce qu’il y a des logiciels de ce type, fonctionnant sous Windows (PC du boulot), libres, et « stand alone » (je ne peux pas me permettre de confier certains documents à Google)…?
Je vois que tu avais aussi rencontré ce problème, Ji-Pi ?
Je ne sais pas Arnaud, je n’ai jamais fait de recherche dans le domaine avant ton article.
http://doc.ubuntu-fr.org/ocr tu trouvera peut être ton bonheur
J’ai eu le même problème que toi, mon ptit Ekho, sauf que la documentation était en papier, et non informatique… ça abime moins les yeux, certes, mais la solution de Djo ne marche pas 😀
Merci pour ces infos, Djo.
Je me le note pour plus tard… 😉
Pour revenir sur ce vieil article, qui reste cependant d’actualité… J’ai testé les solutions windows proposées sur ubuntu-fr.com (oui, c’est paradoxal) :
SimpleOCR : très partiel en version gratuite, ne semble pas lire les PDF.
ABBY FineReader 8.0 OCR : Payant.
WebOCR : Ne lit pas les PDF.
ReadIris : limité à 30 jours, plante après le premier démarrage.
C’eut été trop beau… 🙁
et ça : http://www.allmania.com/2009/01/01/logiciel-gratuit-ocr-extraire-le-texte-dune-image-pdf-ou/
Ah ? Plus le temps aujourd’hui, mais j’essaierai demain. Merci. 🙂
Apprendre le google powah tu devra, mon jeune padawan !
Bah, j’avais jeté un oeil à Google. Mais sans trop de succès…
ça c’était à l’époque 😉
Quoi était à l’époque de quoi ?! :-S