Le pire cauchemard du thésard

Cet article a été publié il y a 15 ans. Son contenu est sans doute daté, tant sur la forme que sur le fond... Toutefois, cela n’empêche pas d'échanger à son propos. N'hésitez donc pas à vous exprimer en commentaires à la fin de l'article.

Qu’y a-t-il de pire dans une thèse ? La bibliographie.

Qu’y a-t-il de pire dans une bibliographie ? La bibliographie dite « généraliste » ; le genre de truc où on cherche, mais on sait pas bien quoi…

Qu’y a-t-il de pire dans un biblio généraliste ? Le fichier PDF de 1000 pages correspondant à un vieux livre des années 70, tapé à la machine. Autrement dit : chaque page est équivalente à une image, il n’y a pas un seul mot, donc pas la peine d’essayer d’y chercher quoi que ce soit (Ctrl-F, la fameuse fonction « recherche »).

CQFD

Categories:Images & Dessins

Tags:humour science technique vecu

Ekho

Geek bordelais, féru de science, amoureux de technologies, mordu de SF, amateur de fantasy, épris de jeux en tous genre, adepte de réflexions diverses. Et j'aime le canard, aussi.

Lyr dit :

22 janvier 2010 à 14h37

Ba, c’est facile de battre ton dragon !!

Un petit coup d’OCR, et pfiew, il se prend 300% de dégat aux ctrl+f !

http://www.labnol.org/software/convert-scanned-pdf-images-to-text-with-google-ocr/5158/

Répondre - Citer
Ekho dit :

22 janvier 2010 à 15h52

Hu ?!?

Je regarde ça ce soir de plus près…

Répondre - Citer
Tharkun dit :

22 janvier 2010 à 16h00

C’est excellent, même pas besoin de payer ^^

Répondre - Citer
Ekho dit :

23 janvier 2010 à 10h11

En gros, c’est le même principe que la reconnaissance de caractères parfois livrée avec des logiciels de scan…

Je n’y avais pas pensé. Mais bon, j’imagine que ça a une certaine fiabilité… En l’occurence, pour un document tapé à la machine, sur deux colonnes, et de plutôt mauvaise qualité, ça ne doit pas faire de miracles, si ? Cela dit, j’essayerai quand même à l’occasion.

Répondre - Citer
Lyr dit :

24 janvier 2010 à 13h03

Exactement Ekho.

Au contraire, si c’est tapé à la machine, il y a de très bon résultat ! (après ça dépend de ce que tu appelles mauvaise qualité, hein)
On arrive même à reconnaitre de l’écriture manuscrite avec de l’OCR (à condition qu’elle soit relativement « propre »)

Répondre - Citer
JPeG dit :

24 janvier 2010 à 14h53

La prochaine fois que j’ai un problème avec ma thèse, je demanderai directement à Djo, il aura ptetre une réponse !!!

(je ne sais pas si ça marche, mais il a quand même défoncer le problème : « une porte fermée? On n’a pas la clé? Attends, j’ai le bélier pas loin » :D)

Répondre - Citer
Ekho dit :

24 janvier 2010 à 21h33

Et est-ce qu’il y a des logiciels de ce type, fonctionnant sous Windows (PC du boulot), libres, et « stand alone » (je ne peux pas me permettre de confier certains documents à Google)…?

Je vois que tu avais aussi rencontré ce problème, Ji-Pi ?

Répondre - Citer
Lyr dit :

25 janvier 2010 à 12h50

Je ne sais pas Arnaud, je n’ai jamais fait de recherche dans le domaine avant ton article.

http://doc.ubuntu-fr.org/ocr tu trouvera peut être ton bonheur

Répondre - Citer
JPeG dit :

26 janvier 2010 à 10h58

J’ai eu le même problème que toi, mon ptit Ekho, sauf que la documentation était en papier, et non informatique… ça abime moins les yeux, certes, mais la solution de Djo ne marche pas

Répondre - Citer
Ekho dit :

26 janvier 2010 à 23h46

Merci pour ces infos, Djo.

Je me le note pour plus tard…

Répondre - Citer
Ekho dit :

7 octobre 2010 à 14h36

Pour revenir sur ce vieil article, qui reste cependant d’actualité… J’ai testé les solutions windows proposées sur ubuntu-fr.com (oui, c’est paradoxal) :

SimpleOCR : très partiel en version gratuite, ne semble pas lire les PDF.

ABBY FineReader 8.0 OCR : Payant.

WebOCR : Ne lit pas les PDF.

ReadIris : limité à 30 jours, plante après le premier démarrage.

C’eut été trop beau…

Répondre - Citer
Lyr dit :

7 octobre 2010 à 16h17

et ça : http://www.allmania.com/2009/01/01/logiciel-gratuit-ocr-extraire-le-texte-dune-image-pdf-ou/

Répondre - Citer
Ekho dit :

7 octobre 2010 à 17h10

Ah ? Plus le temps aujourd’hui, mais j’essaierai demain. Merci.

Répondre - Citer
Lyr dit :

7 octobre 2010 à 17h52

Apprendre le google powah tu devra, mon jeune padawan !

Répondre - Citer
Ekho dit :

7 octobre 2010 à 19h06

Bah, j’avais jeté un oeil à Google. Mais sans trop de succès…

Répondre - Citer
JPeG dit :

7 octobre 2010 à 19h32

ça c’était à l’époque

Répondre - Citer
Ekho dit :

7 octobre 2010 à 22h44

Quoi était à l’époque de quoi ?! :-S

Répondre - Citer

Ekhorizon [reloaded]

Le pire cauchemard du thésard

17 commentaires

Laisser un commentaire

Concert des FunkAddicts

Avez-vous déjà pris un rond-point ?

Toiles gelées

Dans les racines de Magic The Gathering