Сканиране и разпознаване на текст

Добър ден.

Вероятно всеки от нас е изправен пред задачата, когато е необходимо да преведе хартиен документ в електронна форма. Особено често е необходимо да се правят онези, които учат, работят с документи, превеждат текстове, използвайки електронни речници и т.н.

В тази статия бих искал да споделя някои от основните неща в този процес. Като цяло, сканирането и разпознаването на текст е доста трудоемка, тъй като повечето операции трябва да се извършват ръчно. Ще се опитаме да разберем стъпките, които, как и защо.

Не всеки веднага разбира едно нещо. След сканиране (мащабиране на всички листове на скенера) ще имате снимки от форматите BMP, JPG, PNG, GIF (може да има други формати). Така че с тази картина трябва да получите текста - тази процедура се нарича признание. В този ред и ще бъде изявлението по-долу.

съдържание

  • 1 1. Какво трябва да сканирам и да разпознавам?
  • 2 2. Опции за сканиране на текст
  • 3 3. Разпознаване на текста на документа
    • 3.1 3.1 Текст
    • 3.2 3.2 Снимки
    • 3.3 3.3 Таблици
    • 3.4 3.4 Ненужни елементи
  • 4 4. Разпознаване на PDF / DJVU файлове
  • 5 5. Проверка на грешките и запазване на резултатите от работата

1. Какво трябва да сканирате и разпознаете?

1) Скенерът

За да преведете отпечатаните документи в текстова форма, трябва да имате скенер и съответно "родствени" програми и драйвери, които са дошли с него. С тях можете да сканирате документа и да го запазите за по-нататъшна обработка.

Можете да използвате други аналози, но софтуерът, доставен със скенера в комплекта, обикновено работи по-бързо и има повече опции.

В зависимост от вида на скенера, който имате - скоростта на работа може да варира значително. Има скенери, които могат да получат снимка от листа за 10 секунди. Някои от тях ще бъдат получени след 30 секунди. Ако сканирате книга за 200-300 листа - мисля, че не е трудно да се изчисли колко пъти ще има разлика във времето?

2) Програмата за признаване

В тази статия ще ви покажа работата в една от най-добрите програми за сканиране и разпознаване на абсолютно всички документи - ABBYY FineReader. защото програмата е платена, тогава веднага ще дам връзка с другата - безплатната му аналогова форма Cunei. Но не бих ги сравнил, предвид факта, че FineReader печели във всяко отношение, аз препоръчвам да се опитате да го направите.

ABBYY FineReader 11

Официален уеб сайт: http://www.abbyy.ru/

Една от най-добрите програми по рода си. Тя е предназначена да разпознава текста в картината. Има много опции и функции. Мога да анализирам куп шрифтове, да поддържа дори и ръкописни версии (макар че лично не опитах, мисля, че е малко вероятно да разпознаеш ръкописната версия, освен ако нямаш перфектния калиграфски почерк). Повече подробности за работата с него ще бъдат описани по-долу. Тук отбелязваме, че статията ще ви разкаже за работата по програмата 11.

Като правило, различните версии на ABBYY FineReader не се различават много от всеки друг. Можете лесно да направите същото в другото. Основните разлики могат да бъдат в удобството, скоростта на програмата и нейните възможности. Например, по-ранните версии отказват да отварят PDF и DJVU ...

3) Документи за сканиране

Да, така реших да оправя документите в отделна кутийка. В повечето случаи сканирайте всички учебници, вестници, статии, списания и др. тези книги и тази литература, която е в търсенето. Дали това водим? От личен опит мога да кажа, че много, че искате да сканирате - може би вече съществува в мрежата! Колко пъти лично съм спестил време, когато намерих тази или онази книга, която вече е сканирана в мрежата. Мога само да копирам текста в документа и да продължа да работя с него.

От този прост съвет - преди да сканирате нещо, проверете дали някой вече го е сканирал и не е нужно да губите времето си.

2. Опции за сканиране на текст

Тук няма да говоря за вашите драйвери за скенера, програмите, които вървят заедно с него, защото всички модели на скенера са различни, софтуерът също е различен навсякъде и предполагам, и още повече, че да покажете как да изпълните операцията е нереалистично.

Но във всички скенери има същите настройки, които могат значително да повлияят на скоростта и качеството на вашата работа. Това е за тях и ще говорим тук. Ще ги изброя в ред.

1) Качество на сканиране - DPI

Първо, качеството на сканирането трябва да бъде настроено на минимум 300 DPI. Препоръчително е дори да поставите повече, ако е възможно. Колкото по-високо е DPI, толкова по-ясно ще се появи вашият образ и по този начин по-нататъшната обработка ще бъде по-бърза. Освен това, колкото по-високо е качеството на сканирането - толкова по-малко грешки ще трябва да коригирате по-късно.

Оптималният вариант обикновено осигурява 300-400 DPI.

2) Хроматичността

Този параметър оказва значително влияние върху времето за сканиране (между другото, DPI също се отразява, но тези са толкова силни и само когато потребителят постави високи стойности).

Обикновено има три режима:

- черно-бяло (идеално за обикновен текст);

- сива (подходяща за текст с таблици и снимки);

- цвят (за цветни списания, книги, като цяло, документи, където е важна хроматиката).

Обикновено времето за сканиране зависи от избора на цвят. В края на краищата, ако имате голям документ, дори и допълнителните 5-10 секунди на страницата като цяло ще се разлеят в прилично време ...

3) Снимки

Можете да получите документа не само чрез сканиране, но и като го снимате. Като правило, в този случай ще имате някои други проблеми: изкривяване на изображението, замъглено. Поради това може да се изисква по-продължително редактиране и обработка на получения текст. Лично аз не препоръчвам използването на камери за този случай.

Важно е да се отбележи, че не всеки такъв документ ще бъде признат; Качеството на сканирането може да е изключително ниско ...

3. Разпознаване на текстов документ

Ще приемем, че сте получили желаните сканирани страници. Най-често те са формати: tif, bmb, jpg, png. Като цяло, за ABBYY FineReader - това не е много важно ...

След отваряне на снимки в ABBYY FineReader, програмата обикновено се задейства от автоматичната машина, за да се разпределят области и да се разпознават. Но понякога това не го прави. За тази цел ще обмислим разпределянето на необходимите зони ръчно.

Важно! Не всеки веднага разбира, че след отварянето на документ в програмата източният документ се показва вляво в прозореца, в който избирате различни области. След като кликнете върху бутона "разпознаване", програмата в прозореца вдясно ще покаже готовия текст за вас. След разпознаване, между другото, препоръчително е да проверите текста за грешки в същия FineReader.

3.1 Текст

Тази област се използва за избор на текст. Снимките и таблиците трябва да бъдат изключени от него. Редовните и необичайни шрифтове ще трябва да се въвеждат ръчно ...

За да подчертаете текстовата област, обърнете внимание на панела в горната част на FineReader. Има бутон "T" (вижте екранната снимка по-долу, показалецът на мишката е на този бутон). Кликнете върху него, след което на снимката по-долу изберете правилно правоъгълната област, в която е разположен текстът. Между другото, в някои случаи трябва да създадете текстови блокове от 2-3, а понякога от 10-12 на страница, защото Форматирането на текста може да бъде различно и един правоъгълник не разпределя цялата област.

Важно е да се отбележи, че текстовото поле не трябва да получава снимки! В бъдеще това ще ви спести много време ...

3.2 Снимки

Използва се за подчертаване на изображения и области, които трудно могат да бъдат разпознати поради лошо качество или необичаен шрифт.

В екранната снимка по-долу показалецът на мишката е на бутона, използван за избор на областта "картина". Между другото, в тази област можете да изберете абсолютно всяка част от страницата и FineReader ще я вмъкне по-късно в документа като обикновена картина. Т.е. просто "глупаво" копие ...

Обикновено тази област се използва за открояване на лошо сканирани таблици, за подчертаване на нестандартни текстове и шрифтове, за самите снимки.

3.3 Таблици

На екранното изображение по-долу е показан бутон за избор на таблици. Като цяло, аз лично го използвам много рядко. Факт е, че ще трябва да рисувате (всъщност) всеки ред на масата и да показвате какво и как да програмирате. Ако масата е малка и не е с много добро качество, препоръчвам да използвате зоната "картина" за тези цели. Това спестява много време и можете бързо да направите електронна таблица в Word въз основа на картина.

3.4 Ненужни елементи

Важно е да се отбележи. Понякога на страницата има ненужни елементи, които пречат на разпознаването на текста или въобще не ви позволяват да изберете желаната област. Те могат да бъдат изтрити с помощта на гумата като цяло.

За да направите това, отидете в режим за редактиране на изображения.

Изберете инструмента "eraser" и изберете ненужна област. Тя ще бъде изтрита и на нейно място ще бъде бял лист хартия.

Между другото, препоръчвам да използвате тази опция възможно най-често. Опитайте всички текстови области, които сте подчертали, където нямате нужда от текст, или има ненужни точки, замъгляване, изкривяване - изтрийте гумата. Благодарение на това признание ще бъде по-бързо!

4. Разпознаване на PDF / DJVU файлове

По принцип този формат на разпознаване няма да се различава от нищо друго - т.е. Можете да работите с него, както и с картини. Единственото нещо, което програмата не трябва да е твърде стара версия, ако не отваряте PDF / DJVU файлове - актуализирайте версията до 11.

Малко съвет. След отваряне на документа в FineReader - той автоматично ще започне да разпознава документа. Често в PDF / DJVU файловете не е необходима специфична страница в целия документ! За да изтриете такава област на всички страници, направете следното:

1. Отидете в секцията за редактиране на изображения.

2. Активирайте опцията за изрязване.

3. Изберете желаната област на всички страници.

4. Щракнете върху приложението върху всички страници и отрязването.

5. Проверка на грешките и запазване на резултатите от работата

Изглежда, че все още има проблеми, когато всички области бяха разпределени, след това разпознати - вземи го и го спаси ... Не беше там!

Първо, трябва да проверите документа!

За да го активирате, след разпознаване, в прозореца вдясно ще има бутон "проверка", вижте екранната снимка по-долу. След като кликнете върху него, програмата FineReader автоматично ще ви покаже онези области, в които програмата има грешки и не е могла да определи надеждно конкретен символ. Ще трябва само да изберете, или сте съгласни с мнението на програмата, или въведете своя символ.

Между другото, в половината от случаите приблизително програмата ще ви предложи готовата дума - ще трябва да изберете правилната опция с мишката.

На второ място, след проверка, трябва да изберете формата, в който ще запазите резултатите от работата си.

Тук FineReader ви дава пълен ход: можете просто да прехвърлите информация в Word един към друг и можете да го запазите в един от десетките формати. Но бих искал да подчертая друг важен аспект. Кой формат няма да бъде избран, по-важно е да изберете типа копие! Помислете за най-интересните опции ...

Точно копие

Всички области, които сте избрали на страницата в разпознатия документ, ще съответстват точно на оригиналния документ. Много удобна опция, когато е важно да не загубите форматирането на текста. Между другото, шрифтовете също ще бъдат много подобни на оригинала. Препоръчвам да използвате тази опция, за да изпратите документа в Word, за да продължите нататък.

Редактиращо копие

Тази опция е добра, защото вече имате форматирана версия на текста. Т.е. вдлъбнатина от "километъра", която може да е била в изходния документ - няма да се срещнете. Полезна опция, когато съществено ще редактирате информацията.

Въпреки това, не е необходимо да избирате, ако е важно за вас да запазите стил на декорация, шрифтове, тирета. Понякога, ако разпознаването не е много успешно - документът ви може да се "изкриви" поради промененото форматиране. В този случай е препоръчително да изберете точно копие.

Опростен текст

Опция за тези, които просто искат текст със страница без всичко останало. Подходящ за документи без снимки и маси.

Тази статия относно сканирането и разпознаването на документа приключи. Надявам се, че с тези прости съвети ще можете да решите проблемите си ...

Успех!

Компютърна Помощ
Цифрова Техника
Производители TV