Перейти до основного вмісту

Розпізнати текст - швидко!

Інколи так трапляється, що потрібно, що називається "вийняти" текст з файлу, який не є файлом ані .doc, ані .docx, ані, хоча б в гіршому випадку, .txt. Що як ваш текст взагалі надрукований на папері, а вам потрібно внести в нього зміни чи використати його, наприклад, в своїй роботі? В таких випадках стандартним рішенням цієї проблеми є пара сканер + програма для розпізнавання тексту (наприклад, така як ABBYY FineReader). А якщо в цій парі чогось не вистачає? Зазвичай, грошей на купівлю як не одного так другого, а то і обох разом? 😢😭


У такому випадку оцифровування можна розпочати зі звичайнісінького фотографування сторінки тексту на смартфон або цифровий фотоапарат. Спеціальні програми-сканери, які ви легко можете завантажити на свій смартфон, допоможуть правильно зорієнтувати сторінку, усунути бліки від спалаху і т.д. Оно їх аж скільки: 👉 ТИЦЬ 👈 - обирайте, яка подобається.

Після того, як ви отримали потрібні сторінки у .jpeg далі необхідно їх розпізнати.

А ось тут найнесподіваніше. Виявляється, для цього не потрібно переривати увесь Інтернет, намагаючись знайти відповідний конвертер. Більшість цих конвертерів просто вбудовують ваш .jpeg в .docx-файл і "називають" це "конвертацією", що, насправді, ніякою конвертацією не є. З задачею дійсно розпізнавання літер на картинці (хоч jpeg, хоч png - коротше, растровий формат) і перетворення їх у літери в текстовому документі чудово справляються Google Документи.

Усе, що потрібно зробити:

  1. Завантажити файл з зображеним на ньому текстом на свій Google Диск.
  2. Клікнути по зображенню правою кнопкою миші й у контекстному меню обрати "Відкрити за допомогою" → "Google Документи".
Після цього відкриється середовище Google Документів, в якому ви побачите і вставлене зображення, що містить текст для розпізнавання, і сам розпізнаний текст.

Усе те залишається тільки трохи підправити і все. Можна використовувати.

Ну і ще простіше Google Документи справляються з менш складним випадком - форматом pdf. Алгоритм дій щодо розпізнавання pdf-файлу, навіть якщо він не містить текстового шару, такий же, як і для тексту на картинці.