Оптическое распознавание символов (OCR) с использованием R

AndreyEx

2 года назад

Оптическое распознавание символов (OCR) с использованием R

Время чтения: 1 мин.

Оптическое распознавание символов (OCR) — это преобразующая технология, которая позволяет преобразовывать различные формы текста, такие как отсканированные документы, PDF-файлы или изображения, в машиночитаемые и редактируемые данные. Хотя OCR обычно ассоциируется с такими языками, как Python, из-за его надежных библиотек, он также может быть эффективно реализован в R, языке, известном своими возможностями статистики и анализа данных. В этой статье рассматривается, как выполнять распознавание символов с помощью R, используя его мощные библиотеки и инструменты.

Что такое OCR в R?

R, традиционно используемый для статистического анализа и визуализации данных, также предлагает ряд пакетов, облегчающих извлечение текста из изображений. Используя OCR в R, аналитики данных и исследователи могут упростить процесс оцифровки и анализа текстовых данных, встроенных в изображения.

Пакеты ключей для OCR в R

Несколько пакетов R обеспечивают функциональность распознавания, наиболее заметными из которых являются:

tesseract: Этот пакет предоставляет привязки к движку распознавания текста Google Tesseract OCR Engine, позволяющие эффективно извлекать текст.
magick: Пакет для расширенной обработки изображений в R, который может использоваться совместно с tesseract для предварительной обработки изображений с целью повышения точности распознавания.

Читать Что такое OCR и зачем нужна технология оптического распознавания текста

Установка необходимых пакетов

Чтобы начать работу с OCR в R, вам необходимо установить необходимые пакеты. Вы можете установить tesseract и magick из CRAN, используя следующие команды:

install.packages("tesseract")
install.packages("magick")

Базовое распознавание символов с помощью Tesseract
Пакет tesseract предоставляет простой интерфейс для выполнения OCR. Вот простой пример:

library(tesseract)

# Путь к файлу изображения
image_path <- "path/to/your/image.png"

# Выполнить распознавание текста
text <- ocr(image_path)

# Распечатайте извлеченный текст
cat(text)

Этот фрагмент кода демонстрирует, как прочитать изображение и извлечь текст с помощью механизма распознавания текста Tesseract. Функция распознавания определяет путь к изображению и возвращает извлеченный текст.

Предварительная обработка изображений с помощью Magick

Предварительная обработка изображений имеет решающее значение для повышения точности распознавания. Пакет magick предоставляет полный набор функций для манипулирования изображениями. Вот пример предварительной обработки изображения перед выполнением распознавания:

library(magick)
library(tesseract)

# Загрузите изображение
image <- image_read("path/to/your/image.png")

# Преобразуйте изображение в оттенки серого
image <- image_convert(image, colorspace = "gray")

# Увеличьте контрастность
image <- image_contrast(image, sharpen = 2)

# Сохраните предварительно обработанное изображение
image_write(image, path = "path/to/your/preprocessed_image.png")

# Выполните распознавание текста на предварительно обработанном изображении
text <- ocr("path/to/your/preprocessed_image.png")

# Распечатайте извлеченный текст
cat(text)

В этом примере изображение преобразуется в оттенки серого и повышается его контрастность, что может помочь повысить точность распознавания.

Передовые методы распознавания

Распознавание текста на нескольких языках
Пакет tesseract поддерживает несколько языков. Чтобы выполнить OCR на языке, отличном от английского, вам необходимо установить соответствующие языковые данные и указать их в функции ocr. Например, для распознавания текста на испанском языке:

# Установите данные на испанском языке
tesseract_download("spa")

# Выполните распознавание текста на испанском языке
text <- ocr("path/to/your/image.png", engine = tesseract("spa"))

# Распечатайте извлеченный текст
cat(text)

Читать KDE Spectacle добавляет поддержку оптического распознавания символов для копирования текста прямо со скриншотов

Извлечение текста из PDF-файлов

Вы также можете извлекать текст из PDF-файлов с помощью OCR. Пакет pdftools в сочетании с tesseract позволяет выполнять OCR для документов PDF. Вот пример:
install.packages(«pdftools»)

library(pdftools)
library(tesseract)

# Преобразование PDF в изображения
pdf_path <- "path/to/your/document.pdf"
images <- pdf_convert(pdf_path, format = "png", pages = 1:pdf_info(pdf_path)$pages)

# Выполните распознавание текста на каждой странице
texts <- lapply(images, ocr)

# Объедините все тексты в один
full_text <- paste(unlist(texts), collapse = "\n")

# Распечатайте извлеченный текст
cat(full_text)

Заключение

Оптическое распознавание символов (OCR) в R открывает новые возможности для аналитиков данных и исследователей по эффективной оцифровке и анализу текстовых данных. Используя мощные пакеты tesseract и magick, вы можете выполнять точное и надежное распознавание различных документов и изображений. Независимо от того, работаете ли вы с отсканированными документами, изображениями или PDF-файлами, R предоставляет инструменты, необходимые для интеграции OCR в рабочий процесс обработки данных.

Часто задаваемые вопросы по оптическому распознаванию символов (OCR) с использованием R

Ниже приведены некоторые часто задаваемые вопросы по оптическому распознаванию символов (OCR) с использованием R:

1. Что такое OCR?

OCR (Optical Character Recognition) — это технология, используемая для преобразования различных типов документов, таких как отсканированные бумажные документы, файлы PDF или изображения, снятые цифровой камерой, в редактируемые данные с возможностью поиска.

2. Какие пакеты R обычно используются для распознавания?

tesseract: R-оболочка для движка Google Tesseract OCR Engine.
magick: интерфейс ImageMagick для расширенной обработки изображений, который можно комбинировать с OCR.

Читать Почему так важно проверять документы?

3. Как мне выполнить базовое распознавание изображений с помощью пакета tesseract?

library(tesseract)
text <- tesseract::ocr("path/to/image.png")
cat(text)

4. Как мне обрабатывать многоязычное распознавание символов в R?

library(tesseract)
eng <- tesseract("eng")
spa <- tesseract("spa")
# Perform OCR with the specified language
text <- tesseract::ocr("path/to/image.png", engine = eng)
cat(text)

5. Могу ли я предварительно обработать изображения для повышения точности распознавания?

Да, предварительная обработка изображений может значительно повысить точность распознавания. Вы можете использовать пакет magick для задач предварительной обработки, таких как изменение размера, обрезка, регулировка яркости/контрастности и преобразование в оттенки серого.

library(magick)
image <- magick::image_read("path/to/image.png")
image %
  magick::image_resize("3000x") %>%
  magick::image_convert(type = 'Grayscale') %>%
  magick::image_trim()
magick::image_write(image, "path/to/preprocessed_image.png")