Оптическое распознавание символов (OCR) с использованием R

Главная » Статьи » Оптическое распознавание символов (OCR) с использованием R

07.07.2024

Время чтения: 5 мин.

Оптическое распознавание символов (OCR) — это преобразующая технология, которая позволяет преобразовывать различные формы текста, такие как отсканированные документы, PDF-файлы или изображения, в машиночитаемые и редактируемые данные. Хотя OCR обычно ассоциируется с такими языками, как Python, из-за его надежных библиотек, он также может быть эффективно реализован в R, языке, известном своими возможностями статистики и анализа данных. В этой статье рассматривается, как выполнять распознавание символов с помощью R, используя его мощные библиотеки и инструменты.

Что такое OCR в R?

R, традиционно используемый для статистического анализа и визуализации данных, также предлагает ряд пакетов, облегчающих извлечение текста из изображений. Используя OCR в R, аналитики данных и исследователи могут упростить процесс оцифровки и анализа текстовых данных, встроенных в изображения.

Пакеты ключей для OCR в R

Несколько пакетов R обеспечивают функциональность распознавания, наиболее заметными из которых являются:

tesseract: Этот пакет предоставляет привязки к движку распознавания текста Google Tesseract OCR Engine, позволяющие эффективно извлекать текст.
magick: Пакет для расширенной обработки изображений в R, который может использоваться совместно с tesseract для предварительной обработки изображений с целью повышения точности распознавания.

Установка необходимых пакетов

Чтобы начать работу с OCR в R, вам необходимо установить необходимые пакеты. Вы можете установить tesseract и magick из CRAN, используя следующие команды:

install.packages("tesseract")
install.packages("magick")

Базовое распознавание символов с помощью Tesseract
Пакет tesseract предоставляет простой интерфейс для выполнения OCR. Вот простой пример:

library(tesseract)

# Path to the image file
image_path <- "path/to/your/image.png"

# Perform OCR
text <- ocr(image_path)

# Print the extracted text
cat(text)

Этот фрагмент кода демонстрирует, как прочитать изображение и извлечь текст с помощью механизма распознавания текста Tesseract. Функция распознавания определяет путь к изображению и возвращает извлеченный текст.

Читать Google тестирует новую функцию, которая ускоряет работу браузера Chrome - вот как это сделать сейчас

Предварительная обработка изображений с помощью Magick

Предварительная обработка изображений имеет решающее значение для повышения точности распознавания. Пакет magick предоставляет полный набор функций для манипулирования изображениями. Вот пример предварительной обработки изображения перед выполнением распознавания:

library(magick)
library(tesseract)

# Load the image
image <- image_read("path/to/your/image.png")

# Convert the image to grayscale
image <- image_convert(image, colorspace = "gray")

# Increase contrast
image <- image_contrast(image, sharpen = 2)

# Save the preprocessed image
image_write(image, path = "path/to/your/preprocessed_image.png")

# Perform OCR on the preprocessed image
text <- ocr("path/to/your/preprocessed_image.png")

# Print the extracted text
cat(text)

В этом примере изображение преобразуется в оттенки серого и повышается его контрастность, что может помочь повысить точность распознавания.

Передовые методы распознавания

Распознавание текста на нескольких языках
Пакет tesseract поддерживает несколько языков. Чтобы выполнить OCR на языке, отличном от английского, вам необходимо установить соответствующие языковые данные и указать их в функции ocr. Например, для распознавания текста на испанском языке:

# Install Spanish language data
tesseract_download("spa")

# Perform OCR with Spanish language
text <- ocr("path/to/your/image.png", engine = tesseract("spa"))

# Print the extracted text
cat(text)

Извлечение текста из PDF-файлов
Вы также можете извлекать текст из PDF-файлов с помощью OCR. Пакет pdftools в сочетании с tesseract позволяет выполнять OCR для документов PDF. Вот пример:
install.packages(«pdftools»)

library(pdftools)
library(tesseract)

# Convert PDF to images
pdf_path <- "path/to/your/document.pdf"
images <- pdf_convert(pdf_path, format = "png", pages = 1:pdf_info(pdf_path)$pages)

# Perform OCR on each page
texts <- lapply(images, ocr)

# Combine all texts into one
full_text <- paste(unlist(texts), collapse = "\n")

# Print the extracted text
cat(full_text)

Заключение
Оптическое распознавание символов (OCR) в R открывает новые возможности для аналитиков данных и исследователей по эффективной оцифровке и анализу текстовых данных. Используя мощные пакеты tesseract и magick, вы можете выполнять точное и надежное распознавание различных документов и изображений. Независимо от того, работаете ли вы с отсканированными документами, изображениями или PDF-файлами, R предоставляет инструменты, необходимые для интеграции OCR в рабочий процесс обработки данных.

Читать Основы YAML, которые должен знать каждый инженер DevOps

Часто задаваемые вопросы по оптическому распознаванию символов (OCR) с использованием R

Ниже приведены некоторые часто задаваемые вопросы по оптическому распознаванию символов (OCR) с использованием R:

1. Что такое OCR?
OCR (Optical Character Recognition) — это технология, используемая для преобразования различных типов документов, таких как отсканированные бумажные документы, файлы PDF или изображения, снятые цифровой камерой, в редактируемые данные с возможностью поиска.

2. Какие пакеты R обычно используются для распознавания?

tesseract: R-оболочка для движка Google Tesseract OCR Engine.
magick: интерфейс ImageMagick для расширенной обработки изображений, который можно комбинировать с OCR.

3. Как мне выполнить базовое распознавание изображений с помощью пакета tesseract?

library(tesseract)
text <- tesseract::ocr("path/to/image.png")
cat(text)

4. Как мне обрабатывать многоязычное распознавание символов в R?
(tesseract)

Укажите язык (языки), который (которые) вы хотите использовать

eng <- tesseract("eng")
spa <- tesseract("spa")
# Perform OCR with the specified language
text <- tesseract::ocr("path/to/image.png", engine = eng)
cat(text)

5. Могу ли я предварительно обработать изображения для повышения точности распознавания?
Да, предварительная обработка изображений может значительно повысить точность распознавания. Вы можете использовать пакет magick для задач предварительной обработки, таких как изменение размера, обрезка, регулировка яркости / контрастности и преобразование в оттенки серого.

library(magick)
image <- magick::image_read("path/to/image.png")
image %
  magick::image_resize("3000x") %>%
  magick::image_convert(type = 'Grayscale') %>%
  magick::image_trim()
magick::image_write(image, "path/to/preprocessed_image.png")

Просмотров поста: 335

Редактор: Анастасия

Рейтинг: 4 (1 голос)