Nếu bạn có những tài liệu cần số hóa để lưu trữ hoặc chỉnh sửa trên máy tính, hẳn bạn sẽ rất ngán ngẩm khi nghĩ đến việc phải đánh máy toàn bộ những tài liệu này. Rất may là hiện nay đã có công nghệ nhận dạng ký tự quang học OCR (Optical Character Recognition) giúp giảm bớt gánh nặng cho công việc văn phòng. Bạn chỉ cần chụp quét các trang tài liệu, những phần mềm ứng dụng công nghệ này sẽ chuyển các ký tự trong ảnh quét hoặc ảnh chụp sang dạng văn bản mà bạn có thể chỉnh sửa, xử lý như khi bạn soạn một văn bản trong MS Word vậy.
Những phần mềm OCR phổ biến nhất hiện nay là FineReader và Omnipage. Nhưng nếu nghĩ có thể dùng những phần mềm này để làm công việc trên thì bạn nên xem lại, bởi FineReader có giá 249 USD và Omnipage còn đắt hơn với giá 499.9 USD, hơn nữa chúng còn rất đồ sộ và nặng nề. Nếu bạn chỉ cần chuyển các ảnh quét sang dạng văn bản thì những công cụ miễn phí sau đây sẽ giúp được bạn, tuy nhiên cũng xin lưu ý là những phần mềm này chỉ làm việc tốt với tài liệu tiếng Anh.
TopOCR
TopOCR sử dụng những công nghệ mới, mạnh nhất trong nhận dạng ký tự quang học và xử lý chữ ký điện tử để cho kết quả tốt nhất khi nhận dạng ký tự quang học từ ảnh chụp bằng các thiết bị như máy ảnh số hay điện thoại di động. Công nghệ này là kết quả sau nhiều năm nghiên cứu và phát triển tại Mỹ và châu Âu. Không giống như các phần mềm khác được thiết kế cho máy quét, TopOCR được phát triển cho việc nhận dạng ký tự trong các bức ảnh chụp. Cũng có một phiên bản chạy trên Windows Mobile và cũng cung cấp khả năng xử lý ảnh chụp rất tuyệt vời.
SimpleOCR
Đây là phần mềm OCR khá mạnh dùng cho máy quét. Phần mềm này khá phổ biến trên thế giới với hàng trăm ngàn người dùng. Bạn có thể tùy chọn những vùng trong ảnh quét để chương trình bỏ qua không xử lý cùng với nhiều tùy chọn hữu ích khác. Chương trình còn có khả năng nhận dạng chữ viết tay và học từ mới. SimpleOCR cũng cung cấp bộ SDK cho các nhà phát triển để họ sử dụng trong các chương trình của riêng họ. Nếu bạn có máy quét, SimpleOCR là một công cụ rất mạnh để nhận dạng ký tự quang học thay cho việc đánh máy nhàm chán.
MS Office Document Imaging (MODI)
Mặc dù MS Office trên nguyên tắc không phải là phần mềm miễn phí nhưng hầu như có mặt trong mọi chiếc máy tính. MODI là công cụ đi kèm trong MS Office Tools (khởi động thông qua Start > Programs > Microsoft Office > Microsoft Office Tools). Để nhận dạng chữ, bạn mở file ảnh cần nhận dạng ra và bấm vào biểu tượng hình con mắt trên thanh công cụ. Khi đưa chuột lên biểu tượng này, bạn sẽ thấy dòng chữ Recognize Text Using OCR.
FreeOCR.net
Trang web này cung cấp khá nhiều phần mềm OCR như FreeOCR, GOCR, cũng như liên kết tới http://asv.aso.ecei.tohoku.ac.jp/tesseract/, một trang web có khả năng nhận dạng ký tự quang học trong những bức ảnh bạn tải lên, nhờ vào engine Tesseract của Google. FreeOCR là một chương trình .NET, dựa trên Tesseract, nhưng mạnh hơn ở phần quét văn bản và hỗ trợ nhận dạng compressed TIFF mà chính engine Tesseractkhông làm được.
VietOCR
Chương trình này dựa trên Tesseract, có khả năng nhận dạng chữ Việt rất tốt, hỗ trợ giao diện tiếng Việt. Đây là một chương trình nguồn mở Java/.NET, hỗ trợ nhận dạng cho các dạng ảnh tiff, jpeg, gif, png, và bmp.
Tuy nhiên, không phải cứ có một phần mềm tốt là đủ để bạn thực hiện công việc số hóa tài liệu giấy. Điều quan trọng nhất là ảnh quét của bạn phải có chất lượng đủ tốt, khoảng 200 dpi trở lên thì việc nhận dạng mới chính xác được. Việc nhận dạng chữ Việt thường xảy ra lỗi do các chữ tương tự nhau, thiếu dấu hay lầm giữa chữ hoa và chữ thường, vì vậy đòi hỏi bạn phải chỉnh sửa tài liệu sau khi nhận dạng để có kết quả tốt nhất.
Có lẽ bạn sẽ thắc mắc phần mềm nào là tốt nhất? Thật ra tất cả các công cụ trên đều làm rất tốt, bạn hãy thử qua từng phần mềm và tự tìm ra cho mình công cụ phù hợp. Các phần mềm đề cập trong bài viết này có thể tải tại http://aone.ws/url/1.
PHAN VĂN BÌNH