Không gian cần có để lưu trữ tài liệu bằng giấy có thể là một vấn đề. Số hóa tài liệu cho phép ta có thể mang các tài liệu này theo bên mình – có thể lưu cả một thư viện trên thiết bị đọc sách điện tử một cách dễ dàng và có thể tìm kiếm các tài liệu này một cách nhanh chóng.Bài viết sẽ giới thiệu các thủ thuật sử dụng máy quét, phần mềm hoặc website nhận dạng ký tự quang học, và cách chuyển đổi sách giấy thành sách điện tử.
Tài liệucó thể lưu trữ bằng phương pháp kỹ thuật số theo một trong hai cách: Dưới dạng hình ảnh hay các tập tin văn bản. Hình ảnh tốn nhiều không gian lưu trữ hơn nhưng giữ lại được chữ viết và nét đặc trưng của tài liệu gốc. Muốn chuyển đổi một hình ảnh đã được quét thành một văn bản hay tập tin xử lý bằng máy tính, cần phải dùng phần mềm nhận dạng ký tự quang học, hay còn gọi là phần mềm OCR. Nếu tài liệu gốc được viết tay hay là một bức họa, thì nên lưu trữ nó bằng hình ảnh.
Máy quét
Dù có lưu trữ tài liệu bằng cách nào – bằng hình ảnh hay tập tin văn bản, sẽ phải cần máy quét để số hóa chúng. Nếu có ít tài liệu cần để xử lý thì chỉ cần một máy in đa năng hay một máy quét phẳng chuyên dùng là đủ. Tuy nhiên, các máy này chạy tương đối chậm và không có khay nạp giấy tự động để xử lý các tài liệu nhiều trang.
Nếu cần xử lý nhanh, nhiều tài liệu thì nên dùng các máy quét có khay nạp giấy là thích hợp nhất.
Máy fujitsu-scansnap-s1500-windows
Các máy quét như: ScanSnap S1500 của Fujitsu giá 15.650.000 VNĐ và ScanJet Professional 3000 của HP giá 9.000.000 VNĐcó thể quét cả hai mặt của một tài liệu cùng lúc với tốc độ 20 trang/phút hay nhanh hơn. Máy quét của HP có tính năng xử lý nạp giấy tin cậy hơn với các loại tài liệu lẫn lộn, nhưng máy của Fujitsu lại đi kèm phần mềm tích hợp tốt hơn, ưu việt hơn.
Ngoài ra còn nhiều loại máy khác như: Scanner Canon Lide 90giá 1.800.000VNĐ,Scanner Chuyên dụng Tốc độ cao Canon DR 2050C giá 4.120.000, ...
Phần mềm OCR
Hầu hết các máy quét đều có đi kèm phần mềm OCR để cài đặt lên máy tính cá nhân, nhưng nếu máy quét không có phần mềm này, ta có thể mua phần mềm riêng. Những phần mềmtốt hiện naylà ABBYY FineReader 11 giá 3.450.000 VNĐ của ABBYY, OmniPage 17 Standard giá 3.200.000 VNĐ của Nuance, và Acrobat X Standard giá 6.300.000VNĐ của Adobe. Ngoài ra, phần mềm PaperPort 12 Standard giá 2.100.000VNĐ của Nuance cũng có thể quét, nhận dạng OCR, và có thêm tính năng quản lý tài liệu giúp dễ dàng theo dõi tài liệu đã quét. Cũng có các phiên bản giá rẻ hơn cho hầu hết các chương trình này.
Trong các thử nghiệm thực tiễn với các bản quét độ phân giải 300dpi, Acrobat chuyển đổi tài liệu tốt nhất, theo sát sau đó là FineReader, và sau nữa là OmniPage và PaperPort. Nhưng 3 sản phẩm sau lại chuyển đổi tốt hơn trong thử nghiệm 3 bản quét 150dpi chất lượng thấp hơn.
Đối với các tài liệu lưu trữ bằng hình ảnh, các bản quét 150-200dpi thường chuyển đổi tốt, nhưng phần mềm OCR dùng tốt hơn với các bản quét 300dpi. Hầu hết tùy thuộc vào nhu cầu của người sử dụng. Nếu chỉ cần đọc được, ta có thể giảm độ phân giải và giảm dung lượng tập tin.
Trang web OCR
Nhiều dịch vụ trực tuyến như: www.free-ocr.com, www.newocr.com và www.ocronline.comrất tốt cho các dự án quy mô nhỏ hay chỉ thực hiện một lần. Trước hết, quét bản gốc vào máy tính rồi tải tài liệu lên trang web OCR.Các dịch vụ này có mặt hạn chế là kết quả các thử nghiệm không được chính xác. Ngoài ra, chỉ nhận dạng được văn bản mà thôi, các dòng kẻ và các yếu tố khác của trang không nhận dạng được.
Dịch vụ trên trang web www.free-ocr.com là dịch vụ miễn phí, nhưng tập tin không được lớn hơn 2MB, và rộng hay cao hơn 5.000 pixel (khoảng 150dpi cho một trang khổ 8,5x11”); và không được tải lên hơn 10 lần trong một giờ.
Dịch vụ www.newocr.com cũng miễn phí, nhưng giao diện còn thô sơ. Tuy nhiên, dịch vụ này chuyển đổi văn bản tốt hơn free-ocr.com và cho phép chuyển đổi các tài liệu có dung lượng lên đến 5MB.
Cuối cùng là www.ocronline.com, dịch vụ này phải tạo một tài khoản miễn phí, nhưng cho phép chuyển đổi hình ảnh 4MB và có thể tải lên đến 15 lần mỗi giờ.
Chuyển đổi sách giấythành sách điện tử
Để chuyển đổi một quyển sách in thành sách điện tử cần quét từng trang một của quyển sách. Công việc này khá mất thời gian, hãy dùng máy quét có tốc độ nhanh. Nếu biết cách đóng gáy sách lại, ta có thể dùng máy quét có khay nạp giấy tự động. Hầu hết các chương trình OCR nói trên đều có tính năng giúp sắp xếp trang.
Khi đã có được tập tin văn bản (ở định dạng PDF, Word hay định dạng khác), dùng Calibre – một phần mềm đọc, sắp xếp, hiệu chỉnh, xuất bản e-book miễn phí và mạnh mẽ - chuyển đổi tập tin sang định dạng thích hợp với thiết bị, thí dụ EPUB hay PDF. Khi đã tạo được một tập tin xem được, dùng một ứng dụng đọc sách như Stanza để tải sách điện tử này vào thiết bị (thiết bị hay ứng dụng phải hỗ trợ tính năng tải tài liệu từ máy tính).
Nhận dạng chữ Việt trực tuyến
Dịch vụ trực tuyến miễn phí này sẽ giúp chuyển văn bản tiếng Việt trong một file ảnh thành file doc hay text một cách chính xác nhờ hỗ trợ nhiều ngôn ngữ khác nhau, trong đó có tiếng Việt.
Có không ít phần mềm cũng như dịch vụ trực tuyến giúp trích xuất text từ ảnh, nhưng tìm một công cụ có hỗ trợ tiếng Việt thì không phải dễ. Free Online OCR là một trong số ít dịch vụ nhận dạng ký tự có hỗ trợ tiếng Việt cùng với 28 ngôn ngữ khác như Anh, Pháp, Hà Lan, Đức, Nga, Ý, Tây Ban Nha, Thụy Điển...
Free Online OCR hỗ trợ trích xuất text các file ảnh có định dạng jpeg, png, gif, bmp and tiff và file pdf một cách nhanh chóng và hiệu quả. Vẫn còn một số hạn chế đối với các file ảnh: Dung lượng cho mỗi file không được quá 1 MB, nhưng file pdf thì có thể lên đến 10 MB. Kết quả sau khi xuất ra sẽ được lưu thành 2 file doc và txt.
Để sử dụng dịch vụ, ta truy cập vào trang chủ tại địa chỉ NewOCR.com (không cần đăng ký thành viên), bấm chọn Choose File hoặc Browse (tùy theo trình duyệt web) và chỉ đường dẫn đến file cần trích xuất. Tiếp theo, chọn ngôn ngữ cần trích xuất cho file ở mục Language of the document.
Tốc độ làm việc của dịch vụ rất nhanh, file sau khi được trích xuất cho kết quả tốt. Nội dung được trích xuất ra gần như là không bị lỗi về vấn đề font. Chú ý ở khung bên phải phía dưới dòng GET FILE sẽ là 2 biểu tượng của định dạng doc (trang văn bản có hình) và txt (trang văn bản không hình), lựa chọn định dạng phù hợp và bấm vào đó để tải về.
Nếu muốn làm việc tiếp với file khác, bấm chọn Upload New File và thực hiện các bước tương tự như trên. Ngoài ra ta có thể sử dụng các dịch vụ ở mục Share this để chia sẻ file với mọi người.
Trao đổi dữ liệu trực tuyến miễn phí
Dịch vụ chuyển đổi dữ liệu mới nhất tại http://www.convertfiles.com/, cung cấp phương pháp chuyển đổi qua lại giữa các định dạng file dễ dàng và đơn giản hơn bao giờ hết.
Hiện trang Web hỗ trợ chuyển đổi các định dạng sau:
+ Các định dạng file nén: RAR, to TAR, ZIP, TGZ, TAR.GZ;
+ Văn bản: DOCX, DOC, ODT, RTF, SWX, TXT, HTML, XHTML, PDF, PDB, ZIP
+ Tập tin trình chiếu: ODP, PPT, PDF, SWF;
+ Hình ảnh: BMP, GIF, JPG, PNG, TIF, ZIP, PDF;
+ Audio: AAC, WAV, MP3, OGG, M4A, FLAC, AU, WMA, AMR;
+ Video: AMV, 3GP, FLV, MP4, MPEG, AVI, VOB, MOV, MKV, ASF, M4V, WMV Và các định dạng khác như: EPS, GIF, JPG, PNG.
Đặc biệt hỗ trợ chuyển đổi sang chuẩn Audio và video dành cho mọi loại điện thoại di động hiện nay.
- Đầu tiên truy cập vào địa chỉ http://www.convertfiles.com/
- Mặc định tuỳ chọn Choose a local file được chọn, cho phép chọn dữ liệu cần chuyển đổi có trên máy tính,bấm nút Browse để chọn file nguồn cần chuyển đổi, khung Input format hiển thị định dạng tập tin nguồn, tiếp theo chọn định dạng tập tin đích cần chuyển đổi sang trong khung Output format,sau đó nhập địa chỉ email của mình vào khung Your email để sau khi chuyển đổi trang Web sẽ gửi link chứa file sau khi chuyển đổi để tải về.
- Cuối cùng bấm nút Convert để chuyển đổi là xong.
- Khi muốn tải file chỉ cần truy cập vào địa chỉ email và kích hoạt email mà trang Web đã gửi cho, rồi kích chuột vào link tải file trong khung Please download and save your converted file … để tải về sử dụng.
Lưu ý:Khi cần chuyển đổi nhạc hoặc phim cho các loại điện thoại di dộng, ta chỉ cần bấm nút Mobile Devices, rồi di chuyển xuống khung AUDIO / VIDEO FORMATS sẽ thấy một danh sách các dòng điện thoại của từng hãng, tương ứng đó định dạng video và audio tương thích với loại điện thoại đó để tiện sử dụng.
Tập tin sau khi chuyển đổi chỉ lưu trữ trên Server tối đa là 3 ngày.
Kim Luân
Ý kiến bạn đọc