Hướng dẫn sử dụng phần mềm mã nguồn mở Scan tailor trong xử lý tài liệu số

Phần mềm ScanTailor là phần mềm xử lý tài liệu số hóa có khả năng xử lý tài liệu số hóa dạng ảnh sau khi scan.

 Phần mềm đáp ứng tốt các yêu cầu xử lý số hóa trong thư viện, trợ giúp các công việc mà trước đây thực hiện khá khó khăn hoặc có thể mất nhiều tiền để mua các phần mềm thương mại như: tách đôi trang (nếu scan ở dạng 2 trang một file ), xoay thẳng ảnh, cắt bỏ viền, định dạng lại khổ sách...) Tuy nhiên, phần mềm này chỉ xử lý tài liệu số hóa dạng ảnh, sau khi xử lý cũng sẽ xuất ra dạng ảnh mà không nhận dạng ký tự quang học (OCR), nhưng chúng ta hoàn toàn có thể sử dụng kết quả sau khi xử lý với phần mềm ScanTailor để đưa vào các phần mềm nhận dạng ký tự quang học để nhận dạng, vì chương trình đã loại bỏ nhiễu, giúp quá trình nhận dạng được hoàn thiện hơn.

1. Tải và cài đặt:  

  • Tải phần mềm ScanTailor phiên bản mới nhất tại địa chỉ: http://scantailor.sourceforge.net  
  •  Cài đặt. Tìm đến đường dẫn lưu phần mềm, nhấn đúp chuột để kích hoạt cài đặt 
  •  Lần lượt chấp nhận và thực hiện các bước như sau: chọn I Agree / Install / đợi cho chương trình cài đặt thực hiện xong, nhấn chọn tiếp Close để hoàn tất quá trình cài đặt

2. Hướng dẫn cách sử dụng Scan Tailor:

  • Thao tác 1: Khởi động chương trình phần mềm 
  • Thao tác 2: Chọn thư mục có chứa các file hình ảnh (JPG) bằng cách nhấp chuột vào New project, trong mục Input Directory, nhấn chọn Browse, tìm đến đường dẫn lưu thư mục cần xử lý, nhấn chọn tiếp Select folder; 
  • Thao tác 3: Chọn vị trí lưu các file hình ảnh sau khi xử lý, mặc định của chương trình phần mềm sẽ tạo thêm thư mục Out và lưu các file đã xử lý vào đó bên trong thư mục đang được xử lý. Nếu muốn lưu ở vị trí khác, chọn Browse và xác định vị trí cần lưu; 
  • Thao tác 4: Chọn Sellect all (chọn tất cả); 
  • Thao tác 5: Nhấn chon Ok 
➥ Sau khi đã đưa được thư mục có chứa các file hình ảnh (JPG) vào chương trình của phần mềm Scan tailor, ta tiến hành 6 bước xử lý kỹ thuật sau:
Bước 1: Fix Orientation – Điều chỉnh lại hướng trang 
Đây là bước kiểm tra trước khi xử lý, xem các trang ảnh có bị đảo ngược hay không. Trường hợp các trang ảnh bị đảo ngược, thì ta cần tiến hành xoay đảo lại vị trí trang theo thông thường. Để thực hiện việc đảo lại vị trí trang, ta có thể chọn từng trang và nhấn chọn biểu tượng trong phần Rotate (xoay) cho đúng yêu cầu của mình, hoặc có thể chọn nhiều ảnh cùng một lúc bằng cách nhấn phím Ctrl + trang cần chọn.
Nếu các trang đã đúng với yêu cầu (chiều sách đọc thông thường) thì ta có thể bỏ qua bước này và thực hiện bước tiếp theo. 

Bước 2: Split pages – Tách trang 
Chương trình Scan Tailor có thể tự động nhận dạng chia tách các trang đôi thành các trang đơn theo đúng thứ tự trước sau. Tính năng này của phần mềm đã giúp cán bộ số hóa tiết kiệm được rất nhiều thời gian, khắc phục được tình trạng tách thủ công bằng các phần mềm khác trước đây. 

Bước 3: Deskew – Chỉnh độ nghiêng 
Chỉnh thẳng nội dung trong trang ảnh là một trong những khâu khá quan trọng trong công tác xử lý tài liệu số hóa, nó góp phần vào việc quyết định chất lượng, cũng như tính thẩm mỹ của sản phẩm số hóa sau khi được xử lý và đưa ra phục vụ. 

Bước 4: Select Content – Chọn vùng nội dung 
Đây là một trong những tính năng quan trọng của phần mềm Scan tailor trong quá trình xử lý tài liệu số hóa. Phần mềm có thể tự động nhận dạng được vùng nội dung của trang tài liệu, hoặc gợi ý vùng nội dung cần lấy trong trang tài liệu. Trong trường hợp phần mềm nhận dạng không chính xác, cán bộ thư viện có thể nhận dạng thủ công bằng cách di chuyển chuột điều chỉnh từng trang ảnh. 

Bước 5: Margins – Chỉnh lề 
Sau khi thực hiện xong bước 4 thì cán bộ xử lý tiến hành chỉnh các thông số hay gọi là định lề trên/dưới/trái/phải (Top/Botton/Left/Right) trong ô Margins cho tất cả các trang ảnh. Tùy thuộc vào từng tài liệu khác nhau mà cán bộ xử lý tài liệu số hóa điều chỉnh các thông số cho phù hợp: Ví dụ, đối với tài liệu trên chọn: Top = 1mm ; Botton = 1mm; Left = 2mm; Right = 2mm; Sau đó cho trang đều ở trung tâm bằng việc nhấp chọn nút vuông ở giữa trong ô Alignment. Để các trang đều giống, cùng một kích cỡ thì nhấp chọn Apply To.../ All. 

Bước 6: Output – Xuất dữ liệu đầu ra
  
 Mô tả các bước xử lý tài liệu Hán Nôm với chức năng Output 
Đây là công đoạn cuối cùng, tùy vào yêu cầu về chất lượng tài liệu khi xuất mà cán bộ thư viện có thể thiết lập độ phân giải: 200dpi, 400dpi hay 600dpi cho phù hợp, để khi xuất đầu ra chất lượng ảnh sẽ đạt độ chuẩn. Ở bước này, cán bộ thư viện cần xác định chế độ (mode) đầu ra cho sản phầm cuối cùng của mình, mặc định của chương trình phần mềm ở chế độ Đen – Trắng (Black – White). Cán bộ xử lý có thể thay đổi chế độ ở các chế độ khác: chế độ Màu/Xám (Color – Grayscale) hoặc chế độ hỗn hợp (Mixed) nếu muốn theo yêu cần xử lý.


Kết luận: Đây là phần mềm miễn phí tốt nhất, phù hợp nhất trong việc xử lý ảnh số, đáp ứng đầy đủ các yêu cầu cần có trong một phần mềm duy nhất, trong khi trước đây để xử lý các file ảnh sau số hóa phải cần rất nhiều phần mềm khác nhau để xử lý cho từng công đoạn. 
Trong điều kiện kinh tế khó khăn, các đơn vị không có nhiều kinh phí cho đầu tư phần mềm, nhân viên không có nhiều kinh nghiệm, kỹ thuật cao, chỉ cần sử dụng các máy scan thông thường, hoặc máy ảnh kỹ thuật số là đã có thể số hóa tài liệu, đáp ứng nhu cầu một cách hợp lý nhất. 

Post a Comment

Previous Post Next Post

Back to top