นับได้ว่าเอกสารข้อมูลทุกรูปแบบเป็นสิ่งสำคัญมาก ๆ สำหรับทุกหน่วยงานและบริษัท เป็นสิ่งที่แสดงให้เห็นหลักฐานลายลักอักษะ เวลามีการเซ็นทำสัญญาหรือธุรกรรมต่าง ๆ  ยิ่งขนาดของบริษัทหรือหน่วยงานมีขนาดที่ใหญ่ เอกสารและข้อมูลก็จะมากขึ้นตามไปด้วย จึงไม่ใช่เป็นเรื่องที่ยากพอสมควรสำหรับการวิเคราะห์ข้อมูลเอกสารหรือเพิ่มข้อมูลลงในที่จัดเก็บโดยใช้แค่เวลาอันสั้น ซึ่งวิธีการที่ใช้กันอยู่ปัจจุบันคือการใช้แรงงานมนุษย์ในการตรวจสอบหรือกรอกข้อมูลจากเอกสารข้อมูลเหล่านี้ลงในระบบ

บริษัทหรือหน่วยงานจำเป็นต้องเสียเวลาของพนักงานเพื่อจะต้องนำเอกสารมาตรวจสอบข้อมูลและเพิ่มข้อมูลทีละแผ่น ถ้าอยากให้เสร็จเร็ว ก็เพิ่มจำนวนพนักงานเข้าไปอีก หรือโยกย้ายพนักงานจากฝ่ายอื่นมาช่วยงาน แต่มันก็มีผลกระทบทั้งเรื่องของค่าใช้จ่ายและงานที่พนักงานต้องรับผิดชอบเป็นหลัก

ปัญหานี้ถูกแก้ไขได้ด้วยซอฟต์แวร์ ทีชื่อว่า ABBYY ซึ่งเป็นซอฟต์แวร์ โซลูชั่นอีกหนึ่งชิ้นที่เป็นที่

จับตามองของหลายบริษัท ถึงแม้ว่าจะยังไม่สามารถทำงานได้เต็มประสิทธิภาพ แต่ก็สามารถช่วยลดเวลาและขั้นตอนอื่น ๆ ในการจัดการไฟล์เอกสารข้อมูลได้มากเลยทีเดียว โดยวิธีการคือนำไฟล์เอกสารที่ได้ทั้งหมดมาสแกนเข้าสู่ระบบ และตัวระบบจะทำการดึงข้อมูลจากไฟล์รูปภาพที่สแกนเข้าไป มาแปลงเป็นข้อมูลตัวหนังสือที่สามารถนำไปใช้ได้เลย

ความสามารถและข้อจำกัดของ ABBYY

                ABBYY เป็นซอฟต์แวร์ โปรแกรมประเภทโอซีอาร์หรือเรียกง่าย ๆ ว่าเป็นการอ่านข้อความจากไฟล์ภาพ แล้วแปลงเป็นไฟล์ภาษา ซึ่งมีขั้นตอนและความสามารถดังนี้

  • นำเอกสารที่ใช้ในการวิเคราะห์ หรือจัดเก็บทั้งหมดสแกนเข้าเครื่องและนำเข้าสู่ระบบ
  • เลือกระบบการทำงานที่จะใช้กับเอกสาร เช่นเอกสารที่จะจัดเก็บลักษณะตำแหน่งที่ตายตัวหรือเปล่า หรือเป็นเอกสารที่จะสามารถใช้อะไรเป็นตัวแบบฟอร์มที่จะดึงข้อมูลออกมาได้
  • สร้างแบบฟอร์มเพื่อที่จะเลือกข้อมูลที่ต้องการจะให้อ่านออกมาเป็นไฟล์ข้อมูล และจัดเก็บเข้าระบบ
  • เลือกที่รูปแบบและลักษณะไฟล์เอกสารที่จะจัดเก็บ
  • ข้อมูลทั้งหมดถูกเปลี่ยนเป็นไฟล์เอกสารและจัดเก็บเข้าระบบ

ถือว่าเป็นอีกหนึ่งซอฟต์แวร์ ที่ช่วยลดระยะเวลาในการทำงานที่มีปริมาณมากแบบนี้ได้ดีทีเดียว แต่ก็ยังไม่สามารถทำงานได้เต็มประสิทธิภาพทั้งหมด ABBYY สามารถรองรับภาษาได้มากกว่า 144 ภาษาทั่วโลก รวมไปถึงภาษาไทย ซึ่งกระบวนการการเลือกฟอร์มของเอกสารนั้น จะมีให้เลือกภาษาที่จะใช้เลือกจับ ปัญหาคือภาษาไทยเป็นภาษาที่มีปัญหาและเกิดความผิดพลาดได้มากที่สุด เนื่องจากว่าภาษาไทยเป็นภาษาที่มีลำดับชั้นของตัวอักษรเยอะที่สุดเช่น สระอิ ไม้โท หรือ สระอุ ทำให้การจับของความของตัวซอฟต์แวร์ นั้นสามารถเกิดข้อผิดพลาดได้ จำเป็นที่จะต้องใช้มนุษย์มาตรวจสอบข้อมูลที่อ่านได้จากเอกสารอีกครั้ง เป็นอีกหนึ่งขีดจำกัดของตัวซอฟต์แวร์ ที่กำลังอยู่ในช่วงพัฒนาอยู่

 

Author