การติดตั้ง textract สำหรับ Python

textract เป็น python package ที่ใช้สำหรับการทำ OCR หรือการดึง text ออกจากเอกสารประเภทต่างๆ เช่น ไฟล์ pdf ซึ่งช่วยอำนวยความสะดวกในการดึง text ออกจากไฟล์ต่างๆเป็นอย่างมาก แต่การติดตั้ง textract นี้ก็มีปัญหาพอสมควร ผมเลยเขียนโพสต์แนะนำวิธีการแก้ปัญหาบางส่วนไว้ให้ครับ 

ปัญหาที่พบ (Windows)

  1. ติดตั้งแล้วติด error เกี่ยบกับ dependency ที่ชื่อ ebooklib เนื่องจาก textract ระบุว่าต้องทำงานร่วมกับ package ของ ebooklib เวอร์ชั่น 0.15 เท่านั้น ซึ่งเวอร์ชั่น 0.15 นี้มีปัญหาเกี่ยวกับ unicode ในไฟล์ readme.md ทำให้ติดตั้งไม่ผ่าน โดยปัญหานี้ถูกแก้ไขใน ebooklib เวอร์ชั่น 0.16 แล้ว แต่ textract ระบุว่าต้องทำงานร่วมกับเวอร์ชั่น 0.15 เท่านั้น
  2. มีฟ้อง error เกี่ยวกับการหาไฟล์ swig.exe ไม่พบ

การแก้ปัญหา ebooklib

  1. ทำการ download ebooklib เวอร์ชั่น 0.15 มาเก็บไว้ในเครื่องก่อน
  2. แตก zip
  3. เข้าไปยัง folder ที่แตก zip ออกมาแล้ว และทำการแก้ไขไฟล์ที่ชื่อ README.md ที่บรรทัดที่ 44 โดยให้แก้ไขตัวอักษรประหลาด 2 ตัวที่อยู่ที่บรรทัดนั้นให้เป็นตัวอักษรปกติ (ตัวอะไรก็ได้) แล้วทำการ save

  4. ใช้คำสั่ง pip install .  (อย่าลืมจุดตรงด้านท้ายด้วยนะครับ) เพื่อติดตั้ง package นี้ให้กับ python ในเครื่องของเรา

การแก้ปัญหา swig.exe

  1. ทำการ download swig มาเก็บไว้ในเครื่อง
  2. แตก zip ไปยัง folder ที่ต้องการ
  3. กำหนด path ใน windows ให้มองเห็น path ของไฟล์ swig.exe

เมื่อดำเนินการเสร็จเรียบร้อยแล้ว ก็สามารถใช้คำสั่ง pip install textract เพื่อทำการติดตั้ง package ได้ตามปกติ

Author: boon

Leave a Reply

Your email address will not be published. Required fields are marked *