Shuffle-AI mods

frikky · frikky · commit dfa21f23b377 · 2024-10-02T17:24:57.000+02:00
diff --git a/shuffle-ai/1.0.0/Dockerfile b/shuffle-ai/1.0.0/Dockerfile
@@ -5,7 +5,7 @@ FROM frikky/shuffle:app_sdk as base
 FROM base as builder
 
 # Install all alpine build tools needed for our pip installs
-RUN apk --no-cache add --update alpine-sdk libffi libffi-dev musl-dev openssl-dev git
+RUN apk --no-cache add --update alpine-sdk libffi libffi-dev musl-dev openssl-dev git poppler-utils
 
 # Install all of our pip packages in a single directory that we can copy to our base image later
 RUN mkdir /install
diff --git a/shuffle-ai/1.0.0/src/app.py b/shuffle-ai/1.0.0/src/app.py
@@ -135,6 +135,11 @@ def export_text_to_json(image_text, extracted_text):
             "reason": "Something failed in reading and parsing the pdf. See error logs for more info",
         }
 
+        # Check type of pdf_data["data"]
+        if not isinstance(pdf_data["data"], bytes):
+            self.logger.info("Encoding data to bytes for the bytestream reader")
+            pdf_data["data"] = pdf_data["data"].encode()
+
         # Make a tempfile for the file data from self.get_file
         # Make a tempfile with tempfile library
         with tempfile.NamedTemporaryFile() as temp:
@@ -162,12 +167,24 @@ def export_text_to_json(image_text, extracted_text):
 
     def extract_text_from_image(self, file_id):
         # Check if it's a pdf
+
+        pdf_data = self.get_file(file_id)
+        if "filename" not in pdf_data:
+            available_fields = []
+            for key, value in pdf_data.items():
+                available_fields.append(key)
+
+            return {
+                "success": False,
+                "reason": "File not found",
+                "details": f"Available fields: {available_fields}",
+            }
+
         # If it is, use extract_text_from_pdf
         # If it's not, use pytesseract
-        if self.get_file(file_id)["name"].endswith(".pdf"):
+        if pdf_data["filename"].endswith(".pdf"):
             return self.extract_text_from_pdf(file_id)
 
-        pdf_data = self.get_file(file_id)
         defaultdata = {
             "success": False,
             "file_id": file_id,