Spaces:

WebashalarForML
/

ImageDataExtractor2

Runtime error

App Files Files Community

WebashalarForML commited on 27 days ago

Commit

8574192

verified ·

1 Parent(s): a18b376

Update app.py

Browse files

Files changed (1) hide show

app.py +51 -111

app.py CHANGED Viewed

@@ -80,148 +80,88 @@ def upload_file():
     logging.info(f"Files successfully uploaded: {uploaded_files}")
     return process_file()
-@app.route('/remove_file',methods=['POST'])
-def remove_file():
-    uploaded_files = session.get('uploaded_files', [])
-    if uploaded_file:
-        for filename in uploaded_files:
-            file_path = os.path.join(app.config['UPLOAD_FOLDER'], filename)
-            if os.path.exists(file_path):
-                os.remove(file_path)
-                logging.info(f"Removed file: {filename}")
-            else:
-                logging.warning(f"File not found for removal: {file_path}")  # More specific log
-        session.pop('uploaded_files', None)
-        flash('Files successfully removed')
-        logging.info("All uploaded files removed")
-    else:
-        flash('No file to remove.')
-        logging.warning("File not found for removal")
-    return redirect(url_for('index'))
 @app.route('/reset_upload')
 def reset_upload():
-    """Reset the uploaded file and the processed data."""
     uploaded_files = session.get('uploaded_files', [])
-    if uploaded_file:
-        for filename in uploaded_files:
-            file_path = os.path.join(app.config['UPLOAD_FOLDER'], filename)
-            if os.path.exists(file_path):
-                os.remove(file_path)
-                logging.info(f"Removed file: {filename}")
-            else:
-                logging.warning(f"File not found for removal: {file_path}")  # More specific log
-        session.pop('uploaded_files', None)
-        flash('Files successfully removed')
-        logging.info("All uploaded files removed")
-    else:
-        flash('No file to remove.')
-        logging.warning("File not found for removal")
     return redirect(url_for('index'))
-# @app.route('/process', methods=['GET','POST'])
-# def process_file():
-#     uploaded_files = session.get('uploaded_files', [])
-#     if not uploaded_files:
-#         flash('No files selected for processing')
-#         logging.warning("No files selected for processing")
-#         return redirect(url_for('index'))
-#     file_paths = [os.path.join(app.config['UPLOAD_FOLDER'], filename) for filename in uploaded_files]
-#     logging.info(f"Processing files: {file_paths}")
-#     extracted_text = {}
-#     processed_Img = {}
-#     try:
-#         extracted_text, processed_Img = extract_text_from_images(file_paths)
-#         logging.info(f"Extracted text: {extracted_text}")
-#         logging.info(f"Processed images: {processed_Img}")
-#         llmText = json_to_llm_str(extracted_text)
-#         logging.info(f"LLM text: {llmText}")
-#         LLMdata = Data_Extractor(llmText)
-#         print("llm data--------->",llmText)
-#         logging.info(f"LLM data: {LLMdata}")
-#     except Exception as e:
-#         logging.error(f"Error during LLM processing: {e}")
-#         logging.info("Running backup model...")
 @app.route('/process', methods=['GET', 'POST'])
 def process_file():
     uploaded_files = session.get('uploaded_files', [])
     if not uploaded_files:
         flash('No files selected for processing')
-        logging.warning("No files selected for processing")
         return redirect(url_for('index'))
     file_paths = [os.path.join(app.config['UPLOAD_FOLDER'], filename) for filename in uploaded_files]
     logging.info(f"Processing files: {file_paths}")
     try:
-        # Single Groq VLM pass on each image
         LLMdata, extracted_text, processed_Img = extract_text_from_images(file_paths)
-        LLMdata['meta'] = "Primary: Groq VLM Extraction"
-        logging.info(f"Groq VLM structured data: {LLMdata}")
-        logging.info(f"Extracted text blobs: {extracted_text}")
-        logging.info(f"Processed images: {processed_Img}")
-        # If LLMdata is essentially empty (all values are empty lists), we might want to try backup
-        is_empty = all(len(v) == 0 for k, v in LLMdata.items() if k != 'extracted_text')
         if is_empty:
-            logging.info("Groq VLM returned empty data. Trying backup model...")
             raise ValueError("Empty data from Groq VLM")
-        # Regex fallback / augmentation from model text
-        cont_data = process_extracted_text(extracted_text)
-        logging.info(f"Contextual data: {cont_data}")
-        processed_data = process_resume_data(LLMdata, cont_data, extracted_text)
-        logging.info(f"Processed data: {processed_data}")
-        session['processed_data'] = processed_data
-        session['processed_Img'] = processed_Img
-        flash('Data processed and analyzed successfully')
-        return redirect(url_for('result'))
     except Exception as e:
-        logging.exception(f"Error during primary processing: {e}")
-        flash('Primary processing failed, attempting backup model...')
-        # We don't call extract_text_from_images AGAIN because it already ran and produced its results
-        # in the variables assigned at line 162. We just need to ensure they are available here.
-        # If extraction completely failed (raised before return), then we have nothing to do.
-        if 'extracted_text' not in locals() or not extracted_text:
-             flash('Critical failure: Could not extract text from image.')
              return redirect(url_for('index'))
-        LLMdata = {}
         try:
-            text = json_to_llm_str(extracted_text)
-            LLMdata = NER_Model(text)
-            LLMdata['meta'] = "Backup: PaddleOCR + Local NER"
             logging.info(f"NER model data: {LLMdata}")
         except Exception as backup_e:
-            logging.exception(f"Error during backup processing: {backup_e}")
-            flash('Backup processing also failed')
             return redirect(url_for('index'))
-    # Final merge using backup data if we reached here
-    cont_data = process_extracted_text(extracted_text)
-    processed_data = process_resume_data(LLMdata, cont_data, extracted_text)
-    logging.info(f"Final merged data: {processed_data}")
-    session['processed_data'] = processed_data
-    session['processed_Img'] = processed_Img
-    flash('Data processed using backup model')
-    logging.info("Data processed using backup model")
-    return redirect(url_for('result'))
 @app.route('/result')

     logging.info(f"Files successfully uploaded: {uploaded_files}")
     return process_file()
 @app.route('/reset_upload')
 def reset_upload():
+    """Reset the uploaded files and processed data in the session and filesystem."""
     uploaded_files = session.get('uploaded_files', [])
+    for filename in uploaded_files:
+        file_path = os.path.join(app.config['UPLOAD_FOLDER'], filename)
+        if os.path.exists(file_path):
+            os.remove(file_path)
+            logging.info(f"Removed file: {filename}")
+        else:
+            logging.warning(f"File not found for removal: {file_path}")
+    session.pop('uploaded_files', None)
+    session.pop('processed_data', None)
+    session.pop('processed_Img', None)
+    flash('Reset successful. All files removed.')
+    logging.info("Session and upload folder reset.")
     return redirect(url_for('index'))
 @app.route('/process', methods=['GET', 'POST'])
 def process_file():
     uploaded_files = session.get('uploaded_files', [])
     if not uploaded_files:
         flash('No files selected for processing')
         return redirect(url_for('index'))
     file_paths = [os.path.join(app.config['UPLOAD_FOLDER'], filename) for filename in uploaded_files]
     logging.info(f"Processing files: {file_paths}")
+    extracted_text = {}
+    LLMdata = {}
+    processed_Img = {}
     try:
+        # Primary: Groq VLM Single Pass
         LLMdata, extracted_text, processed_Img = extract_text_from_images(file_paths)
+        LLMdata['meta'] = "Primary: Groq VLM"
+        # Check if extracted data is essentially empty
+        is_empty = all(len(v) == 0 for k, v in LLMdata.items() if k != 'meta')
         if is_empty:
+            logging.info("Groq VLM returned empty data. Attempting backup...")
             raise ValueError("Empty data from Groq VLM")
     except Exception as e:
+        logging.exception(f"Primary processing failed or returned empty: {e}")
+        flash('Primary processing failed, using backup model...')
+        # If extraction failed but we have some text/images, use them
+        if not extracted_text:
+             flash('Critical failure: Could not extract text from images.')
              return redirect(url_for('index'))
         try:
+            # Backup: NER Model on extracted text
+            text_for_ner = ""
+            for path, text in extracted_text.items():
+                text_for_ner += str(text) + " "
+            LLMdata = NER_Model(text_for_ner)
+            LLMdata['meta'] = "Backup: Local NER"
             logging.info(f"NER model data: {LLMdata}")
         except Exception as backup_e:
+            logging.exception(f"Backup processing failed: {backup_e}")
+            flash('Processing failed completely.')
             return redirect(url_for('index'))
+    # Common merge and finalization step
+    try:
+        cont_data = process_extracted_text(extracted_text)
+        processed_data = process_resume_data(LLMdata, cont_data, extracted_text)
+        session['processed_data'] = processed_data
+        session['processed_Img'] = processed_Img
+        logging.info(f"Final processed data: {processed_data}")
+        return redirect(url_for('result'))
+    except Exception as merge_e:
+        logging.exception(f"Error during data merging: {merge_e}")
+        flash('Error finalizing data extraction.')
+        return redirect(url_for('index'))
 @app.route('/result')