Spaces:

avimittal30
/

ocr-with-teserract

Sleeping

App Files Files Community

avimittal30 commited on Apr 6, 2025

Commit

4314fa9

1 Parent(s): 6d136a9

sec

Browse files

Files changed (6) hide show

README.md +5 -7
app_blocks.py +59 -0
app_interface.py +38 -0
gitattributes +35 -0
packages.txt +1 -0
requirements.txt +2 -0

README.md CHANGED Viewed

@@ -1,14 +1,12 @@
 ---
-title: Ocr With Teserract
-emoji: 🔥
 colorFrom: blue
-colorTo: indigo
 sdk: gradio
-sdk_version: 5.23.3
-app_file: app.py
 pinned: false
-license: apache-2.0
-short_description: extract text from images
 ---
 Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 ---
+title: Tesseract OCR
+emoji: 🐢
 colorFrom: blue
+colorTo: purple
 sdk: gradio
+sdk_version: 4.36.0
+app_file: app_blocks.py
 pinned: false
 ---
 Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app_blocks.py ADDED Viewed

	@@ -0,0 +1,59 @@

+from typing import List
+import pytesseract
+from PIL import Image
+import gradio as gr
+# OCR function
+def tesseract_ocr(filepath: str, languages: List[str] = None):
+    if not languages:
+        languages = ['eng']
+    image = Image.open(filepath)
+    lang_param = '+'.join(languages)
+    return pytesseract.image_to_string(image=image, lang=lang_param)
+# Metadata
+title = "Tesseract OCR"
+description = "Gradio demo for Tesseract. Tesseract is an open source text recognition (OCR) Engine."
+article = "<p style='text-align: center'><a href='https://tesseract-ocr.github.io/' target='_blank'>Tesseract documentation</a> | <a href='https://github.com/tesseract-ocr/tesseract' target='_blank'>Github Repo</a></p>"
+# Local examples
+examples = [
+    ["examples/weird_unicode_math_symbols.png", []],
+    ["examples/eurotext.png", ["eng"]],
+    ["examples/tesseract_sample.png", ["jpn", "eng"]],
+    ["examples/chi.jpg", ["HanS", "HanT"]],
+]
+with gr.Blocks(title=title) as demo:
+    gr.Markdown(f'<h1 style="text-align: center; margin-bottom: 1rem;">{title}</h1>')
+    gr.Markdown(description)
+    with gr.Row():
+        with gr.Column():
+            image = gr.Image(type="filepath", label="Input")
+            language_choices = pytesseract.get_languages()
+            with gr.Accordion("Languages", open=False):
+                languages = gr.CheckboxGroup(language_choices, value=["eng"], label="Language(s)")
+            with gr.Row():
+                btn_clear = gr.ClearButton([image, languages])
+                btn_submit = gr.Button(value="Submit", variant="primary")
+        with gr.Column():
+            text = gr.Textbox(label="Output")
+    btn_submit.click(tesseract_ocr, inputs=[image, languages], outputs=text)
+    btn_clear.add(text)
+    # ✅ Function bound directly here
+    gr.Examples(
+        examples=examples,
+        inputs=[image, languages],
+        outputs=[text],
+        fn=tesseract_ocr
+    )
+    gr.Markdown(article)
+# ✅ Required for Spaces
+if __name__ == '__main__':
+    demo.queue().launch()

app_interface.py ADDED Viewed

	@@ -0,0 +1,38 @@

+from typing import List
+import pytesseract
+from PIL import Image
+import gradio as gr
+def tesseract_ocr(filepath: str, languages: List[str]):
+    image = Image.open(filepath)
+    return pytesseract.image_to_string(image=image, lang=', '.join(languages))
+title = "Tesseract OCR"
+description = "Gradio demo for Tesseract. Tesseract is an open source text recognition (OCR) Engine."
+article = "<p style='text-align: center'><a href='https://tesseract-ocr.github.io/' target='_blank'>Tesseract documentation</a> | <a href='https://github.com/tesseract-ocr/tesseract' target='_blank'>Github Repo</a></p>"
+examples = [
+        ['examples/eurotext.png', ['eng']],
+        ['examples/tesseract_sample.png', ['jpn', 'eng']],
+        ['examples/chi.jpg', ['HanS', 'HanT']]
+    ]
+language_choices = pytesseract.get_languages()
+demo = gr.Interface(
+    fn=tesseract_ocr,
+    inputs=[
+        gr.Image(type="filepath", label="Input"),
+        gr.CheckboxGroup(language_choices, type="value", value=['eng'], label='language')
+        ],
+    outputs='text',
+    title=title,
+    description=description,
+    article=article,
+    examples=examples,
+)
+if __name__ == '__main__':
+    demo.launch()
+    print("Finished running")

gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

packages.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ tesseract-ocr-all

requirements.txt ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ gradio
2	+ pytesseract