Spaces:

seanpedrickcase
/

document_redaction

Running

App Files Files Community

seanpedrickcase commited on Jan 15

Commit

a9dcd2e

1 Parent(s): 0c2987b

Moved review components to give more space for page. Extended zoom limits. Existing redaction labels should now appear in new redaction box dropdown.

Browse files

Files changed (2) hide show

app.py +10 -8
tools/redaction_review.py +32 -48

app.py CHANGED Viewed

@@ -121,7 +121,7 @@ with app:
     ## Annotator zoom value
-    annotator_zoom_number = gr.Number(label = "Current annotator zoom level", value=100, precision=0, visible=False)
     zoom_true_bool = gr.State(True)
     zoom_false_bool = gr.State(False)
@@ -203,7 +203,7 @@ with app:
         with gr.Accordion(label = "Review redaction file", open=True):
             output_review_files = gr.File(label="Review output files", file_count='multiple', height=file_input_height)
-            upload_previous_review_file_btn = gr.Button("Review previously created redaction file (upload original PDF and ...review_file.csv)")
         with gr.Row():
             annotation_last_page_button = gr.Button("Previous page", scale = 3)
@@ -215,12 +215,10 @@ with app:
             annotate_zoom_out = gr.Button("Zoom out")
         with gr.Row():
             clear_all_redactions_on_page_btn = gr.Button("Clear all redactions on page", visible=False)
-            annotation_button_apply = gr.Button("Apply revised redactions", variant="primary")
         with gr.Row():
-            with gr.Column(scale=4):
                 zoom_str = str(annotator_zoom_number) + '%'
@@ -242,9 +240,13 @@ with app:
                     interactive=False
                 )
-            with gr.Column(scale=1):
-                recogniser_entity_dropdown = gr.Dropdown(label="Redaction category", value="ALL", allow_custom_value=True)
-                recogniser_entity_dataframe = gr.Dataframe(pd.DataFrame(data={"page":[], "label":[]}), col_count=2, type="pandas", label="Search results. Click to go to page")
         with gr.Row():
             annotation_last_page_button_bottom = gr.Button("Previous page", scale = 3)

     ## Annotator zoom value
+    annotator_zoom_number = gr.Number(label = "Current annotator zoom level", value=80, precision=0, visible=False)
     zoom_true_bool = gr.State(True)
     zoom_false_bool = gr.State(False)
         with gr.Accordion(label = "Review redaction file", open=True):
             output_review_files = gr.File(label="Review output files", file_count='multiple', height=file_input_height)
+            upload_previous_review_file_btn = gr.Button("Review previously created redaction file (upload original PDF and ...review_file.csv)", variant="primary")
         with gr.Row():
             annotation_last_page_button = gr.Button("Previous page", scale = 3)
             annotate_zoom_out = gr.Button("Zoom out")
         with gr.Row():
             clear_all_redactions_on_page_btn = gr.Button("Clear all redactions on page", visible=False)
         with gr.Row():
+            with gr.Column(scale=1):
                 zoom_str = str(annotator_zoom_number) + '%'
                     interactive=False
                 )
+        with gr.Row():
+            annotation_button_apply = gr.Button("Apply revised redactions", variant="primary")
+        #with gr.Column(scale=1):
+        with gr.Row():
+            recogniser_entity_dropdown = gr.Dropdown(label="Redaction category", value="ALL", allow_custom_value=True)
+            recogniser_entity_dataframe = gr.Dataframe(pd.DataFrame(data={"page":[], "label":[]}), col_count=2, type="pandas", label="Search results. Click to go to page")
         with gr.Row():
             annotation_last_page_button_bottom = gr.Button("Previous page", scale = 3)

tools/redaction_review.py CHANGED Viewed

@@ -45,35 +45,11 @@ def update_zoom(current_zoom_level:int, annotate_current_page:int, decrease:bool
         if current_zoom_level >= 70:
             current_zoom_level -= 10
     else:
-        if current_zoom_level < 100:
             current_zoom_level += 10
     return current_zoom_level, annotate_current_page
-   # Remove duplicate elements that are blank
-    # def remove_duplicate_images_with_blank_boxes(data: List[AnnotatedImageData]) -> List[AnnotatedImageData]:
-    #     # Group items by 'image'
-    #     image_groups = defaultdict(list)
-    #     for item in data:
-    #         image_groups[item['image']].append(item)
-    #     # Process each group to retain only the entry with non-empty boxes, if available
-    #     result = []
-    #     for image, items in image_groups.items():
-    #         # Filter items with non-empty boxes
-    #         non_empty_boxes = [item for item in items if item['boxes']]
-    #         if non_empty_boxes:
-    #             # Keep the first entry with non-empty boxes
-    #             result.append(non_empty_boxes[0])
-    #         else:
-    #             # If no non-empty boxes, keep the first item with empty boxes
-    #             result.append(items[0])
-    #     #print("result:", result)
-    #     return result
 def remove_duplicate_images_with_blank_boxes(data: List[dict]) -> List[dict]:
     '''
     Remove items from the annotator object where the same page exists twice.
@@ -97,35 +73,43 @@ def remove_duplicate_images_with_blank_boxes(data: List[dict]) -> List[dict]:
     return result
 def update_annotator(image_annotator_object:AnnotatedImageData, page_num:int, recogniser_entities_drop=gr.Dropdown(value="ALL", allow_custom_value=True), recogniser_dataframe_gr=gr.Dataframe(pd.DataFrame(data={"page":[], "label":[]})), zoom:int=100):
     '''
     Update a gradio_image_annotation object with new annotation data
-    '''
-    recogniser_entities = []
-    recogniser_dataframe = pd.DataFrame()
     if recogniser_dataframe_gr.empty:
-        try:
-            review_dataframe = convert_review_json_to_pandas_df(image_annotator_object)[["page", "label"]]
-            #print("review_dataframe['label']", review_dataframe["label"])
-            recogniser_entities = review_dataframe["label"].unique().tolist()
-            recogniser_entities.append("ALL")
-            recogniser_entities = sorted(recogniser_entities)
-            #print("recogniser_entities:", recogniser_entities)
-            recogniser_dataframe_out = gr.Dataframe(review_dataframe)
-            recogniser_dataframe_gr = gr.Dataframe(review_dataframe)
-            recogniser_entities_drop = gr.Dropdown(value=recogniser_entities[0], choices=recogniser_entities, allow_custom_value=True, interactive=True)
-        except Exception as e:
-            print("Could not extract recogniser information:", e)
-            recogniser_dataframe_out = recogniser_dataframe_gr
     else:
         review_dataframe = update_entities_df(recogniser_entities_drop, recogniser_dataframe_gr)
         recogniser_dataframe_out = gr.Dataframe(review_dataframe)
     zoom_str = str(zoom) + '%'
     if not image_annotator_object:
         page_num_reported = 1
@@ -134,8 +118,8 @@ def update_annotator(image_annotator_object:AnnotatedImageData, page_num:int, re
         image_annotator_object[page_num_reported - 1],
         boxes_alpha=0.1,
         box_thickness=1,
-        #label_list=["Redaction"],
-        #label_colors=[(0, 0, 0)],
         show_label=False,
         height=zoom_str,
         width=zoom_str,
@@ -179,8 +163,8 @@ def update_annotator(image_annotator_object:AnnotatedImageData, page_num:int, re
         value = image_annotator_object[page_num_reported - 1],
         boxes_alpha=0.1,
         box_thickness=1,
-        #label_list=["Redaction"],
-        #label_colors=[(0, 0, 0)],
         show_label=False,
         height=zoom_str,
         width=zoom_str,

         if current_zoom_level >= 70:
             current_zoom_level -= 10
     else:
+        if current_zoom_level < 110:
             current_zoom_level += 10
     return current_zoom_level, annotate_current_page
 def remove_duplicate_images_with_blank_boxes(data: List[dict]) -> List[dict]:
     '''
     Remove items from the annotator object where the same page exists twice.
     return result
+def get_recogniser_dataframe_out(image_annotator_object, recogniser_dataframe_gr):
+    try:
+        review_dataframe = convert_review_json_to_pandas_df(image_annotator_object)[["page", "label"]]
+        recogniser_entities = review_dataframe["label"].unique().tolist()
+        recogniser_entities.append("ALL")
+        recogniser_entities = sorted(recogniser_entities)
+        recogniser_dataframe_out = gr.Dataframe(review_dataframe)
+        recogniser_entities_drop = gr.Dropdown(value=recogniser_entities[0], choices=recogniser_entities, allow_custom_value=True, interactive=True)
+    except Exception as e:
+        print("Could not extract recogniser information:", e)
+        recogniser_dataframe_out = recogniser_dataframe_gr
+        recogniser_entities_drop = gr.Dropdown(value="", choices=[""], allow_custom_value=True, interactive=True)
+        recogniser_entities = ["Redaction"]
+    return recogniser_dataframe_out, recogniser_dataframe_out, recogniser_entities_drop, recogniser_entities
 def update_annotator(image_annotator_object:AnnotatedImageData, page_num:int, recogniser_entities_drop=gr.Dropdown(value="ALL", allow_custom_value=True), recogniser_dataframe_gr=gr.Dataframe(pd.DataFrame(data={"page":[], "label":[]})), zoom:int=100):
     '''
     Update a gradio_image_annotation object with new annotation data
+    '''
+    recogniser_entities_list = ["Redaction"]
+    recogniser_dataframe_out = pd.DataFrame()
     if recogniser_dataframe_gr.empty:
+        recogniser_dataframe_gr, recogniser_dataframe_out, recogniser_entities_drop, recogniser_entities_list = get_recogniser_dataframe_out(image_annotator_object, recogniser_dataframe_gr)
+    elif recogniser_dataframe_gr.iloc[0,0] == "":
+        recogniser_dataframe_gr, recogniser_dataframe_out, recogniser_entities_drop, recogniser_entities_list = get_recogniser_dataframe_out(image_annotator_object, recogniser_dataframe_gr)
     else:
         review_dataframe = update_entities_df(recogniser_entities_drop, recogniser_dataframe_gr)
         recogniser_dataframe_out = gr.Dataframe(review_dataframe)
+        recogniser_entities_list = review_dataframe["label"].unique().tolist()
+        recogniser_entities_list = sorted(recogniser_entities_list)
     zoom_str = str(zoom) + '%'
+    recogniser_colour_list = [(0, 0, 0) for _ in range(len(recogniser_entities_list))]
     if not image_annotator_object:
         page_num_reported = 1
         image_annotator_object[page_num_reported - 1],
         boxes_alpha=0.1,
         box_thickness=1,
+        label_list=recogniser_entities_list,
+        label_colors=recogniser_colour_list,
         show_label=False,
         height=zoom_str,
         width=zoom_str,
         value = image_annotator_object[page_num_reported - 1],
         boxes_alpha=0.1,
         box_thickness=1,
+        label_list=recogniser_entities_list,
+        label_colors=recogniser_colour_list,
         show_label=False,
         height=zoom_str,
         width=zoom_str,