Huy Dang commited on
Commit
77a855c
·
verified ·
1 Parent(s): 05b6f1a

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +7 -292
README.md CHANGED
@@ -510,282 +510,15 @@ for doc, score in zip(sorted_docs, sorted_scores):
510
 
511
  #### Information Retrieval
512
 
513
- * Datasets: `dim_768`, `dim_512`, `dim_256`, `dim_128` and `dim_64`
514
  * Evaluated with [<code>InformationRetrievalEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator)
515
 
516
- | Metric | dim_768 | dim_512 | dim_256 | dim_128 | dim_64 |
517
  |:--------------------|:-----------|:-----------|:-----------|:-----------|:-----------|
518
- | cosine_accuracy@1 | 0.5856 | 0.5848 | 0.5815 | 0.5696 | 0.5544 |
519
- | cosine_accuracy@3 | 0.7033 | 0.7002 | 0.6935 | 0.6785 | 0.661 |
520
- | cosine_accuracy@5 | 0.7501 | 0.749 | 0.7428 | 0.7273 | 0.7062 |
521
- | cosine_accuracy@10 | 0.811 | 0.8074 | 0.8022 | 0.7937 | 0.7718 |
522
- | cosine_precision@1 | 0.5856 | 0.5848 | 0.5815 | 0.5696 | 0.5544 |
523
- | cosine_precision@3 | 0.2344 | 0.2334 | 0.2312 | 0.2262 | 0.2203 |
524
- | cosine_precision@5 | 0.15 | 0.1498 | 0.1486 | 0.1455 | 0.1412 |
525
- | cosine_precision@10 | 0.0811 | 0.0807 | 0.0802 | 0.0794 | 0.0772 |
526
- | cosine_recall@1 | 0.5856 | 0.5848 | 0.5815 | 0.5696 | 0.5544 |
527
- | cosine_recall@3 | 0.7033 | 0.7002 | 0.6935 | 0.6785 | 0.661 |
528
- | cosine_recall@5 | 0.7501 | 0.749 | 0.7428 | 0.7273 | 0.7062 |
529
- | cosine_recall@10 | 0.811 | 0.8074 | 0.8022 | 0.7937 | 0.7718 |
530
- | **cosine_ndcg@10** | **0.6938** | **0.6917** | **0.6871** | **0.6755** | **0.6571** |
531
- | cosine_mrr@10 | 0.6568 | 0.6552 | 0.6508 | 0.6384 | 0.6212 |
532
- | cosine_map@100 | 0.6626 | 0.6612 | 0.6566 | 0.6444 | 0.6275 |
533
-
534
- <!--
535
- ## Bias, Risks and Limitations
536
-
537
- *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
538
- -->
539
-
540
- <!--
541
- ### Recommendations
542
-
543
- *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
544
- -->
545
-
546
- ## Training Details
547
-
548
- ### Training Dataset
549
-
550
- #### json
551
-
552
- * Dataset: json
553
- * Size: 30,987 training samples
554
- * Columns: <code>positive</code> and <code>anchor</code>
555
- * Approximate statistics based on the first 1000 samples:
556
- | | positive | anchor |
557
- |:--------|:-------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
558
- | type | string | string |
559
- | details | <ul><li>min: 19 tokens</li><li>mean: 187.91 tokens</li><li>max: 256 tokens</li></ul> | <ul><li>min: 8 tokens</li><li>mean: 20.24 tokens</li><li>max: 63 tokens</li></ul> |
560
- * Samples:
561
- | positive | anchor |
562
- |:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------|
563
- | <code>Người lao động bị tạm đình chỉ công việc được tạm ứng 50% tiền lương trước khi bị đình chỉ công việc. Trong trường hợp bị xử lý kỷ luật lao động, người lao động không được nhận khoản tiền tạm ứng này.</code> | <code>Người lao động bị tạm đình chỉ công việc được tạm ứng bao nhiêu phần trăm tiền lương trước khi bị đình chỉ công việc?</code> |
564
- | <code>Điều 3 Quyết định 3602/QĐ-BNN-TCTS 2014 hướng dẫn số lượng tàu cá đóng mới thực hiện 67/2014/NĐ-CP có nội dung như sau:<br><br>Điều 3. Chủ tịch Ủy ban nhân dân các tỉnh, thành phố trực thuộc trung ương ven biển, Chánh Văn phòng Bộ, Tổng cục trưởng Tổng cục Thủy sản, Thủ trưởng các đơn vị có liên quan chịu trách nhiệm thi hành Quyết định này</code> | <code>Điều 3 Quyết định 3602/QĐ-BNN-TCTS 2014 hướng dẫn số lượng tàu cá đóng mới thực hiện 67/2014/NĐ-CP</code> |
565
- | <code>Tại khoản 1 Điều 15 Luật Cảnh sát cơ động 2022 có quy định về sử dụng vũ khí, vật liệu nổ, công cụ hỗ trợ, phương tiện, thiết bị kỹ thuật nghiệp vụ của Cảnh sát cơ động như sau:<br><br>Sử dụng vũ khí, vật liệu nổ, công cụ hỗ trợ, phương tiện, thiết bị kỹ thuật nghiệp vụ<br>1. Khi thực hiện nhiệm vụ độc lập, cán bộ, chiến sĩ Cảnh sát cơ động được sử dụng vũ khí, vật liệu nổ, công cụ hỗ trợ và được nổ súng quân dụng theo quy định của Luật Quản lý, sử dụng vũ khí, vật liệu nổ và công cụ hỗ trợ.<br>2. Khi thực hiện nhiệm vụ có tổ chức, việc sử dụng vũ khí, vật liệu nổ, công cụ hỗ trợ của Cảnh sát cơ động phải tuân theo mệnh lệnh của người chỉ huy trực tiếp. Người ra mệnh lệnh phải tuân thủ quy định của Luật Quản lý, sử dụng vũ khí, vật liệu nổ và công cụ hỗ trợ, quy định của pháp luật có liên quan và chịu trách nhiệm trước pháp luật và cấp trên về quyết định của mình.<br>3. Việc sử dụng phương tiện, thiết bị kỹ thuật nghiệp vụ khi thực hiện nhiệm vụ của Cảnh sát cơ động theo phương án đã được cấp có thẩm...</code> | <code>Cảnh sát cơ động có được quyền dùng súng không?</code> |
566
- * Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
567
- ```json
568
- {
569
- "loss": "MultipleNegativesRankingLoss",
570
- "matryoshka_dims": [
571
- 768,
572
- 512,
573
- 256,
574
- 128,
575
- 64
576
- ],
577
- "matryoshka_weights": [
578
- 1,
579
- 1,
580
- 1,
581
- 1,
582
- 1
583
- ],
584
- "n_dims_per_step": -1
585
- }
586
- ```
587
-
588
- ### Evaluation Dataset
589
-
590
- #### json
591
-
592
- * Dataset: json
593
- * Size: 3,874 evaluation samples
594
- * Columns: <code>positive</code> and <code>anchor</code>
595
- * Approximate statistics based on the first 1000 samples:
596
- | | positive | anchor |
597
- |:--------|:-------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
598
- | type | string | string |
599
- | details | <ul><li>min: 25 tokens</li><li>mean: 189.57 tokens</li><li>max: 256 tokens</li></ul> | <ul><li>min: 7 tokens</li><li>mean: 20.56 tokens</li><li>max: 63 tokens</li></ul> |
600
- * Samples:
601
- | positive | anchor |
602
- |:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------|
603
- | <code>Chương V của Bộ luật Lao động 2019 quy định về thời giờ làm việc, thời giờ nghỉ ngơi. Thời giờ làm việc bình thường không quá 8 giờ trong một ngày và không quá 48 giờ trong một tuần. Người lao động có thể làm thêm giờ khi được người sử dụng lao động yêu cầu và phải trả lương làm thêm giờ theo quy định. Tổng số giờ làm thêm không được vượt quá 200 giờ trong một năm, trường hợp đặc biệt không được vượt quá 300 giờ trong một năm. Người lao động được nghỉ ngơi giữa giờ làm việc ít nhất 30 phút liên tục nếu làm việc 8 giờ liên tục trong ngày. Người lao động được nghỉ hằng tuần ít nhất 24 giờ liên tục. Người lao động được nghỉ lễ, tết và nghỉ hằng năm có hưởng lương theo quy định của pháp luật. Thời gian làm việc ban đêm được tính từ 22 giờ đến 6 giờ sáng ngày hôm sau.</code> | <code>Người lao động có quyền nghỉ ngơi bao nhiêu giờ liên tục hằng tuần?</code> |
604
- | <code>Điều 8 Thông tư 63/2013/TT-BGTVT hướng dẫn Bản ghi nhớ vận tải đường bộ giữa Campuchia Lào Việt Nam có nội dung như sau:<br><br>Điều 8. Hồ sơ cấp Giấy phép liên vận CLV<br>1. Đối với xe thương mại:<br>a) Đơn đề nghị cấp Giấy phép liên vận CLV cho phương tiện thương mại quy định tại Phụ lục VI của Thông tư này;<br>b) Giấy phép kinh doanh vận tải bằng xe ô tô hoặc Giấy chứng nhận đăng ký kinh doanh đối với đơn vị kinh doanh vận tải bằng xe ô tô không thuộc đối tượng phải cấp giấy phép kinh doanh vận tải bằng xe ô tô (bản sao có chứng thực hoặc bản sao kèm theo bản chính để đối chiếu);<br>c) Giấy đăng ký phương tiện (bản sao có chứng thực hoặc bản sao kèm theo bản chính để đối chiếu);<br>d) Văn bản chấp thuận khai thác tuyến (đối với phương tiện kinh doanh vận tải hành khách theo tuyến cố định);<br>đ) Trường hợp phương tiện không thuộc sở hữu của đơn vị kinh doanh vận tải thì phải xuất trình thêm tài liệu chứng minh quyền sử dụng hợp pháp của đơn vị kinh doanh vận tải với phương tiện đó (bản sao có chứng thực ho...</code> | <code>Điều 8 Thông tư 63/2013/TT-BGTVT hướng dẫn Bản ghi nhớ vận tải đường bộ giữa Campuchia Lào Việt Nam</code> |
605
- | <code>Chương V của Bộ luật Lao động 2019 quy định về thời giờ làm việc, thời giờ nghỉ ngơi. Thời giờ làm việc bình thường không quá 8 giờ trong một ngày và không quá 48 giờ trong một tuần. Người lao động có thể làm thêm giờ khi được người sử dụng lao động yêu cầu và phải trả lương làm thêm giờ theo quy định. Tổng số giờ làm thêm không được vượt quá 200 giờ trong một năm, trường hợp đặc biệt không được vượt quá 300 giờ trong một năm. Người lao động được nghỉ ngơi giữa giờ làm việc ít nhất 30 phút liên tục nếu làm việc 8 giờ liên tục trong ngày. Người lao động được nghỉ hằng tuần ít nhất 24 giờ liên tục. Người lao động được nghỉ lễ, tết và nghỉ hằng năm có hưởng lương theo quy định của pháp luật. Thời gian làm việc ban đêm được tính từ 22 giờ đến 6 giờ sáng ngày hôm sau.</code> | <code>Người lao động có được trả lương khi nghỉ lễ, tết và nghỉ hằng năm không?</code> |
606
- * Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
607
- ```json
608
- {
609
- "loss": "MultipleNegativesRankingLoss",
610
- "matryoshka_dims": [
611
- 768,
612
- 512,
613
- 256,
614
- 128,
615
- 64
616
- ],
617
- "matryoshka_weights": [
618
- 1,
619
- 1,
620
- 1,
621
- 1,
622
- 1
623
- ],
624
- "n_dims_per_step": -1
625
- }
626
- ```
627
-
628
- ### Training Hyperparameters
629
- #### Non-Default Hyperparameters
630
-
631
- - `eval_strategy`: epoch
632
- - `per_device_train_batch_size`: 36
633
- - `per_device_eval_batch_size`: 36
634
- - `gradient_accumulation_steps`: 12
635
- - `learning_rate`: 2e-05
636
- - `weight_decay`: 0.25
637
- - `max_grad_norm`: 0.6
638
- - `num_train_epochs`: 8
639
- - `lr_scheduler_type`: cosine
640
- - `warmup_ratio`: 0.2
641
- - `fp16`: True
642
- - `load_best_model_at_end`: True
643
- - `optim`: adamw_hf
644
- - `group_by_length`: True
645
- - `batch_sampler`: no_duplicates
646
-
647
- #### All Hyperparameters
648
- <details><summary>Click to expand</summary>
649
-
650
- - `overwrite_output_dir`: False
651
- - `do_predict`: False
652
- - `eval_strategy`: epoch
653
- - `prediction_loss_only`: True
654
- - `per_device_train_batch_size`: 36
655
- - `per_device_eval_batch_size`: 36
656
- - `per_gpu_train_batch_size`: None
657
- - `per_gpu_eval_batch_size`: None
658
- - `gradient_accumulation_steps`: 12
659
- - `eval_accumulation_steps`: None
660
- - `torch_empty_cache_steps`: None
661
- - `learning_rate`: 2e-05
662
- - `weight_decay`: 0.25
663
- - `adam_beta1`: 0.9
664
- - `adam_beta2`: 0.999
665
- - `adam_epsilon`: 1e-08
666
- - `max_grad_norm`: 0.6
667
- - `num_train_epochs`: 8
668
- - `max_steps`: -1
669
- - `lr_scheduler_type`: cosine
670
- - `lr_scheduler_kwargs`: {}
671
- - `warmup_ratio`: 0.2
672
- - `warmup_steps`: 0
673
- - `log_level`: passive
674
- - `log_level_replica`: warning
675
- - `log_on_each_node`: True
676
- - `logging_nan_inf_filter`: True
677
- - `save_safetensors`: True
678
- - `save_on_each_node`: False
679
- - `save_only_model`: False
680
- - `restore_callback_states_from_checkpoint`: False
681
- - `no_cuda`: False
682
- - `use_cpu`: False
683
- - `use_mps_device`: False
684
- - `seed`: 42
685
- - `data_seed`: None
686
- - `jit_mode_eval`: False
687
- - `use_ipex`: False
688
- - `bf16`: False
689
- - `fp16`: True
690
- - `fp16_opt_level`: O1
691
- - `half_precision_backend`: auto
692
- - `bf16_full_eval`: False
693
- - `fp16_full_eval`: False
694
- - `tf32`: None
695
- - `local_rank`: 0
696
- - `ddp_backend`: None
697
- - `tpu_num_cores`: None
698
- - `tpu_metrics_debug`: False
699
- - `debug`: []
700
- - `dataloader_drop_last`: False
701
- - `dataloader_num_workers`: 0
702
- - `dataloader_prefetch_factor`: None
703
- - `past_index`: -1
704
- - `disable_tqdm`: False
705
- - `remove_unused_columns`: True
706
- - `label_names`: None
707
- - `load_best_model_at_end`: True
708
- - `ignore_data_skip`: False
709
- - `fsdp`: []
710
- - `fsdp_min_num_params`: 0
711
- - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
712
- - `fsdp_transformer_layer_cls_to_wrap`: None
713
- - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
714
- - `deepspeed`: None
715
- - `label_smoothing_factor`: 0.0
716
- - `optim`: adamw_hf
717
- - `optim_args`: None
718
- - `adafactor`: False
719
- - `group_by_length`: True
720
- - `length_column_name`: length
721
- - `ddp_find_unused_parameters`: None
722
- - `ddp_bucket_cap_mb`: None
723
- - `ddp_broadcast_buffers`: False
724
- - `dataloader_pin_memory`: True
725
- - `dataloader_persistent_workers`: False
726
- - `skip_memory_metrics`: True
727
- - `use_legacy_prediction_loop`: False
728
- - `push_to_hub`: False
729
- - `resume_from_checkpoint`: None
730
- - `hub_model_id`: None
731
- - `hub_strategy`: every_save
732
- - `hub_private_repo`: None
733
- - `hub_always_push`: False
734
- - `gradient_checkpointing`: False
735
- - `gradient_checkpointing_kwargs`: None
736
- - `include_inputs_for_metrics`: False
737
- - `include_for_metrics`: []
738
- - `eval_do_concat_batches`: True
739
- - `fp16_backend`: auto
740
- - `push_to_hub_model_id`: None
741
- - `push_to_hub_organization`: None
742
- - `mp_parameters`:
743
- - `auto_find_batch_size`: False
744
- - `full_determinism`: False
745
- - `torchdynamo`: None
746
- - `ray_scope`: last
747
- - `ddp_timeout`: 1800
748
- - `torch_compile`: False
749
- - `torch_compile_backend`: None
750
- - `torch_compile_mode`: None
751
- - `dispatch_batches`: None
752
- - `split_batches`: None
753
- - `include_tokens_per_second`: False
754
- - `include_num_input_tokens_seen`: False
755
- - `neftune_noise_alpha`: None
756
- - `optim_target_modules`: None
757
- - `batch_eval_metrics`: False
758
- - `eval_on_start`: False
759
- - `use_liger_kernel`: False
760
- - `eval_use_gather_object`: False
761
- - `average_tokens_across_devices`: False
762
- - `prompts`: None
763
- - `batch_sampler`: no_duplicates
764
- - `multi_dataset_batch_sampler`: proportional
765
-
766
- </details>
767
-
768
- ### Training Logs
769
- | Epoch | Step | Training Loss | Validation Loss | dim_768_cosine_ndcg@10 | dim_512_cosine_ndcg@10 | dim_256_cosine_ndcg@10 | dim_128_cosine_ndcg@10 | dim_64_cosine_ndcg@10 |
770
- |:----------:|:-------:|:-------------:|:---------------:|:----------------------:|:----------------------:|:----------------------:|:----------------------:|:---------------------:|
771
- | 0.9745 | 35 | 2.0891 | 0.8637 | 0.5232 | 0.5220 | 0.5098 | 0.4937 | 0.4655 |
772
- | 1.9745 | 70 | 0.8166 | 0.4945 | 0.6462 | 0.6453 | 0.6351 | 0.6185 | 0.5894 |
773
- | 2.9745 | 105 | 0.4366 | 0.3967 | 0.6853 | 0.6850 | 0.6769 | 0.6624 | 0.6427 |
774
- | 3.9745 | 140 | 0.2715 | 0.3548 | 0.6885 | 0.6880 | 0.6822 | 0.6705 | 0.6514 |
775
- | 4.9745 | 175 | 0.1886 | 0.3404 | 0.6924 | 0.6906 | 0.6872 | 0.6748 | 0.6559 |
776
- | **5.9745** | **210** | **0.1467** | **0.3299** | **0.6938** | **0.6917** | **0.6871** | **0.6755** | **0.6571** |
777
-
778
- * The bold row denotes the saved checkpoint.
779
-
780
- ### Framework Versions
781
- - Python: 3.10.12
782
- - Sentence Transformers: 3.3.1
783
- - Transformers: 4.47.0
784
- - PyTorch: 2.5.1+cu121
785
- - Accelerate: 1.2.1
786
- - Datasets: 3.2.0
787
- - Tokenizers: 0.21.0
788
-
789
  ## Citation
790
 
791
  ### BibTeX
@@ -825,22 +558,4 @@ for doc, score in zip(sorted_docs, sorted_scores):
825
  archivePrefix={arXiv},
826
  primaryClass={cs.CL}
827
  }
828
- ```
829
-
830
- <!--
831
- ## Glossary
832
-
833
- *Clearly define terms in order to be accessible across audiences.*
834
- -->
835
-
836
- <!--
837
- ## Model Card Authors
838
-
839
- *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
840
- -->
841
-
842
- <!--
843
- ## Model Card Contact
844
-
845
- *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
846
- -->
 
510
 
511
  #### Information Retrieval
512
 
513
+ * Datasets: [quanghuy123/LEGAL-EVAL-Dataset](https://huggingface.co/datasets/quanghuy123/LEGAL-EVAL-Dataset)
514
  * Evaluated with [<code>InformationRetrievalEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator)
515
 
516
+ | Model | dim_768 | dim_512 | dim_256 | dim_128 | dim_64 |
517
  |:--------------------|:-----------|:-----------|:-----------|:-----------|:-----------|
518
+ | vietnamese-bi-encoder | 0.4645 | 0.4628 | 0.4494 | 0.4233 | 0.3744 |
519
+ | sup-SimCSE-VietNamese-phobert-base | 0.4033 | 0.3902 | 0.3835 | 0.3785 | 0.3695 |
520
+ | hiieu/halong_embedding | 0.6242 | 0.6134 | 0.5983 | 0.5878 | 0.5762 |
521
+ | quanghuy123/LEGAL_EMBEDDING | 0.811 | 0.8074 | 0.8022 | 0.7937 | 0.7718 |
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
522
  ## Citation
523
 
524
  ### BibTeX
 
558
  archivePrefix={arXiv},
559
  primaryClass={cs.CL}
560
  }
561
+ ```