huyydangg
/

DEk21_hcmute_embedding

@@ -510,282 +510,15 @@ for doc, score in zip(sorted_docs, sorted_scores):
 #### Information Retrieval
-* Datasets: `dim_768`, `dim_512`, `dim_256`, `dim_128` and `dim_64`
 * Evaluated with [<code>InformationRetrievalEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator)
-| Metric              | dim_768    | dim_512    | dim_256    | dim_128    | dim_64     |
 |:--------------------|:-----------|:-----------|:-----------|:-----------|:-----------|
-| cosine_accuracy@1   | 0.5856     | 0.5848     | 0.5815     | 0.5696     | 0.5544     |
-| cosine_accuracy@3   | 0.7033     | 0.7002     | 0.6935     | 0.6785     | 0.661      |
-| cosine_accuracy@5   | 0.7501     | 0.749      | 0.7428     | 0.7273     | 0.7062     |
-| cosine_accuracy@10  | 0.811      | 0.8074     | 0.8022     | 0.7937     | 0.7718     |
-| cosine_precision@1  | 0.5856     | 0.5848     | 0.5815     | 0.5696     | 0.5544     |
-| cosine_precision@3  | 0.2344     | 0.2334     | 0.2312     | 0.2262     | 0.2203     |
-| cosine_precision@5  | 0.15       | 0.1498     | 0.1486     | 0.1455     | 0.1412     |
-| cosine_precision@10 | 0.0811     | 0.0807     | 0.0802     | 0.0794     | 0.0772     |
-| cosine_recall@1     | 0.5856     | 0.5848     | 0.5815     | 0.5696     | 0.5544     |
-| cosine_recall@3     | 0.7033     | 0.7002     | 0.6935     | 0.6785     | 0.661      |
-| cosine_recall@5     | 0.7501     | 0.749      | 0.7428     | 0.7273     | 0.7062     |
-| cosine_recall@10    | 0.811      | 0.8074     | 0.8022     | 0.7937     | 0.7718     |
-| **cosine_ndcg@10**  | **0.6938** | **0.6917** | **0.6871** | **0.6755** | **0.6571** |
-| cosine_mrr@10       | 0.6568     | 0.6552     | 0.6508     | 0.6384     | 0.6212     |
-| cosine_map@100      | 0.6626     | 0.6612     | 0.6566     | 0.6444     | 0.6275     |
-<!--
-## Bias, Risks and Limitations
-*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
--->
-<!--
-### Recommendations
-*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
--->
-## Training Details
-### Training Dataset
-#### json
-* Dataset: json
-* Size: 30,987 training samples
-* Columns: <code>positive</code> and <code>anchor</code>
-* Approximate statistics based on the first 1000 samples:
-  |         | positive                                                                             | anchor                                                                            |
-  |:--------|:-------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
-  | type    | string                                                                               | string                                                                            |
-  | details | <ul><li>min: 19 tokens</li><li>mean: 187.91 tokens</li><li>max: 256 tokens</li></ul> | <ul><li>min: 8 tokens</li><li>mean: 20.24 tokens</li><li>max: 63 tokens</li></ul> |
-* Samples:
-  | positive                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                | anchor                                                                                                                             |
-  |:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------|
-  | <code>Người lao động bị tạm đình chỉ công việc được tạm ứng 50% tiền lương trước khi bị đình chỉ công việc. Trong trường hợp bị xử lý kỷ luật lao động, người lao động không được nhận khoản tiền tạm ứng này.</code>                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                   | <code>Người lao động bị tạm đình chỉ công việc được tạm ứng bao nhiêu phần trăm tiền lương trước khi bị đình chỉ công việc?</code> |
-  | <code>Điều 3 Quyết định 3602/QĐ-BNN-TCTS 2014 hướng dẫn số lượng tàu cá đóng mới thực hiện 67/2014/NĐ-CP có nội dung như sau:<br><br>Điều 3. Chủ tịch Ủy ban nhân dân các tỉnh, thành phố trực thuộc trung ương ven biển, Chánh Văn phòng Bộ, Tổng cục trưởng Tổng cục Thủy sản, Thủ trưởng các đơn vị có liên quan chịu trách nhiệm thi hành Quyết định này</code>                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     | <code>Điều 3 Quyết định 3602/QĐ-BNN-TCTS 2014 hướng dẫn số lượng tàu cá đóng mới thực hiện 67/2014/NĐ-CP</code>                    |
-  | <code>Tại khoản 1 Điều 15 Luật Cảnh sát cơ động 2022 có quy định về sử dụng vũ khí, vật liệu nổ, công cụ hỗ trợ, phương tiện, thiết bị kỹ thuật nghiệp vụ của Cảnh sát cơ động như sau:<br><br>Sử dụng vũ khí, vật liệu nổ, công cụ hỗ trợ, phương tiện, thiết bị kỹ thuật nghiệp vụ<br>1. Khi thực hiện nhiệm vụ độc lập, cán bộ, chiến sĩ Cảnh sát cơ động được sử dụng vũ khí, vật liệu nổ, công cụ hỗ trợ và được nổ súng quân dụng theo quy định của Luật Quản lý, sử dụng vũ khí, vật liệu nổ và công cụ hỗ trợ.<br>2. Khi thực hiện nhiệm vụ có tổ chức, việc sử dụng vũ khí, vật liệu nổ, công cụ hỗ trợ của Cảnh sát cơ động phải tuân theo mệnh lệnh của người chỉ huy trực tiếp. Người ra mệnh lệnh phải tuân thủ quy định của Luật Quản lý, sử dụng vũ khí, vật liệu nổ và công cụ hỗ trợ, quy định của pháp luật có liên quan và chịu trách nhiệm trước pháp luật và cấp trên về quyết định của mình.<br>3. Việc sử dụng phương tiện, thiết bị kỹ thuật nghiệp vụ khi thực hiện nhiệm vụ của Cảnh sát cơ động theo phương án đã được cấp có thẩm...</code> | <code>Cảnh sát cơ động có được quyền dùng súng không?</code>                                                                       |
-* Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
-  ```json
-  {
-      "loss": "MultipleNegativesRankingLoss",
-      "matryoshka_dims": [
-          768,
-          512,
-          256,
-          128,
-          64
-      ],
-      "matryoshka_weights": [
-          1,
-          1,
-          1,
-          1,
-          1
-      ],
-      "n_dims_per_step": -1
-  }
-  ```
-### Evaluation Dataset
-#### json
-* Dataset: json
-* Size: 3,874 evaluation samples
-* Columns: <code>positive</code> and <code>anchor</code>
-* Approximate statistics based on the first 1000 samples:
-  |         | positive                                                                             | anchor                                                                            |
-  |:--------|:-------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
-  | type    | string                                                                               | string                                                                            |
-  | details | <ul><li>min: 25 tokens</li><li>mean: 189.57 tokens</li><li>max: 256 tokens</li></ul> | <ul><li>min: 7 tokens</li><li>mean: 20.56 tokens</li><li>max: 63 tokens</li></ul> |
-* Samples:
-  | positive                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                         | anchor                                                                                                           |
-  |:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------|
-  | <code>Chương V của Bộ luật Lao động 2019 quy định về thời giờ làm việc, thời giờ nghỉ ngơi. Thời giờ làm việc bình thường không quá 8 giờ trong một ngày và không quá 48 giờ trong một tuần. Người lao động có thể làm thêm giờ khi được người sử dụng lao động yêu cầu và phải trả lương làm thêm giờ theo quy định. Tổng số giờ làm thêm không được vượt quá 200 giờ trong một năm, trường hợp đặc biệt không được vượt quá 300 giờ trong một năm. Người lao động được nghỉ ngơi giữa giờ làm việc ít nhất 30 phút liên tục nếu làm việc 8 giờ liên tục trong ngày. Người lao động được nghỉ hằng tuần ít nhất 24 giờ liên tục. Người lao động được nghỉ lễ, tết và nghỉ hằng năm có hưởng lương theo quy định của pháp luật. Thời gian làm việc ban đêm được tính từ 22 giờ đến 6 giờ sáng ngày hôm sau.</code>                                                                                                                                                                                                                                                               | <code>Người lao động có quyền nghỉ ngơi bao nhiêu giờ liên tục hằng tuần?</code>                                 |
-  | <code>Điều 8 Thông tư 63/2013/TT-BGTVT hướng dẫn Bản ghi nhớ vận tải đường bộ giữa Campuchia Lào Việt Nam có nội dung như sau:<br><br>Điều 8. Hồ sơ cấp Giấy phép liên vận CLV<br>1. Đối với xe thương mại:<br>a) Đơn đề nghị cấp Giấy phép liên vận CLV cho phương tiện thương mại quy định tại Phụ lục VI của Thông tư này;<br>b) Giấy phép kinh doanh vận tải bằng xe ô tô hoặc Giấy chứng nhận đăng ký kinh doanh đối với đơn vị kinh doanh vận tải bằng xe ô tô không thuộc đối tượng phải cấp giấy phép kinh doanh vận tải bằng xe ô tô (bản sao có chứng thực hoặc bản sao kèm theo bản chính để đối chiếu);<br>c) Giấy đăng ký phương tiện (bản sao có chứng thực hoặc bản sao kèm theo bản chính để đối chiếu);<br>d) Văn bản chấp thuận khai thác tuyến (đối với phương tiện kinh doanh vận tải hành khách theo tuyến cố định);<br>đ) Trường hợp phương tiện không thuộc sở hữu của đơn vị kinh doanh vận tải thì phải xuất trình thêm tài liệu chứng minh quyền sử dụng hợp pháp của đơn vị kinh doanh vận tải với phương tiện đó (bản sao có chứng thực ho...</code> | <code>Điều 8 Thông tư 63/2013/TT-BGTVT hướng dẫn Bản ghi nhớ vận tải đường bộ giữa Campuchia Lào Việt Nam</code> |
-  | <code>Chương V của Bộ luật Lao động 2019 quy định về thời giờ làm việc, thời giờ nghỉ ngơi. Thời giờ làm việc bình thường không quá 8 giờ trong một ngày và không quá 48 giờ trong một tuần. Người lao động có thể làm thêm giờ khi được người sử dụng lao động yêu cầu và phải trả lương làm thêm giờ theo quy định. Tổng số giờ làm thêm không được vượt quá 200 giờ trong một năm, trường hợp đặc biệt không được vượt quá 300 giờ trong một năm. Người lao động được nghỉ ngơi giữa giờ làm việc ít nhất 30 phút liên tục nếu làm việc 8 giờ liên tục trong ngày. Người lao động được nghỉ hằng tuần ít nhất 24 giờ liên tục. Người lao động được nghỉ lễ, tết và nghỉ hằng năm có hưởng lương theo quy định của pháp luật. Thời gian làm việc ban đêm được tính từ 22 giờ đến 6 giờ sáng ngày hôm sau.</code>                                                                                                                                                                                                                                                               | <code>Người lao động có được trả lương khi nghỉ lễ, tết và nghỉ hằng năm không?</code>                           |
-* Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
-  ```json
-  {
-      "loss": "MultipleNegativesRankingLoss",
-      "matryoshka_dims": [
-          768,
-          512,
-          256,
-          128,
-          64
-      ],
-      "matryoshka_weights": [
-          1,
-          1,
-          1,
-          1,
-          1
-      ],
-      "n_dims_per_step": -1
-  }
-  ```
-### Training Hyperparameters
-#### Non-Default Hyperparameters
-- `eval_strategy`: epoch
-- `per_device_train_batch_size`: 36
-- `per_device_eval_batch_size`: 36
-- `gradient_accumulation_steps`: 12
-- `learning_rate`: 2e-05
-- `weight_decay`: 0.25
-- `max_grad_norm`: 0.6
-- `num_train_epochs`: 8
-- `lr_scheduler_type`: cosine
-- `warmup_ratio`: 0.2
-- `fp16`: True
-- `load_best_model_at_end`: True
-- `optim`: adamw_hf
-- `group_by_length`: True
-- `batch_sampler`: no_duplicates
-#### All Hyperparameters
-<details><summary>Click to expand</summary>
-- `overwrite_output_dir`: False
-- `do_predict`: False
-- `eval_strategy`: epoch
-- `prediction_loss_only`: True
-- `per_device_train_batch_size`: 36
-- `per_device_eval_batch_size`: 36
-- `per_gpu_train_batch_size`: None
-- `per_gpu_eval_batch_size`: None
-- `gradient_accumulation_steps`: 12
-- `eval_accumulation_steps`: None
-- `torch_empty_cache_steps`: None
-- `learning_rate`: 2e-05
-- `weight_decay`: 0.25
-- `adam_beta1`: 0.9
-- `adam_beta2`: 0.999
-- `adam_epsilon`: 1e-08
-- `max_grad_norm`: 0.6
-- `num_train_epochs`: 8
-- `max_steps`: -1
-- `lr_scheduler_type`: cosine
-- `lr_scheduler_kwargs`: {}
-- `warmup_ratio`: 0.2
-- `warmup_steps`: 0
-- `log_level`: passive
-- `log_level_replica`: warning
-- `log_on_each_node`: True
-- `logging_nan_inf_filter`: True
-- `save_safetensors`: True
-- `save_on_each_node`: False
-- `save_only_model`: False
-- `restore_callback_states_from_checkpoint`: False
-- `no_cuda`: False
-- `use_cpu`: False
-- `use_mps_device`: False
-- `seed`: 42
-- `data_seed`: None
-- `jit_mode_eval`: False
-- `use_ipex`: False
-- `bf16`: False
-- `fp16`: True
-- `fp16_opt_level`: O1
-- `half_precision_backend`: auto
-- `bf16_full_eval`: False
-- `fp16_full_eval`: False
-- `tf32`: None
-- `local_rank`: 0
-- `ddp_backend`: None
-- `tpu_num_cores`: None
-- `tpu_metrics_debug`: False
-- `debug`: []
-- `dataloader_drop_last`: False
-- `dataloader_num_workers`: 0
-- `dataloader_prefetch_factor`: None
-- `past_index`: -1
-- `disable_tqdm`: False
-- `remove_unused_columns`: True
-- `label_names`: None
-- `load_best_model_at_end`: True
-- `ignore_data_skip`: False
-- `fsdp`: []
-- `fsdp_min_num_params`: 0
-- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
-- `fsdp_transformer_layer_cls_to_wrap`: None
-- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
-- `deepspeed`: None
-- `label_smoothing_factor`: 0.0
-- `optim`: adamw_hf
-- `optim_args`: None
-- `adafactor`: False
-- `group_by_length`: True
-- `length_column_name`: length
-- `ddp_find_unused_parameters`: None
-- `ddp_bucket_cap_mb`: None
-- `ddp_broadcast_buffers`: False
-- `dataloader_pin_memory`: True
-- `dataloader_persistent_workers`: False
-- `skip_memory_metrics`: True
-- `use_legacy_prediction_loop`: False
-- `push_to_hub`: False
-- `resume_from_checkpoint`: None
-- `hub_model_id`: None
-- `hub_strategy`: every_save
-- `hub_private_repo`: None
-- `hub_always_push`: False
-- `gradient_checkpointing`: False
-- `gradient_checkpointing_kwargs`: None
-- `include_inputs_for_metrics`: False
-- `include_for_metrics`: []
-- `eval_do_concat_batches`: True
-- `fp16_backend`: auto
-- `push_to_hub_model_id`: None
-- `push_to_hub_organization`: None
-- `mp_parameters`:
-- `auto_find_batch_size`: False
-- `full_determinism`: False
-- `torchdynamo`: None
-- `ray_scope`: last
-- `ddp_timeout`: 1800
-- `torch_compile`: False
-- `torch_compile_backend`: None
-- `torch_compile_mode`: None
-- `dispatch_batches`: None
-- `split_batches`: None
-- `include_tokens_per_second`: False
-- `include_num_input_tokens_seen`: False
-- `neftune_noise_alpha`: None
-- `optim_target_modules`: None
-- `batch_eval_metrics`: False
-- `eval_on_start`: False
-- `use_liger_kernel`: False
-- `eval_use_gather_object`: False
-- `average_tokens_across_devices`: False
-- `prompts`: None
-- `batch_sampler`: no_duplicates
-- `multi_dataset_batch_sampler`: proportional
-</details>
-### Training Logs
-| Epoch      | Step    | Training Loss | Validation Loss | dim_768_cosine_ndcg@10 | dim_512_cosine_ndcg@10 | dim_256_cosine_ndcg@10 | dim_128_cosine_ndcg@10 | dim_64_cosine_ndcg@10 |
-|:----------:|:-------:|:-------------:|:---------------:|:----------------------:|:----------------------:|:----------------------:|:----------------------:|:---------------------:|
-| 0.9745     | 35      | 2.0891        | 0.8637          | 0.5232                 | 0.5220                 | 0.5098                 | 0.4937                 | 0.4655                |
-| 1.9745     | 70      | 0.8166        | 0.4945          | 0.6462                 | 0.6453                 | 0.6351                 | 0.6185                 | 0.5894                |
-| 2.9745     | 105     | 0.4366        | 0.3967          | 0.6853                 | 0.6850                 | 0.6769                 | 0.6624                 | 0.6427                |
-| 3.9745     | 140     | 0.2715        | 0.3548          | 0.6885                 | 0.6880                 | 0.6822                 | 0.6705                 | 0.6514                |
-| 4.9745     | 175     | 0.1886        | 0.3404          | 0.6924                 | 0.6906                 | 0.6872                 | 0.6748                 | 0.6559                |
-| **5.9745** | **210** | **0.1467**    | **0.3299**      | **0.6938**             | **0.6917**             | **0.6871**             | **0.6755**             | **0.6571**            |
-* The bold row denotes the saved checkpoint.
-### Framework Versions
-- Python: 3.10.12
-- Sentence Transformers: 3.3.1
-- Transformers: 4.47.0
-- PyTorch: 2.5.1+cu121
-- Accelerate: 1.2.1
-- Datasets: 3.2.0
-- Tokenizers: 0.21.0
 ## Citation
 ### BibTeX
@@ -825,22 +558,4 @@ for doc, score in zip(sorted_docs, sorted_scores):
     archivePrefix={arXiv},
     primaryClass={cs.CL}
 }
-```
-<!--
-## Glossary
-*Clearly define terms in order to be accessible across audiences.*
--->
-<!--
-## Model Card Authors
-*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
--->
-<!--
-## Model Card Contact
-*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
--->

 #### Information Retrieval
+* Datasets: [quanghuy123/LEGAL-EVAL-Dataset](https://huggingface.co/datasets/quanghuy123/LEGAL-EVAL-Dataset)
 * Evaluated with [<code>InformationRetrievalEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator)
+| Model               | dim_768    | dim_512    | dim_256    | dim_128    | dim_64     |
 |:--------------------|:-----------|:-----------|:-----------|:-----------|:-----------|
+| vietnamese-bi-encoder   | 0.4645     | 0.4628     | 0.4494     | 0.4233     | 0.3744     |
+| sup-SimCSE-VietNamese-phobert-base   | 0.4033     | 0.3902     | 0.3835     | 0.3785     | 0.3695      |
+| hiieu/halong_embedding  | 0.6242     | 0.6134      | 0.5983     | 0.5878     | 0.5762     |
+| quanghuy123/LEGAL_EMBEDDING  | 0.811      | 0.8074     | 0.8022     | 0.7937     | 0.7718     |
 ## Citation
 ### BibTeX
     archivePrefix={arXiv},
     primaryClass={cs.CL}
 }
+```