Huy Dang
commited on
Create README.md
Browse files
README.md
ADDED
@@ -0,0 +1,853 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
language:
|
3 |
+
- vi
|
4 |
+
license: apache-2.0
|
5 |
+
tags:
|
6 |
+
- sentence-transformers
|
7 |
+
- sentence-similarity
|
8 |
+
- feature-extraction
|
9 |
+
- generated_from_trainer
|
10 |
+
- dataset_size:30987
|
11 |
+
- loss:MatryoshkaLoss
|
12 |
+
- loss:MultipleNegativesRankingLoss
|
13 |
+
base_model: bkai-foundation-models/vietnamese-bi-encoder
|
14 |
+
widget:
|
15 |
+
- source_sentence: 'Điều 2 Quyết định 185/QĐ-UB năm 1998 Bảng giá đất tỉnh Bến Tre
|
16 |
+
có nội dung như sau:
|
17 |
+
|
18 |
+
|
19 |
+
Điều 2. Giá đất trên được áp dụng cho những trường hợp: Tính thuế chuyển quyền
|
20 |
+
sử dụng cho những trường hợp: Tính thuế chuyển quyền sử dụng đất, thu lệ phí trước
|
21 |
+
bạ, thu tiền sử dụng đất khi giao đất, cho thuê đất, tính giá trị tài sản khi
|
22 |
+
giao đất, bồi thường thiệt hại về đất khi Nhà nước thu hồi.
|
23 |
+
|
24 |
+
Trường hợp giao đất theo hình thức đấu giá, thì giá đất sẽ do Uỷ ban nhân dân
|
25 |
+
tỉnh cho trường hợp cụ thể.
|
26 |
+
|
27 |
+
Giá cho thuê đất đối với các tổ chức, cá nhân nước ngoài hoặc xí nghiệp có vốn
|
28 |
+
đầu tư nước ngoài được áp dụng theo quy định của Chính phủ.'
|
29 |
+
sentences:
|
30 |
+
- Điều 2 Quyết định 55/2012/QĐ-UBND dự toán ngân sách phân bổ dự toán ngân sách
|
31 |
+
2013 Bình Dương
|
32 |
+
- Điều 2 Quyết định 185/QĐ-UB năm 1998 Bảng giá đất tỉnh Bến Tre
|
33 |
+
- Điều 3 Quyết định 79/2019/QĐ-UBND mức thu học phí quản lý và sử dụng học phí giáo
|
34 |
+
dục mầm non Huế
|
35 |
+
- source_sentence: 'Điều 3 Quyết định 94/QĐ-UBND 2018 kế hoạch hoạt động kiểm soát
|
36 |
+
thủ tục hành chính Lâm Đồng có nội dung như sau:
|
37 |
+
|
38 |
+
|
39 |
+
Điều 3. Chánh Văn phòng UBND tỉnh; Thủ trưởng các sở, ban, ngành; Chủ tịch UBND
|
40 |
+
các huyện, thành phố; Chủ tịch UBND các xã, phường, thị trấn trên địa bàn tỉnh
|
41 |
+
chịu trách nhiệm thi hành Quyết định này'
|
42 |
+
sentences:
|
43 |
+
- Điều 3 Quyết định 94/QĐ-UBND 2018 kế hoạch hoạt động kiểm soát thủ tục hành chính
|
44 |
+
Lâm Đồng
|
45 |
+
- Cơ quan nhà nước có thẩm quyền có trách nhiệm gì trong việc giải quyết tranh chấp
|
46 |
+
lao động khi sa thải người lao động?
|
47 |
+
- 'Thăng hạng giáo viên: Điều kiện về thời gian giữ hạng thấp hơn liền kề'
|
48 |
+
- source_sentence: 'Điều 8 Thông tư 63/2013/TT-BGTVT hướng dẫn Bản ghi nhớ vận tải
|
49 |
+
đường bộ giữa Campuchia Lào Việt Nam có nội dung như sau:
|
50 |
+
|
51 |
+
|
52 |
+
Điều 8. Hồ sơ cấp Giấy phép liên vận CLV
|
53 |
+
|
54 |
+
1. Đối với xe thương mại:
|
55 |
+
|
56 |
+
a) Đơn đề nghị cấp Giấy phép liên vận CLV cho phương tiện thương mại quy định
|
57 |
+
tại Phụ lục VI của Thông tư này;
|
58 |
+
|
59 |
+
b) Giấy phép kinh doanh vận tải bằng xe ô tô hoặc Giấy chứng nhận đăng ký kinh
|
60 |
+
doanh đối với đơn vị kinh doanh vận tải bằng xe ô tô không thuộc đối tượng phải
|
61 |
+
cấp giấy phép kinh doanh vận tải bằng xe ô tô (bản sao có chứng thực hoặc bản
|
62 |
+
sao kèm theo bản chính để đối chiếu);
|
63 |
+
|
64 |
+
c) Giấy đăng ký phương tiện (bản sao có chứng thực hoặc bản sao kèm theo bản chính
|
65 |
+
để đối chiếu);
|
66 |
+
|
67 |
+
d) Văn bản chấp thuận khai thác tuyến (đối với phương tiện kinh doanh vận tải
|
68 |
+
hành khách theo tuyến cố định);
|
69 |
+
|
70 |
+
đ) Trường hợp phương tiện không thuộc sở hữu của đơn vị kinh doanh vận tải thì
|
71 |
+
phải xuất trình thêm tài liệu chứng minh quyền sử dụng hợp pháp của đơn vị kinh
|
72 |
+
doanh vận tải với phương tiện đó (bản sao có chứng thực hoặc bản sao kèm theo
|
73 |
+
bản chính để đối chiếu).
|
74 |
+
|
75 |
+
2. Đối với xe phi thương mại:
|
76 |
+
|
77 |
+
a) Đơn đề nghị cấp Giấy phép liên vận CLV cho phương tiện phi thương mại quy định
|
78 |
+
Phụ lục VII của Thông tư này;
|
79 |
+
|
80 |
+
b) Giấy đăng ký phương tiện (bản sao có chứng thực hoặc bản sao kèm theo bản chính
|
81 |
+
để đối chiếu). Trường hợp phương tiện không thuộc sở hữu của tổ chức, cá nhân
|
82 |
+
thì phải kèm theo tài liệu chứng minh quyền sử dụng hợp pháp của tổ chức, các
|
83 |
+
nhân với phương tiện đó (bản sao có chứng thực hoặc bản sao kèm theo bản chính
|
84 |
+
để đối chiếu);
|
85 |
+
|
86 |
+
c) Đối với doanh nghiệp, hợp tác xã thực hiện công trình, dự án hoặc hoạt động
|
87 |
+
kinh doanh trên lãnh thổ Lào hoặc Campuchia thì kèm theo Hợp đồng hoặc tài liệu
|
88 |
+
chứng minh đơn vị đang thực hiện công trình, dự án hoặc hoạt động kinh doanh,
|
89 |
+
trên lãnh thổ Lào, Campuchia (bản sao có chứng thực).'
|
90 |
+
sentences:
|
91 |
+
- Bộ Xây dựng ghi nhận các kiến nghị về quy hoạch đô thị và nông thôn
|
92 |
+
- Điều 3 Quyết định 2106/QĐ-BYT 2020 Kế hoạch triển khai chiến dịch tiêm bổ sung
|
93 |
+
vắc xin Sởi Rubella
|
94 |
+
- Điều 8 Thông tư 63/2013/TT-BGTVT hướng dẫn Bản ghi nhớ vận tải đường bộ giữa Campuchia
|
95 |
+
Lào Việt Nam
|
96 |
+
- source_sentence: 'Điều 2 Quyết định 16/2010/QĐ-UBND phân vùng môi trường tiếp nhận
|
97 |
+
nước thải khí thải công nghiệp trên địa bàn tỉnh Đồng Nai có nội dung như sau:
|
98 |
+
|
99 |
+
|
100 |
+
Điều 2. Xác định và tính toán lưu lượng các nguồn xả nước thải, khí thải công
|
101 |
+
nghiệp
|
102 |
+
|
103 |
+
1. Các tổ chức, cá nhân là chủ cơ sở sản xuất, kinh doanh, dịch vụ có trách nhiệm
|
104 |
+
quan trắc, thống kê, kiểm toán chất thải để tính toán, xác định lưu lượng nước
|
105 |
+
thải, khí thải công nghiệp để áp dụng hệ số lưu lượng nguồn thải.
|
106 |
+
|
107 |
+
2. Các tổ chức, cá nhân có trách nhiệm cung cấp đúng, đầy đủ, chính xác và trung
|
108 |
+
thực các thông tin về lưu lượng nước thải, khí thải công nghiệp cho cơ quan quản
|
109 |
+
lý Nhà nước về môi trường. Trong trường hợp số liệu của các tổ chức, cá nhân cung
|
110 |
+
cấp chưa đủ tin cậy, cơ quan quản lý Nhà nước về môi trường sẽ tính toán, xác
|
111 |
+
định hoặc trưng cầu giám định theo quy định pháp luật.
|
112 |
+
|
113 |
+
3. Trong một số trường hợp đặc thù tùy thuộc vào quy mô, tính chất dự án, cơ sở
|
114 |
+
sản xuất, kinh doanh, dịch vụ, điều kiện cụ thể về môi trường tiếp nhận nước thải
|
115 |
+
và khí thải, địa điểm thực dự án và quy hoạch phát triển kinh tế - xã hội địa
|
116 |
+
phương, Ủy ban nhân dân tỉnh Đồng Nai có những quy định riêng.'
|
117 |
+
sentences:
|
118 |
+
- Điều 2 Quyết định 16/2010/QĐ-UBND phân vùng môi trường tiếp nhận nước thải khí
|
119 |
+
thải công nghiệp trên địa bàn tỉnh Đồng Nai
|
120 |
+
- Điều 16 Thông tư 14/2010/TT-BKHCN hướng dẫn tiêu chuẩn, quy trình thủ tục xét
|
121 |
+
tặng
|
122 |
+
- Người lao động có quyền đơn phương chấm dứt hợp đồng lao động khi được bổ nhiệm
|
123 |
+
giữ chức vụ gì?
|
124 |
+
- source_sentence: Điều 29 Nghị định 46/2015 NĐ-CP quy định về thí nghiệm đối chứng,
|
125 |
+
kiểm định chất lượng, thí nghiệm khả năng chịu lực của kết cấu công trình trong
|
126 |
+
quá trình thi công xây dựng. Tôi xin hỏi, trong dự toán công trình giao thông
|
127 |
+
có chi phí kiểm định tạm tính, chủ đầu tư có quyền lập đề cương, dự toán rồi giao
|
128 |
+
cho phòng thẩm định kết quả có giá trị, sau đó thực hiện thuê đơn vị tư vấn có
|
129 |
+
chức năng thực hiện công tác kiểm định được không?Bộ Xây dựng trả lời vấn đề này
|
130 |
+
như sau:Trường hợp kiểm định theo quy định tại Điểm a, Điểm b, Điểm c, Khoản 2,
|
131 |
+
Điều 29 (thí nghiệm đối chứng, kiểm định chất lượng, thí nghiệm khả năng chịu
|
132 |
+
lực của kết cấu công trình trong quá trình thi công xây dựng) Nghị định46/2015/NĐ-CPngày
|
133 |
+
12/5/2015 của Chính phủ về quản lý chất lượng và bảo trì công trình xây dựng thì
|
134 |
+
việc lập đề cương, dự toán kiểm định do tổ chức đáp ứng điều kiện năng lực theo
|
135 |
+
quy định của pháp luật thực hiện.Đối với trường hợp kiểm định theo quy định tại
|
136 |
+
Điểm đ, Khoản 2, Điều 29 Nghị định46/2015/NĐ-CPthì thực hiện theo quy định tại
|
137 |
+
Điều 18 Thông tư26/2016/TT-BXDngày 26/10/2016 của Bộ Xây dựng quy định chi tiết
|
138 |
+
một số nội dung về quản lý chất lượng và bảo trì công trình xây dựng.
|
139 |
+
sentences:
|
140 |
+
- Quy định về trợ cấp với cán bộ xã già yếu nghỉ việc
|
141 |
+
- Có thể thuê kiểm định chất lượng công trình?
|
142 |
+
- Điều kiện doanh nghiệp được hoạt động tư vấn giám sát
|
143 |
+
pipeline_tag: sentence-similarity
|
144 |
+
library_name: sentence-transformers
|
145 |
+
metrics:
|
146 |
+
- cosine_accuracy@1
|
147 |
+
- cosine_accuracy@3
|
148 |
+
- cosine_accuracy@5
|
149 |
+
- cosine_accuracy@10
|
150 |
+
- cosine_precision@1
|
151 |
+
- cosine_precision@3
|
152 |
+
- cosine_precision@5
|
153 |
+
- cosine_precision@10
|
154 |
+
- cosine_recall@1
|
155 |
+
- cosine_recall@3
|
156 |
+
- cosine_recall@5
|
157 |
+
- cosine_recall@10
|
158 |
+
- cosine_ndcg@10
|
159 |
+
- cosine_mrr@10
|
160 |
+
- cosine_map@100
|
161 |
+
model-index:
|
162 |
+
- name: bkai-fine-tuned-legal
|
163 |
+
results:
|
164 |
+
- task:
|
165 |
+
type: information-retrieval
|
166 |
+
name: Information Retrieval
|
167 |
+
dataset:
|
168 |
+
name: dim 768
|
169 |
+
type: dim_768
|
170 |
+
metrics:
|
171 |
+
- type: cosine_accuracy@1
|
172 |
+
value: 0.5855925639039504
|
173 |
+
name: Cosine Accuracy@1
|
174 |
+
- type: cosine_accuracy@3
|
175 |
+
value: 0.7033307513555384
|
176 |
+
name: Cosine Accuracy@3
|
177 |
+
- type: cosine_accuracy@5
|
178 |
+
value: 0.7500645494448748
|
179 |
+
name: Cosine Accuracy@5
|
180 |
+
- type: cosine_accuracy@10
|
181 |
+
value: 0.8109992254066615
|
182 |
+
name: Cosine Accuracy@10
|
183 |
+
- type: cosine_precision@1
|
184 |
+
value: 0.5855925639039504
|
185 |
+
name: Cosine Precision@1
|
186 |
+
- type: cosine_precision@3
|
187 |
+
value: 0.23444358378517946
|
188 |
+
name: Cosine Precision@3
|
189 |
+
- type: cosine_precision@5
|
190 |
+
value: 0.15001290988897495
|
191 |
+
name: Cosine Precision@5
|
192 |
+
- type: cosine_precision@10
|
193 |
+
value: 0.08109992254066614
|
194 |
+
name: Cosine Precision@10
|
195 |
+
- type: cosine_recall@1
|
196 |
+
value: 0.5855925639039504
|
197 |
+
name: Cosine Recall@1
|
198 |
+
- type: cosine_recall@3
|
199 |
+
value: 0.7033307513555384
|
200 |
+
name: Cosine Recall@3
|
201 |
+
- type: cosine_recall@5
|
202 |
+
value: 0.7500645494448748
|
203 |
+
name: Cosine Recall@5
|
204 |
+
- type: cosine_recall@10
|
205 |
+
value: 0.8109992254066615
|
206 |
+
name: Cosine Recall@10
|
207 |
+
- type: cosine_ndcg@10
|
208 |
+
value: 0.6937880818561333
|
209 |
+
name: Cosine Ndcg@10
|
210 |
+
- type: cosine_mrr@10
|
211 |
+
value: 0.6568145771089225
|
212 |
+
name: Cosine Mrr@10
|
213 |
+
- type: cosine_map@100
|
214 |
+
value: 0.6626061839086153
|
215 |
+
name: Cosine Map@100
|
216 |
+
- task:
|
217 |
+
type: information-retrieval
|
218 |
+
name: Information Retrieval
|
219 |
+
dataset:
|
220 |
+
name: dim 512
|
221 |
+
type: dim_512
|
222 |
+
metrics:
|
223 |
+
- type: cosine_accuracy@1
|
224 |
+
value: 0.5848179705654531
|
225 |
+
name: Cosine Accuracy@1
|
226 |
+
- type: cosine_accuracy@3
|
227 |
+
value: 0.7002323780015491
|
228 |
+
name: Cosine Accuracy@3
|
229 |
+
- type: cosine_accuracy@5
|
230 |
+
value: 0.7490317583268784
|
231 |
+
name: Cosine Accuracy@5
|
232 |
+
- type: cosine_accuracy@10
|
233 |
+
value: 0.8073844564936742
|
234 |
+
name: Cosine Accuracy@10
|
235 |
+
- type: cosine_precision@1
|
236 |
+
value: 0.5848179705654531
|
237 |
+
name: Cosine Precision@1
|
238 |
+
- type: cosine_precision@3
|
239 |
+
value: 0.23341079266718306
|
240 |
+
name: Cosine Precision@3
|
241 |
+
- type: cosine_precision@5
|
242 |
+
value: 0.1498063516653757
|
243 |
+
name: Cosine Precision@5
|
244 |
+
- type: cosine_precision@10
|
245 |
+
value: 0.0807384456493674
|
246 |
+
name: Cosine Precision@10
|
247 |
+
- type: cosine_recall@1
|
248 |
+
value: 0.5848179705654531
|
249 |
+
name: Cosine Recall@1
|
250 |
+
- type: cosine_recall@3
|
251 |
+
value: 0.7002323780015491
|
252 |
+
name: Cosine Recall@3
|
253 |
+
- type: cosine_recall@5
|
254 |
+
value: 0.7490317583268784
|
255 |
+
name: Cosine Recall@5
|
256 |
+
- type: cosine_recall@10
|
257 |
+
value: 0.8073844564936742
|
258 |
+
name: Cosine Recall@10
|
259 |
+
- type: cosine_ndcg@10
|
260 |
+
value: 0.6917119064236622
|
261 |
+
name: Cosine Ndcg@10
|
262 |
+
- type: cosine_mrr@10
|
263 |
+
value: 0.6551604719691482
|
264 |
+
name: Cosine Mrr@10
|
265 |
+
- type: cosine_map@100
|
266 |
+
value: 0.6611599622252305
|
267 |
+
name: Cosine Map@100
|
268 |
+
- task:
|
269 |
+
type: information-retrieval
|
270 |
+
name: Information Retrieval
|
271 |
+
dataset:
|
272 |
+
name: dim 256
|
273 |
+
type: dim_256
|
274 |
+
metrics:
|
275 |
+
- type: cosine_accuracy@1
|
276 |
+
value: 0.5814613994319648
|
277 |
+
name: Cosine Accuracy@1
|
278 |
+
- type: cosine_accuracy@3
|
279 |
+
value: 0.6935192357345726
|
280 |
+
name: Cosine Accuracy@3
|
281 |
+
- type: cosine_accuracy@5
|
282 |
+
value: 0.7428350116189001
|
283 |
+
name: Cosine Accuracy@5
|
284 |
+
- type: cosine_accuracy@10
|
285 |
+
value: 0.8022205009036922
|
286 |
+
name: Cosine Accuracy@10
|
287 |
+
- type: cosine_precision@1
|
288 |
+
value: 0.5814613994319648
|
289 |
+
name: Cosine Precision@1
|
290 |
+
- type: cosine_precision@3
|
291 |
+
value: 0.2311730785781909
|
292 |
+
name: Cosine Precision@3
|
293 |
+
- type: cosine_precision@5
|
294 |
+
value: 0.14856700232378
|
295 |
+
name: Cosine Precision@5
|
296 |
+
- type: cosine_precision@10
|
297 |
+
value: 0.08022205009036923
|
298 |
+
name: Cosine Precision@10
|
299 |
+
- type: cosine_recall@1
|
300 |
+
value: 0.5814613994319648
|
301 |
+
name: Cosine Recall@1
|
302 |
+
- type: cosine_recall@3
|
303 |
+
value: 0.6935192357345726
|
304 |
+
name: Cosine Recall@3
|
305 |
+
- type: cosine_recall@5
|
306 |
+
value: 0.7428350116189001
|
307 |
+
name: Cosine Recall@5
|
308 |
+
- type: cosine_recall@10
|
309 |
+
value: 0.8022205009036922
|
310 |
+
name: Cosine Recall@10
|
311 |
+
- type: cosine_ndcg@10
|
312 |
+
value: 0.6871061609559359
|
313 |
+
name: Cosine Ndcg@10
|
314 |
+
- type: cosine_mrr@10
|
315 |
+
value: 0.6508078926552976
|
316 |
+
name: Cosine Mrr@10
|
317 |
+
- type: cosine_map@100
|
318 |
+
value: 0.6566099087487134
|
319 |
+
name: Cosine Map@100
|
320 |
+
- task:
|
321 |
+
type: information-retrieval
|
322 |
+
name: Information Retrieval
|
323 |
+
dataset:
|
324 |
+
name: dim 128
|
325 |
+
type: dim_128
|
326 |
+
metrics:
|
327 |
+
- type: cosine_accuracy@1
|
328 |
+
value: 0.5695843015750065
|
329 |
+
name: Cosine Accuracy@1
|
330 |
+
- type: cosine_accuracy@3
|
331 |
+
value: 0.6785437645236251
|
332 |
+
name: Cosine Accuracy@3
|
333 |
+
- type: cosine_accuracy@5
|
334 |
+
value: 0.7273431448489543
|
335 |
+
name: Cosine Accuracy@5
|
336 |
+
- type: cosine_accuracy@10
|
337 |
+
value: 0.7936999741802221
|
338 |
+
name: Cosine Accuracy@10
|
339 |
+
- type: cosine_precision@1
|
340 |
+
value: 0.5695843015750065
|
341 |
+
name: Cosine Precision@1
|
342 |
+
- type: cosine_precision@3
|
343 |
+
value: 0.22618125484120832
|
344 |
+
name: Cosine Precision@3
|
345 |
+
- type: cosine_precision@5
|
346 |
+
value: 0.14546862896979085
|
347 |
+
name: Cosine Precision@5
|
348 |
+
- type: cosine_precision@10
|
349 |
+
value: 0.0793699974180222
|
350 |
+
name: Cosine Precision@10
|
351 |
+
- type: cosine_recall@1
|
352 |
+
value: 0.5695843015750065
|
353 |
+
name: Cosine Recall@1
|
354 |
+
- type: cosine_recall@3
|
355 |
+
value: 0.6785437645236251
|
356 |
+
name: Cosine Recall@3
|
357 |
+
- type: cosine_recall@5
|
358 |
+
value: 0.7273431448489543
|
359 |
+
name: Cosine Recall@5
|
360 |
+
- type: cosine_recall@10
|
361 |
+
value: 0.7936999741802221
|
362 |
+
name: Cosine Recall@10
|
363 |
+
- type: cosine_ndcg@10
|
364 |
+
value: 0.6754615621699942
|
365 |
+
name: Cosine Ndcg@10
|
366 |
+
- type: cosine_mrr@10
|
367 |
+
value: 0.6384098910241435
|
368 |
+
name: Cosine Mrr@10
|
369 |
+
- type: cosine_map@100
|
370 |
+
value: 0.6443976474654151
|
371 |
+
name: Cosine Map@100
|
372 |
+
- task:
|
373 |
+
type: information-retrieval
|
374 |
+
name: Information Retrieval
|
375 |
+
dataset:
|
376 |
+
name: dim 64
|
377 |
+
type: dim_64
|
378 |
+
metrics:
|
379 |
+
- type: cosine_accuracy@1
|
380 |
+
value: 0.5543506325845597
|
381 |
+
name: Cosine Accuracy@1
|
382 |
+
- type: cosine_accuracy@3
|
383 |
+
value: 0.6609863155176865
|
384 |
+
name: Cosine Accuracy@3
|
385 |
+
- type: cosine_accuracy@5
|
386 |
+
value: 0.7061709269300284
|
387 |
+
name: Cosine Accuracy@5
|
388 |
+
- type: cosine_accuracy@10
|
389 |
+
value: 0.7717531629227988
|
390 |
+
name: Cosine Accuracy@10
|
391 |
+
- type: cosine_precision@1
|
392 |
+
value: 0.5543506325845597
|
393 |
+
name: Cosine Precision@1
|
394 |
+
- type: cosine_precision@3
|
395 |
+
value: 0.22032877183922883
|
396 |
+
name: Cosine Precision@3
|
397 |
+
- type: cosine_precision@5
|
398 |
+
value: 0.14123418538600568
|
399 |
+
name: Cosine Precision@5
|
400 |
+
- type: cosine_precision@10
|
401 |
+
value: 0.07717531629227987
|
402 |
+
name: Cosine Precision@10
|
403 |
+
- type: cosine_recall@1
|
404 |
+
value: 0.5543506325845597
|
405 |
+
name: Cosine Recall@1
|
406 |
+
- type: cosine_recall@3
|
407 |
+
value: 0.6609863155176865
|
408 |
+
name: Cosine Recall@3
|
409 |
+
- type: cosine_recall@5
|
410 |
+
value: 0.7061709269300284
|
411 |
+
name: Cosine Recall@5
|
412 |
+
- type: cosine_recall@10
|
413 |
+
value: 0.7717531629227988
|
414 |
+
name: Cosine Recall@10
|
415 |
+
- type: cosine_ndcg@10
|
416 |
+
value: 0.6571206813679893
|
417 |
+
name: Cosine Ndcg@10
|
418 |
+
- type: cosine_mrr@10
|
419 |
+
value: 0.6212180172869554
|
420 |
+
name: Cosine Mrr@10
|
421 |
+
- type: cosine_map@100
|
422 |
+
value: 0.6275272633144896
|
423 |
+
name: Cosine Map@100
|
424 |
+
---
|
425 |
+
|
426 |
+
# bkai-fine-tuned-legal
|
427 |
+
|
428 |
+
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [bkai-foundation-models/vietnamese-bi-encoder](https://huggingface.co/bkai-foundation-models/vietnamese-bi-encoder) on the json dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
|
429 |
+
|
430 |
+
## Model Details
|
431 |
+
|
432 |
+
### Model Description
|
433 |
+
- **Model Type:** Sentence Transformer
|
434 |
+
- **Base model:** [bkai-foundation-models/vietnamese-bi-encoder](https://huggingface.co/bkai-foundation-models/vietnamese-bi-encoder) <!-- at revision 84f9d9ada0d1a3c37557398b9ae9fcedcdf40be0 -->
|
435 |
+
- **Maximum Sequence Length:** 256 tokens
|
436 |
+
- **Output Dimensionality:** 768 dimensions
|
437 |
+
- **Similarity Function:** Cosine Similarity
|
438 |
+
- **Training Dataset:**
|
439 |
+
- json
|
440 |
+
- **Language:** vi
|
441 |
+
- **License:** apache-2.0
|
442 |
+
|
443 |
+
### Model Sources
|
444 |
+
|
445 |
+
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
|
446 |
+
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
|
447 |
+
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
|
448 |
+
|
449 |
+
### Full Model Architecture
|
450 |
+
|
451 |
+
```
|
452 |
+
SentenceTransformer(
|
453 |
+
(0): Transformer({'max_seq_length': 256, 'do_lower_case': False}) with Transformer model: RobertaModel
|
454 |
+
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
|
455 |
+
)
|
456 |
+
```
|
457 |
+
|
458 |
+
## Usage
|
459 |
+
|
460 |
+
### Direct Usage (Sentence Transformers)
|
461 |
+
|
462 |
+
First install the Sentence Transformers library:
|
463 |
+
|
464 |
+
```bash
|
465 |
+
pip install -U sentence-transformers
|
466 |
+
```
|
467 |
+
|
468 |
+
Then you can load this model and run inference.
|
469 |
+
```python
|
470 |
+
from sentence_transformers import SentenceTransformer
|
471 |
+
|
472 |
+
# Download from the 🤗 Hub
|
473 |
+
model = SentenceTransformer("sentence_transformers_model_id")
|
474 |
+
# Run inference
|
475 |
+
sentences = [
|
476 |
+
'Điều 29 Nghị định 46/2015 NĐ-CP quy định về thí nghiệm đối chứng, kiểm định chất lượng, thí nghiệm khả năng chịu lực của kết cấu công trình trong quá trình thi công xây dựng. Tôi xin hỏi, trong dự toán công trình giao thông có chi phí kiểm định tạm tính, chủ đầu tư có quyền lập đề cương, dự toán rồi giao cho phòng thẩm định kết quả có giá trị, sau đó thực hiện thuê đơn vị tư vấn có chức năng thực hiện công tác kiểm định được không?Bộ Xây dựng trả lời vấn đề này như sau:Trường hợp kiểm định theo quy định tại Điểm a, Điểm b, Điểm c, Khoản 2, Điều 29 (thí nghiệm đối chứng, kiểm định chất lượng, thí nghiệm khả năng chịu lực của kết cấu công trình trong quá trình thi công xây dựng) Nghị định46/2015/NĐ-CPngày 12/5/2015 của Chính phủ về quản lý chất lượng và bảo trì công trình xây dựng thì việc lập đề cương, dự toán kiểm định do tổ chức đáp ứng điều kiện năng lực theo quy định của pháp luật thực hiện.Đối với trường hợp kiểm định theo quy định tại Điểm đ, Khoản 2, Điều 29 Nghị định46/2015/NĐ-CPthì thực hiện theo quy định tại Điều 18 Thông tư26/2016/TT-BXDngày 26/10/2016 của Bộ Xây dựng quy định chi tiết một số nội dung về quản lý chất lượng và bảo trì công trình xây dựng.',
|
477 |
+
'Có thể thuê kiểm định chất lượng công trình?',
|
478 |
+
'Quy định về trợ cấp với cán bộ xã già yếu nghỉ việc',
|
479 |
+
]
|
480 |
+
embeddings = model.encode(sentences)
|
481 |
+
print(embeddings.shape)
|
482 |
+
# [3, 768]
|
483 |
+
|
484 |
+
# Get the similarity scores for the embeddings
|
485 |
+
similarities = model.similarity(embeddings, embeddings)
|
486 |
+
print(similarities.shape)
|
487 |
+
# [3, 3]
|
488 |
+
```
|
489 |
+
|
490 |
+
<!--
|
491 |
+
### Direct Usage (Transformers)
|
492 |
+
|
493 |
+
<details><summary>Click to see the direct usage in Transformers</summary>
|
494 |
+
|
495 |
+
</details>
|
496 |
+
-->
|
497 |
+
|
498 |
+
<!--
|
499 |
+
### Downstream Usage (Sentence Transformers)
|
500 |
+
|
501 |
+
You can finetune this model on your own dataset.
|
502 |
+
|
503 |
+
<details><summary>Click to expand</summary>
|
504 |
+
|
505 |
+
</details>
|
506 |
+
-->
|
507 |
+
|
508 |
+
<!--
|
509 |
+
### Out-of-Scope Use
|
510 |
+
|
511 |
+
*List how the model may foreseeably be misused and address what users ought not to do with the model.*
|
512 |
+
-->
|
513 |
+
|
514 |
+
## Evaluation
|
515 |
+
|
516 |
+
### Metrics
|
517 |
+
|
518 |
+
#### Information Retrieval
|
519 |
+
|
520 |
+
* Datasets: `dim_768`, `dim_512`, `dim_256`, `dim_128` and `dim_64`
|
521 |
+
* Evaluated with [<code>InformationRetrievalEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator)
|
522 |
+
|
523 |
+
| Metric | dim_768 | dim_512 | dim_256 | dim_128 | dim_64 |
|
524 |
+
|:--------------------|:-----------|:-----------|:-----------|:-----------|:-----------|
|
525 |
+
| cosine_accuracy@1 | 0.5856 | 0.5848 | 0.5815 | 0.5696 | 0.5544 |
|
526 |
+
| cosine_accuracy@3 | 0.7033 | 0.7002 | 0.6935 | 0.6785 | 0.661 |
|
527 |
+
| cosine_accuracy@5 | 0.7501 | 0.749 | 0.7428 | 0.7273 | 0.7062 |
|
528 |
+
| cosine_accuracy@10 | 0.811 | 0.8074 | 0.8022 | 0.7937 | 0.7718 |
|
529 |
+
| cosine_precision@1 | 0.5856 | 0.5848 | 0.5815 | 0.5696 | 0.5544 |
|
530 |
+
| cosine_precision@3 | 0.2344 | 0.2334 | 0.2312 | 0.2262 | 0.2203 |
|
531 |
+
| cosine_precision@5 | 0.15 | 0.1498 | 0.1486 | 0.1455 | 0.1412 |
|
532 |
+
| cosine_precision@10 | 0.0811 | 0.0807 | 0.0802 | 0.0794 | 0.0772 |
|
533 |
+
| cosine_recall@1 | 0.5856 | 0.5848 | 0.5815 | 0.5696 | 0.5544 |
|
534 |
+
| cosine_recall@3 | 0.7033 | 0.7002 | 0.6935 | 0.6785 | 0.661 |
|
535 |
+
| cosine_recall@5 | 0.7501 | 0.749 | 0.7428 | 0.7273 | 0.7062 |
|
536 |
+
| cosine_recall@10 | 0.811 | 0.8074 | 0.8022 | 0.7937 | 0.7718 |
|
537 |
+
| **cosine_ndcg@10** | **0.6938** | **0.6917** | **0.6871** | **0.6755** | **0.6571** |
|
538 |
+
| cosine_mrr@10 | 0.6568 | 0.6552 | 0.6508 | 0.6384 | 0.6212 |
|
539 |
+
| cosine_map@100 | 0.6626 | 0.6612 | 0.6566 | 0.6444 | 0.6275 |
|
540 |
+
|
541 |
+
<!--
|
542 |
+
## Bias, Risks and Limitations
|
543 |
+
|
544 |
+
*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
|
545 |
+
-->
|
546 |
+
|
547 |
+
<!--
|
548 |
+
### Recommendations
|
549 |
+
|
550 |
+
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
|
551 |
+
-->
|
552 |
+
|
553 |
+
## Training Details
|
554 |
+
|
555 |
+
### Training Dataset
|
556 |
+
|
557 |
+
#### json
|
558 |
+
|
559 |
+
* Dataset: json
|
560 |
+
* Size: 30,987 training samples
|
561 |
+
* Columns: <code>positive</code> and <code>anchor</code>
|
562 |
+
* Approximate statistics based on the first 1000 samples:
|
563 |
+
| | positive | anchor |
|
564 |
+
|:--------|:-------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
|
565 |
+
| type | string | string |
|
566 |
+
| details | <ul><li>min: 19 tokens</li><li>mean: 187.91 tokens</li><li>max: 256 tokens</li></ul> | <ul><li>min: 8 tokens</li><li>mean: 20.24 tokens</li><li>max: 63 tokens</li></ul> |
|
567 |
+
* Samples:
|
568 |
+
| positive | anchor |
|
569 |
+
|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------|
|
570 |
+
| <code>Người lao động bị tạm đình chỉ công việc được tạm ứng 50% tiền lương trước khi bị đình chỉ công việc. Trong trường hợp bị xử lý kỷ luật lao động, người lao động không được nhận khoản tiền tạm ứng này.</code> | <code>Người lao động bị tạm đình chỉ công việc được tạm ứng bao nhiêu phần trăm tiền lương trước khi bị đình chỉ công việc?</code> |
|
571 |
+
| <code>Điều 3 Quyết định 3602/QĐ-BNN-TCTS 2014 hướng dẫn số lượng tàu cá đóng mới thực hiện 67/2014/NĐ-CP có nội dung như sau:<br><br>Điều 3. Chủ tịch Ủy ban nhân dân các tỉnh, thành phố trực thuộc trung ương ven biển, Chánh Văn phòng Bộ, Tổng cục trưởng Tổng cục Thủy sản, Thủ trưởng các đơn vị có liên quan chịu trách nhiệm thi hành Quyết định này</code> | <code>Điều 3 Quyết định 3602/QĐ-BNN-TCTS 2014 hướng dẫn số lượng tàu cá đóng mới thực hiện 67/2014/NĐ-CP</code> |
|
572 |
+
| <code>Tại khoản 1 Điều 15 Luật Cảnh sát cơ động 2022 có quy định về sử dụng vũ khí, vật liệu nổ, công cụ hỗ trợ, phương tiện, thiết bị kỹ thuật nghiệp vụ của Cảnh sát cơ động như sau:<br><br>Sử dụng vũ khí, vật liệu nổ, công cụ hỗ trợ, phương tiện, thiết bị kỹ thuật nghiệp vụ<br>1. Khi thực hiện nhiệm vụ độc lập, cán bộ, chiến sĩ Cảnh sát cơ động được sử dụng vũ khí, vật liệu nổ, công cụ hỗ trợ và được nổ súng quân dụng theo quy định của Luật Quản lý, sử dụng vũ khí, vật liệu nổ và công cụ hỗ trợ.<br>2. Khi thực hiện nhiệm vụ có tổ chức, việc sử dụng vũ khí, vật liệu nổ, công cụ hỗ trợ của Cảnh sát cơ động phải tuân theo mệnh lệnh của người chỉ huy trực tiếp. Người ra mệnh lệnh phải tuân thủ quy định của Luật Quản lý, sử dụng vũ khí, vật liệu nổ và công cụ hỗ trợ, quy định của pháp luật có liên quan và chịu trách nhiệm trước pháp luật và cấp trên về quyết định của mình.<br>3. Việc sử dụng phương tiện, thiết bị kỹ thuật nghiệp vụ khi thực hiện nhiệm vụ của Cảnh sát cơ động theo phương án đã được cấp có thẩm...</code> | <code>Cảnh sát cơ động có được quyền dùng súng không?</code> |
|
573 |
+
* Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
|
574 |
+
```json
|
575 |
+
{
|
576 |
+
"loss": "MultipleNegativesRankingLoss",
|
577 |
+
"matryoshka_dims": [
|
578 |
+
768,
|
579 |
+
512,
|
580 |
+
256,
|
581 |
+
128,
|
582 |
+
64
|
583 |
+
],
|
584 |
+
"matryoshka_weights": [
|
585 |
+
1,
|
586 |
+
1,
|
587 |
+
1,
|
588 |
+
1,
|
589 |
+
1
|
590 |
+
],
|
591 |
+
"n_dims_per_step": -1
|
592 |
+
}
|
593 |
+
```
|
594 |
+
|
595 |
+
### Evaluation Dataset
|
596 |
+
|
597 |
+
#### json
|
598 |
+
|
599 |
+
* Dataset: json
|
600 |
+
* Size: 3,874 evaluation samples
|
601 |
+
* Columns: <code>positive</code> and <code>anchor</code>
|
602 |
+
* Approximate statistics based on the first 1000 samples:
|
603 |
+
| | positive | anchor |
|
604 |
+
|:--------|:-------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
|
605 |
+
| type | string | string |
|
606 |
+
| details | <ul><li>min: 25 tokens</li><li>mean: 189.57 tokens</li><li>max: 256 tokens</li></ul> | <ul><li>min: 7 tokens</li><li>mean: 20.56 tokens</li><li>max: 63 tokens</li></ul> |
|
607 |
+
* Samples:
|
608 |
+
| positive | anchor |
|
609 |
+
|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------|
|
610 |
+
| <code>Chương V của Bộ luật Lao động 2019 quy định về thời giờ làm việc, thời giờ nghỉ ngơi. Thời giờ làm việc bình thường không quá 8 giờ trong một ngày và không quá 48 giờ trong một tuần. Người lao động có thể làm thêm giờ khi được người sử dụng lao động yêu cầu và phải trả lương làm thêm giờ theo quy định. Tổng số giờ làm thêm không được vượt quá 200 giờ trong một năm, trường hợp đặc biệt không được vượt quá 300 giờ trong một năm. Người lao động được nghỉ ngơi giữa giờ làm việc ít nhất 30 phút liên tục nếu làm việc 8 giờ liên tục trong ngày. Người lao động được nghỉ hằng tuần ít nhất 24 giờ liên tục. Người lao động được nghỉ lễ, tết và nghỉ hằng năm có hưởng lương theo quy định của pháp luật. Thời gian làm việc ban đêm được tính từ 22 giờ đến 6 giờ sáng ngày hôm sau.</code> | <code>Người lao động có quyền nghỉ ngơi bao nhiêu giờ liên tục hằng tuần?</code> |
|
611 |
+
| <code>Điều 8 Thông tư 63/2013/TT-BGTVT hướng dẫn Bản ghi nhớ vận tải đường bộ giữa Campuchia Lào Việt Nam có nội dung như sau:<br><br>Điều 8. Hồ sơ cấp Giấy phép liên vận CLV<br>1. Đối với xe thương mại:<br>a) Đơn đề nghị cấp Giấy phép liên vận CLV cho phương tiện thương mại quy định tại Phụ lục VI của Thông tư này;<br>b) Giấy phép kinh doanh vận tải bằng xe ô tô hoặc Giấy chứng nhận đăng ký kinh doanh đối với đơn vị kinh doanh vận tải bằng xe ô tô không thuộc đối tượng phải cấp giấy phép kinh doanh vận tải bằng xe ô tô (bản sao có chứng thực hoặc bản sao kèm theo bản chính để đối chiếu);<br>c) Giấy đăng ký phương tiện (bản sao có chứng thực hoặc bản sao kèm theo bản chính để đối chiếu);<br>d) Văn bản chấp thuận khai thác tuyến (đối với phương tiện kinh doanh vận tải hành khách theo tuyến cố định);<br>đ) Trường hợp phương tiện không thuộc sở hữu của đơn vị kinh doanh vận tải thì phải xuất trình thêm tài liệu chứng minh quyền sử dụng hợp pháp của đơn vị kinh doanh vận tải với phương tiện đó (bản sao có chứng thực ho...</code> | <code>Điều 8 Thông tư 63/2013/TT-BGTVT hướng dẫn Bản ghi nhớ vận tải đường bộ giữa Campuchia Lào Việt Nam</code> |
|
612 |
+
| <code>Chương V của Bộ luật Lao động 2019 quy định về thời giờ làm việc, thời giờ nghỉ ngơi. Thời giờ làm việc bình thường không quá 8 giờ trong một ngày và không quá 48 giờ trong một tuần. Người lao động có thể làm thêm giờ khi được người sử dụng lao động yêu cầu và phải trả lương làm thêm giờ theo quy định. Tổng số giờ làm thêm không được vượt quá 200 giờ trong một năm, trường hợp đặc biệt không được vượt quá 300 giờ trong một năm. Người lao động được nghỉ ngơi giữa giờ làm việc ít nhất 30 phút liên tục nếu làm việc 8 giờ liên tục trong ngày. Người lao động được nghỉ hằng tuần ít nhất 24 giờ liên tục. Người lao động được nghỉ lễ, tết và nghỉ hằng năm có hưởng lương theo quy định của pháp luật. Thời gian làm việc ban đêm được tính từ 22 giờ đến 6 giờ sáng ngày hôm sau.</code> | <code>Người lao động có được trả lương khi nghỉ lễ, tết và nghỉ hằng năm không?</code> |
|
613 |
+
* Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
|
614 |
+
```json
|
615 |
+
{
|
616 |
+
"loss": "MultipleNegativesRankingLoss",
|
617 |
+
"matryoshka_dims": [
|
618 |
+
768,
|
619 |
+
512,
|
620 |
+
256,
|
621 |
+
128,
|
622 |
+
64
|
623 |
+
],
|
624 |
+
"matryoshka_weights": [
|
625 |
+
1,
|
626 |
+
1,
|
627 |
+
1,
|
628 |
+
1,
|
629 |
+
1
|
630 |
+
],
|
631 |
+
"n_dims_per_step": -1
|
632 |
+
}
|
633 |
+
```
|
634 |
+
|
635 |
+
### Training Hyperparameters
|
636 |
+
#### Non-Default Hyperparameters
|
637 |
+
|
638 |
+
- `eval_strategy`: epoch
|
639 |
+
- `per_device_train_batch_size`: 36
|
640 |
+
- `per_device_eval_batch_size`: 36
|
641 |
+
- `gradient_accumulation_steps`: 12
|
642 |
+
- `learning_rate`: 2e-05
|
643 |
+
- `weight_decay`: 0.25
|
644 |
+
- `max_grad_norm`: 0.6
|
645 |
+
- `num_train_epochs`: 8
|
646 |
+
- `lr_scheduler_type`: cosine
|
647 |
+
- `warmup_ratio`: 0.2
|
648 |
+
- `fp16`: True
|
649 |
+
- `load_best_model_at_end`: True
|
650 |
+
- `optim`: adamw_hf
|
651 |
+
- `group_by_length`: True
|
652 |
+
- `batch_sampler`: no_duplicates
|
653 |
+
|
654 |
+
#### All Hyperparameters
|
655 |
+
<details><summary>Click to expand</summary>
|
656 |
+
|
657 |
+
- `overwrite_output_dir`: False
|
658 |
+
- `do_predict`: False
|
659 |
+
- `eval_strategy`: epoch
|
660 |
+
- `prediction_loss_only`: True
|
661 |
+
- `per_device_train_batch_size`: 36
|
662 |
+
- `per_device_eval_batch_size`: 36
|
663 |
+
- `per_gpu_train_batch_size`: None
|
664 |
+
- `per_gpu_eval_batch_size`: None
|
665 |
+
- `gradient_accumulation_steps`: 12
|
666 |
+
- `eval_accumulation_steps`: None
|
667 |
+
- `torch_empty_cache_steps`: None
|
668 |
+
- `learning_rate`: 2e-05
|
669 |
+
- `weight_decay`: 0.25
|
670 |
+
- `adam_beta1`: 0.9
|
671 |
+
- `adam_beta2`: 0.999
|
672 |
+
- `adam_epsilon`: 1e-08
|
673 |
+
- `max_grad_norm`: 0.6
|
674 |
+
- `num_train_epochs`: 8
|
675 |
+
- `max_steps`: -1
|
676 |
+
- `lr_scheduler_type`: cosine
|
677 |
+
- `lr_scheduler_kwargs`: {}
|
678 |
+
- `warmup_ratio`: 0.2
|
679 |
+
- `warmup_steps`: 0
|
680 |
+
- `log_level`: passive
|
681 |
+
- `log_level_replica`: warning
|
682 |
+
- `log_on_each_node`: True
|
683 |
+
- `logging_nan_inf_filter`: True
|
684 |
+
- `save_safetensors`: True
|
685 |
+
- `save_on_each_node`: False
|
686 |
+
- `save_only_model`: False
|
687 |
+
- `restore_callback_states_from_checkpoint`: False
|
688 |
+
- `no_cuda`: False
|
689 |
+
- `use_cpu`: False
|
690 |
+
- `use_mps_device`: False
|
691 |
+
- `seed`: 42
|
692 |
+
- `data_seed`: None
|
693 |
+
- `jit_mode_eval`: False
|
694 |
+
- `use_ipex`: False
|
695 |
+
- `bf16`: False
|
696 |
+
- `fp16`: True
|
697 |
+
- `fp16_opt_level`: O1
|
698 |
+
- `half_precision_backend`: auto
|
699 |
+
- `bf16_full_eval`: False
|
700 |
+
- `fp16_full_eval`: False
|
701 |
+
- `tf32`: None
|
702 |
+
- `local_rank`: 0
|
703 |
+
- `ddp_backend`: None
|
704 |
+
- `tpu_num_cores`: None
|
705 |
+
- `tpu_metrics_debug`: False
|
706 |
+
- `debug`: []
|
707 |
+
- `dataloader_drop_last`: False
|
708 |
+
- `dataloader_num_workers`: 0
|
709 |
+
- `dataloader_prefetch_factor`: None
|
710 |
+
- `past_index`: -1
|
711 |
+
- `disable_tqdm`: False
|
712 |
+
- `remove_unused_columns`: True
|
713 |
+
- `label_names`: None
|
714 |
+
- `load_best_model_at_end`: True
|
715 |
+
- `ignore_data_skip`: False
|
716 |
+
- `fsdp`: []
|
717 |
+
- `fsdp_min_num_params`: 0
|
718 |
+
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
|
719 |
+
- `fsdp_transformer_layer_cls_to_wrap`: None
|
720 |
+
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
|
721 |
+
- `deepspeed`: None
|
722 |
+
- `label_smoothing_factor`: 0.0
|
723 |
+
- `optim`: adamw_hf
|
724 |
+
- `optim_args`: None
|
725 |
+
- `adafactor`: False
|
726 |
+
- `group_by_length`: True
|
727 |
+
- `length_column_name`: length
|
728 |
+
- `ddp_find_unused_parameters`: None
|
729 |
+
- `ddp_bucket_cap_mb`: None
|
730 |
+
- `ddp_broadcast_buffers`: False
|
731 |
+
- `dataloader_pin_memory`: True
|
732 |
+
- `dataloader_persistent_workers`: False
|
733 |
+
- `skip_memory_metrics`: True
|
734 |
+
- `use_legacy_prediction_loop`: False
|
735 |
+
- `push_to_hub`: False
|
736 |
+
- `resume_from_checkpoint`: None
|
737 |
+
- `hub_model_id`: None
|
738 |
+
- `hub_strategy`: every_save
|
739 |
+
- `hub_private_repo`: None
|
740 |
+
- `hub_always_push`: False
|
741 |
+
- `gradient_checkpointing`: False
|
742 |
+
- `gradient_checkpointing_kwargs`: None
|
743 |
+
- `include_inputs_for_metrics`: False
|
744 |
+
- `include_for_metrics`: []
|
745 |
+
- `eval_do_concat_batches`: True
|
746 |
+
- `fp16_backend`: auto
|
747 |
+
- `push_to_hub_model_id`: None
|
748 |
+
- `push_to_hub_organization`: None
|
749 |
+
- `mp_parameters`:
|
750 |
+
- `auto_find_batch_size`: False
|
751 |
+
- `full_determinism`: False
|
752 |
+
- `torchdynamo`: None
|
753 |
+
- `ray_scope`: last
|
754 |
+
- `ddp_timeout`: 1800
|
755 |
+
- `torch_compile`: False
|
756 |
+
- `torch_compile_backend`: None
|
757 |
+
- `torch_compile_mode`: None
|
758 |
+
- `dispatch_batches`: None
|
759 |
+
- `split_batches`: None
|
760 |
+
- `include_tokens_per_second`: False
|
761 |
+
- `include_num_input_tokens_seen`: False
|
762 |
+
- `neftune_noise_alpha`: None
|
763 |
+
- `optim_target_modules`: None
|
764 |
+
- `batch_eval_metrics`: False
|
765 |
+
- `eval_on_start`: False
|
766 |
+
- `use_liger_kernel`: False
|
767 |
+
- `eval_use_gather_object`: False
|
768 |
+
- `average_tokens_across_devices`: False
|
769 |
+
- `prompts`: None
|
770 |
+
- `batch_sampler`: no_duplicates
|
771 |
+
- `multi_dataset_batch_sampler`: proportional
|
772 |
+
|
773 |
+
</details>
|
774 |
+
|
775 |
+
### Training Logs
|
776 |
+
| Epoch | Step | Training Loss | Validation Loss | dim_768_cosine_ndcg@10 | dim_512_cosine_ndcg@10 | dim_256_cosine_ndcg@10 | dim_128_cosine_ndcg@10 | dim_64_cosine_ndcg@10 |
|
777 |
+
|:----------:|:-------:|:-------------:|:---------------:|:----------------------:|:----------------------:|:----------------------:|:----------------------:|:---------------------:|
|
778 |
+
| 0.9745 | 35 | 2.0891 | 0.8637 | 0.5232 | 0.5220 | 0.5098 | 0.4937 | 0.4655 |
|
779 |
+
| 1.9745 | 70 | 0.8166 | 0.4945 | 0.6462 | 0.6453 | 0.6351 | 0.6185 | 0.5894 |
|
780 |
+
| 2.9745 | 105 | 0.4366 | 0.3967 | 0.6853 | 0.6850 | 0.6769 | 0.6624 | 0.6427 |
|
781 |
+
| 3.9745 | 140 | 0.2715 | 0.3548 | 0.6885 | 0.6880 | 0.6822 | 0.6705 | 0.6514 |
|
782 |
+
| 4.9745 | 175 | 0.1886 | 0.3404 | 0.6924 | 0.6906 | 0.6872 | 0.6748 | 0.6559 |
|
783 |
+
| **5.9745** | **210** | **0.1467** | **0.3299** | **0.6938** | **0.6917** | **0.6871** | **0.6755** | **0.6571** |
|
784 |
+
|
785 |
+
* The bold row denotes the saved checkpoint.
|
786 |
+
|
787 |
+
### Framework Versions
|
788 |
+
- Python: 3.10.12
|
789 |
+
- Sentence Transformers: 3.3.1
|
790 |
+
- Transformers: 4.47.0
|
791 |
+
- PyTorch: 2.5.1+cu121
|
792 |
+
- Accelerate: 1.2.1
|
793 |
+
- Datasets: 3.2.0
|
794 |
+
- Tokenizers: 0.21.0
|
795 |
+
|
796 |
+
## Citation
|
797 |
+
|
798 |
+
### BibTeX
|
799 |
+
|
800 |
+
#### Sentence Transformers
|
801 |
+
```bibtex
|
802 |
+
@inproceedings{reimers-2019-sentence-bert,
|
803 |
+
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
|
804 |
+
author = "Reimers, Nils and Gurevych, Iryna",
|
805 |
+
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
|
806 |
+
month = "11",
|
807 |
+
year = "2019",
|
808 |
+
publisher = "Association for Computational Linguistics",
|
809 |
+
url = "https://arxiv.org/abs/1908.10084",
|
810 |
+
}
|
811 |
+
```
|
812 |
+
|
813 |
+
#### MatryoshkaLoss
|
814 |
+
```bibtex
|
815 |
+
@misc{kusupati2024matryoshka,
|
816 |
+
title={Matryoshka Representation Learning},
|
817 |
+
author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
|
818 |
+
year={2024},
|
819 |
+
eprint={2205.13147},
|
820 |
+
archivePrefix={arXiv},
|
821 |
+
primaryClass={cs.LG}
|
822 |
+
}
|
823 |
+
```
|
824 |
+
|
825 |
+
#### MultipleNegativesRankingLoss
|
826 |
+
```bibtex
|
827 |
+
@misc{henderson2017efficient,
|
828 |
+
title={Efficient Natural Language Response Suggestion for Smart Reply},
|
829 |
+
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
|
830 |
+
year={2017},
|
831 |
+
eprint={1705.00652},
|
832 |
+
archivePrefix={arXiv},
|
833 |
+
primaryClass={cs.CL}
|
834 |
+
}
|
835 |
+
```
|
836 |
+
|
837 |
+
<!--
|
838 |
+
## Glossary
|
839 |
+
|
840 |
+
*Clearly define terms in order to be accessible across audiences.*
|
841 |
+
-->
|
842 |
+
|
843 |
+
<!--
|
844 |
+
## Model Card Authors
|
845 |
+
|
846 |
+
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
|
847 |
+
-->
|
848 |
+
|
849 |
+
<!--
|
850 |
+
## Model Card Contact
|
851 |
+
|
852 |
+
*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
|
853 |
+
-->
|