GyuBack commited on
Commit
f43e076
·
verified ·
1 Parent(s): 03978c7

Upload folder using huggingface_hub

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 1024,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,562 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - sentence-similarity
5
+ - feature-extraction
6
+ - generated_from_trainer
7
+ - dataset_size:23392
8
+ - loss:MultipleNegativesRankingLoss
9
+ base_model: intfloat/multilingual-e5-large-instruct
10
+ widget:
11
+ - source_sentence: 감각 뉴런이 감정을 격렬하게 느낄 때 이 뉴런은 어떻게 반응하는가?
12
+ sentences:
13
+ - '연체동물에서 쉽게 볼 수 있는 수축 반사 행동이 군소의 아가미에서 연구되었다. 군소의 등쪽에는 아가미를 덮고 있는 막과 막에 연결되어 있는
14
+ 호흡관 구조를 볼 수 있다. 군소의 호흡관 피부를 자극하면 감각 뉴런이 격발하고 이 뉴런은 글루타메이트를 시냅스로 방출한다. 글루타메이트 분자들은
15
+ 운동뉴런 수용기를 활성화 시킨다. 충분히 많은 수용기가 활성화 되면 운동뉴런은 활동전위를 발생시켜 아가미의 근육이 수축하게 된다. 이것을 아가미
16
+ 수축반사라 하고 이를 통해 습관화 ,민감화, 고전적 조건화를 살펴볼 수 있다.
17
+
18
+ 습관화는 군소의 흡수관을 약하지만 반복적으로 건드릴 때 나타난다. 처음의 자극은 아가미 철회반응을 일으키지만 계속 이어지는 흡수관자극으로 일어나는
19
+ 반응은 크기가 작아지는 현상이다. 이는 흡수관의 자극을 맡는 감각 뉴런의 축색에서 가용한 글루타메이트의 소낭수의 점진적 감소 때문이다, 또한
20
+ 시냅스의 삭제에 의해서도 억제될 수 있다.
21
+
22
+ 민감화는 세로토닌에 의해 유발된 글루타메이트의 증가에 의해 가용한 글루타메이트의 소낭 수를 증가시킨다. 이는 소낭으로부터 신경전달 물질을 방출하도록
23
+ 한다. 신경전달물질의 증가에 의해 작은 자극에도 아가미 수축반응을 유발할 수 있다.
24
+
25
+ 고전적 조건화는 흡수관터치(CS)가 꼬리에 충격을 가하는 것(US)과 반복적으로 연합될 때, 증가된 흡수관 철회반응(CR)은 후속의 흡수관
26
+ 터치에 대한 반응으로 이어진다. 연합 훈련에 뒤따르는 흡수관 터치(CS)에 대한 증가된 흡수관 철회반응은 꼬리 충격을 단독으로 제시할 때 발생하는
27
+ 일반화된 민감화 보다 꽤 크다. 더욱이 고전적 조건화된 흡수관 철회반응(CR)은 또한 흡수관 특정적이어서 다른 자극들에는 일반화 되지 않는다.
28
+ 이때 US와 CS가 서로 다른 시간에 투여되면 이러한 기억 효과를 볼 수가 없고 흡수관 터치 CS가 US보다 1/2초 이전에 제시될 때만 조건화가
29
+ 발생한다.'
30
+ - 재즈 보컬리스트 다이애나 크롤(Diana Krall)이 가을에 어울리는 새 앨범으로 돌아왔다. 다이애나 크롤은 지난달 25일 음원으로 선공개한
31
+ 새 앨범 'This Dream Of You'를 오늘(15일) 오프라인 발매한다. 재즈 레이블 버브(Verve)를 통해 선보이는 이번 앨범은
32
+ 재즈의 가장 낭만적인 면모를 담은 앨범 ‘Turn Up The Quiet (2017)’과 같은 시기에 녹음된 곡들을 모아 담았다. ‘Turn
33
+ Up The Quiet’가 달콤한 봄이었다면 신보 ‘This Dream Of You’는 덤덤하고 건조한 가을밤으로 표현된다. 다이애나 크롤의
34
+ 매력적인 피아노 연주에 존 클레이튼 주니어의 베이스, 제프 해밀튼의 드럼, 앤서니 윌슨의 기타가 함께 한 쿼텟, 그리고 오케스트라 협연이 다시
35
+ 한 번 우리의 귀를 사로잡는다. 앨범명이자 타이틀 곡인 'This Dream Of You'는 밥 딜런이 2009년에 발표한 앨범 ‘Together
36
+ Through Life’에 담긴 곡을 노래한 것이다. 좋은 곡이지만 널리 알려지지 않았던 곡을 느린 템포를 사용해 상실감을 강조하며 가을의
37
+ 쓸쓸함을 느끼게 한다. 다이애나 크롤의 오랜 친구이자 프로듀서인 토미 리푸마의 유작이기도 한 이번 앨범은 그가 사랑했던 곡 ‘But Beautiful’로
38
+ 시작한다. 이어 가을 풍경으로 초대하는 ‘Autumn In New York’, 다이애나의 독창성이 돋보이는 ‘I Wished On The Moon’이
39
+ 이어지며 ‘Singing In The Rain’으로 끝맺음 한다. 다이애나 크롤은 “이번 앨범이 소중한 사람과 함께 나누고 싶은 한 편의 영화
40
+ 같길 바란다”고 밝혔다.
41
+ - GE는 오는 2018 평창동계올림픽대회가 열리는 모든 올림픽대회 경기장에 최첨단 종합 배전(配電) 시스템을 공급한다고 밝혔다. 이번 올림픽대회에
42
+ 활용될 GE의 선도 기술은 전기 공급 과정에서 계측, 감시, 제어, 보호, 절체 등 종합적 기능을 수행한다. 특히 올림픽대회 경기장과 국제방송센터(IBC)를
43
+ 비롯한 올림픽 시설에 어떤 경우에도 중단되지 않고 연속으로 전기를 공급하는 무정전 전원공급장치(UPS)를 설치하여, 안정적인 전력을 공급한다.
44
+ 이를 통해 올림픽대회 기간 동안 발생��� 수 있는 전력 관련 사고를 예방하고 보다 빠르고 민첩하게 대응하여, 원활한 경기 진행을 위한 필수 인프라로서
45
+ 역할을 담당할 예정이다. GE는 UPS 시스템의 상태를 면밀히 확인하고 긴급상황 시 신속한 조치를 하기 위해 전문가 26명으로 구성된 팀을
46
+ 배치할 예정이다. 네트워크로 연결된 UPS 시스템은 정비가 필요한 시스템 성능, 전력 품질의 변동, 전력공급 중단 등 관련 상황을 실시간으로
47
+ 감시하고 공유하게 된다. GE 전문가들은 현장에서 이러한 데이터를 지속적으로 분석하여 UPS가 원활한 올림픽 운영에 필수적인 고품질 전력의
48
+ 안정적 공급과 예방대책을 제공할 수 있도록 할 방침이다. 이와 더불어 17일간의 대회기간 동안 24시간 가동될 국제방송센터(IBC)에는 고압배전반,
49
+ 변압기, 무정전 절체장치(ATS)등을 포괄하는 GE의 종합 배전 시스템이 구축된다. 평창 마운틴 클러스터(Mountain Cluster) 중심지에
50
+ 위치한 IBC는 6천여 명의 국내외 방송 관계자들의 작업장이자 75억 세계인에게 생생한 올림픽 경기를 생중계하는 중대한 역할을 맡는다. GE의
51
+ 고압배전반은 전력제어 및 복합적 보호 기능과 온도, 습도를 알려주는 디지털 기능을 탑재해 온도 및 주변환경이 장비에 끼칠 수 있는 영향을 최소화함으로써
52
+ 동계 올림픽 시즌에서 발생할 수 있는 기기 오작동 확률을 낮추게 된다. 전력 공급이 끊기지 않도록 관련 선로의 고압배전반을 원방 통신으로 감시,
53
+ 제어, 절체하는 무정전 절체장치(ATS)는 디지털 방식의 PLC(Programmable Logic Controller) 기술에 기반하여 최초
54
+ 프로그래밍 된 이후 완전히 자동으로 동작하도록 설계됐다.
55
+ - source_sentence: 아반티파타의 지방 회계를 맡은 직책은?
56
+ sentences:
57
+ - “당신이 정말 부지런하고 똑똑하다면, 그리고 꿈이 있다면 10대 대기업에는 가지 마라.”대기업 입사를 위해 학점을 높이고 영어 점수를 만들고
58
+ 공모전에 여념이 없는 ‘취준생’에게 이 말은 다소 황당하게 들릴지도 모르겠다. 하지만 연 매출 1조원이 넘는 세원그룹의 김문기 회장은 “(대기업에선)
59
+ 임원이 부하 직원의 이름도 모르는데 어떻게 제대로 평가하고 보상할 수 있겠는가”라며 “(중소기업) 조직에서 일에 집중하며 회사를 성장시키면
60
+ 회사와 함께 나도 성장한다”고 강조한다. 이것이 또 다른 의미의 ‘창업’이란 설명이다.《제로플러스》는 현대자동차 품질평가팀에서 9년째 부품
61
+ 협력사를 진단·평가하는 업무를 맡고 있는 저자가 들려주는 중견·중소기업인 이야기다. 1000명 이상의 중소기업 창업주와 전문경영인을 만난 저자는
62
+ 끈기와 치열함, 신뢰와 오너십, 상생과 나눔 등 자신만의 경쟁력으로 기업을 성장시킨 기업인들의 경영 노하우와 인생관을 책에 담아냈다.책에는
63
+ 총 9명의 기업인이 등장한다. 김문기 회장은 “화장실이 깨끗해야 회사가 바로 선다”는 ‘화장실 경영학’과 자발적 리더십으로 기업을 일궜다.
64
+ 서중호 아진산업 사장은 모든 직원에게 스포츠카를 사줄 수 있는 회사를 만들겠다는 목표로 나눔 경영을 실천해왔고, 강성진 월드솔루션 사장은 고아·전과자·고교
65
+ 중퇴라는 스펙을 갖고도 오기와 성실을 무기로 경영신화를 썼다. 양진석 호원 사장은 야전 침대에서 신발을 신은 채 잠자며 일등 부품사를 키워냈고,
66
+ 고(故) 김인찬 신기인터모빌 회장은 움직이는 자가 반드시 이긴다는 정신으로 최고의 자동차 내장재 전문기업을 일궜다. 직접 발로 뛰며 현장에서
67
+ 문제를 찾아 해결하는 최광오 대풍공업 사장, 과감한 연구개발 투자와 현장 작업환경 개선을 단행한 정순백 위너콤주식회사 사장, 대기업에서 뛰쳐나와
68
+ 부지런함을 무기로 건실한 기업을 일군 행복경영 추구자 김은호 동진이공 회장, 자신이 할 수 있는 일을 열심히 하다보면 반드시 기회가 찾아온다는
69
+ 진성현 명진테크 사장의 이야기도 감동적이다. 저자는 기업을 세우고 성공적으로 경영한 이들로부터 공통된 특징을 찾을 수 있다고 말한다. 긍정적인
70
+ 마음가짐을 갖고 있으며 스펙보다 경험을 중시한다. 일에 대한 집중과 몰입도가 높고 성공을 이룬 뒤에도 초심을 잃지 않는다. 자신만의 이익을
71
+ 추구하지 않고 직원에게 돌려주고 나아가 국가 발전을 위해 일한다는 마음으로 노력한다.이들의 또 한 가지 공통점은 중소기업 예찬론. 대기업보다
72
+ 중소기업에서 일할 때 더 성장�� 수 있다는 것이다. 서중호 사장은 “사장이 끌고 직원들이 졸졸 따라가면 딱 사장 수준만큼만 결과가 나온다”며
73
+ “직원들이 모두 ‘오너’와 같은 마음을 가질 때 회사는 사장의 수준을 뛰어 넘는 성과를 낼 수 있다”고 강조한다.
74
+ - '커다란 하나의 광배(光背)를 배경으로 중앙에 본존불과 양 옆에 협시보살을 배치하고 있는 삼존불(三尊佛)이다.
75
+
76
+
77
+ 중앙의 본존불은 상투 모양의 머리(육계)가 불상 전체 크기에 비해 크고 높게 표현되었다. 미소를 띤 갸름한 얼굴은 앞으로 약간 숙이고 있으며,
78
+ 어깨와 가슴은 약간 좁은 듯 하지만 둥글고 강인하게 처리되었다. 양 어깨를 감싸고 있는 옷에는 정면으로 V자형 옷주름이 있으며, 좌우로는 새의
79
+ 깃같은 옷자락이 뻗치고 있다. 오른손은 손바닥을 정면으로 하고 손끝이 위로 향하고 있으며, 왼손은 손바닥을 정면으로 하고 손끝은 아래를 향하고
80
+ 있는데 손가락 2개를 구부리고 있는 모습이 특징이다.
81
+
82
+
83
+ 양 옆에 배치한 협시보살은 광배의 끝에 매달리듯 표현하였으며, 세가닥으로 올라간 보관(寶冠)을 쓰고 있다. 신체 표현은 본존불과 비슷하지만,
84
+ 앞면에서 X자로 교차하고 있는 옷주름과 손모양이 다르다. 불꽃이 타오르는 모양을 가는 선으로 장식한 광배(光背)는 끝이 뾰족한 배(舟) 모양으로,
85
+ 본존 주위에는 머리광배와 몸광배를 도드라지게 새기고 그 안에 연꽃무늬, 덩쿨무늬, 인동초무늬를 새겼다. 불상이 서 있는 대좌(臺座)는 바닥이
86
+ 밖으로 퍼진 원통형이며 연꽃이 새겨져 있다.
87
+
88
+
89
+ 금동신묘명삼존불(국보 제85호)의 양식과 비슷한 점이 많으며, 중국 남북조시대의 불상 양식을 따르고 있는 이 불상은 광배 뒷면에 새겨진 글에
90
+ 의해 백제 위덕왕 10년(563)에 만든 것으로 추정된다.'
91
+ - '마우리아 제국은 자국의 행정 구역을 수도인 파탈리푸트라가 위치한 마가다 지역과 그 외 4가지 "파타"(속주)로 나누었는데, 이 속주들은 다음과
92
+ 같다.
93
+
94
+ * 프라키야파타 - 토살리를 주도로 하는 속주로 제국의 동부에 위치하였다.
95
+
96
+ * 아반티파타 - 우자인을 주도로 하는 속주로 제국의 서부에 위치하였다.
97
+
98
+ * 닥쉬나파타 - 수바르나기리를 주도로 하는 속주로 제국의 남부에 위치하였다.
99
+
100
+ * 웃타라파타 - 탁실라를 주도로 하는 속주로 제국의 동부에 위치하였다.
101
+
102
+ 각 "속주"들은 황자 출신으로 파견된 부황(副皇)이나 중앙 정부에서 파견된 총독이 통치하였는데, 전자의 경우로 파견된 부왕은 "쿠마라"로 불렸으며
103
+ 후자의 경우로 파견된 총독은 "아리야푸트라"로 불렸다. 특히 마우리아 제국에서는 성인이 된 황자를 각 속주로 파견하여 정치 경험을 쌓게 하는
104
+ 전통이 있었는데, 마우리아 제국은 처음으로 인도 아대륙을 통일했지만, 각 지역 세력을 강력하게 통제할 힘이 부족했기 때문에 각 속주로 황자를
105
+ 파견하여 황제를 보조하는 부황(副皇)으로서 마우리아 제국의 통치권 강화에 힘쓰도록 했다.
106
+
107
+
108
+ 각 속주는 "아하라"(군현)들로 나뉘었으며 지방관직의 "프라데시카"와 토지 측정관직의 "라주카", 비서 및 지방 회계를 담당하는 관직인 "유크타"
109
+ 3명이 "아하라" 지역을 담당하였는데, 이들 중 지방관인 "프라데시카"는 5년마다 중앙 정부가 있는 수도 파탈리푸트라에 방문해 근황을 보고해야만
110
+ 하였으며, 이 제도는 아소카 시대부터 확립되었다.
111
+
112
+
113
+ "아하라"는 다시 "그라마"(마을)들로 나뉘었으며 마을의 회의 기구인 판차야트에서 선출된 그라미카(촌장)이 마을을 다스렸다.'
114
+ - source_sentence: 삼성이 창립된 해는?
115
+ sentences:
116
+ - 삼성그룹이 올해 11·12월호를 끝으로 5년 만에 폐간하는 사보 ‘삼성앤유’ 마지막 호에서 이건희 삼성그룹 회장(사진)을 다뤄 관심을 끌고
117
+ 있다.23일 삼성그룹에 따르면 삼성앤유 마지막호는 ‘글로벌 시대를 연 기업가 정신’ 코너에서 이 회장을 주인공으로 다뤘다. 이 코너는 1987년
118
+ 이병철 창업주로부터 경영권을 물려받은 이 회장이 삼성을 글로벌 기업으로 키워나간 이야기를 소개하고 있다. 사보에 따르면 당시 이 회장에게
119
+ 세계 최고를 넘어서야 한다는 목표는 생존의 문제였다. 글로벌 경쟁이 치열해지는 상황에서 한국 1위라는 것은 국내 시장에서조차 무의미했다. 이
120
+ 회장은 구성원들의 태도와 인식, 철학의 변화를 주문했다. “마누라와 자식 빼고 다 바꾸라”는 1993년 프랑크푸르�� 선언이 나온 배경이다.이
121
+ 회장의 변화 촉구는 오전 7시 출근해 오후 4시 퇴근하는 ‘7·4제’에 이어 불량 휴대폰 15만대를 불태우는 화형식으로 이어졌다. 당장 눈앞의
122
+ 희생을 치르더라도 ‘양(量)에서 질(質)’로 경영 체질을 바꿔야 한다는 이 회장의 절박감이 반영된 결과다. 이후 삼성은 소니와 노키아를 넘어
123
+ 애플과 세계 최고 기업 반열에 올랐다는 게 이 기사의 주요 내용이다.삼성그룹 관계자는 “지금 삼성은 글로벌 기업으로 도약했지만, 주력 사업인
124
+ 스마트폰은 애플과 중국 저가폰 업체들의 협공으로 어려움을 겪고 있다”며 “이 회장의 기업가 정신은 현시점에서도 시사하는 바가 크다”고 말했다.
125
+ 다시 한 번 혁신이 필요하다는 지적이다.
126
+ - 지난해 11월22일 안철수 의원(무소속)이 대주주로 있는 안랩의 주가는 장중 7만6500원까지 치솟았다. 전날 종가 7만700원과 비교하면
127
+ 8.2%, 1주일 전인 15일 종가 5만9500원과 견주면 28.57% 올랐다. 하지만 이 같은 주가는 장중 한때였다. 이날 종가는 전 거래일
128
+ 종가에도 못 미치는 7만400원에 불과했다.6·4 지방선거를 앞두고 이른바 ‘안철수 테마주’의 급등락이 잦아지고 있다. 안 의원이 새로운 정치
129
+ 행보를 할 때마다 테마주들의 주가가 널을 뛰는 패턴을 되풀이하는 모습이다. ○안 의원 행보 따라 ‘들었다 놨다’6일 상황도 지난해 11월22일과
130
+ 똑같았다. 지난 주말 안 의원이 주축이 된 신당 창당 준비조직인 새정치추진위원회가 윤여준 전 환경부 장관을 영입했다는 소식이 주가에 반영되면서
131
+ 관련주들이 일제히 요동쳤다.장 초반에는 안 의원 관련주들의 위세가 등등했다. 거물급 인사의 추가 영입 가능성이 높다는 소문이 주가 상승의 불쏘시개
132
+ 역할을 했다. 그런데 호재의 유효기간은 반나절이 채 못 됐다. 안랩은 장 초반 6만4800원까지 오르며 강세를 보였으나 오후 들어 추가 상승
133
+ 동력을 상실, 전 거래일보다 0.24% 하락한 6만2400원까지 밀렸다.대표이사가 안랩 대표와 대학·대학원 동기로 알려진 다믈멀티미디어의 주가
134
+ 움직임도 안랩과 비슷했다. 이 종목은 이날 장 초반 전 거래일보다 5% 이상 오른 5740원까지 치솟았다가 장 막판 하락세로 반전, 전 거래일보다
135
+ 0.73% 떨어진 가격으로 거래를 끝냈다. 오픈베이스(0.59%), 써니전자(0.88%), 미래산업(0.35%), 솔고바이오(1.24%) 등
136
+ 안철수 테마주로 분류되는 다른 종목도 장 초반 급등했다 상승폭의 대부분을 반납한 채 장을 마감했다. 장 막판까지 상승 동력을 유지한 종목은
137
+ 안철수 테마주이면서 동시에 비트코인 테마주로 분류되는 매커스(10.43%) 정도였다. ○정치 테마주 열풍의 원인은증권 전문가들은 지지부진한
138
+ 증시 상황으로 투자처가 궁해진 개인투자자들이 테마주로 관심을 돌리고 있다고 분석했다. 변준호 유진투자증권 리서치센터장은 “원화 가치 급등과
139
+ 실적 부진 우려 등으로 대형주에 대한 신뢰에 금이 갔다”며 “개별 업종의 모멘텀과 종목별 테마 등이 주가에 큰 영향을 미치는 장세가 한동안
140
+ 이어질 것”이라고 말했다.문제는 ‘테마주 투자’의 손실 가능성이 높다는 점이다. 실적과 무관한 이슈에 따라 주가가 움직이는 데다 하루 새 주가
141
+ 급등락이 반복되는 만큼 개인투자자들이 성과를 내기 어렵다는 분석이다. 김우진 서울대 교수가 지난해 11월 말 발표한 ‘테마주의 매매행태를 중심으로
142
+ 한 비이성적 주식 매매행태 분석 및 시사점’ 보고서에 따르면 2011년 9월부터 2012년 12월까지 134개 테마주에 투자한 개인투자자들은
143
+ 계좌당 평균 20만원의 손실을 봤다.
144
+ - 지난 해 한국관광공사는 한국인의 주요 여행 트렌드 중 하나로 ‘트래블그램’(여행과 인스타그램의 합성어)을 제시했다. 이는 관광객들이 여행을
145
+ 즐기는데 만족하지 않고, 여행지의 감동이나 재미를 SNS에 인증하며 여행의 순간을 공유하는 현상을 반영한 것. 특히, 자유여행을 선호하는 밀레니엄
146
+ 세대는 SNS에 올라온 사진과 정보를 보고 나만의 여행을 계획하기도 해 이와 같은 여행 트렌드는 앞으로도 지속될 전망이다. 이처럼 여행지에서
147
+ 나만의 인생샷을 찍는 것은 여행의 또 다른 묘미로 자리잡고 있다. 필리핀관광부 한국사무소(지사장 마리아 아포)는 이러한 국내 여행 트렌드에
148
+ 발맞춰 찍기만 하면 ‘좋아요’를 부르는 필리핀 인생샷 명소를 소개한다. 세상의 끝에 서있��� 내 모습을 담아 내고 싶다면, 버진 아일랜드 보홀
149
+ 여행을 계획하고 있다면 ‘버진 아일랜드’에 들려 인생샷을 남겨보자. 보홀 팡라오 섬에서 약 30분 거리에 위치해있는 아름다운 섬, 버진 아일랜드는
150
+ 포카리스웨트의 광고 촬영지로 유명하다. 새하얀 모래톱과 에메랄드 빛 바다, 맹그로브 나무가 어우러져 신비로운 분위기를 자아내는 버진 아일랜드는
151
+ 섬보다는 모래톱에 가깝다. 진정한 버진 아일랜드의 모습은 바닷길이 열렸을 때 볼 수 있다. 썰물 시간에 잘 맞춰 방문하면 하루 1시간 ‘모세의
152
+ 기적’처럼 바다 위로 버진 아일랜드의 모습이 드러난다. 산호가 부서져 만들어진 새하얀 모래톱을 따라 걷다 보면 어디에서 사진을 찍어도 바다
153
+ 한가운데 서있는 것 같은 인생샷을 건질 수 있다. 그 중 진정한 인생샷 스팟은 모래톱 가운데에 있는 나무 옆이다. 이 곳에 서서 사진을 찍으면
154
+ 세상의 끝에 서있는 듯한 모습을 담아낼 수 있다. 다이나믹한 트래킹과 인생샷을 한번에, 마숭이 지오리저브(Masungi Georeserve)
155
+ 필리핀에는 에메랄드 빛 바다 이외에도 다양한 액티비티를 즐길 수 있는 곳이 많다. 마숭이 지오리저브는 필리핀에서만 즐길 수 있는 다이나믹한
156
+ 트래킹과 더불어 인생샷을 찍을 수 있는 지질 관광 명소다. 필리핀 리잘 바라스 남부 지역의 시에라마드레 산맥에 위치한 마숭이 지오리저브는 과거
157
+ 과도한 벌목과 채석장 운영으로 인해 파괴되었던 자연환경을 복원하여 만들었다. 이 곳에는 디스커버리 트레일(Discovery Trail)과 레가시
158
+ 트레일(Legacy Trail) 두 가지 트레킹 코스가 있다. 그 중 디스커버리 트레일 코스를 선택하면 행잉 브릿지와 카르스트 지형의 독특한
159
+ 동굴을 볼 수 있어 필리핀의 대자연과 함께 인생샷을 남길 수 있다. 이 코스의 하이라이트는 필리핀에서 가장 큰 호수인 ‘라구나 데 베이’을
160
+ 한 눈에 내려다볼 수 있는 거미줄 모양의 구조물. 무서움을 극복하고 한 발짝 내디디면 아찔한 높이에서도 거미줄에 편안하게 누워 있는 내 모습을
161
+ 사진에 담을 수 있다. 달달한 디저트와 함께 인생 화보를, 마닐라 디저트 뮤지엄 마닐라에 가면 한 달 치 SNS 프로필 사진을 찍을 수 있는
162
+ 핫플레이스가 있다. 마닐라 콘래드 호텔 메종 몰에 위치한 ‘디저트 뮤지엄’은 도넛, 마시멜로, 아이스크림 등 8개의 디저트를 주제로 꾸며진
163
+ 8개의 테마룸으로 구성되어 있다. 관광객들은 각 테마룸에서 마치 전문 사진 작가가 스튜디오에서 찍은 것 같은 인생 화보를 건질 수 있다. 인생
164
+ 사진을 찍기 위해 방문하는 관광객들이 많은 만큼 각 테마룸에는 사진을 찍어주는 직원들이 상시 대기하고 있어 가족, 친구, 연인과 단체 사진을
165
+ 남기기에도 좋다. 디저트 뮤지엄만의 또 다른 즐거움은 바로 각 테마룸에서 디저트를 먹을 수 있다는 것! 달달한 디저트도 먹고 다양한 컨셉 사진도
166
+ 찍으며 마닐라 여행의 특별한 즐거움을 느껴보자.
167
+ - source_sentence: 작년 오피스텔 용도를 업무용 외로 임대하여 국세청이 추가징수한 금액은?
168
+ sentences:
169
+ - 2050년엔 세계 인구가 97억명에 이르고 21세기 말에는 100억명을 돌파할 것이라는 전망이 나왔다. 유엔은 29일(현지시간) ‘2015
170
+ 세계 인구 보고서’를 통해 세계 인구가 2030년 85억명을 넘어서고, 2050년에 97억명에 도달한 뒤 2100년 112억명에 이를 것으로
171
+ 내다봤다. 현재 세계 인구는 73억명이다.2050년까지 미국과 인도, 나이지리아, 파키스탄, 콩고, 에티오피아, 탄자니아, 인도네시아, 우간다
172
+ 9개국이 늘어나는 인구의 절반을 차지할 것으로 예상했다. 2050년에 3억명 이상의 인구를 보유하는 나라는 중국, 인도, 인도네시아, 나이지리아,
173
+ 파키스탄, 미국 등 6개국으로 전망했다.또 2022년에는 인도 인구가 중국 인구를 추월할 것으로 예측했다. 현재 중국과 인도 인구는 각각 13억명과
174
+ 12억명으로 추정된다. 인도 인구는 2030년 15억명에 이르고 이후 몇 십년간 증가세를 이어갈 것으로 보이지만 중국 인구는 2030년부터
175
+ 조금씩 줄어들 것으로 예측됐다. 보고서는 “2050년 전후로 나이지리아가 미국을 제치고 인도와 중국에 이어 세계 3위 인구대국이 될 것”이라고
176
+ 내다봤다.유럽 인구는 현재 7억3800만명에서 2100년 6억4600만명으로 줄어들 것으로 전망했다. 세계 인구 중 아프리카의 비중은 2050년
177
+ 25%, 2100년에는 39%로 늘어나지만 아시아는 2050��� 54%, 2100년 44%로 감소할 것으로 예상했다. 또 연령대별로는 60세
178
+ 이상 인구가 2050년 현재의 두 배, 2100년에는 세 배 넘게 증가하고, 유럽에서는 2050년 60세 이상 인구가 전체 인구의 34%를
179
+ 차지할 것으로 내다봤다.세계 평균 수명은 2010~2015년 70.5세에서 2095~2100년 83.2세로 늘어날 것으로 예측했다.
180
+ - 미래창조과학부는 휘어지는 단계를 넘어 신축성 있게 늘어날 수 있는 투명전극을 국내 연구진이 개발했다고 16일 발표했다. 성균관대 화학과 이효영
181
+ 교수(사진)와 김운천 박사, 이한림 박사과정 연구원이 참여한 연구팀은 은 나노와이어를 이용해 신축성 있는 투명전극을 개발하는 데 성공했다.
182
+ 은 나노와이어는 은으로 된, 단면 지름이 나노미터(㎚) 단위인 극미세선이다. 유연하고 전도성이 뛰어나 휘는 전극물질로 주목받고 있다. 하지만
183
+ 플라스틱과 같은 고분자 물질로 구성된 폴리머 기판과의 결합력이 약하는 단점이 있다. 연구팀은 실리콘이나 금속 기판보다 탄성이 뛰어난 폴리머
184
+ 기판을 은 나노와이어와 강하게 결합시켜 신축성 있는 투명전극 소자를 만들어 냈다. 연구팀이 개발한 기판은 1000회 접었다 펴고 잡아당기는
185
+ 실험을 거쳐도 기판과 전도 물질이 서로 떨어지지 않는 강한 신축성을 보였다. 강한 결합의 비결은 아민기(-NH₂)를 갖는 얇은 실란(수소화규소)
186
+ 분자층이다. 늘어나는 투명전극 소자는 폴리머 기판 위에 아민 실란 분자층을 화학적으로 코팅해 개발했다. 실란은 폴리머 기판에 화학적으로 결합하고,
187
+ 아민기는 은 나노와이어와 강한 결합을 형성, 결과적으로 폴리머 기판과 은 나노와이어 사이의 강한 결합을 만들어낸다. 연구팀은 “연구 결과를
188
+ 볼 때 5년 안에 실용화할 수 있을 것으로 본다”고 전망했다.
189
+ - 오피스텔 투자자들이 정부의 ‘임대차시장 선진화 방안’에 따른 임대소득 과세 확대 방침에 전전긍긍하고 있다. 올해부터 월세 세액공제 제도가 도입되면서
190
+ 세입자들이 오피스텔 전입신고에 나서고 있어서다. 이렇게 되면 오피스텔은 주거용으로 분류돼 오피스텔 소유자들은 다주택자로 분류된다. 그동안 오피스텔
191
+ 투자자 상당수는 세금을 줄이기 위해 오피스텔을 업무용으로 등록하거나 신고하지 않았다. 작년 국세청이 오피스텔을 사업용이 아닌 주거용으로 임대한
192
+ 사실을 적발해 추징한 부가세만 108억원에 달한다. ◆세금 늘어나는 집주인현장에서는 전입신고를 두고 세입자와 집주인 간 다툼이 벌어지고 있다.
193
+ 서울 노고산동의 르메이에르타운 오피스텔에 사는 직장인 이현수 씨(27)는 지난달 월세 소득공제를 받기 위해 중개업소를 통해 집주인에게 전입신고를
194
+ 해도 되는지를 물어봤지만 “차라리 다른 데로 이사 가라”는 대답을 들었다. 중개업소에서도 “전입신고를 하면 집주인은 안 내도 될 세금을 수백만원까지
195
+ 내야 하는데 재계약하겠느냐”며 이씨를 말렸다.업무용으로 신고하거나 신고를 하지 않고 오피스텔을 2~3실 이상 보유한 투자자들은 세입자의 전입신고로
196
+ 사실이 드러나면 3주택자로 간주된다. 3주택자는 월세 소득이 2000만원을 넘는지 여부와 상관없이 소득세 종합과세 대상이 되며 은퇴자일 경우
197
+ 건강보험 피부양자 지위도 박탈돼 매월 수십만원의 건강보험료를 내야 한다. 또 종합부동산세와 재산세도 크게 늘어나고 환급받은 부가가치세도 반환해야
198
+ 한다.◆임대사업자 등록이 유리전문가들은 여러 실의 오피스텔을 보유한 경우 임대사업자 등록을 하면 세금을 줄일 수 있다고 조언한다. 전국의 월세
199
+ 가구는 348만9792가구(통계청 인구주택총조사)에 달하지만 작년 월세 소득공제를 이용한 가구는 5%에도 못 미치는 9만3470명에 불과했다.앞으로
200
+ 국세청의 세금 추징이 더 늘어날 가능성이 높다는 전망은 그래서 나온다. 임대사업자로 등록하면 소득세는 내지만 임대용 주택이 주택 수 계산에서
201
+ 빠지고 재산세는 면적별로 감면된다. 종합부동산세(전용 149㎡ 이하·6억원 이하)는 전액 면제된다. 추가로 임대소득에 대한 소득세도 일부 감면된다.
202
+ 다만 사업자 등록을 하면서 건강보험료, 국민연금 등이 늘어나게 된다면 비용을 종합적으로 따져 월세를 전세로 전환하는 것도 세금을 줄이는 방법이다.
203
+ 전세는 전용면적 85㎡ 초과, 기준시가 3억원을 초과하는 3주택 이상을 보유하고 보증금 합계가 3억원을 초과할 ��우 과세 대상이다. 임성환
204
+ 알리안츠생명 WM센터차장은 “임대소득을 정확하게 신고하지 않은 임대인들이 앞으로 세무당국에 드러날 확률이 높아지고 있다”며 “차라리 세금 납부를
205
+ 전제로 자산을 재편성하는 편이 낫다”고 조언했다.
206
+ - source_sentence: 한국에서 에볼라 바이러스 검사를 하기 위해서 필요한 실험실은?
207
+ sentences:
208
+ - 중동호흡기증후군(MERS·메르스)에 대한 정부의 부실한 대응은 구멍 뚫린 방역안보의 현실을 그대로 보여줬다는 지적이다. 지금과 같은 대응 역량으로는
209
+ 생물테러는커녕 에볼라와 같은 고위험 바이러스도 감당할 수 없다는 게 전문가들의 평가다. ▶관련기사 A4,5,26면국내 감염병 환자는 지난해
210
+ 9만2730명으로 2009년(3만9224명)과 비교해 5년간 2.4배 늘었다. 하지만 감염병에 대응하는 보건복지부 산하 질병관리본부의 인원과
211
+ 예산은 ‘제자리걸음’이다. 익명을 요구한 국방전문가는 “한국은 감염병 전문인력은 둘째치고 에볼라 수준의 바이러스를 안전하게 검사할 실험실조차
212
+ 없다”고 밝혔다.치사율이 50~90%에 달하는 에볼라 바이러스는 생물안전 4등급(BL4) 실험실에서 다뤄야 한다. 그러나 국내엔 메르스 정도의
213
+ 바이러스를 다룰 수 있는 3등급(BL3) 실험실만 20여곳 있다. 한국에 에볼라가 발병하면 안전한 검사 자체가 불가능하다는 얘기다. 한 감염내과
214
+ 전문의는 “국가 격리 음압병상이 158개에 불과한 점도 에볼라 같은 고위험 바이러스가 확산됐을 때 치명적 약점”이라고 말했다.조성권 한성대
215
+ 행정대학원 교수는 “미국은 2001년 탄저균 테러사건 이후 감염병을 국가안보 차원에서 대처하고 있다”며 “우리도 메르스 사태를 계기로 안보
216
+ 차원에서 감염전문가 양성과 공중보건실험실, 음압병실 확대 등에 적극 투자해야 한다”고 강조했다.
217
+ - 중국의 ‘부동산 공룡’으로 꼽히는 완다그룹이 이랜드그룹의 레저사업에 투자하기로 했다. 완다그룹은 특히 투자금액을 “이랜드가 결정하는 대로 주겠다”고
218
+ 약속했다고 이랜드 측은 전했다.이랜드그룹은 박성경 부회장과 왕젠린 완다그룹 회장이 지난 5일 중국 베이징에서 레저사업에 대한 투자합의서를 체결했다고
219
+ 10일 발표했다. 이랜드가 국내 각지에서 추진 중인 리조트, 호텔, 테마도시 등 레저사업에 완다그룹이 투자한다는 내용이다. 투자 규모는 아직
220
+ 정해지지 않았다. 이랜드는 “구체적인 사업계획과 투자액을 우리가 정해 완다그룹에 제안하면 완다그룹은 이를 받아들이기로 했다”고 밝혔다.완다그룹을
221
+ 이끄는 왕 회장은 개인 재산이 1350억위안(약 22조원)으로, 지난해 중국 후룬연구소가 발표한 중국 내 부호 1위에 올랐다. 그는 중국에서
222
+ 백화점, 쇼핑몰, 부동산개발 등으로 사세를 키웠고 2012년 미국 영화관 체인 AMC엔터테인먼트와 지난해 영국 요트 제작업체 선시커를 인수하는
223
+ 등 해외로 보폭을 넓히고 있다.완다그룹은 이랜드와 비슷하게 레저사업에도 강한 의욕을 보여왔다. 2017년까지 하얼빈, 우시 등 중국 주요 도시에
224
+ ‘테마도시’ 7개를 건설한다는 계획을 갖고 있다. 이랜드는 완다그룹과 10여년 전부터 끈끈한 파트너십을 유지해온 점이 이번 투자 유치로 이어졌다고
225
+ 설명했다. 이랜드 관계자는 “오래전부터 완다그룹이 보유한 쇼핑몰에 패션매장이 대거 입점하는 등 우호적인 관계를 유지하고 있다”며 “왕 회장이
226
+ 개인적으로 만나는 한국 기업인은 박 부회장뿐”이라고 말했다.
227
+ - '전용선 발착의 컨테이너 화물, 전용선 발착의 차급 화물을 취급하고 있다. 화물 열차는 하루 1회 왕복, 이나자와 역과의 전용화물열차가 운행되고
228
+ 있다. 그 열차로 연결되었던 컨테이너 차나 유개차는 이나자와 역부터 먼저, 다른 열차로 주계되어서 일본 전국으로 수송되고 있다.
229
+
230
+
231
+ 남문쪽의 측선의 나고야 방향부터, 역 남쪽에 있는 오지 제지 가스가이 공장으로 이어지는 전용선이 분기하고 있다. 전용선은 유개차나 컨테이너
232
+ 차를 사용하는 종이 제품의 발송으로 사용하고 있다. 유개차의 발송처는 니자 화물 터미널 역의 IPC 니자. 전용선은 일요일 이외 매일 화차의
233
+ 출입이 있어, 화차의 견인은 네피아의 로고를 붙였던 스위처가 행해지고 있다. 더욱이, 이 오지 제지 전용선은, 구 일본 육군 조병 공창 도리이마쓰
234
+ 공장으로의 전용선을 운용했던 것이라고 되어 있다.
235
+
236
+
237
+ 오지 제지 전용선부터 분기하는 아이치 전기 전용선도 있다. 대형 변압기 수송에 사용되고 있지만, 공장으로 직접 연결되지는 않고, 가스가이 시내에
238
+ 있는 이 회사 공장부터 변압기를 반환하는 대형 차로 쌓이고 있다. 특수 수송때문에 빈번히 사용되는 일은 없다.
239
+
240
+
241
+ 1945년경까지, 가스가이 시 니시야마 정 부근에 있던 나고야 육군 조병창 다카키 제조소 니시야마 분창(부지는 육상 자위대 가스가이 주둔지)으로
242
+ 이어지는 전용선도 존재했다. 선로 터의 대부분이 도로로 전용되어, 일부에 철교가 남아져 있다.'
243
+ pipeline_tag: sentence-similarity
244
+ library_name: sentence-transformers
245
+ ---
246
+
247
+ # SentenceTransformer based on intfloat/multilingual-e5-large-instruct
248
+
249
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [intfloat/multilingual-e5-large-instruct](https://huggingface.co/intfloat/multilingual-e5-large-instruct). It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
250
+
251
+ ## Model Details
252
+
253
+ ### Model Description
254
+ - **Model Type:** Sentence Transformer
255
+ - **Base model:** [intfloat/multilingual-e5-large-instruct](https://huggingface.co/intfloat/multilingual-e5-large-instruct) <!-- at revision c9e87c786ffac96aeaeb42863276930883923ecb -->
256
+ - **Maximum Sequence Length:** 512 tokens
257
+ - **Output Dimensionality:** 1024 tokens
258
+ - **Similarity Function:** Cosine Similarity
259
+ <!-- - **Training Dataset:** Unknown -->
260
+ <!-- - **Language:** Unknown -->
261
+ <!-- - **License:** Unknown -->
262
+
263
+ ### Model Sources
264
+
265
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
266
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
267
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
268
+
269
+ ### Full Model Architecture
270
+
271
+ ```
272
+ SentenceTransformer(
273
+ (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
274
+ (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
275
+ (2): Normalize()
276
+ )
277
+ ```
278
+
279
+ ## Usage
280
+
281
+ ### Direct Usage (Sentence Transformers)
282
+
283
+ First install the Sentence Transformers library:
284
+
285
+ ```bash
286
+ pip install -U sentence-transformers
287
+ ```
288
+
289
+ Then you can load this model and run inference.
290
+ ```python
291
+ from sentence_transformers import SentenceTransformer
292
+
293
+ # Download from the 🤗 Hub
294
+ model = SentenceTransformer("sentence_transformers_model_id")
295
+ # Run inference
296
+ sentences = [
297
+ '한국에서 에볼라 바이러스 검사를 하기 위해서 필요한 실험실은?',
298
+ '중동호흡기증후군(MERS·메르스)에 대한 정부의 부실한 대응은 구멍 뚫린 방역안보의 현실을 그대로 보여줬다는 지적이다. 지금과 같은 대응 역량으로는 생물테러는커녕 에볼라와 같은 고위험 바이러스도 감당할 수 없다는 게 전문가들의 평가다. ▶관련기사 A4,5,26면국내 감염병 환자는 지난해 9만2730명으로 2009년(3만9224명)과 비교해 5년간 2.4배 늘었다. 하지만 감염병에 대응하는 보건복지부 산하 질병관리본부의 인원과 예산은 ‘제자리걸음’이다. 익명을 요구한 국방전문가는 “한국은 감염병 전문인력은 둘째치고 에볼라 수준의 바이러스를 안전하게 검사할 실험실조차 없다”고 밝혔다.치사율이 50~90%에 달하는 에볼라 바이러스는 생물안전 4등급(BL4) 실험실에서 다뤄야 한다. 그러나 국내엔 메르스 정도의 바이러스를 다룰 수 있는 3등급(BL3) 실험실만 20여곳 있다. 한국에 에볼라가 발병하면 안전한 검사 자체가 불가능하다는 얘기다. 한 감염내과 전문의는 “국가 격리 음압병상이 158개에 불과한 점도 에볼라 같은 고위험 바이러스가 확산됐을 때 치명적 약점”이라고 말했다.조성권 한성대 행정대학원 교수는 “미국은 2001년 탄저균 테러사건 이후 감염병을 국가안보 차원에서 대처하고 있다”며 “우리도 메르스 사태를 계기로 안보 차원에서 감염전문가 양성과 공중보건실험실, 음압병실 확대 등에 적극 투자해야 한다”고 강조했다.',
299
+ '중국의 ‘부동산 공룡’으로 꼽히는 완다그룹이 이랜드그룹의 레저사업에 투자하기로 했다. 완다그룹은 특히 투자금액을 “이랜드가 결정하는 대로 주겠다”고 약속했다고 이랜드 측은 전했다.이랜드그룹은 박성경 부회장과 왕젠린 완다그룹 회장이 지난 5일 중국 베이징에서 레저사업에 대한 투자합의서를 체결했다고 10일 발표했다. 이랜드가 국내 각지에서 추진 중인 리조트, 호텔, 테마도시 등 레저사업에 완다그룹이 투자한다는 내용이다. 투자 규모는 아직 정해지지 않았다. 이랜드는 “구체적인 사업계획과 투자액을 우리가 정해 완다그룹에 제안하면 완다그룹은 이를 받아들이기로 했다”고 밝혔다.완다그룹을 이끄는 왕 회장은 개인 재산이 1350억위안(약 22조원)으로, 지난해 중국 후룬연구소가 발표한 중국 내 부호 1위에 올랐다. 그는 중국에서 백화점, 쇼핑몰, 부동산개발 등으로 사세를 키웠고 2012년 미국 영화관 체인 AMC엔터테인먼트와 지난해 영국 요트 제작업체 선시커를 인수하는 등 해외로 보폭을 넓히고 있다.완다그룹은 이랜드와 비슷하게 레저사업에도 강한 의욕을 보여왔다. 2017년까지 하얼빈, 우시 등 중국 주요 도시에 ‘테마도시’ 7개를 건설한다는 계획을 갖고 있다. 이랜드는 완다그룹과 10여년 전부터 끈끈한 파트너십을 유지해온 점이 이번 투자 유치로 이어졌다고 설명했다. 이랜드 관계자는 “오래전부터 완다그룹이 보유한 쇼핑몰에 패션매장이 대거 입점하는 등 우호적인 관계를 유지하고 있다”며 “왕 회장이 개인적으로 만나는 한국 기업인은 박 부회장뿐”이라고 말했다.',
300
+ ]
301
+ embeddings = model.encode(sentences)
302
+ print(embeddings.shape)
303
+ # [3, 1024]
304
+
305
+ # Get the similarity scores for the embeddings
306
+ similarities = model.similarity(embeddings, embeddings)
307
+ print(similarities.shape)
308
+ # [3, 3]
309
+ ```
310
+
311
+ <!--
312
+ ### Direct Usage (Transformers)
313
+
314
+ <details><summary>Click to see the direct usage in Transformers</summary>
315
+
316
+ </details>
317
+ -->
318
+
319
+ <!--
320
+ ### Downstream Usage (Sentence Transformers)
321
+
322
+ You can finetune this model on your own dataset.
323
+
324
+ <details><summary>Click to expand</summary>
325
+
326
+ </details>
327
+ -->
328
+
329
+ <!--
330
+ ### Out-of-Scope Use
331
+
332
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
333
+ -->
334
+
335
+ <!--
336
+ ## Bias, Risks and Limitations
337
+
338
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
339
+ -->
340
+
341
+ <!--
342
+ ### Recommendations
343
+
344
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
345
+ -->
346
+
347
+ ## Training Details
348
+
349
+ ### Training Dataset
350
+
351
+ #### Unnamed Dataset
352
+
353
+
354
+ * Size: 23,392 training samples
355
+ * Columns: <code>sentence_0</code> and <code>sentence_1</code>
356
+ * Approximate statistics based on the first 1000 samples:
357
+ | | sentence_0 | sentence_1 |
358
+ |:--------|:----------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------|
359
+ | type | string | string |
360
+ | details | <ul><li>min: 9 tokens</li><li>mean: 19.07 tokens</li><li>max: 43 tokens</li></ul> | <ul><li>min: 246 tokens</li><li>mean: 453.67 tokens</li><li>max: 512 tokens</li></ul> |
361
+ * Samples:
362
+ | sentence_0 | sentence_1 |
363
+ |:----------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
364
+ | <code>현행범을 검거한 경찰의 이름은 무엇인가?</code> | <code>보이스피싱 사기 현행범이 서울의 한 새마을금고에서 범죄 수익금을 인출하려다 새마을금고 직원들의 순발력과 기지로 현장에서 체포됐다.지난 16일 서울 사당동 동작새마을금고 1분소에 근무하는 최유선 대리(35·사진)는 심모씨(36)를 수상하게 바라봤다. “인테리어 사업을 하는 친구에게 돈을 건네주기로 했다”며 3000만원을 빼간 뒤 10여분 만에 돌아와 1000만원을 추가 인출해줄 것을 요청했기 때문이다. 하지만 10분 전만 해도 인출이 가능했던 심씨의 계좌는 지급정지가 걸려 있었다. 은행원을 사칭한 보이스피싱 사기단에 속아 OTP(일회용 비밀번호 생성기) 비밀번호를 불러줬던 피해자가 뒤늦게 신고한 것이다.최 대리는 “당시에는 지급정지 사유를 몰랐지만 갑자기 지급정지가 걸린 점을 고려할 때 문제가 있다고 생각했다”며 “최근 횡행하는 보이스피싱 범죄가 떠올랐다”고 말했다. 그는 놀란 마음을 진정시키며 뒷자리에 있는 탁경영 분소장에게 메신저로 “보이스피싱 의심 계좌라 경찰에 신고해야 한다”고 쪽지를 보냈다. 심씨에게는 “전산오류니 잠시 기다려 달라”며 음료를 주는 등 시간을 끌었다.탁 분소장은 “문 앞에 주차된 차를 빼달라고 해야겠다”고 둘러대고 밖으로 나가 동작경찰서에 신고했다. 곧 출동한 경찰은 심씨를 현행범으로 체포하고 사기 등 혐의로 입건했다.</code> |
365
+ | <code>마르크수 주의를 주장하는 사람들이 자본국가를 어떻게 지칭하는가?</code> | <code>자본국가(資本國家, capitalist state)란 자본주의 사회경제체제에 따라 굴러가는 국가다. 일반적으로 "근대국가" 개념과 상호 혼용될 수 있다. 다만 자본국가들은 서로 공통점만큼 차이점도 상당히 많다. <br><br>자본국가의 기본 기능은 사업과 자본축적에 유리한 법적·사회기반적 환경을 제공하는 것이다. 자본주의 경제에서 국가의 필요성과 역할에 관한 다양한 규범이론들이 존재한다. 공공재를 제공하고 재산권을 수호하는 것으로 국가의 역할을 제한하는 자유방임주의가 있는가 하면, 자본축적을 위한 사회안정을 유지하기 위해 국가의 규제와 개입의 중요성을 강조하는 입장도 있다. <br><br>카를 마르크스는 자본국가를 경제적 기초에서 이해했다. 마르크스에 따르면 자본국가의 제1기능은 자본주의 경제의 필요를 충족시켜 주는 것이다. 그것을 위해 자본국가는 자본주의를 흥성케 하는 법적 제도적 장치들을 마련하며, 그것이 바로 자본주의 체제의 상부구조가 된다. 또한 자본국가는 자본주의의 영속을 담보하기 위해 다양한 계급들 간의 수요의 균형을 맞춘다. 대개 이것은 특정 자본가에게 특혜를 주거나 또는 자본가 계급 전체에게 특혜를 주는 식으로 표출된다. 그렇기에 마르크스가 보기에 자본국가의 행정부는 “에 지나지 않는다(공산당 선언에 등장하는 표현).” 마르크스적 개념에서 자본국가가 자본가 계급의 이해에 복무하는 것은 결함이 아니라 필요조건이다. 자본가 계급의 이해에 복무하지 않는 국가는 애초에 자본국가가 아니다. 이런 맥락에서 마르크스주의 사상가들은 자본국가를 “부르주아 독재(Dictatorship of the bourgeoisie)”라고 한다. 그리고 그것을 탈피하여 권력을 노동계급에게 돌리는 것이 프롤레타리아 독재이다.<br><br>자본국가의 특징들은 국가가 특정 자본이나 기업에게 종속당하는 연고자본주의나 기업국가와 혼동될 수 있지만 그것과는 분명히 다르다.</code> |
366
+ | <code>매장에 시계, 도자기 등 다양한 영역의 제품들을 구비하고 있는 브랜드의 이름은?</code> | <code>현대백화점이 27일 서울 삼성동 무역센터점의 수입 패션 브랜드를 44개에서 72개로 늘려 다시 오픈했다. 국내 최대 크기의 명품 매장을 독특한 1, 2층 복층 형태로 내��� 등 강남 상권을 잡기 위한 대형화에 주력했다.현대백화점 무역센터점에 들어간 해외 패션 및 시계, 화장품 브랜드는 총 120여개로, 이 중 에르메스(254㎡) 루이비통(839㎡) 까르띠에(330㎡)는 국내 백화점 중 가장 큰 규모다. 까르띠에는 다음달 22일 2층과 연결된 복층 매장으로 열고, 루이비통은 오는 7월께 1, 2층에 복층 구조로 매장을 낸다. 에르메스 매장에는 백화점 매장으론 유일하게 의류 잡화뿐 아니라 시계, 크리스털, 테이블웨어, 가죽, 도자기, 향수 등 14개 제품군을 모두 들여놨다. 시계도 강화한다. 기존에 264㎡였던 명품 시계 매장을 891㎡로 확대, 강남 상권 최대 규모로 마련했다. 위블로, 오데마피게, 예거 르쿨르트, 피아제 등 10개 브랜드를 새로 들여놓는다. 이 중 예거 르쿨트르와 쇼메 등 9개 브랜드는 부티크 형태의 단독 매장으로 다음달 22일 문을 연다.</code> |
367
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
368
+ ```json
369
+ {
370
+ "scale": 20.0,
371
+ "similarity_fct": "cos_sim"
372
+ }
373
+ ```
374
+
375
+ ### Training Hyperparameters
376
+ #### Non-Default Hyperparameters
377
+
378
+ - `per_device_train_batch_size`: 32
379
+ - `per_device_eval_batch_size`: 32
380
+ - `num_train_epochs`: 1
381
+ - `batch_sampler`: no_duplicates
382
+ - `multi_dataset_batch_sampler`: round_robin
383
+
384
+ #### All Hyperparameters
385
+ <details><summary>Click to expand</summary>
386
+
387
+ - `overwrite_output_dir`: False
388
+ - `do_predict`: False
389
+ - `eval_strategy`: no
390
+ - `prediction_loss_only`: True
391
+ - `per_device_train_batch_size`: 32
392
+ - `per_device_eval_batch_size`: 32
393
+ - `per_gpu_train_batch_size`: None
394
+ - `per_gpu_eval_batch_size`: None
395
+ - `gradient_accumulation_steps`: 1
396
+ - `eval_accumulation_steps`: None
397
+ - `torch_empty_cache_steps`: None
398
+ - `learning_rate`: 5e-05
399
+ - `weight_decay`: 0.0
400
+ - `adam_beta1`: 0.9
401
+ - `adam_beta2`: 0.999
402
+ - `adam_epsilon`: 1e-08
403
+ - `max_grad_norm`: 1
404
+ - `num_train_epochs`: 1
405
+ - `max_steps`: -1
406
+ - `lr_scheduler_type`: linear
407
+ - `lr_scheduler_kwargs`: {}
408
+ - `warmup_ratio`: 0.0
409
+ - `warmup_steps`: 0
410
+ - `log_level`: passive
411
+ - `log_level_replica`: warning
412
+ - `log_on_each_node`: True
413
+ - `logging_nan_inf_filter`: True
414
+ - `save_safetensors`: True
415
+ - `save_on_each_node`: False
416
+ - `save_only_model`: False
417
+ - `restore_callback_states_from_checkpoint`: False
418
+ - `no_cuda`: False
419
+ - `use_cpu`: False
420
+ - `use_mps_device`: False
421
+ - `seed`: 42
422
+ - `data_seed`: None
423
+ - `jit_mode_eval`: False
424
+ - `use_ipex`: False
425
+ - `bf16`: False
426
+ - `fp16`: False
427
+ - `fp16_opt_level`: O1
428
+ - `half_precision_backend`: auto
429
+ - `bf16_full_eval`: False
430
+ - `fp16_full_eval`: False
431
+ - `tf32`: None
432
+ - `local_rank`: 0
433
+ - `ddp_backend`: None
434
+ - `tpu_num_cores`: None
435
+ - `tpu_metrics_debug`: False
436
+ - `debug`: []
437
+ - `dataloader_drop_last`: False
438
+ - `dataloader_num_workers`: 0
439
+ - `dataloader_prefetch_factor`: None
440
+ - `past_index`: -1
441
+ - `disable_tqdm`: False
442
+ - `remove_unused_columns`: True
443
+ - `label_names`: None
444
+ - `load_best_model_at_end`: False
445
+ - `ignore_data_skip`: False
446
+ - `fsdp`: []
447
+ - `fsdp_min_num_params`: 0
448
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
449
+ - `fsdp_transformer_layer_cls_to_wrap`: None
450
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
451
+ - `deepspeed`: None
452
+ - `label_smoothing_factor`: 0.0
453
+ - `optim`: adamw_torch
454
+ - `optim_args`: None
455
+ - `adafactor`: False
456
+ - `group_by_length`: False
457
+ - `length_column_name`: length
458
+ - `ddp_find_unused_parameters`: None
459
+ - `ddp_bucket_cap_mb`: None
460
+ - `ddp_broadcast_buffers`: False
461
+ - `dataloader_pin_memory`: True
462
+ - `dataloader_persistent_workers`: False
463
+ - `skip_memory_metrics`: True
464
+ - `use_legacy_prediction_loop`: False
465
+ - `push_to_hub`: False
466
+ - `resume_from_checkpoint`: None
467
+ - `hub_model_id`: None
468
+ - `hub_strategy`: every_save
469
+ - `hub_private_repo`: False
470
+ - `hub_always_push`: False
471
+ - `gradient_checkpointing`: False
472
+ - `gradient_checkpointing_kwargs`: None
473
+ - `include_inputs_for_metrics`: False
474
+ - `eval_do_concat_batches`: True
475
+ - `fp16_backend`: auto
476
+ - `push_to_hub_model_id`: None
477
+ - `push_to_hub_organization`: None
478
+ - `mp_parameters`:
479
+ - `auto_find_batch_size`: False
480
+ - `full_determinism`: False
481
+ - `torchdynamo`: None
482
+ - `ray_scope`: last
483
+ - `ddp_timeout`: 1800
484
+ - `torch_compile`: False
485
+ - `torch_compile_backend`: None
486
+ - `torch_compile_mode`: None
487
+ - `dispatch_batches`: None
488
+ - `split_batches`: None
489
+ - `include_tokens_per_second`: False
490
+ - `include_num_input_tokens_seen`: False
491
+ - `neftune_noise_alpha`: None
492
+ - `optim_target_modules`: None
493
+ - `batch_eval_metrics`: False
494
+ - `eval_on_start`: False
495
+ - `use_liger_kernel`: False
496
+ - `eval_use_gather_object`: False
497
+ - `batch_sampler`: no_duplicates
498
+ - `multi_dataset_batch_sampler`: round_robin
499
+
500
+ </details>
501
+
502
+ ### Training Logs
503
+ | Epoch | Step | Training Loss |
504
+ |:------:|:----:|:-------------:|
505
+ | 0.6840 | 500 | 0.2767 |
506
+
507
+
508
+ ### Framework Versions
509
+ - Python: 3.10.12
510
+ - Sentence Transformers: 3.1.1
511
+ - Transformers: 4.45.2
512
+ - PyTorch: 2.5.1+cu121
513
+ - Accelerate: 1.1.1
514
+ - Datasets: 3.1.0
515
+ - Tokenizers: 0.20.3
516
+
517
+ ## Citation
518
+
519
+ ### BibTeX
520
+
521
+ #### Sentence Transformers
522
+ ```bibtex
523
+ @inproceedings{reimers-2019-sentence-bert,
524
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
525
+ author = "Reimers, Nils and Gurevych, Iryna",
526
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
527
+ month = "11",
528
+ year = "2019",
529
+ publisher = "Association for Computational Linguistics",
530
+ url = "https://arxiv.org/abs/1908.10084",
531
+ }
532
+ ```
533
+
534
+ #### MultipleNegativesRankingLoss
535
+ ```bibtex
536
+ @misc{henderson2017efficient,
537
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
538
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
539
+ year={2017},
540
+ eprint={1705.00652},
541
+ archivePrefix={arXiv},
542
+ primaryClass={cs.CL}
543
+ }
544
+ ```
545
+
546
+ <!--
547
+ ## Glossary
548
+
549
+ *Clearly define terms in order to be accessible across audiences.*
550
+ -->
551
+
552
+ <!--
553
+ ## Model Card Authors
554
+
555
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
556
+ -->
557
+
558
+ <!--
559
+ ## Model Card Contact
560
+
561
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
562
+ -->
config.json ADDED
@@ -0,0 +1,28 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "intfloat/multilingual-e5-large-instruct",
3
+ "architectures": [
4
+ "XLMRobertaModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "bos_token_id": 0,
8
+ "classifier_dropout": null,
9
+ "eos_token_id": 2,
10
+ "hidden_act": "gelu",
11
+ "hidden_dropout_prob": 0.1,
12
+ "hidden_size": 1024,
13
+ "initializer_range": 0.02,
14
+ "intermediate_size": 4096,
15
+ "layer_norm_eps": 1e-05,
16
+ "max_position_embeddings": 514,
17
+ "model_type": "xlm-roberta",
18
+ "num_attention_heads": 16,
19
+ "num_hidden_layers": 24,
20
+ "output_past": true,
21
+ "pad_token_id": 1,
22
+ "position_embedding_type": "absolute",
23
+ "torch_dtype": "float32",
24
+ "transformers_version": "4.45.2",
25
+ "type_vocab_size": 1,
26
+ "use_cache": true,
27
+ "vocab_size": 250002
28
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.1.1",
4
+ "transformers": "4.45.2",
5
+ "pytorch": "2.5.1+cu121"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": null
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b0dce8778c6a09c7a92b376ed95b7a83cce7e23c5b3cb400b4325b2f28b0a58f
3
+ size 2239607176
modules.json ADDED
@@ -0,0 +1,20 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ },
14
+ {
15
+ "idx": 2,
16
+ "name": "2",
17
+ "path": "2_Normalize",
18
+ "type": "sentence_transformers.models.Normalize"
19
+ }
20
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 512,
3
+ "do_lower_case": false
4
+ }
sentencepiece.bpe.model ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
3
+ size 5069051
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:883b037111086fd4dfebbbc9b7cee11e1517b5e0c0514879478661440f137085
3
+ size 17082987
tokenizer_config.json ADDED
@@ -0,0 +1,55 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "250001": {
36
+ "content": "<mask>",
37
+ "lstrip": true,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "additional_special_tokens": [],
45
+ "bos_token": "<s>",
46
+ "clean_up_tokenization_spaces": true,
47
+ "cls_token": "<s>",
48
+ "eos_token": "</s>",
49
+ "mask_token": "<mask>",
50
+ "model_max_length": 512,
51
+ "pad_token": "<pad>",
52
+ "sep_token": "</s>",
53
+ "tokenizer_class": "XLMRobertaTokenizer",
54
+ "unk_token": "<unk>"
55
+ }