telodigoensergio commited on
Commit
f49735a
verified
1 Parent(s): 1bc2a7e

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +53 -16
README.md CHANGED
@@ -11,13 +11,9 @@ language:
11
  Este modelo es el primer paso hacia un modelo de lenguaje que pueda usarse para reescribir de textos de car谩cter adminsitrativo
12
  con el objetivo de mejorar su comprensi贸n para personas con alto y bajo nivel cultural y sociecon贸mico.
13
 
14
-
15
-
16
- ## Model Details
17
-
18
  ### Model Description
19
 
20
- El modelo es el resultado de un proceso de ajuste fino de phi-2, desarrollado por microsoft con unos 2.5b de par谩metros. Para el
21
  ajuste se han extra铆do multitud de textos de 铆ndole administrativa de las principales p谩ginas web de la administraci贸n del Estado espa帽ol.
22
 
23
  Para la carga y ajuste del modelo se han utilizado t茅cnicas de cuantizaci贸n con la siguiente configuraci贸n:
@@ -27,17 +23,60 @@ bnb_config = BitsAndBytesConfig(load_in_4bit=True,
27
  bnb_4bit_quant_type='nf4',
28
  bnb_4bit_compute_dtype='float16',
29
  bnb_4bit_use_double_quant=True)
 
30
 
31
 
32
-
33
-
 
 
 
 
 
 
 
 
 
 
 
 
 
 
34
  ```
35
- y se ha aplicado LoRA a las capas lineales para el fine-tunning.
36
-
37
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
38
  ## Prompting
39
  El prompt para el uso sigue la siguiente estructura:
40
 
 
41
  prompt = f"""###System:
42
  Lee el siguiente texto y hazlo m谩s claro:
43
  ###Texto:
@@ -46,25 +85,23 @@ Lee el siguiente texto y hazlo m谩s claro:
46
 
47
  ###Texto aclarado:
48
  """
 
49
 
50
 
51
 
52
 
53
- - **Developed by:** [More Information Needed]
54
  - **Funded by [optional]:** [More Information Needed]
55
  - **Shared by [optional]:** [More Information Needed]
56
  - **Model type:** [More Information Needed]
57
  - **Language(s) (NLP):** [More Information Needed]
58
  - **License:** [More Information Needed]
59
- - **Finetuned from model [optional]:** [More Information Needed]
60
 
61
- ### Model Sources [optional]
62
 
63
- <!-- Provide the basic links for the model. -->
64
 
65
- - **Repository:** [More Information Needed]
66
- - **Paper [optional]:** [More Information Needed]
67
- - **Demo [optional]:** [More Information Needed]
68
 
69
  ## Uses
70
 
 
11
  Este modelo es el primer paso hacia un modelo de lenguaje que pueda usarse para reescribir de textos de car谩cter adminsitrativo
12
  con el objetivo de mejorar su comprensi贸n para personas con alto y bajo nivel cultural y sociecon贸mico.
13
 
 
 
 
 
14
  ### Model Description
15
 
16
+ El modelo es el resultado de un proceso de ajuste fino de [phi-2](https://huggingface.co/microsoft/phi-2), desarrollado por microsoft con unos 2.5b de par谩metros. Para el
17
  ajuste se han extra铆do multitud de textos de 铆ndole administrativa de las principales p谩ginas web de la administraci贸n del Estado espa帽ol.
18
 
19
  Para la carga y ajuste del modelo se han utilizado t茅cnicas de cuantizaci贸n con la siguiente configuraci贸n:
 
23
  bnb_4bit_quant_type='nf4',
24
  bnb_4bit_compute_dtype='float16',
25
  bnb_4bit_use_double_quant=True)
26
+ ```
27
 
28
 
29
+ y se ha aplicado LoRA a las capas lineales para el fine-tunning:
30
+ ```
31
+ config = LoraConfig(
32
+ r=16,
33
+ lora_alpha=32,
34
+ target_modules=[
35
+ 'q_proj',
36
+ 'k_proj',
37
+ 'v_proj',
38
+ 'dense',
39
+ 'fc1',
40
+ 'fc2',
41
+ ], #print(model) will show the modules to use
42
+ bias="none",
43
+ lora_dropout=0.05,
44
+ task_type="CAUSAL_LM",
45
  ```
 
 
46
 
47
+ ## Par谩metros de entrenamiento
48
+ Para el entrenamiento se utilizaron los siguientes par谩metros:
49
+ ```
50
+ training_args = TrainingArguments(
51
+ output_dir='./results',
52
+ overwrite_output_dir=True,
53
+ per_device_train_batch_size=2,
54
+ per_device_eval_batch_size=2,
55
+ gradient_accumulation_steps=5,
56
+ gradient_checkpointing=True,
57
+ gradient_checkpointing_kwargs={"use_reentrant": False},
58
+ warmup_steps=50,
59
+ #max_steps=1000,
60
+ num_train_epochs=2,
61
+ learning_rate=5e-5,
62
+ weight_decay=0.01,
63
+ optim="paged_adamw_8bit",
64
+ fp16=True,
65
+ logging_dir='./logs',
66
+ logging_strategy="steps",
67
+ logging_steps=100,
68
+ save_strategy="steps",
69
+ save_steps=200,
70
+ save_total_limit=2,
71
+ evaluation_strategy="steps",
72
+ eval_steps=200,
73
+ load_best_model_at_end=True,
74
+ )
75
+ ```
76
  ## Prompting
77
  El prompt para el uso sigue la siguiente estructura:
78
 
79
+ ```
80
  prompt = f"""###System:
81
  Lee el siguiente texto y hazlo m谩s claro:
82
  ###Texto:
 
85
 
86
  ###Texto aclarado:
87
  """
88
+ ```
89
 
90
 
91
 
92
 
93
+ - **Developed by:** [Sergio Chic贸n](https://huggingface.co/telodigoensergio)
94
  - **Funded by [optional]:** [More Information Needed]
95
  - **Shared by [optional]:** [More Information Needed]
96
  - **Model type:** [More Information Needed]
97
  - **Language(s) (NLP):** [More Information Needed]
98
  - **License:** [More Information Needed]
99
+ - **Finetuned from model:** [Microsoft/phi-2](https://huggingface.co/microsoft/phi-2)
100
 
101
+ ### Model Sources
102
 
103
+ - **Repository:** [Google Colab](https://colab.research.google.com/drive/1qSOtPtRHCN5D1VW6MG-pe17OUZf4D2Q5?usp=sharing)
104
 
 
 
 
105
 
106
  ## Uses
107