merge

This is a merge of pre-trained language models created using mergekit.

Merge Details

Merge Method

This model was merged using the Linear DELLA merge method using deepseek-ai/DeepSeek-R1-Distill-Llama-70B as a base.

Models Merged

The following models were included in the merge:

Configuration

The following YAML configuration was used to produce this model:

merge_method: della_linear
base_model: deepseek-ai/DeepSeek-R1-Distill-Llama-70B
tokenizer_source: "unsloth/Llama-3.3-70B-Instruct"
dtype: float16
parameters:
  epsilon: 0.05             # Fine-grain scaling for precision.
  lambda: 1.6               # Strong emphasis on top-performing models.
  normalize: true           # Stable parameter integration across models.
adaptive_merge_parameters:
  task_weights:
    tinyArc: 2.0            # Увеличиваем вес для логического рассуждения.
    tinyHellaswag: 1.75     # Увеличиваем для контекстных предсказаний.
    tinyMMLU: 2.0           # Увеличиваем для доменных знаний.
    tinyTruthfulQA: 2.2     # Увеличиваем приоритет правдивого рассуждения.
    tinyTruthfulQA_mc1: 2.0 # Поддерживаем высокий приоритет для многоразовых вопросов.
    tinyWinogrande: 2.0     # Увеличиваем для сложного рассуждения и предсказаний.
    IFEval: 2.1             # Поддерживаем высокий приоритет для выполнения инструкций и многозадачности.
    BBH: 2.0                # Увеличиваем для комплексного рассуждения.
    MATH: 2.5               # Увеличиваем вес математического рассуждения для акцента на точности.
    GPQA: 2.3               # Увеличиваем вес для фактического QA.
    MUSR: 2.1               # Поддерживаем высокий приоритет для многошагового рассуждения.
    MMLU-PRO: 2.3           # Поддерживаем высокие показатели в многозадачности по доменам.
  smoothing_factor: 0.1     # Сглаживание остается прежним для плавного смешивания.

models:
  - model: nvidia/Llama-3.1-Nemotron-70B-Instruct-HF
    parameters:
      weight: 1
      density: 1
  - model: deepseek-ai/DeepSeek-R1-Distill-Llama-70B
    parameters:
      weight: 1
      density: 1
Downloads last month
10
Safetensors
Model size
70.6B params
Tensor type
FP16
·
Inference Providers NEW
This model is not currently available via any of the supported Inference Providers.

Model tree for ehristoforu/della-70b-test-v1