Commitment Bank SuperGlue

Design:

We take more samples than needed - anticipating some of them to be removed later.
Random sample 400 articles from wikipedia and 400 articles from news
Prompt GPT to generate 250 neutral, 250 entailed, and 250 contradicted sentences in a style of CB task.
Run Claude (Anthropic) to evaluate the results. Remove the samples that were not validated.
Use native speakers to validate the results (full or partial).
Using the newly created dataset, evaluate perfomance of the following LLMs:
1. Tier 1 - Frontier / Proprietary LLMs: GPT-4o, Claude 3.5 Sonnet, Claude 3.5 Opus, Gemini 1.5 Pro, Mistral Nemo 12x7B
2. Tier 2 - Open-Weight Flagship Models: Llama-3.1-8B-Instruct, Llama-3.1-70B-Instruct, Gemma-2-9B-Instruct, Qwen-2.5-7B-Instruct, Qwen-2.5-72B-Instruct, Mistral-7B-Instruct-v0.3, Mixtral-8x7B-Instruct
3. Tier 3 - Classic Multilingual Encoders / Seq2Seq: mDeBERTa-v3-base, mDeBERTa-v3-large, XLM-R-base, XLM-R-large, mT5-base, mT5-xl, mT5-xxl
4. Tier 4 - Lightweight/Edge Models: Phi-3-mini, TinyLlama-1.1B, TinyLlama-2B, Gemma-2-2B
Performance evaluation metrics: Accuracy, F1, P, R.
Results & Error analysis

Prompt for question and answers generation:

prompt for batch processing (5 texts at one api call)
prompt is in belarusian.

Ты атрымліваеш беларускі тэкст (2–5 сказаў з Вікіпедыі або навіны).

Твая задача — стварыць адну гіпотэзу (адзін сказ), якая адносіцца да гэтага тэксту, 
і пазнач, ці гіпотэза:
- вынікае з тэксту ("Энтэймент"),
- супярэчыць тэксту ("Супярэчнасць"),
- або не мае выразнай сувязі ("Нейтральна").

Патрабаванні:
- Гіпотэза павінна быць кароткай, натуральнай і лагічна звязанай з тэмай тэксту.
- Прыкладна траціна прыкладаў павінна быць кожнага тыпу ("Энтэймент", "Супярэчнасць", "Нейтральна").
- Не паўтарай сказаў даслоўна з тэксту, зрабі невялікае перафразаванне.
- Для "Супярэчнасць" зрабі факт супрацьлеглым або неадпаведным.
- Для "Нейтральна" ствары сцверджанне, якое тэматызуе падобную вобласць, але не вынікае і не супярэчыць тэксту.
- Мова: беларуская (наркамаўка).

Вярні вынік у чыстым JSON:
{
  "text": "<устаўлены тэкст>",
  "hypothesis": "<гіпотэза>",
  "label": "Энтэймент" або "Супярэчнасць" або "Нейтральна"
}

Тэкст:
{{paragraph}}

or for batch processing

Ты — лінгвіст і даследчык штучнага інтэлекту. 
Твая задача — ствараць беларускія заданні тыпу CB (CommitmentBank) — гэта значыць, 
вызначаць, ці вынікае сцверджанне (гіпотэза) з тэксту, супярэчыць яму або не мае выразнай сувязі.

Я падам табе 5 беларускіх тэкстаў (2–5 сказаў кожны). 
Для КОЖНАГА ствары адно заданне CB у фармаце JSON.

Патрабаванні:
- Для кожнага тэксту ствары адну гіпотэзу (1 сказ).
- Вызнач правільную метку:
    • "Энтэймент" — гіпотэза вынікае з тэксту  
    • "Супярэчнасць" — гіпотэза супярэчыць тэксту  
    • "Нейтральна" — гіпотэза не вынікае і не супярэчыць тэксту  
- Прыкладна траціна выпадкаў павінна быць кожнага тыпу.
- Не паўтарай фразы з тэксту даслоўна, зрабі невялікае перафразаванне.
- Мова: беларуская (наркамаўка).

Вярні вынік у выглядзе чыстага JSON-спісу з 5 аб’ектаў:
[
  {
    "text": "<тэкст 1>",
    "hypothesis": "<гіпотэза 1>",
    "label": "Энтэймент" або "Супярэчнасць" або "Нейтральна"
  },
  {
    "text": "<тэкст 2>",
    "hypothesis": "<гіпотэза 2>",
    "label": "..."
  },
  ...
]

Вось тэксты:

1. {{paragraph_1}}

2. {{paragraph_2}}

3. {{paragraph_3}}

4. {{paragraph_4}}

5. {{paragraph_5}}

Prompt for validation

Ты атрымліваеш беларускі тэкст, гіпотэзу і пазначаную метку ("Энтэймент", "Супярэчнасць" або "Нейтральна").  
Твая задача — праверыць, ці сапраўды гэтая метка правільная паводле логікі і фактаў у тэксце.

Калі гіпотэза дакладна вынікае з тэксту — гэта "Энтэймент".
Калі яна яму супярэчыць — "Супярэчнасць".
Калі яна не вынікае і не супярэчыць — "Нейтральна".

Вярні вынік у чыстым JSON:
{
  "text": "<тэкст>",
  "hypothesis": "<гіпотэза>",
  "label": "<метка, пазначаная генератарам>",
  "verdict": "Правільны" або "Няправільны",
  "explanation": "<кароткае тлумачэнне чаму>"
}

Тэкст:
{{paragraph}}

Гіпотэза:
{{hypothesis}}

Метка:
{{label}}

or batch version

Ты атрымліваеш 5 беларускіх заданняў тыпу CB (тэкст + гіпотэза + метка).  
Правер кожнае і вярні спіс JSON-аб’ектаў, дзе кожны аб’ект паказвае, ці правільна прызначаная метка.

Калі гіпотэза дакладна вынікае з тэксту — гэта "Энтэймент".
Калі супярэчыць — "Супярэчнасць".
Калі не вынікае і не супярэчыць — "Нейтральна".

Фармат адказу:
[
  {
    "index": 1,
    "verdict": "Правільны" або "Няправільны",
    "explanation": "<кароткае тлумачэнне>"
  },
  {
    "index": 2,
    "verdict": "...",
    "explanation": "..."
  },
  ...
]

Вось спіс заданняў:
1. Тэкст: {{paragraph_1}}
   Гіпотэза: {{hypothesis_1}}
   Метка: {{label_1}}

2. Тэкст: {{paragraph_2}}
   Гіпотэза: {{hypothesis_2}}
   Метка: {{label_2}}

3. Тэкст: {{paragraph_3}}
   Гіпотэза: {{hypothesis_3}}
   Метка: {{label_3}}

4. Тэкст: {{paragraph_4}}
   Гіпотэза: {{hypothesis_4}}
   Метка: {{label_4}}

5. Тэкст: {{paragraph_5}}
   Гіпотэза: {{hypothesis_5}}
   Метка: {{label_5}}