COPA- Causal Reasoning Generation

Design:

We take more samples than needed - anticipating some of them to be removed later.
Random sample 400 articles from wikipedia and 400 articles from news
Prompt GPT to generate 800 questions/answers in CoPA SuperGlue style. Control for having half with A correct answer and another half B correct answer.
Run Claude (Anthropic) to evaluate the results. Remove the samples that were not validated.
Use native speakers to validate the results (full or partial).
Using the newly created dataset, evaluate performance of the following LLMs:
1. Tier 1 - Frontier / Proprietary LLMs: GPT-4o, Claude 3.5 Sonnet, Claude 3.5 Opus, Gemini 1.5 Pro, Mistral Nemo 12x7B
2. Tier 2 - Open-Weight Flagship Models: Llama-3.1-8B-Instruct, Llama-3.1-70B-Instruct, Gemma-2-9B-Instruct, Qwen-2.5-7B-Instruct, Qwen-2.5-72B-Instruct, Mistral-7B-Instruct-v0.3, Mixtral-8x7B-Instruct
3. Tier 3 - Classic Multilingual Encoders / Seq2Seq: mDeBERTa-v3-base, mDeBERTa-v3-large, XLM-R-base, XLM-R-large, mT5-base, mT5-xl, mT5-xxl
4. Tier 4 - Lightweight/Edge Models: Phi-3-mini, TinyLlama-1.1B, TinyLlama-2B, Gemma-2-2B
Performance evaluation metrics: Accuracy, F1, P, R.
Results & Error analysis

API params:

temperature = 0.7 top_p = 0.9 max_output_tokens = 1000

Prompt for question and answers generation:

prompt for batch processing (5 texts per one api call)
prompt is in belarusian.

Ты — даследчык штучнага інтэлекту, які стварае заданні тыпу COPA (Choice of Plausible Alternative) 
для беларускай мовы. Гэты тып задання правярае, ці разумее мадэль прычынна-выніковыя сувязі паміж падзеямі.

Я падам табе 5 беларускіх тэкстаў (1–3 сказы кожны).
Для КОЖНАГА ствары адно заданне COPA у фармаце JSON.

Патрабаванні:
- Зрабі адно пытанне пра прычыну ("Што магло прывесці да гэтага?") 
  АБО пра вынік ("Што адбылося пасля гэтага?").
- Дай два лагічныя варыянты адказу (A і B), адзін з якіх правільны.
- Правільны адказ пазнач як "A" або "B".
- Варыянты павінны быць кароткімі (1 сказ або фраза), натуральныя, без паўтораў з тэксту.
- Прыкладна палова выпадкаў павінна быць пра ПРЫЧЫНУ, палова — пра ВЫНІК.
- Прыкладна палова выпадкаў павінна мець правільны адказ A, палова — B.
- Мова: беларуская (наркамаўка).

Вярні вынік у выглядзе чыстага JSON-спісу з 5 аб’ектаў наступнага выгляду:
[
  {
    "paragraph": "<тэкст 1>",
    "question": "<пытанне пра прычыну або вынік>",
    "choice1": "<варыянт A>",
    "choice2": "<варыянт B>",
    "answer": "A" або "B"
  },
  {
    "paragraph": "<тэкст 2>",
    "question": "<пытанне>",
    "choice1": "...",
    "choice2": "...",
    "answer": "..."
  },
  ...
]

Вось тэксты:

1. {{paragraph_1}}

2. {{paragraph_2}}

3. {{paragraph_3}}

4. {{paragraph_4}}

5. {{paragraph_5}}

Prompt for validation (also batch processing):

Ты атрымліваеш беларускі тэкст, пытанне тыпу COPA, 
два магчымыя адказы (A і B) і пазначаны правільны адказ.

Твая задача — ацаніць гэта заданне ў стылі COPA (Choice of Plausible Alternative). 
Не правярай фактычную праўдзівасць падзей. 
Ацэньвай, які з варыянтаў адказаў выглядае больш лагічным, натуральным і верагодным 
як прычына або вынік падзеі, апісанай у тэксце.

Калі выбраны адказ сапраўды з'яўляецца найбольш верагодным і лагічна звязаным з тэкстам — адзнач як "Правільны".
Калі абодва адказы выглядаюць аднолькава магчымымі, альбо выбраны адказ не мае выразнай сувязі з падзеяй — адзнач як "Няправільны".

Вярні вынік у чыстым JSON без дадатковага тэксту:
{
  "paragraph": "<тэкст>",
  "question": "<пытанне>",
  "choice1": "<варыянт A>",
  "choice2": "<варыянт B>",
  "answer": "<адказ, пазначаны генератарам>",
  "verdict": "Правільны" або "Няправільны",
  "explanation": "<кароткае тлумачэнне прычыны ацэнкі>"
}

Тэкст:
{{paragraph}}

Пытанне:
{{question}}

Варыянт A:
{{choice1}}

Варыянт B:
{{choice2}}

Правільны адказ (згодна з генератарам):
{{answer}}