Skip to content
 

Zmena hodnotenia testu z matematiky bola zbytočná a odborne pomýlená

Postup NÚCEM-u pri hodnotení matematického testu v tohtoročnom Testovaní 9 vyvolal vlnu nevôle medzi učiteľmi a žiakmi. Pokúsim sa stručne a zrozumiteľne vysvetliť niektoré princípy teórie školských testov, z ktorých vyplýva, že postup NÚCEM-u bol zbytočný, kontraproduktívny a z odborného hľadiska nesprávny.

Pre tých, čo túto „kauzu“ nezachytili, stručná rekapitulácia: po vyhodnotení tohtoročného Testovania 9 sa ukázalo, že tri úlohy (z dvadsiatich) v matematickom teste mali nízku úspešnosť a vyššiu neriešenosť. (Konkrétne: Úloha 6 – úspešnosť 26,8 %, neriešenosť 28,2 %, úloha 7 – úspešnosť 16 %, neriešenosť 33,4 %, úloha 14 – úspešnosť 11,3 %.). Pracovníci NÚCEM-u sa preto rozhodli uvedené tri úlohy “anulovať”, a to takým spôsobom, že všetkým deviatakom za ne automaticky pripísali body. Pedagógovia verejnosť na tento krok zareagovali dosť kriticky. Časť učiteľov mala pocit, že vo vyhodnotení sú chyby. (Až dodatočne sa vyjasnilo, že nejde o chybu, ale o zámernú zmenu hodnotenia.) Ďalší namietali, že tí žiaci, ktorí sa s problematickými úlohami počas testovania trápili a vyriešili niektoré z nich správne, sú úpravou hodnotenia znevýhodnení (čo je pravda). No a veľká časť pedagógov podozrieva NÚCEM, že zámerom tohto kroku bolo umelo zdvihnúť priemernú úspešnosť testu z matematiky, ktorá by inak bola „nežiaduco“ nízka. (Keďže po “korekcii” je celoslovenská priemerná úspešnosť testu z matematiky 52,9 %, bez nej by sa pohybovala niekde na úrovni 40 %.)

V tejto súvislosti sa vynára niekoľko otázok: bola nízka úspešnosť troch otázok naozaj problémom? Bolo potrebné na tento problém reagovať úpravou hodnotenia? Ak áno, aké boli možnosti? Bol zvolený postup správny? Aby sme na tieto otázky mohli odpovedať, musíme si najskôr položiť a zodpovedať jednu dôležitú otázku ohľadom dotyčného testu: chce byť Testovanie 9 overovacím testom (t. j. testom absolútneho výkonu) alebo rozlišovacím testom (t. j. testom relatívneho výkonu)? Táto skutočnosť má totiž zásadný vplyv na to, ako narábame pri tvorbe a vyhodnocovaní testu s položkami, ktoré majú príliš vysokú alebo príliš nízku úspešnosť.

1. Predpokladajme na chvíľu, že Testovanie 9 chce byť overovacím testom.

Cieľom overovacieho testu je overiť, do akej miery zvládli konkrétni jednotlivci (alebo celá populácia) požiadavky dané kurikulom a štandardmi. Pri tvorbe takéhoto testu sa preto striktne vychádza z kurikula a zahrňuje sa do neho všetko podstatné, čo sa mali žiaci naučiť. Na obťažnosť jednotlivých položiek sa pritom neprihliada – tá vyplýva z obťažnosti jednotlivých častí učiva. Jednoducho povedané: ak kurikulum predpisuje, že sa žiaci niečo mali naučiť, tak to máme testovať. A výsledky ukážu, do akej miery sa to naozaj naučili. Hovoríme, že meriame absolútny výkon respondentov, teda ich výkon vo vzťahu ku štandardom a ku kurikulu, nie vo vzťahu k iným respondentom. Tomuto cieľu musí byť prispôsobená aj konštrukcia testu. Jeho autori pri tvorbe testu neriešia náročnosť položiek, ale maximálne sa sústreďujú na to, aby presne odrážali predpísané učivo. Výsledky takéhoto testu slúžia na to, aby sme o konkrétnom žiakovi (alebo o celej populácii) vedeli čo najpresnejšie povedať, čo z učiva zvládol a čo nie. Výsledky sú teda predovšetkým ukazovateľom rozsahu a kvality vedomostí konkrétnych žiakov, ale aj efektívnosti vzdelávacieho systému či primeranosti kurikula. Výsledky takéhoto testu sa však nehodia (z viacerých dôvodov) na porovnávanie žiakov navzájom.

Ako by sa teda bolo malo postupovať s troma príliš ťažkými úlohami v prípade, keby Testovanie 9 bolo overovacím testom? V prvom rade by sa malo preskúmať, či otázky skutočne boli v súlade s kurikulom a s výkonovými štandardmi. Ak neboli, takéto položky nemali v teste čo robiť a bola by to pomerne vážna chyba autorov testu. V takomto prípade by asi bolo zmysluplné položky anulovať. Určite by však bol vhodnejší iný spôsob, než zvolil NÚCEM, a síce vyškrtnúť ich z testu, nikomu za ne nezarátať žiadne body a maximál­ny možný počet bodov znížiť na 17. Nedošlo by tak k umelému „nafúknutiu“ úspešnosti, ktoré sa mnohým (oprávnene) nepozdáva. A počet žiakov, u ktorých sa upravuje skóre, by bol minimálny. Títo žiaci by však neboli vyradením úloh nijako poškodení, pretože pri overovacom teste sa výsledky žiakov navzájom neporovnávajú. Ak by sa však ukázalo, že otázky boli plne v súlade s kurikulom a štandardmi, potom sa s nimi nemalo robiť nič. Jednoducho odhalili isté časti učiva, ktoré sme síce plánovali žiakov naučiť, v praxi sa nám to však nepodarilo. To však rozhodne nie je dôvod na zmenu hodnotenia, ktoré iba objektívne odráža úroveň vedomostí žiakov v daných oblastiach. Malo by sa však niečo urobiť buď s kurikulom, ktoré je príliš ambiciózne a preplnené, alebo s hodinovou dotáciou, ktorá mu nezodpovedá, alebo s metódami vyučovania. Rozhodne však nie so samotnými úlohami. Poslov zlých správ netreba zabíjať, treba im načúvať…

2. Predpokladajme na chvíľu, že Testovanie 9 chce byť rozlišovacím testom.

Cieľom rozlišovacieho testu je zmerať úroveň istých vedomostí či schopností v danej skupine žiakov a čo najviac zvýrazniť rozdiely medzi žiakmi, rozlíšiť ich od seba navzájom. Tento typ testov sa používa najmä na prijímacích skúškach, keď počet uchádzačov prevyšuje počet voľných miest. Cieľom tohto typu testu nie je vypovedať o jednotlivcoch, čo konkrétne z kurikula zvládli a čo nie. Cieľom je vhodným sumárnym údajom (testovým skóre) vyjadriť ich celkovú úroveň, a to tak, aby meranie čo najviac zvýraznilo rozdiely medzi tými s najvyššou úrovňou a tými s najnižšou úrovňou. V tomto prípade meriame relatívny výkon respondentov, teda ich výkon v porovnaní s inými respondentmi, nie vo vzťahu ku štandardom a kurikulu. Tomuto cieľu musí byť prispôsobená aj konštrukcia takéhoto testu. Pri jeho tvorbe sa (na rozdiel od overujúceho testu) kladie veľký dôraz na primeranú obťažnosť položiek. Do rozlišovacieho testu by totiž mali byť zaradené iba stredne náročné položky, s úspešnosťou okolo 50 – 60 %. Príliš ľahké a príliš ťažké položky do takéhoto testu nepatria. Prečo? Pretože nepomáhajú rozlíšiť dobrých a slabých. Ak 90 % žiakov zodpovie nejakú otázku nesprávne, skoro nič sa z toho nedozvieme o rozdieloch v ich vedomostiach či schopnostiach. Taká položka zbytočne zabrala vzácne miesto v teste a ničím neprispela k jeho rozlišovacej schopnosti. To isté platí o príliš ľahkých položkách. Pri tvorbe kvalitného rozlišovacieho testu by sa preto malo postupovať tak, že sa položky vopred pilotujú (overujú) na vzorkách respondentov, aby sa empiricky zistila ich obťažnosť. Príliš ľahké a príliš ťažké položky sa potom v ostrom teste nepoužijú.

Ako by sa teda bolo malo postupovať s troma príliš ťažkými úlohami v prípade, keby Testovanie 9 bolo rozlišovacím testom? Nuž, v takom prípade by sa v ňom také ťažké otázky vôbec nemali objaviť. Bola by to konštrukčná chyba testu, ktorá padá na hlavy jeho autorov. Ak by sa to však už stalo, rozhodne by bolo najrozumnejšie nemeniť ich hodnotenie. Prečo? Pretože aj keď má položka úspešnosť iba 20 %, predsa len aspoň trochu rozlišuje (odlíšila tých 20 % najlepších, ktorí ju vyriešili, aj keď všetkých ostatných „hodila do jedného vreca“). Ak za ňu dáme všetkým bod, vyrobíme tým položku, ktorá nediskriminuje (nerozlišuje) ani trochu, teda z hľadiska rozlišovacieho testu tú najhoršiu možnú položku. Ak by sme sa teda na Testovanie 9 pozerali ako na rozlišovací test, bol krok NÚCEM-u nezmyselný a kontraproduktívny: z troch zle rozlišujúcich položiek vyrobili tri vôbec nerozlišujúce položky a zbytočne tak celkovú rozlišovaciu schopnosť testu ešte viac znížili. Zhoršili tak jeho (aj tak už dosť slabú) použiteľnosť pre účely prijímacích skúšok.

Možno si kladiete otázku, prečo sme zbytočne uvažovali aj o rozlišovacích, aj o overovacích testoch a ne­skúmali iba ten prípad, ktorý sa vzťahuje na Testovanie 9. Odpoveď je jednoduchá: Testovanie 9 je akýmsi čudesným hybridom oboch týchto typov. Na jednej strane sú stredné školy vyzývané, aby ho zohľadňovali v prijímacom konaní, čo je možné iba pri rozlišovacom teste. Na druhej strane sa každý rok na tlačových konferenciách robia z výsledkov Testovania 9 závery o úrovni vzdelávania v SR, čo je možné iba pri overovacom teste. Pri rozlišovacom teste je to nezmyselné, pretože ten musí byť zámerne konštruovaný tak, aby jeho úspešnosť bola okolo 50 – 60 %! A ak si myslíte, že v našich ekonomických podmienkach je rozumným riešením zabiť dve muchy jednou ranou a vytvoriť akýsi univerzálny „overovaco-rozlišovací“ test, musím vás sklamať: z mnohých principiálnych dôvodov nie je možné, aby akýkoľvek školský test bol súčasne dobrým rozlišovacím aj dobrým overovacím testom. Aj z toho mála, čo sme tu uviedli, je zrejmé, že overovací test musí byť konštruovaný a vyhodnocovaný celkom inak ako rozlišovací. Snaha vytvoriť jeden test pre oba účely musí nutne skončiť jediným spôsobom: vytvorením testu nevhodného na oboje, čo je, žiaľ, prípad nášho Testovania 9.

Takže, aby som to zhrnul: v danej situácii bolo jednoznačne najrozumnejšie neurobiť vôbec nič. Ponechať tri úlohy tak, ako dopadli, a nemeniť hodnotenie. Namiesto toho sa otvorene a do hĺbky porozprávať o tom, čo tie tri problematické úlohy testovali, či to naozaj je v súlade s kurikulom a štandardmi, prečo ich asi žiaci nezvládli, čo sa s tým bude do budúcnosti robiť, kto tvoril testy, či autori testu rozumejú princípom tvorby školských testov (a nielen matematike), či boli otázky pilotované, no najmä: či má byť Testovanie 9 do budúcnosti overovacím alebo rozlišovacím testom. To všetko by bolo bývalo omnoho užitočnejšie ako neuvážená zmena hodnotenia, ktorá mnoho učiteľov a žiakov nahnevala a nič pozitívne nepriniesla. A odvolávanie sa na to, že takýto postup používajú aj renomované zahraničné inštitúcie, je celkom zavádzajúce. Príliš ťažké (a príliš ľahké) úlohy sa síce naozaj škrtajú, avšak predovšetkým vo fáze pilotovania a zostavovania testu. Dodatočné vyraďovanie takýchto úloh počas vyhodnocovania môže mať opodstatnenie jedine vtedy, ak sa používajú celkom iné metódy hodnotenia testov (napr. IRT a iné parametrické modely). Aplikovať takýto postup v rámci tzv. klasického modelu používaného u nás je celkom nenáležité.

Vladimír Burjan
(DOBRÁ ŠKOLA, máj 2011)

3 Comments

  1. Fanusik says:

    Jedna vec podla mna nie je uvedena korektne. Ak sa nemylim, analyza ukazala, ze v spominanych troch polozkach dopadli zle dobri studenti (studenti s nadpriemernymi vysledkami pri ostatnych polozkach). To znamena, na polozky odpovedali dobre “horsi” studenti (pravdepodobne spravnu odpoved uhadli) a teda rozlisovacia schopnost testu nebola tymto krokom zhorsena.
    Inak trefny clanok, boze boze, kedy uz bude jasne co vlastne Testovanie 9 je??

    • Eugen Šimko says:

      Fanúšik,

      ak je toto pravda, tak sa treba spýtať, za čo stál celý ten test? A vôbec, ako je možné, že o osudoch detí sa rozhoduje na základe krížikov, nie vedomostí … Lebo ja si myslím, že ak bude to dieťa niekedy počítať nosnosť mostnej konštrukcie, ten most nebude stáť z dôvodu nejakých testovacích krížikov, ale preto, že tie výpočty správne a kontrolovateľným postupom spočítal. Toto nie je moja myšlienka, niečo podobné mi už ako mladému a ambicióznemu povedal prof. Kluvanec …

  2. Eugen Šimko says:

    Vlado, nehnevaj sa, že tak neskoro … Ale nakoľko som našiel túto stránku až dnes, dovolím si aj tu zareagovať.

    Prosím Ťa, aj keď sa mi veľmi páči fakt, že reaguješ na tento problém, zaráža ma, že sa týmto problémom tak podrobne zaoberáš.

    Osobne som presvedčený, že ak žiaci píšu nejaký test, je naozaj veselé, že výsledky toho testu sú smerodajné pre prijímanie na stredné školy. Neviem, či výsledky tohto testu boli (napriek tomu, že mám veľa detí, tento rok mi žiadne na strednú nejde :)), viem, že sa tak dialo vlani …

    Som presvedčený, že každá stredná škola by mala mať svoj osobitý ráz, a zaiste predpokladom istej osobitosti je aj nastavenie prijímacích kritérií tak, aby boli na túto školu prijaté deti, ktoré tomuto rázu akosi “vyhovujú” … Takýto centralizovaný systém prijímacích konaní toto vôbec nezohľadňuje …

    Takže. Som presvedčený, že to, čo sa udialo v prípade týchto testov naozaj nestojí ani len za inú zmienku, ako že niekto prekročil všetky možné hranice slušnosti. V modernej dobe, keď máme podporovať talenty, hľadať ich, týmto spôsobom bol podporený podpriemer, šikovnosť a schopnosť bola zasa podupaná pod zem, z titulu moci bol podpriemer pred celým národom glorifikovaný …

    Prečo? Domýšľajme sa a hľadajme, ktorý/á významný/á precovník/čka majú dieťa v inkriminovanom ročníku. Nehľadajme za tým nič iné, len protežovanie “vlastných” a zakrývanie ich neschopností učiť sa a pobiť sa v čestnom boji o miesto v kolektíve …

Leave a Reply to Eugen Šimko