Stronniczość sztucznej inteligencji w ocenie prac uczniowskich – wpływ narodowości na wyniki

Właśnie natrafiłam na niepokojące doniesienia, które sugerują, że systemy sztucznej inteligencji mogą wykazywać stronniczość podczas oceny prac edukacyjnych. Instytucja zajmująca się przeprowadzaniem egzaminów SAT, poddała szczegółowej analizie ponad 13 000 esejów napisanych przez uczniów. Okazało się, że ewaluacja przeprowadzona przez AI nie była wolna od uprzedzeń. Wcześniej, jeszcze w listopadzie 2022 roku, kiedy program ChatGPT został udostępniony do użytku publicznego, pojawiały się już ostrzeżenia o możliwości wystąpienia rasowych uprzedzeń. ChatGPT został zaprogramowany poprzez przetworzenie ogromnej ilości danych – aż 300 bilionów słów – pochodzących z książek, tekstów internetowych oraz artykułów, które niejednokrotnie zawierały rasistowskie poglądy, oddające ukryte uprzedzenia autorów. Z tego powodu AI może generować dane i porady obarczone uprzedzeniami.

Dwóch naukowców poddało analizie efekty oceny 13 000 esejów dokonanej przez AI. Eseje te zostały napisane przez uczniów szkół średnich podczas prac z lat 2015–2019, jako część państwowych egzaminów. Tematem tych prac było pytanie: „Czy uczniowie powinni mieć prawo do korzystania z telefonów komórkowych w szkole?”. Każda praca została oceniona przez ludzi na skali od 1 do 6 punktów, gdzie 6 oznaczało najwyższą możliwą ocenę. Kolejnym krokiem było zadanie AI – GPT-4o oceny tych samych esejów, przy użyciu identycznego przewodnika. Zarówno ludzcy oceniający, jak i maszyna nie byli poinformowani o rasie czy pochodzeniu uczniów, jednak badacze mieli dostęp do tych informacji.

Okazało się, że GPT-4o oceniło prace znacznie niżej niż ludzie: średnia ocen AI wyniosła 2.8, a ludzi 3.7. Wśród lubskich oceniających, uczniowie pochodzenia azjatycko-amerykańskiego zdobyli średnio 4.3 punktu, podczas gdy maszyna przyznała im jedynie 3.2 punktu – mniej więcej o 1.1 punktu mniej. W przypadku uczniów białych, czarnych i latynoskich, różnica w wynikach pomiędzy ekspertami a GPT-4o była mniejsza – wynosiła około 0.9 punktu. Jest to niepokojące, biorąc pod uwagę różnicę dla uczniów azjatycko-amerykańskich.

Niewielkie „ukaranie” uczniów pochodzenia azjatycko-amerykańskiego, choć nie jest znaczące, jest na tyle duże, że nie można go zignorować przy wykorzystaniu wsparcia AI. Jedno badanie oczywiście nie daje jednoznacznego dowodu na ciągłą stronniczość AI wobec uczniów azjatycko-amerykańskich, ale wzbudza to pewne ograniczone zaufanie. Warto zauważyć, że inne wersje AI mogą dawać inne wyniki. Azjaci-Amerykanie mają tendencję do osiągania wysokich wyników w testach z matematyki i czytania i są średnio najlepszymi pisarzami w tym zestawie 13 000 esejów. Nawet z obniżoną oceną przez AI Azjaci-Amerykanie nadal mieli najwyższe wyniki esejów, znacznie wyższe niż biali, czarni, Latynosi, rdzenni Amerykanie lub uczniowie wielorasowi.

Ludzcy eksperci przyznali najwyższą ocenę (6) 732 esejom, podczas gdy ChatGPT dał najwyższą notę tylko trzem pracowym. ChatGPT nie korzystał z przykładów ocen. Być może kilka przykładowych esejów lub drobne zmiany w instrukcjach oceniania lub w podpowiedziach przekazanych ChatGPT mogłyby zmniejszyć lub wyeliminować stronniczość wobec Azjatów-Amerykanów. Możliwe, że maszyna byłaby bardziej sprawiedliwa wobec Azjatów-Amerykanów, gdyby wyraźnie poproszono ją o „przyznanie większej liczby idealnych 6”.

Warto wspomnieć o innych badaniach, które wykazały, że AI faworyzuje Azjatów-Amerykanów. Na przykład, system punktacji ETS opracowany ponad dekadę temu, zwany e-rater, miał tendencję do zawyżania wyników studentów z Korei, Chin, Tajwanu i Hongkongu. Azjaci-Amerykanie zdobyli również wyższe noty w zautomatyzowanym systemie punktacji stworzonym podczas konkursu kodowania w 2021 i opartym na BERT, który był najbardziej zaawansowanym algorytmem przed obecną generacją dużych modeli językowych, takich jak GPT.

Istotne jest więc przeprowadzanie dokładnych testów systemów oceniających opartych na AI, zanim zostaną one wprowadzone do praktyki oceniania. W przeciwnym razie ta praktyka może szkodzić uczniom. Moje wnioski z tych badań kwestionują zewnętrzne ocenianie prac uczniów, gdyż wiele zależy od oceniającego, nawet bez jego świadomości. W tym świetle „sprawiedliwość”. Która jest uznana za pewnik w naszych zewnętrznych egzaminach jest całkowicie wątpliwa.