Pristranskost

Katere so različne vrste pristranskosti podatkov?

Ko ljudje obdelujejo informacije in presojajo, nanje neizogibno vplivajo njihove izkušnje in preference. Posledično lahko ljudje te pristranskosti vgradijo v sisteme umetne inteligence z izbiro podatkov ali načinom tehtanja podatkov. Kognitivna pristranskost (ang. Cognitive bias) bi lahko povzročila sistematične napake, kot je dajanje prednosti naborom podatkov, zbranih od Američanov, namesto vzorčenja iz različnih populacij po vsem svetu.

Pristranskost avtomatizacije (ang. Automation bias) se pojavi, ko se uporabniki pretirano zanašajo na avtomatizirane tehnologije, kar vodi v nekritično sprejemanje njihovih izhodov, kar lahko ohranja in povečuje obstoječe pristranskosti podatkov. Na primer, v zdravstvu se lahko zdravnik močno zanaša na diagnostično orodje z umetno inteligenco, da predlaga načrte zdravljenja za bolnike. Če zdravnik rezultatov orodja ne preveri glede na lastne klinične izkušnje, bi lahko bolniku postavil napačno diagnozo, če bi odločitev orodja izhajala iz pristranskih podatkov.

Pristranskost potrditve (ang. Confirmation bias) se pojavi, ko so podatki selektivno vključeni za potrditev že obstoječih prepričanj ali hipotez. Na primer, pristranskost potrditve se pojavi pri predvidljivem policijskem delu, ko organi kazenskega pregona osredotočijo zbiranje podatkov na soseske z zgodovinsko visoko stopnjo kriminala. Posledica tega je pretirano policijsko nadzorovanje teh sosesk zaradi selektivnega vključevanja podatkov, ki podpirajo obstoječe predpostavke o območju.

Pristranskost izključitve (ang. Exclusion bias) se zgodi, ko so pomembni podatki izpuščeni iz nizov podatkov. V ekonomskih napovedih sistematično izključevanje podatkov z območij z nizkimi dohodki povzroči nize podatkov, ki so natančno reprezentativni za prebivalstvo, kar vodi do gospodarskih napovedi, ki se nagibajo v korist bogatejših območij.

Zgodovinska pristranskost (ang. Historical bias), znana tudi kot časovna pristranskost (ang. Temporal bias), se pojavi, ko podatki odražajo zgodovinske neenakosti ali pristranskosti, ki so obstajale med zbiranjem podatkov, v nasprotju s trenutnim kontekstom. Primeri pristranskosti podatkov v tej kategoriji vključujejo sisteme zaposlovanja z umetno inteligenco, ki so usposobljeni na preteklih podatkih o zaposlovanju. V teh nizih podatkov so lahko temnopolti ljudje premalo zastopani na visokih delovnih mestih in model lahko ohranja neenakost.


Implicitna pristranskost (ang. Implicit bias) se pojavi, ko se v gradnjo ali testiranje strojnega učenja vnesejo predpostavke ljudi, ki temeljijo na osebnih izkušnjah, namesto bolj splošnih podatkov. Na primer, sistem umetne inteligence, usposobljen za ocenjevanje prosilcev za zaposlitev, bi lahko dal prednost življenjepisom z moškim kodiranim jezikom, kar odraža nezavedno pristranskost razvijalca, čeprav spol ni izrecni dejavnik v modelu.

Pristranskost pri merjenju (ang. Measurement bias) se lahko pojavi, če se natančnost ali kakovost podatkov razlikuje med skupinami ali ko so ključne spremenljivke študije netočno izmerjene ali razvrščene. Na primer, model vpisa na fakulteto, ki uporablja visoke povprečne ocene kot glavni dejavnik za sprejem, ne upošteva, da bi bilo višje ocene na določenih šolah lažje doseči kot na drugih.

Pristranskost poročanja (ang. Reporting bias) se pojavi, ko pogostost dogodkov ali rezultatov v naboru podatkov ni reprezentativna za dejansko pogostost. Ta pristranskost se pogosto pojavi, ko so ljudje vključeni v izbor podatkov, saj je večja verjetnost, da bodo dokumentirali dokaze, ki se zdijo pomembni ali nepozabni.

Pristranskost izbire (ang. Selection bias) se zgodi, ko nabor podatkov, uporabljen za usposabljanje, ni dovolj reprezentativen, premalo velik ali preveč nepopoln, da bi zadostno usposobil sistem. Usposabljanje avtonomnega avtomobila na podlagi podatkov o vožnji podnevi na primer ni reprezentativno za celoten nabor scenarijev vožnje, s katerimi se lahko vozilo sreča v resničnem svetu.

Pristranskost vzorčenja (ang. Sampling bias) je vrsta pristranskosti izbire, ki se pojavi, ko so vzorčni podatki zbrani na način, pri katerem je verjetneje, da bodo nekatere informacije vključene kot druge, brez ustrezne naključnosti. Na primer, če bi bil sistem medicinske umetne inteligence, zasnovan za napovedovanje tveganja za bolezni srca, usposobljen izključno na podatkih moških pacientov srednjih let, bi lahko zagotovil netočne napovedi. Ta sistem bi še posebej prizadel ženske in ljudi drugih starostnih skupin.