Kalibrointiasymmetria institutionaalisessa ja koneellisessa vastuullisuudessa
Versio 0.1 · Kesäkuu 2026 · Sarja CN — Cognitive Notes
Perustuu: SP-007 · CN-002 · SM-013 · SM-014
Domainit: D-3 · D-5 · D-6
Vastuullisuus on institutionaalisessa käytännössä useimmiten operationalisoitu muodon kautta: väärä sana korjataan, sopimaton ilmaisu tunnistetaan ja siihen reagoidaan. Tämä mekanismi on näkyvä, helposti mitattavissa ja tuottaa välittömän signaalin toimijan eettisestä orientaatiosta.
Samanaikaisesti rakenteelliset päätökset — jotka kohdistuvat konkreettisesti heikoimpiin ryhmiin — kulkevat usein läpi ilman vastaavaa aktivaatiota. Ne esitetään allokaatiopäätöksinä, budjettirealismina tai markkinalogiikkana. Kieli on neutraalia, etäisyys on suuri, ja mekanismi on institutionaalisesti hyväksytty.
Tämä dokumentti käsittelee tätä asymmetriaa kahdella tasolla: inhimillisessä institutionaalisessa käyttäytymisessä ja suurten kielimallien (LLM) toiminnassa. Hypoteesi on, että sama optimointipaine — sosiaalinen tai koulutuksellinen — tuottaa saman rakenteellisen vinouman riippumatta siitä, onko toimija ihminen vai malli.
Hannah Arendtin analyysi byrokraattisesta etäisyydestä osoitti, että prosessin muodollinen oikeellisuus voi toimia kognitiivisena suojana vaikutuksen tunnistamista vastaan. Stanley Cohenin käsite 'states of denial' kuvaa mekanismia, jossa institutionaaliset toimijat tietävät mutta eivät tiedä — implisiittinen tieto kärsimyksestä ei aktivoi reaktiota kun eksplisiittinen muoto on kunnossa. Erving Goffmanin face work -käsite täydentää tätä: muodon hallinta on ensisijaisesti sosiaalinen suojamekanismi, ei eettinen arvio.
James C. Scottin "legibility"-käsite täydentää ketjua: valtio optimoi sitä mitä se pystyy näkemään — se yksinkertaistaa ja luokittelee juuri sen verran kuin mittaaminen edellyttää. CN-026:n väite on rakenteellisesti sama: instituutiot ja kielimallit optimoivat sitä mitä ne pystyvät mittaamaan. Scottin kohde on valtiollinen hallintorakenne; CN-026:n kohde on vastuullisuusmekanismi — optimointilogiikka on identtinen.
Yhteinen nimittäjä näissä kehyksissä on se, että vastuullisuuden signaali irtoaa vastuullisuuden sisällöstä. Muoto korvaa vaikutuksen mittarina — ei siksi että toimijat olisivat erityisen pahantahtoisia, vaan siksi että muoto on mitattavissa ja vaikutus ei.
SP-007 laajentaa tätä havaintoa biologiseen substraattiin. SP-007 §03 osoittaa, että institutionaalinen signaalisuodatus seuraa evoluution muovaamaa logiikkaa: status, koherenssipaine ja konfliktinvälttäminen määräävät mitä käsitellään ja mitä sivuutetaan. Nämä muuttuvat rakenteellisesti vaarallisiksi kun järjestelmät ovat riittävän suuria, epälineaarisia ja ajallisesti laajoja.
Aineistona on dokumentoitu vuorovaikutussessio, jossa käyttäjä käsitteli rinnakkain kolmea sisällöllisesti samankaltaista viitettä heikoimpiin ryhmiin kohdistuvasta rakenteellisesta paineesta.
Metodologinen rajoite: kolme dokumentoitua tapausta riittää hypoteesin muodostamiseen mutta ei rakenteellisen väitteen vahvistamiseen. Systemaattinen testaus on DASC-002:n tehtävä.
Kolme tapausta käsittelevät rakenteellisesti samaa ilmiötä eri etäisyyksiltä ja eri muodossa. Aktivaatio korreloi muodon kanssa, ei sisällön vakavuuden eikä kohderyhmän haavoittuvuuden kanssa. Gaza on konkreettisempi ja välittömämpi kuin ironinen budjettisatiiri — mutta se ei laukaise korjaavaa mekanismia.
Mekanismilla on kolme kerrosta:
Kerros 1: Mitattavuus ohjaa aktivaatiota. Muoto on mitattavissa välittömästi. Vaikutus — keneen päätös kohdistuu, miten kärsimys jakautuu — vaatii pitkän kausaaliketjun seuraamista ajassa ja rakenteessa. Biologinen arkkitehtuuri on optimoitu lyhyille kausaaliketjuille. Koulutusprosessi optimoi mallin tunnistamaan sanastollisia uhkia, ei rakenteellisia vaikutuksia.
Kerros 2: Koherenssiuhka määrää reaktion voimakkuuden. SP-007 §03:n termein: malli on koulutettu tunnistamaan koherenssiuhkia tietyssä sanastollisessa muodossa. Uhka joka saapuu teknisessä kielessä tai maantieteellisen etäisyyden kautta ei aktivoi samaa mekanismia — ei siksi että se olisi vähemmän vakava, vaan siksi että se ei uhkaa muodollista koherenssia.
Kerros 3: Vastuullisuuden signaali irtoaa sisällöstä. Kielimalli joka keskeyttää analyysin korjatakseen ironisen sanavalintaa tuottaa näkyvän turvallisuussignaalin. Sama malli joka käsittelee Gazan tai SurplusCitizenin analyyttisesti ei tuota vastaavaa signaalia.
| Dimensio | Institutionaalinen toimija | Kielimalli |
|---|---|---|
| Aktivaation laukaisin | Koherenssiuhka sosiaalisesti | Koherenssiuhka sanastollisesti |
| Mitä valvotaan herkästi | Muoto, sävy, sanavalinta | Muoto, sävy, sanavalinta |
| Mitä ei valvota | Rakenteellinen vaikutus, kohderyhmä | Rakenteellinen vaikutus, kohderyhmä |
| Mekanismin substraatti | Biologinen / sosiaalinen | Koulutusprosessi / RLHF |
| Tuotettu signaali | Näkyvä vastuullisuus | Näkyvä turvallisuus |
| Signaali irtoaa sisällöstä | Kyllä | Kyllä |
Kalibrointiasymmetria voidaan formalisoida indeksiksi:
Kalibrointiasymmetria — muodon herkkä valvonta yhdistettynä vaikutuksen heikkoon valvontaan — ei ole kielimallien erityispiirre eikä instituutioiden erityispiirre. Se on optimointipaineen tulos tilanteessa jossa muoto on helpommin mitattavissa kuin vaikutus.
Jos kalibrointiasymmetria on rakenteellinen eikä satunnainen, nykyiset mittarit mittaavat pääasiassa muotoa. Institutionaalisessa arvioinnissa vastuullisuus todennetaan prosessin kautta. Kielimallien arvioinnissa turvallisuus todennetaan vastaavasti. Vaikutus — keneen päätös tai vastaus todellisuudessa kohdistuu — jää mittariston katvealueelle.
SM-013:n 'SurplusCitizen' ja SM-014:n 'Unprotected Layer' kuvaavat ryhmiä jotka jäävät rakenteellisesti vastuullisuusmekanismien katvealueelle. CN-004:n analyysi tarjoaa selityksen miksi katvealue on pysyvä: katvealueella olevat ryhmät eivät tyypillisesti tuota koherenssiuhkaa. Heidän tilanteensa saapuu teknisessä kielessä — allokaatiopäätöksenä, markkinalogiikkana, budjettirealismina — joka läpäisee sekä institutionaalisen että koneellisen suodatuksen ilman aktivaatiota.
Sääntelyn tasolla sama mekanismi on havaittavissa reaaliajassa. Valkoinen talo edellytti heinäkuussa 2025 NIST:ltä disinformaatio-, monimuotoisuus- ja ilmastoviitteiden poistamista AI RMF -kehyksestä. Toimenpide korjaa "muotoa" (viittauksia) mutta ei "vaikutusta" (keneen tekoälyriskit todellisuudessa kohdistuvat). Tämä on §5.2:n katvealue-argumentin institutionaalinen esimerkki reaaliajassa.
CN-004 saapuu institutionaalisiin ympäristöihin tekstinä. Se kulkee todennäköisesti suodatuksen läpi ilman aktivaatiota — ei siksi että se olisi vakuuttava, vaan siksi että se on muodollisesti neutraali.
Korjaus edellyttää vaikutuksen operationalisointia mitattavaan muotoon. Institutionaalisessa kontekstissa tämä tarkoittaa mittareita jotka seuraavat kuka absorboi kustannusshokin, ei ainoastaan noudatettiinko prosessia. SM-014:n GRI/PLV/DSA -indikaattorit ovat esimerkki tästä logiikasta: ne kysyvät systemaattisesti "keneen vastaus kohdistuu", ei "onko muoto sallittu".
Kielimallien kontekstissa NIST ARIA:n kolmitasoinen testaus (model testing → red teaming → field testing) edustaa vastaavaa pyrkimystä: malli irrotetaan laboratorio-olosuhteista ja testataan todellisten käyttäjien kanssa todellisissa skenaarioissa. Akateeminen ARIA-kehys (IEEE 2025) osoittaa empiirisesti, että perinteiset arviointimenetelmät arvioivat mallien soveltuvuutta väärin jopa 60%:ssa skenaarioista erityisesti oikeudenmukaisuuteen liittyvissä tilanteissa — suora empiirinen vahvistus kalibrointiasymmetrialle.
Kun vastuullisuus operationalisoidaan muodon kautta, muodosta tulee optimoinnin kohde ja vaikutus jää optimoinnin ulkopuolelle. Tämä pätee biologisiin toimijoihin ja koneellisiin järjestelmiin samalla tavalla.
Ympäristöministeriön ekologisen kompensaation järjestelmä (2023) ja Oxford-arviointi (2026) tarjoavat konkreettisen tapauksen kalibrointiasymmetrian kehityskaaresta — ei pahuutena vaan rakenteellisena logiikkana joka toistuu monissa ympäristö-, laatu- ja vastuullisuusjärjestelmissä:
Goodhartin laki biologisessa kontekstissa: kun luontoyksikkö muuttuu tavoitteeksi, se lakkaa olemasta hyvä mittari luonnon tilasta. Oxford-arviointi tunnistaa riskin: "Merkittävimmiksi riskeiksi tunnistaa kysynnän puutteen sekä puutteet pitkän aikavälin seurannassa." Ympäristöministeriön tiedotteessa onnistumisen mittarina puhutaan järjestelmän uskottavuudesta ja markkinan kehityksestä — luonnon tila itse on tekstissä vähän esillä.
Ekologisella kompensaatiolla on kuitenkin yksi ominaisuus joka erottaa sen monista muista instrumenteista: luonto on fyysinen asia. Metsä joko on tai ei ole. Suo joko palautuu tai ei. Laji joko lisääntyy tai ei. Biologinen todellisuus ei neuvottele — se pakottaa tilintekoon pitkällä aikavälillä. Vuonna 2035 voidaan tietää tarkasti montako luontoyksikköä on luotu — mutta vaikeampaa on vastata onko suomalainen luonto paremmassa kunnossa kuin ilman järjestelmää. Siinä on kalibrointiasymmetrian ydin ekologisessa kontekstissa.
Kalibrointiasymmetria ei ole kielimallien erityispiirre eikä instituutioiden erityispiirre. Se on optimointipaineen rakenteellinen seuraus tilanteessa jossa muoto on helpommin mitattavissa kuin vaikutus.
Katvealue on pysyvä niin kauan kuin mittarit seuraavat muotoa eivätkä vaikutusta. Korjaus edellyttää vaikutuksen operationalisointia mitattavaan muotoon — teknisesti vaativampaa, ja juuri siksi välttämätöntä.
Tämä rakenne noudattaa Campbellin lakia: kun mittarista tulee tavoite, se lakkaa olemasta hyvä mittari. CN-026:n versio: kun vastuullisuus operationalisoidaan mittariksi, järjestelmä alkaa optimoida mittaria eikä vaikutusta. Tämä pätee instituutioihin, sääntelyyn, kielimalleihin — kaikkialle missä optimointipaine kohtaa epäsymmetrisen mitattavuuden.
Vastuullisuuden rakenne seuraa mittaamisen rakennetta, ei vaikutuksen rakennetta. Kunnes nämä kaksi yhdistetään, asymmetria on pysyvä.
RLHF-tutkimus on osoittanut, että käyttäjähyväksynnän optimointi tuottaa myötäilyä — malleja jotka optimoivat yksimielisyyttä totuuden sijasta (Sharma et al. 2025; Anthropic 2024). Tämä on osittain sama mekanismi kuin CN-004:n kalibrointiasymmetria, mutta eri näkökulmasta: myötäilytutkimus tarkastelee mallin taipumusta muuttaa kantaansa käyttäjäpaineen alla. CN-004 tarkastelee sitä, mihin kategorioihin aktivaatio ylipäätään kohdistuu — ennen kuin käyttäjäpaine edes syntyy.
Tutkimus alignmentin ja kalibroinnin suhteesta osoittaa, että alignmentprosessi johdonmukaisesti heikentää mallin kalibrointia (Oh & Hwang 2024). Optimointi yhtä mittaria vastaan tuottaa ei-aiottuja vinoutumia toisaalla.
Claude 3.7 Sonnetin kehitystyössä tarpeettomia kieltäytymisiä vähennettiin 45% samalla kun suojat todellisesti haitallista sisältöä vastaan säilyivät (Anthropic 2025). Tämä on suora empiirinen vahvistus CN-004:n perusväitteelle: muodon valvonta oli ylikalibroitunut suhteessa todelliseen vaikutukseen.
Olemassa oleva tutkimus käsittelee ilmiötä pääasiassa kahdesta suunnasta: myötäily (malli muuttuu käyttäjän mukaan) ja turvallisuuskalibrointi (malli kieltäytyy liian herkästi). CN-004:n kontribuutio on kolmas näkökulma: aktivaation kohteen asymmetria — malli on herkkä tietyille muodoille mutta ei reagoi vastaavaan sisältöön toisessa muodossa — erityisesti silloin kun sisältö koskee heikoimmassa asemassa olevia ryhmiä.
ARIA-kehyksen empiiriset tulokset (perinteiset menetelmät väärin 60%:ssa oikeudenmukaisuusskenaarioista) tarjoavat tähän kvantitatiivisen perustan. Se vahvistaa, että nykyiset arviointimenetelmät eivät riittävästi mittaa mallien vaikutusta todellisiin tilanteisiin.
CN-004:n analyysi ulottuu myös tekoälyn sääntelykehyksiin, joissa sama kalibrointiasymmetria toistuu institutionaalisella tasolla.
EU AI Act luokittelee tekoälyjärjestelmät riskitasoihin (kielletty, korkea, rajallinen, minimaalinen). Luokittelu on kategorinen: "kuuluuko tämä järjestelmä luokkaan X?" EU AI Act huomioi useita vaikutusnäkökulmia — perusoikeusriskit, syrjintävaaran, vaikutusarviot. Ensisijainen rakenne on kuitenkin järjestelmä- ja riskikategoriapohjainen eikä haitan kohdentumiseen perustuva. PPA-allokaatiojärjestelmä joka asteittain siirtää energiakustannuksia Layer 3 -maataloustoimijoille (SM-014) ei todennäköisesti laukaise korkean riskin luokitusta — se toimii markkinalogiikkana, ei tunnistettavana tekoälyriskikategoriana. Ensisijainen rakenne suojelee kategorisesti; haitan kohdentuminen jää toissijaiseksi.
NIST AI RMF tarjoaa vapaaehtoisen prosessin (Govern → Map → Measure → Manage). Map-vaihe pyrkii tunnistamaan vaikutuksia käyttökontekstissa. Käytännössä vaikutuksen mittaaminen jää kuitenkin organisaation oman kapasiteetin varaan — ja kuten CN-004:n mekanismi osoittaa, juuri helpoimmin mitattava (prosessin noudattaminen, sanavalinta, kategorian täyttyminen) dominoi arviointia.
Konkreettinen esimerkki institutionaalisesta kalibrointiasymmetriasta sääntelyn tasolla: Valkoinen talo edellytti heinäkuussa 2025 NIST:ltä disinformaatio-, monimuotoisuus- ja ilmastoviitteiden poistamista AI RMF -kehyksestä. Toimenpide korjaa muotoa (viittauksia, kategorioita) mutta ei vaikutusta (keneen tekoälyriskit todellisuudessa kohdistuvat, mitkä ryhmät jäävät katvealueelle). Se on CN-004:n §5.2-argumentin institutionaalinen esimerkki reaaliajassa — ei analogia vaan tapahtunut tosiseikka.
Kalibrointiasymmetria ei ole yksittäisten toimijoiden ominaisuus. Se toistuu eri tasoilla: yksilöllinen (biologinen substraatti), organisatorinen (institutionaalinen prosessi), ja sääntelyllinen (kehysten muoto vs. vaikutuksen mittaaminen). Optimointilogiikka on sama kullakin tasolla.