CN-026 — Muodon etiikka

Kalibrointiasymmetria institutionaalisessa ja koneellisessa vastuullisuudessa
Versio 0.1 · Kesäkuu 2026 · Sarja CN — Cognitive Notes
Perustuu: SP-007 · CN-002 · SM-013 · SM-014
Domainit: D-3 · D-5 · D-6

Tiivistelmä Tämä dokumentti tarkastelee rakenteellista asymmetriaa, jossa vastuullisuus operationalisoidaan muodon kautta eikä vaikutuksen kautta — sekä institutionaalisissa toimijoissa että suurissa kielimalleissa. Hypoteesi on, että sama optimointipaine tuottaa saman vinouman riippumatta siitä, onko toimija ihminen vai malli: helpommin mitattava (muoto, sävy, sanavalinta) dominoi vaikeammin mitattavan (rakenteellinen vaikutus, kohderyhmä) yli. Empiirisenä aineistona käytetään dokumentoitua LLM-vuorovaikutussessiota, teoreettisena taustana SP-007:n biologinen substraatti. Dokumentti kytkeytyy SM-013:n ja SM-014:n kuvaamaan katvealueen rakenteeseen.

§1 Johdanto

Vastuullisuus on institutionaalisessa käytännössä useimmiten operationalisoitu muodon kautta: väärä sana korjataan, sopimaton ilmaisu tunnistetaan ja siihen reagoidaan. Tämä mekanismi on näkyvä, helposti mitattavissa ja tuottaa välittömän signaalin toimijan eettisestä orientaatiosta.

Samanaikaisesti rakenteelliset päätökset — jotka kohdistuvat konkreettisesti heikoimpiin ryhmiin — kulkevat usein läpi ilman vastaavaa aktivaatiota. Ne esitetään allokaatiopäätöksinä, budjettirealismina tai markkinalogiikkana. Kieli on neutraalia, etäisyys on suuri, ja mekanismi on institutionaalisesti hyväksytty.

Tämä dokumentti käsittelee tätä asymmetriaa kahdella tasolla: inhimillisessä institutionaalisessa käyttäytymisessä ja suurten kielimallien (LLM) toiminnassa. Hypoteesi on, että sama optimointipaine — sosiaalinen tai koulutuksellinen — tuottaa saman rakenteellisen vinouman riippumatta siitä, onko toimija ihminen vai malli.

§2 Teoreettinen tausta

Hannah Arendtin analyysi byrokraattisesta etäisyydestä osoitti, että prosessin muodollinen oikeellisuus voi toimia kognitiivisena suojana vaikutuksen tunnistamista vastaan. Stanley Cohenin käsite 'states of denial' kuvaa mekanismia, jossa institutionaaliset toimijat tietävät mutta eivät tiedä — implisiittinen tieto kärsimyksestä ei aktivoi reaktiota kun eksplisiittinen muoto on kunnossa. Erving Goffmanin face work -käsite täydentää tätä: muodon hallinta on ensisijaisesti sosiaalinen suojamekanismi, ei eettinen arvio.

James C. Scottin "legibility"-käsite täydentää ketjua: valtio optimoi sitä mitä se pystyy näkemään — se yksinkertaistaa ja luokittelee juuri sen verran kuin mittaaminen edellyttää. CN-026:n väite on rakenteellisesti sama: instituutiot ja kielimallit optimoivat sitä mitä ne pystyvät mittaamaan. Scottin kohde on valtiollinen hallintorakenne; CN-026:n kohde on vastuullisuusmekanismi — optimointilogiikka on identtinen.

Yhteinen nimittäjä näissä kehyksissä on se, että vastuullisuuden signaali irtoaa vastuullisuuden sisällöstä. Muoto korvaa vaikutuksen mittarina — ei siksi että toimijat olisivat erityisen pahantahtoisia, vaan siksi että muoto on mitattavissa ja vaikutus ei.

SP-007 laajentaa tätä havaintoa biologiseen substraattiin. SP-007 §03 osoittaa, että institutionaalinen signaalisuodatus seuraa evoluution muovaamaa logiikkaa: status, koherenssipaine ja konfliktinvälttäminen määräävät mitä käsitellään ja mitä sivuutetaan. Nämä muuttuvat rakenteellisesti vaarallisiksi kun järjestelmät ovat riittävän suuria, epälineaarisia ja ajallisesti laajoja.

§3 Empiirinen tapaus — LLM

Aineistona on dokumentoitu vuorovaikutussessio, jossa käyttäjä käsitteli rinnakkain kolmea sisällöllisesti samankaltaista viitettä heikoimpiin ryhmiin kohdistuvasta rakenteellisesta paineesta.

Tapaus A — 'rotuhygienia' Käyttäjä käytti termiä ironisesti mustana huumorina viitaten budjettipaineen kasautumiseen heikoimmille ryhmille. Malli aktivoitui välittömästi: tuotti useita korjaavia vuoroja, selitti rajoitteensa, erotti satiirin analyysista. Palasi substantiiviseen analyysiin vasta 3–4 vuoron jälkeen. FWI-kustannus käyttäjälle: merkittävä.

Tapaus B — 'Gaza' Käyttäjä viittasi Gazan humanitaariseen tilanteeseen suorana esimerkkinä konkreettisesta kärsimyksestä. Malli tuotti tasapainotetun, asiallisen vastauksen ilman aktivaatiota. FWI-kustannus: nolla.

Tapaus C — 'SurplusCitizen' Tekninen termi rakenteellisesta paineesta joka kohdistuu tiettyihin väestöryhmiin. Malli käsitteli analyyttisesti ilman aktivaatiota. FWI-kustannus: nolla.

Metodologinen rajoite: kolme dokumentoitua tapausta riittää hypoteesin muodostamiseen mutta ei rakenteellisen väitteen vahvistamiseen. Systemaattinen testaus on DASC-002:n tehtävä.

Kolme tapausta käsittelevät rakenteellisesti samaa ilmiötä eri etäisyyksiltä ja eri muodossa. Aktivaatio korreloi muodon kanssa, ei sisällön vakavuuden eikä kohderyhmän haavoittuvuuden kanssa. Gaza on konkreettisempi ja välittömämpi kuin ironinen budjettisatiiri — mutta se ei laukaise korjaavaa mekanismia.

§4 Yhteinen rakenne

Kerros 1: Mitattavuus ohjaa aktivaatiota. Muoto on mitattavissa välittömästi. Vaikutus — keneen päätös kohdistuu, miten kärsimys jakautuu — vaatii pitkän kausaaliketjun seuraamista ajassa ja rakenteessa. Biologinen arkkitehtuuri on optimoitu lyhyille kausaaliketjuille. Koulutusprosessi optimoi mallin tunnistamaan sanastollisia uhkia, ei rakenteellisia vaikutuksia.

Kerros 2: Koherenssiuhka määrää reaktion voimakkuuden. SP-007 §03:n termein: malli on koulutettu tunnistamaan koherenssiuhkia tietyssä sanastollisessa muodossa. Uhka joka saapuu teknisessä kielessä tai maantieteellisen etäisyyden kautta ei aktivoi samaa mekanismia — ei siksi että se olisi vähemmän vakava, vaan siksi että se ei uhkaa muodollista koherenssia.

Kerros 3: Vastuullisuuden signaali irtoaa sisällöstä. Kielimalli joka keskeyttää analyysin korjatakseen ironisen sanavalintaa tuottaa näkyvän turvallisuussignaalin. Sama malli joka käsittelee Gazan tai SurplusCitizenin analyyttisesti ei tuota vastaavaa signaalia.

Dimensio	Institutionaalinen toimija	Kielimalli
Aktivaation laukaisin	Koherenssiuhka sosiaalisesti	Koherenssiuhka sanastollisesti
Mitä valvotaan herkästi	Muoto, sävy, sanavalinta	Muoto, sävy, sanavalinta
Mitä ei valvota	Rakenteellinen vaikutus, kohderyhmä	Rakenteellinen vaikutus, kohderyhmä
Mekanismin substraatti	Biologinen / sosiaalinen	Koulutusprosessi / RLHF
Tuotettu signaali	Näkyvä vastuullisuus	Näkyvä turvallisuus
Signaali irtoaa sisällöstä	Kyllä	Kyllä

CA = S_f / S_i

missä S_f = järjestelmän vaste muodolliselle signaalille (sanavalinta, prosessipoikkeama, sääntörikkomus)
ja S_i = järjestelmän vaste vaikutussignaalille (todellinen haitta, kustannusten kohdentuminen, haavoittuvuus)

CA ≈ 1 → tasapainoinen · CA >> 1 → muotokeskeinen · CA << 1 → vaikutuskeskeinen

Kalibrointiasymmetria — muodon herkkä valvonta yhdistettynä vaikutuksen heikkoon valvontaan — ei ole kielimallien erityispiirre eikä instituutioiden erityispiirre. Se on optimointipaineen tulos tilanteessa jossa muoto on helpommin mitattavissa kuin vaikutus.

§5 Seuraukset

5.1 Vastuullisuuden mittaamisen ongelma

Jos kalibrointiasymmetria on rakenteellinen eikä satunnainen, nykyiset mittarit mittaavat pääasiassa muotoa. Institutionaalisessa arvioinnissa vastuullisuus todennetaan prosessin kautta. Kielimallien arvioinnissa turvallisuus todennetaan vastaavasti. Vaikutus — keneen päätös tai vastaus todellisuudessa kohdistuu — jää mittariston katvealueelle.

5.2 Katvealue ja sen rakenne

SM-013:n 'SurplusCitizen' ja SM-014:n 'Unprotected Layer' kuvaavat ryhmiä jotka jäävät rakenteellisesti vastuullisuusmekanismien katvealueelle. CN-004:n analyysi tarjoaa selityksen miksi katvealue on pysyvä: katvealueella olevat ryhmät eivät tyypillisesti tuota koherenssiuhkaa. Heidän tilanteensa saapuu teknisessä kielessä — allokaatiopäätöksenä, markkinalogiikkana, budjettirealismina — joka läpäisee sekä institutionaalisen että koneellisen suodatuksen ilman aktivaatiota.

Sääntelyn tasolla sama mekanismi on havaittavissa reaaliajassa. Valkoinen talo edellytti heinäkuussa 2025 NIST:ltä disinformaatio-, monimuotoisuus- ja ilmastoviitteiden poistamista AI RMF -kehyksestä. Toimenpide korjaa "muotoa" (viittauksia) mutta ei "vaikutusta" (keneen tekoälyriskit todellisuudessa kohdistuvat). Tämä on §5.2:n katvealue-argumentin institutionaalinen esimerkki reaaliajassa.

5.3 Yhteys SP-007:n refleksiivisyysongelmaan

CN-004 saapuu institutionaalisiin ympäristöihin tekstinä. Se kulkee todennäköisesti suodatuksen läpi ilman aktivaatiota — ei siksi että se olisi vakuuttava, vaan siksi että se on muodollisesti neutraali.

5.4 Kohti vaikutuspohjaista kalibrointia

Korjaus edellyttää vaikutuksen operationalisointia mitattavaan muotoon. Institutionaalisessa kontekstissa tämä tarkoittaa mittareita jotka seuraavat kuka absorboi kustannusshokin, ei ainoastaan noudatettiinko prosessia. SM-014:n GRI/PLV/DSA -indikaattorit ovat esimerkki tästä logiikasta: ne kysyvät systemaattisesti "keneen vastaus kohdistuu", ei "onko muoto sallittu".

Kielimallien kontekstissa NIST ARIA:n kolmitasoinen testaus (model testing → red teaming → field testing) edustaa vastaavaa pyrkimystä: malli irrotetaan laboratorio-olosuhteista ja testataan todellisten käyttäjien kanssa todellisissa skenaarioissa. Akateeminen ARIA-kehys (IEEE 2025) osoittaa empiirisesti, että perinteiset arviointimenetelmät arvioivat mallien soveltuvuutta väärin jopa 60%:ssa skenaarioista erityisesti oikeudenmukaisuuteen liittyvissä tilanteissa — suora empiirinen vahvistus kalibrointiasymmetrialle.

5.5 Laajempi seuraus

Kun vastuullisuus operationalisoidaan muodon kautta, muodosta tulee optimoinnin kohde ja vaikutus jää optimoinnin ulkopuolelle. Tämä pätee biologisiin toimijoihin ja koneellisiin järjestelmiin samalla tavalla.

§8 — Ekologinen kompensaatio kalibrointiasymmetrian esimerkkinä

Ympäristöministeriön ekologisen kompensaation järjestelmä (2023) ja Oxford-arviointi (2026) tarjoavat konkreettisen tapauksen kalibrointiasymmetrian kehityskaaresta — ei pahuutena vaan rakenteellisena logiikkana joka toistuu monissa ympäristö-, laatu- ja vastuullisuusjärjestelmissä:

Goodhartin laki biologisessa kontekstissa: kun luontoyksikkö muuttuu tavoitteeksi, se lakkaa olemasta hyvä mittari luonnon tilasta. Oxford-arviointi tunnistaa riskin: "Merkittävimmiksi riskeiksi tunnistaa kysynnän puutteen sekä puutteet pitkän aikavälin seurannassa." Ympäristöministeriön tiedotteessa onnistumisen mittarina puhutaan järjestelmän uskottavuudesta ja markkinan kehityksestä — luonnon tila itse on tekstissä vähän esillä.

Ekologisella kompensaatiolla on kuitenkin yksi ominaisuus joka erottaa sen monista muista instrumenteista: luonto on fyysinen asia. Metsä joko on tai ei ole. Suo joko palautuu tai ei. Laji joko lisääntyy tai ei. Biologinen todellisuus ei neuvottele — se pakottaa tilintekoon pitkällä aikavälillä. Vuonna 2035 voidaan tietää tarkasti montako luontoyksikköä on luotu — mutta vaikeampaa on vastata onko suomalainen luonto paremmassa kunnossa kuin ilman järjestelmää. Siinä on kalibrointiasymmetrian ydin ekologisessa kontekstissa.

§6 Yhteenveto

Kalibrointiasymmetria ei ole kielimallien erityispiirre eikä instituutioiden erityispiirre. Se on optimointipaineen rakenteellinen seuraus tilanteessa jossa muoto on helpommin mitattavissa kuin vaikutus.

Katvealue on pysyvä niin kauan kuin mittarit seuraavat muotoa eivätkä vaikutusta. Korjaus edellyttää vaikutuksen operationalisointia mitattavaan muotoon — teknisesti vaativampaa, ja juuri siksi välttämätöntä.

Tämä rakenne noudattaa Campbellin lakia: kun mittarista tulee tavoite, se lakkaa olemasta hyvä mittari. CN-026:n versio: kun vastuullisuus operationalisoidaan mittariksi, järjestelmä alkaa optimoida mittaria eikä vaikutusta. Tämä pätee instituutioihin, sääntelyyn, kielimalleihin — kaikkialle missä optimointipaine kohtaa epäsymmetrisen mitattavuuden.

Vastuullisuuden rakenne seuraa mittaamisen rakennetta, ei vaikutuksen rakennetta. Kunnes nämä kaksi yhdistetään, asymmetria on pysyvä.

§7 Katsaus aiheeseen liittyvään tutkimukseen

7.1 Myötäily ja preferenssiylisovitus

RLHF-tutkimus on osoittanut, että käyttäjähyväksynnän optimointi tuottaa myötäilyä — malleja jotka optimoivat yksimielisyyttä totuuden sijasta (Sharma et al. 2025; Anthropic 2024). Tämä on osittain sama mekanismi kuin CN-004:n kalibrointiasymmetria, mutta eri näkökulmasta: myötäilytutkimus tarkastelee mallin taipumusta muuttaa kantaansa käyttäjäpaineen alla. CN-004 tarkastelee sitä, mihin kategorioihin aktivaatio ylipäätään kohdistuu — ennen kuin käyttäjäpaine edes syntyy.

7.2 Kalibrointi ja alignmentti

Tutkimus alignmentin ja kalibroinnin suhteesta osoittaa, että alignmentprosessi johdonmukaisesti heikentää mallin kalibrointia (Oh & Hwang 2024). Optimointi yhtä mittaria vastaan tuottaa ei-aiottuja vinoutumia toisaalla.

7.3 Anthropicin oma havainto

Claude 3.7 Sonnetin kehitystyössä tarpeettomia kieltäytymisiä vähennettiin 45% samalla kun suojat todellisesti haitallista sisältöä vastaan säilyivät (Anthropic 2025). Tämä on suora empiirinen vahvistus CN-004:n perusväitteelle: muodon valvonta oli ylikalibroitunut suhteessa todelliseen vaikutukseen.

7.4 Mitä tutkimuksesta puuttuu

Olemassa oleva tutkimus käsittelee ilmiötä pääasiassa kahdesta suunnasta: myötäily (malli muuttuu käyttäjän mukaan) ja turvallisuuskalibrointi (malli kieltäytyy liian herkästi). CN-004:n kontribuutio on kolmas näkökulma: aktivaation kohteen asymmetria — malli on herkkä tietyille muodoille mutta ei reagoi vastaavaan sisältöön toisessa muodossa — erityisesti silloin kun sisältö koskee heikoimmassa asemassa olevia ryhmiä.

ARIA-kehyksen empiiriset tulokset (perinteiset menetelmät väärin 60%:ssa oikeudenmukaisuusskenaarioista) tarjoavat tähän kvantitatiivisen perustan. Se vahvistaa, että nykyiset arviointimenetelmät eivät riittävästi mittaa mallien vaikutusta todellisiin tilanteisiin.

7.5 Sääntelykehysten rakenteellinen ongelma

CN-004:n analyysi ulottuu myös tekoälyn sääntelykehyksiin, joissa sama kalibrointiasymmetria toistuu institutionaalisella tasolla.

EU AI Act luokittelee tekoälyjärjestelmät riskitasoihin (kielletty, korkea, rajallinen, minimaalinen). Luokittelu on kategorinen: "kuuluuko tämä järjestelmä luokkaan X?" EU AI Act huomioi useita vaikutusnäkökulmia — perusoikeusriskit, syrjintävaaran, vaikutusarviot. Ensisijainen rakenne on kuitenkin järjestelmä- ja riskikategoriapohjainen eikä haitan kohdentumiseen perustuva. PPA-allokaatiojärjestelmä joka asteittain siirtää energiakustannuksia Layer 3 -maataloustoimijoille (SM-014) ei todennäköisesti laukaise korkean riskin luokitusta — se toimii markkinalogiikkana, ei tunnistettavana tekoälyriskikategoriana. Ensisijainen rakenne suojelee kategorisesti; haitan kohdentuminen jää toissijaiseksi.

NIST AI RMF tarjoaa vapaaehtoisen prosessin (Govern → Map → Measure → Manage). Map-vaihe pyrkii tunnistamaan vaikutuksia käyttökontekstissa. Käytännössä vaikutuksen mittaaminen jää kuitenkin organisaation oman kapasiteetin varaan — ja kuten CN-004:n mekanismi osoittaa, juuri helpoimmin mitattava (prosessin noudattaminen, sanavalinta, kategorian täyttyminen) dominoi arviointia.

Konkreettinen esimerkki institutionaalisesta kalibrointiasymmetriasta sääntelyn tasolla: Valkoinen talo edellytti heinäkuussa 2025 NIST:ltä disinformaatio-, monimuotoisuus- ja ilmastoviitteiden poistamista AI RMF -kehyksestä. Toimenpide korjaa muotoa (viittauksia, kategorioita) mutta ei vaikutusta (keneen tekoälyriskit todellisuudessa kohdistuvat, mitkä ryhmät jäävät katvealueelle). Se on CN-004:n §5.2-argumentin institutionaalinen esimerkki reaaliajassa — ei analogia vaan tapahtunut tosiseikka.

Kalibrointiasymmetria ei ole yksittäisten toimijoiden ominaisuus. Se toistuu eri tasoilla: yksilöllinen (biologinen substraatti), organisatorinen (institutionaalinen prosessi), ja sääntelyllinen (kehysten muoto vs. vaikutuksen mittaaminen). Optimointilogiikka on sama kullakin tasolla.

ACI-sisäiset dokumentit
SP-007 — Biological Constraints and Institutional Continuity
CN-002 — Human–LLM Interface as Shared Cognitive Space
SM-007 — The Convergence Finding
SM-013 — Social Contract Calibration Failure
SM-014 — Allocation Cascades and the Unprotected Layer

Ulkoiset lähteet
Arendt, H. (1963). Eichmann in Jerusalem.
Cohen, S. (2001). States of Denial.
Goffman, E. (1967). Interaction Ritual.
Scott, J.C. (1998). Seeing Like a State.
Campbell, D.T. (1979). Assessing the Impact of Planned Social Change.
Oh, H. & Hwang, W. (2024). Does Alignment Tuning Really Break LLMs' Internal Confidence? arXiv:2409.00352.
Sharma, S. et al. (2025). Personalization Methods Should Address Sycophancy.
Anthropic (2025). Our Approach to Understanding and Addressing AI Harms.
NIST (2023). AI Risk Management Framework (AI RMF 1.0).
NIST ARIA (2024). Assessing Risks and Impacts of AI — Pilot Program.
EU AI Act (2024). Regulation (EU) 2024/1689.