Politikų tinklaraščių kalbos analizė
Analizuojant Seimo stenogramas galima sudaryti Seimo narių kalbos panašumo žemėlapius. Tuos pačius analizės įrankius galima taikyti ir politikų rašomųtinklaraščių analizei, sudarant politikų kalbos panašumo žemėlapį remiantis jų publikuojamais tekstais.
Pasinaudojant Polilogo sudarytu rašančių politikų sąrašu, sudaromas toks žemėlapis:

Kadangi tik Tėvynes sąjunga (pažymėta žaliai) turi daugiau nei viena ar du tinklaraščius, kalbos analizė pagal priklausimą politinei partijai nelabai galima. Nors Naujosios sąjungos abu tinklaraščiai žemėlapyje yra šalia, tai reiškia kad naudojama panaši kalba, o dauguma Tėvynės sąjungos tinklaraščių yra žemėlapio centre, kol kas negalima būtų daryti išvados kad priklausomybė politinei partijai nusako tinklaračiuose naudojamos kalbos stilių ir tematiką. Tam kad būtų daromos tokios išvados reikia kad į analizę būtų įtraukta daugiau įvairių politinių partijų tekstų.
Partinė priklausomybė žinoma nėra vienintelis žemėlapio interpretavimo būdas. Įdomi grupė yra Zuoko, Kubiliaus ir Stomos tinklaraščiai. Rašomi profesionalių žurnalistų, lyderių, opozicijos (ne parlamentine prasme bet pastovaus valdžios krikavimo)? Loretos Kudrienės ir Naglio Puteikio tinklaraščiai yra apie miesto problemas (Kaunas, Klaipėda)? Ar todėl jų naudojama kalba nepanaši į visų kitų politikų ir šie tinklaraščiai atsiranda žemėlapio pakraščiuose?
Dabar analizuojami tik tie tekstai kurie yra pasiekiami per RSS, tačiau nemažai politikų, remiantis Polilogu, turi tinklaraščius be RSS. Praplėtus programą taip kad būtų galima analizuoti ir šiuos puslapius, atsirastų kiek daugiau tekstų analizei.
2008 - 2012 metų Seimo kadencija
2008 - 2012 metų Seimo veiklos duomenys yra skelbiami Atvirame Seime.
2004 - 2008 metų Seimo kadencijos duomenys yra prieinami kitu adresu seimas2004.idemokratija.info (aiškų būtų buvę geriau daryti seimas.idemokratija.info/2008/... formos adresus, bet tai nebuvo numatyta).
Apibendrinanti 2004 - 2008 metų Seimo darbo statistika
2004 - 2008 metų Seimas baigia darbą. Čia pateiksiu šios Seimo kadencijos darbo apibendrintą statistiką iš Atvirame Seime sukauptų duomenų.
Svarstyti klausimai
Šios kadencijos Seimas svarstė 8912 klausimus. Ar tai daug? Viso buvo 471 posėdžiai, vidutiniškai 19 klausimų per vieną Seimo posėdį. Per mėnesį vidutiniškai vykstant 11 posėdžių išeina 209 klausimai. Nemažas darbas norint išnagrinėti kiekvieno klausimo argumentus, susiformuoti nuomonę, reikalinga sprendimo priėmimui balsavimo metu. Tačiau nevisi 8912 Seime svarstyti klausimai yra apie politikos formavimą, ar jei yra apie politikos formavimą yra sudėtingi, reikalaujantys diskusijų ir išsamių aiškinimusi. Seimas nesuteikia įstatymams požymių, pagal kuriuos būtų galima grupuoti įstatimus: procedūrinis, pataisa, projektas, ... todėl negalima atmesti nereikšmingų klausimų ir taip susidaryti tikslesnį įspūdį apie Seime svarstomų klausimų, reikšmingiau įtakojančių politikos formavimą, kiekius.
Vis dėlto įvertinus Seimo narių veiklą klausimo svarstymo procese galima įvertinti kiek, iš svarstytų klausimų sukėlė didesnį Seimo narių susidomėjimą. Posėdžių lankomumas, balsavusiųjų, pasisakimų skaičius, prieštaraujančių balsų procentas yra požymiai leidžiantys įvertinti klausimo svarbą. Taip skaičiuojant Seime svarstytus klausimus kuriuose:
- dalyvavo ne mažiau kaip 115 Seimo narių,
- iš jų balsavo ne mažiau kaip 65%,
- klausimo svarstymo metu pasisakė bent 10 Seimo narių
- ir bent 25% Seimo narių balsavo priešingai nei visas likęs Seimas
gauname tik 24 klausimus (iš 8912).
Lankomumas
Dažniausiai posėdžius lankantys Seimo nariai
- Jurgis Razma 96,82%
- Etela Karpickienė 94,95%
- Algis Rimas 94,90%
- Edmundas Pupinis 94,69%
- Rimantas Smetona 94,69%
Seimo nariai privalo lankyti posėdžius, nebent esant pateisinamoms priežastims (Seimo statutas, 11 straipsnis). Vidutiniškai 82% (113) Seimo narių lanko posėdžius. Turint omenyje, kad apie 10 Seimo narių yra ministrai, tik apie 15 iš visų Seimo narių nedalyvauja posėdyje, galbūt yra komandiruotėse ar užsiima kita su įstatimų leidyba susijusia veikla. Tačiau lankomumas nesuteikia pilno Seimo darbo įvertinimo.
Balsavimas
Dažniausiai balsavime dalyvaujantys Seimo nariai
- Jonas Juozapaitis 80,91%
- Vida Čigriejienė 79,67%
- Aidas Gedvilas 78,52%
- Liudvikas Sabutis 76,81%
- Vytautas Saulis 74,51%
Pagrindinis Seimo nario darbas yra balsuoti dėl posėdžiuose svarstomų klausimų, todėl nors ir prisiregistravęs kaip dalyvaujantis posėdyje Seimo narys nebūtinai atlieka savo tiesioginį balsavimo darbą. Tik 48% iš, kaip dalyvaujančių posėdyje prisiregistravusių, Seimo narių balsuoja dėl svarstomų klausimų.
Opozicija frakcijai ir Seimui
Seimo nario(-ės) nuomonė gali sutapti arba būti priešinga bendrai frakcijos, kuriai Seimo narys(-ė) priklauso, nuomonei. Taip pat ir Seimo nario balsas gali sutapti arba prieštarauti bendrai Seimo nuomonei.
Dažniausiai frakcijai prieštaravę Seimo nariai:
- Julius Veselka 7,33% (Veselka nepritaria frakcijos nuomonei 7 iš 100 klausimais, neskaičiuojant 'Susilaikė' balsų)
- Egidijus Klumbys 6,56%
- Kazys Bobelis 6,28%
- Kęstutis Čilinskas 6,22%
- Vytautas Čepas 5,00%
Dažniausiai Seimui prieštaravę Seimo nariai:
- Egidijus Klumbys 35,29%
- Julius Veselka 32,43%
- Kęstutis Čilinskas 21,93%
- Petras Gražulis 20,22%
- Eligijus Masiulis 19,05%
Kalbos
Daugiausia kalbantėję Seimo nariai
- Egidijus Klumbys 1573
- Julius Veselka 1334
- Algirdas Sysas 755
- Saulius Pečeliūnas 646
- Antanas Matulas 606
Komandiruotės
Grafikas rodantis kurį metu laiką Seimo nariai labiausiai mėgsta komandiruotėms.
Apibendrintą statistiką galima rasti šiame Google dokumente. Visi Atviro Seimo duomenys
Politika be politinio talento
Akivaizdu, kad valstybės tarnyboje turėtų dirbti sumanūs ir talentingi žmonės. Atitinkamai, valstybės tarnyba turi būti patraukli vieta dirbti tokiems žmones. Tačiau dažnai visi "akivaizdu" ar "tik kvailys nesutiks" nereiškia, kad po to sekantys teiginiai yra neginčijamai teisingi.
Sekant John Stuart Mill galima prieštarauti teigiant, kad talentingiausiu žmonių pritraukimas į valstybės tarnybą gali būti pražūtingas valstybei. Kuo efektyvesnis valstybės aparatas pritraukiantis sumaniausius žmones į biurokratiją, tuo mažiau talentingų žmonių lieka visuomenėje. Tai savo ruožtu reiškia, kad visuomenėje nebėra kam suprasti valstybės politiką ir argumentuotai ją kritikuoti. Bet kokie teisingi ir neteisingi visuomenės argumentai bus atremti kur kas didesnį išsilavinimą ar patirtį turinčių valstybės tarnautojų. Kitaip sakant valstybė lieka be pilietinės visuomenės ir galų gale stagnuoja.
Šį argumentą galima grysti vidutinio darbo užmokesčio skaičiavimais valstybės tarnyboje ir privačiame sektoriuje, tačiau šis pagrindimo kelias būtų neįtikinantis bei vedantis į begalinius ginčus apie "teisingus" užmokesčių ir kitų kompensacijų už darbą skaičiavimus. Net ir tarus, kad valstybės tarnyboje vidutiniai atlyginimai yra didesni nei privačiame sektoriuje, būtų sunku prieštarauti teiginiams, kad didesni biurokratų darbo užmokesčiai yra būtini korupcijos prevencijai ir, kad yra būtina valstybės tarnyboje suburti kompetetingus asmenis, kitaip sunku įsivaizduoti sėkmingą valstybės funkcionavimą.
Todėl, nors ir atrodytų logiškas, Mill'o argumentas neįtikina. Tačiau toks jis atrodo tik, jei daroma prielaida, kad yra šnekama apie tiesioginį visuomenės dalyvavimą politikoje. T.y. jei talentingų žmonių įdarbinimą valstybės tarnyboje suprantam, kaip atitinkamą visuomenės politinio potencialo praradimą. Tokia situacija gali būti tik tiesioginėje demokratijoje, kur individas betarpiškai dalyvauja politikos formavime. Tačiau kalbant apie atstovaujamąją demokratiją, kur individas politikoje dalyvauja per deleguotus atstovus, Mill'o argumentas darosi įtikinamesnis.
Parlamentas yra pagrindė atstovaujamosios demokratijos institucija, joje veikiančios politinės jėgos yra politinės partijos. Politines partijos parlamente atstovauja savo rinkėjus kur vykdo politinę programą pristatytą visuomenei rinkimų metu. Tokiu būdu konkurencija dėl talentingų žmonių turi būti suprantame ne kaip tarp valstybės tarnybos ir visuomenės, bet kaip tarp valstybės tarnybos ir partijų. Valstybės politikos formavime norintis dalyvauti pilietis renkasi tarp darbo politinėje partijoje ir valstybės tarnyboje. Jei valstybės tarnyba, o ne politinė partija teikia geresnes finansines sąlygas ir platesnes realaus politinio poveikio galimybes, tada politinis talentas gravituoja link valstybės tarnybos, partijose paliekant vidutiniokus.
Todėl ne darbo užmokesčio skirtumai patvirtina šį argumentą, bet tokie įvykiai, kaip Seimo rinkimus laimėjusių konservatorių partijos nesugebėjimas ne tik rasti tinkamo partijos nario į svarbų užsienio reikalų ministro postą, bet ir partijos lyderių talento stoka išnaudoti sėkmingus rinkimų rezultatus. Taip Lietuvoje susidaro geresnes sąlygas užsiimti politikos formavimu esant valstybės tarnautoju, o ne politinės partijos nariu. Tokia sistema funkcionuoja už demokratinių procesų ir institucijų ribų: rinkimų ir parlamento. Tai neleidžia pilietinei visuomenei per atstovus dalyvauti politikos formavime ir sukurti politinės konkurencijos atmosferą, o be politinės konkurencijos valstybė yra ne demokratinė.
Lingvistinis posūkis
Politikai yra arba nekompetetingi neišmanėliai, arba savanaudžiai melagiai, arba demagogai todėl neverta vargintis klausant ir bandant suprasti ką jie kalba. Toks yra dažnas, bet labai klaidingas požiūris. Kalba yra vienokių ar kitokių ketinimų išraiška. Politikų ketinimai, kokie jie bebūtu, visada turi pasekmių asmeniui, bendruomenei, interesų grupėms ar valstybei. Todėl politikų kalbos yra visada svarbios ir prasmę galima rasti net ir didžiausių demagogų kalbose.
Pagrindinis Atviro Seimo tyrimo objektas yra Seimo narių veikla įstatymų leidybos procese lankomumas, balsavimų sutapimai tarp frakcijos ir kitų seimo narių bei balsavimo panašumų (klasterių) žemėlapių sudarymas. Tačiau dabar Atviras Seimas daro "lingvistinį posūkį" ir pradeda analizuoti Seimo posėdžių stenogramas, svarstomų klausimų tekstus ir kitus Seimo kalbinius aktus.
Pirmas žingsnis yra 2004-2008 Seimo kadencijos posėdžių stenogramų analizė. Suskirsčius visų stenogramų tekstus pagal kalbos autorių, galima lengvai analizuoti kiekvieno atskiro Seimo nario kalbos savybes bei lyginti Seimo narių kalbos panašumus, o pagal panašumo laipsnį sudaryti panašiausiai kalbančių Seimo narių grupes.
Kelios, pagal kalbos panašumus susidarančios, grupės:


Pilna Seimo narių grupavimo dendrograma. Įtraukti tik tie Seimo nariai, kurių pasisakymų žodžių kiekis viršija bendrą Seimo narių pasisakymuose vartojamų žodžių kiekį. Panašumui nustatyti naudojamas Pearson koreliacijos koeficientas.
Kaip ir Seimo narių klasterizavimo pagal balsavimą atveju, kiekybiniai tyrimo metodai negali įvertinti ar apibūdinti susidariusių grupių, tai galima atlikti tik atlikus kokybinę analizę. Todėl stenogramų analizės pagalba susidariusių grupių priskyrimas kairei, dešinei, "sisteminėms", "nesisteminėms" partijoms yra priklausomas nuo interpretuojančiojo politinių pažiūrų ir naudojamų politinių teorinių modelių.
Tuos pačius duomenis analizuojant kitu kampu, galima sudaryti dažniausiai kartu naudojamų žodžių grupes. Tačiau čia susiduriama su Lietuvių kalbos žodžių darybos ypatumais. Žodžių linksniai rašomi skirtingai ir dėl to gaunamos labai plačios grupės, kur informacija paskęsta triukšme (šią problema iš dalies esu išsprendęs sudarant žodžių debesis). Nepaisant to susidariusios žodžių grupės atspindi jų vartojimo būdus.


Pilna žodžių naudojimo dendrograma.
Naudojantis tokiomis žodžių grupėmis galima ne tik matyti kokios savokos formuoja vieną ar kitą diskusijos temą, bet ir sudaryti automatinį tekstų atpažinimo mechanizmą pagal pasirinktą temą.
Bet kokia tolimesnė lingvistine Seimo darbo analizė neišvengiamai turi spręsti Lietuvių kalbos žodžių darybos problemas. Tam būtinas algoritmas nustatantis žodžio šaknį. Galbūt per 2-3 metus pavyks išspręsti šią problemą ir pateikti išsamesnių Seimo darbo vertinimų, paremtų kalbos analize.
Papildymas 2008-11-08
Tie patys stenogramų analizės duomenys tik pavaizduoti ne dendrogramoje, o multidimensional scaling MDS. Neesu tikras ar žemėlapio sudarymo algoritmas veikia teisingai, nes, tarp kitų neatitikimų, dendrogramoje Petras Auštrevičius kalba tiap kaip Gedimimas Kirkilas, tačiau MDS diagramoje Auštrevičius yra šalia Vytauto Grubliausko (tai atrodo yra net teisingiau). Kadangi visą tai kolkas yra daugiau galimybių tikrinimas, į galimas klaidas didesnio dėmesio nekreipiu, atitinkamai žinoma nereiktų visiškai pasitikėti ir čia pateikiamais rezultatais.
Seimo nario balsavimų paieška pagal klausimų formuluotes
Atvirame Seime dabar galima pamatyti, kaip pasirinktas Seimo narys(-ė) balsavo už klausimus, kurie yra atrenkami pagal nurodytą paieškos kriterijų. Taip galima sužinoti, kaip pavyzdžiui Alfredas Pekeliūnas balsavo už klausimus, kurių formuluotėje yra žodžiai "šeimos politikos".
Dėkui dz0 už tokios paieškos idėją :)
Mano Seimas
Mano Seimas yra nauja Seimo narių darbą analizuojanti svetainė, prie kurios kūrimo šiek tiek prisidėjau ir aš. Esminis Mano skirtumas nuo Atviro Seimo yra tas, kad antrajame visas duomenų pateikimas yra automatizuotas. Bet koks duomenų filtravimas ir apdorojimas yra atliekamas remiantis kiekybiniais metodais, taip išvengiant subjektyvių žmogaus sprendimų. Naudojamus Google paieškų rezultatus irgi tam tikra prasme galima priskirti tokiam objektyviam metodui. Tuo tarpu Mano Seime yra stengiamasi atrinkti įdomiausius balsavimus, pateikti klausimus Seimo nariams remiantis ekspertų, politologų ar politikų nuomone. Nei kiekybinis, nei kokybinis metodai imami atskirai negali padėti susidaryti išsamaus, kiek tai išvis įmanoma, požiūrio apie socialines institucijas. Tačiau kombinuojant šiuos du tyrimo metodus, galima pasiekti kur kas sėkmingesnių rezultatų.
Naujas Atviras Seimas
Atviras Seimas pabaigtas. Dabar jame galima matyti Seimo narių darbo ir komandiruočių statistiką. Taip pat Atvirame Seime atsirado galimybė atlikti svarstytų klausimų paiešką pagal Seimo narių dalyvavimo posėdyje požymius: lankomumą ir balsavimą. Paieškos įrankis lengvai leidžia atrasti kontraversiškus, bent kiek ženklesnes diskusijas ir opoziciją Seime sukėlusius, klausimus. Tokių yra vos keliasdešimt iš tūkstančių teisės aktų priimamų Seime.
Iki šiol projektas buvo labiau skirtas statistinių duomenų atvaizdavimui, tačiau su Atviru Seimu pradedama teikti Seimo darbo analizės įrankius leidžiančius besidomintiems Seimo darbu patiems formuoti klausimus ir galimus analizės pjūvius. Klausimų paieška yra pirmas toks Atviro Seimo įrankis.
Taip pat norint skatinti panašių projektų, analizuojančių Seimo darbą, atsiradimą visi Atviro Seimo duomenys ir programinis kodas yra viešai prieinami.
Atvirą Seimą reiktų tobulinti pradedant išvaizda baigiant naujų informacijos pateikimo ir analizės idėjų įgyvendinimu, todėl būtų šaunu jei atsirastu norinčių prisijungti prie Atviro Seimo.
Papildymai Atvirame Seime
Atviras Seimas papildytas informacija apie Seimo narius. Seimo nario ar narės puslapis dabar teikia šią informaciją:
- Jei senoje, Seimo darbą analizuojančioje svetainėje, nestatistinė informacija apie Seimo narį apsiribojo pirmų 6 Seimo nario/narės nuotraukų rodymu iš Yahoo paieškos, tai naujoje versijoje, naudojantis Google Ajax Search yra pateikiami Seimo nario ar narės paieškos rezultatai nuotraukose, filmuose, žiniasklaidoje irtinklaraščiuose. Paskutinės dvi paieškos atliekamos naudojantis Google Custom Search Engine sukurtomis priemonėmis: žiniasklaidai ir tinklaraščiams.
- Taip pat teikiama Seimo nario/narės karieros istorija Seime: komisijos, komitetai, frakcijos ir t.t. kuriose Seimo narys/narė yra dirbęs kadencijos metu. Informacija yra imama iš atitinkamo Seimo puslapio. Kol kas ši puslapio dalis yra nesutvarkyta, nes neturiu idėjų kaip jį pateikti. T.y. kaip padaryti naudingiau nei atitinkamasLRS puslapis. Viena iš idėjų yra pasinaudoti laiko ašies (timeline) vizualizacija, bet pabandžius SMILE Timeline nieko gero neišėjo.
- Kol kas visai nepadaryta statistinė Seimo nario/narės veiklos Seime analizė: lankomumas, balsavimai, kalbos. T.y. ta dalis kuri yra pateikiama senoje tinklalapio versijoje
Tačiau svarbiausias pasikeitimas Atvirame Seime, palyginus su senąja versija yra visų Atvirame Seime naudojamų duomenų pateikimas formatais tinkamais kompiuterinei analizei. Prie Seimo nario/narės puslapio adreso pridėjus formato pavadinimą galima gauti informaciją apie tą seimo narį atitinkamu formatu. Šiuo metu palaikomi XML ir JSON formatai. Taip Justino Karoso duomenis XML ir JSON formatais yra pasiekiami adresais:
http://seimas.idemokratija.info/seimo_nariai/politikas/Justinas_Karosas.xml
http://seimas.idemokratija.info/seimo_nariai/politikas/Justinas_Karosas.json
Pats failų formatas keisis ir ilgainiui turėtų atsirasti RDF formatas, leidžiantis Seimo narių darbo analizei panaudoti semantinių tinklų technologijas. Jei pavyks įgyvendinti šį planą, tada Atviras Seimas nebeteiks duomenų, apie Seimo narius, vizualizacijos, o puslapis taps analitine politikos analizės priemonė, teikianti tiek pirminius duomenis, tiek analizės rezultatus atvirais, kompiuteriniam apdorojimui pritaikytais, formatais (galbūt tinklalapyje liks tik laukas leidžiantis įvesti SPARQL ar tam tikslui sukurtos kalbos užklausas). Tai galbūt leistų kitiems kurti politinės informacijos tinklalapius su minimaliomis programamavimo ir laiko sanaudomis.
Posted in meta | no comments |
Atviras kodas Atviram Seimui
Atviro seimo kodas nuo šiol yra atviras, kaip Google Code projektas. Norintys vystyti ar kurti naujus Seimo darbo analizės ir atvaizdavimo įrankius gali naudotis esamu kodu, skaitančiu nepritaikytus automatiniam apdorojimui Seimo HTML puslapius ir verčiančius juos į struktūrinius duomenis. Dabar yra padaryta:
- Seimo nariu komandiruotės.
- Seimo narių pareigos ir kita asmeninė informacija
- Seimo posėdžių statistika: dienotvarkės, balsavimas ir lankomumas
- Visų duomenų pateikimas (daromas) XML, JSON, RDF/OWL formatais
- Taip pat yra kelionių atvaizdavimo google žemėlapyje kodas.
Tikiuosi atsiras norinčių prisijungti prie tolimesnio šio projekto vystymo :) Kodas rašomas su Ruby ir Ruby on Rails, labiausiai reikalingos Screen scraping žinios. Taip pat būtų labai įdomu pradėti taikyti semantinių tinlų technologijas.
Posted in seimas, meta | no comments |
