Beállítás kezdőlapnak! Hozzáadás a kedvencekhez! Az összes hírt látni akarom!  
Nyitóoldal Autó-motor Blogok Bulvár Életmód, egészség Gazdaság Kultúra, művészet Női témák Politika, közélet Sport Technológia Tudomány Videó
 

Kereső Világ

2015. július 29. 12:08

Nyelvi fejlődés hálózati megközelítésben

Két korábbi posztunkban (itt és itt) megnéztük, hogy a CHILDES adatbázis magyar nyelvű adatain hogyan változik a gyermekek összesített szótármérete és a lexikai elemek közötti kapcsolatok száma 17-36 hónapos korig. A mostani posztunkban ugyanezekkel az adatokkal dolgozunk, azonban a gyermekek nyelvfejlődését egyedileg vizsgáljuk, sőt, az egyik anyuka nyelvi hálózatát is górcső alá vesszük. A hálózati megközelítés mellett utánanéztünk a nyelvelsajátítás hagyományos irodalmának is, és ezeket kombinálva próbáljuk feltárni a kapott összefüggéseket.     Bevezetés A gyermeknyelv vizsgálatával számos tudományterület, köztük a pszichológia, a szociolingvisztika, a nyelvtudomány és az orvostudomány is előszeretettel foglalkozik. Ennek oka részben abban keresendő, hogy a gyermekek nyelvi fejlődése, az anyanyelv elsajátításának folyamata rendkívül izgalmas és lenyűgöző. A másik ok, amiért olyan nagy figyelem irányul rá, az az, hogy a gyermeknyelv egyfajta "kulcs" az emberi nyelv természetének és kialakulásának a megértéséhez (vö. Tancz 2011). Az élénk vizsgálódás ellenére mégis azt kell mondanunk, hogy a nyelvelsajátítás máig az emberi lélektan egyik legrejtélyesebb jelensége. Valójában nem tudunk kielégítő választ adni arra a kérdésre, hogy miként jut a gyermek a nyelvi rendszer birtokába (vö. Lengyel 1981). Két fő forrásként mindenesetre a biológiai örökséget és a környezet szerepét tartjuk számon (vö. Tancz 2011). A nyelvelsajátításban - akárcsak más pszichológiai jelenségek kialakulásában - bizonyos életkoroknak kitüntetett szerepe van (vö. Tancz 2011). Az elsajátítás, illetve a kommunikáció és a beszéd kialakulása folyamatos és ugrásszerű fejlődési menetekben zajlik, és egymást követő, megfordíthatatlan fejlődési szakaszokhoz kötött. A szakaszok univerzálisak, azaz minden gyermekre jellemzőek - nem kapcsolódnak földrajzi területekhez, nyelvekhez, nyelvtípusokhoz vagy kultúrákhoz -, azonban azok kezdete, időtartama és módosulása egyénenként változhat (vö. Kenesei 2004). Tancz (2011) az alábbi legfontosabb szakaszokat különíti el a gyermekek nyelvi fejlődésében: Fejlődési szakasz Időszak Magzati kommunikáció a születésig Preverbális szakasz csecsemőkor Egyszavas kijelentések szakasza 10-18. hónap Távirati beszéd és szótári robbanás 1,5-3 éves kor A nyelv kialakulása alapfokon 3-6 éves kor Fokozatos gazdagodás és bonyolódás 7 éves kortól   Módszertan A hálózati vizsgálódás alapjául Jinyun Ke és Yao Yao 2008-as tanulmánya szolgált, akik 12 angol anyanyelvű gyermek, 6 fiú és 6 lány nyelvi hálózatát elemezték. Mivel a CHILDES adatbázis nem bővelkedik magyar nyelvű adatokban, mi összesen 5 gyerek, Andi, Éva, Gyuri, Miki és Zoli nyelvfejlődését tudtuk szemügyre venni. Az eredeti tanulmányhoz hasonlóan kétféle hálózattípuson követtük a gyerekek nyelvi adatainak időbeli változását. Az egyik hálózattípus úgy épül fel, hogy a szavak és a köztük lévő kapcsolatok hónapról-hónapra kumulálódnak (accumulative network), a másik hálózattípus pedig csak az adott hónapban elhangzott szavakat és köztük lévő kapcsolatokat tartalmazza (stage network). Ezeket a hálózatokat két mutató szerint vizsgáltuk meg. Az egyik mutató a gyermekek szótármérete, ami azt fejezi ki, hogy hány szót tartalmaz egy gyermek nyelvi hálózata, azaz hány szót használ beszéd közben. A másik az átlagos fokszám, ami pedig annak a mutatója, hogy egy gyermek nyelvi hálózatában egy szó átlagosan hány másik szóhoz kapcsolódik, tehát mennyire tudja a gyerek egymással kombinálni a szavakat. A szótárméret és a fokszám mellett kíváncsiak voltunk, hogyan alakul a gyermekek lexikai diverzitása, amelyet úgy kapunk meg, ha kiszámoljuk, hogy a gyermek megnyilatkozásaiban jelen lévő összes szó hány százaléka egyedi szó. A lexikai diverzitás tehát a lexikai gazdagságot, változatosságot fejezi ki. Ezeket a mutatószámokat párhuzamban állítjuk az egyik gyermek és édesanyjának nyelvi gráfjának segítségével, amikkel megvizsgáljuk, hogy mennyire van szinkronban a gyermek nyelvi fejlődése az anyuka beszédével. A hálózati megközelítés lehetővé teszi, hogy könnyedén megvizsgálhassuk, mely szavak töltik be a legfontosabb szerepeket a gyermekek és az anyák nyelvi hálózatában. Az eredeti tanulmányban a HITS algoritmust használták e célból, amely segítségével ún. hub és authority elemeket azonosíthatunk egy hálózatban. A hubok azok az elemek, esetünkben szavak, amelyek az információt tartalmazó szavakkal kapcsolódnak össze. Az authority elemek azok a szavak, amelyek az információt tartalmazzák. Minél jobb authority szavakkal kapcsolódik össze egy hub szó, annál jobb hub, és annál jobb egy authority szó, minél jobb hubok linkelik. A jelenlegi kutatásunkban a 17. és a 36. hónap közötti nyelvfejlődésre fókuszálunk, ezért tekintsük meg közelebbről ezt az időszakot a nyelvelsajátítás hagyományos szakirodalma és az általunk is alkalmazott hálózati megközelítés alapján!   A hálózati megközelítés eredményeinek összevetése a hagyományos szakirodalommal A szótárméret és az átlagos fokszám változása Az általunk vizsgált időszak kezdete az ún. "egyszavas kijelentések"-szakasz végére esik. Körülbelül a 10. és a 18. hónap között jelennek meg az egyszavas kijelentések (pl. mama, bácsi, vauvau stb.), amelyek Cole és Cole (2000) véleménye szerint egy egész mondatot is jelölhetnek. Tulajdonképpen ez az az időszak, amelyben a később az egész életünket végigkísérő komplex kommunikáció megjelenik (vö. Szomor 2009). Az adatbázisban csak a Zoli nevű kisfiúval készült felvételek esnek erre az időszakra, az ő nyelvfejlődését 17-26. hónapos koráig tudjuk követni. Az 1. és 2. ábra jól mutatja, hogy mindkét megfigyelt mutató (szótárméret és átlagos fokszám) jóval alacsonyabb, mint a következő nyelvfejlődési szakaszban, ahol robbanásszerűen megnő a használt szavak mennyisége és a köztük lévő kapcsolatok sűrűsége is. Ez egybevág a szakirodalomban megfigyeltekkel, ugyanis azt olvashatjuk, hogy valamikor másfél-kétéves kor környékén megváltozik a gyermekek beszédprodukciója, látványosan gazdagodni és bonyolódni kezd a nyelvhasználatuk. E változás a lányok esetében kissé korábban, a fiúknál később következik be (vö. Tancz 2011). A gazdagodás szótári robbanást jelent, amelynek során ugrásszerűen nő a szókincs, az aktív és a passzív szavak tekintetében egyaránt (vö. Butzkamm- Butzkamm 2008). A bonyolódás alatt azt értjük, hogy a gyermek elkezdi kombinálni az aktívan használt szavakat - megjelennek tehát a kétszavas kijelentések. A gyermek ekkortól kezdi anyanyelve szintaxisát megérteni (vö. Herrmann-Fiebach, 2007:69). Fokozatosan eljut a szómondatoktól az ún. telegrafikus beszédhez, amely már a mondatszerű közlések előhírnöke. Zoli nyelvi hálózatai alapján is levonhatóak ugyanezek a megállapítások, az ő esetében 20 hónapos kortól beszélhetünk szótári robbanásról és bonyolódásról. Ekkor a nagyjából 20 szavas szótára hirtelen 1000 szó fölé, a szavak átlagos fokszáma pedig kb. 2-ről 4,5 fölé emelkedik, és egyik sem tér vissza ilyen alacsony szintre. Az 1. videó Zoli kumulatív nyelvi hálózatának növekedését mutatja hónapról-hónapra, a hirtelen szótári robbanását 0:07-nél láthatjuk.   1. videó   Ebben az időszakban, de kicsit később alakul ki az ún. flexiós beszéd, amikor a gyerekek elsajátítják a különböző nyelvtani elemeket (pl. toldalékok, igekötők, névelők), és egyre bonyolultabb szerkezetű mondatokat képesek közölni és megérteni (részletesebben l. Gósy 2005). Az alaktani szabályokat elsajátítva a gyermek gyakran már nem a környezetéből hallott szóalakokat utánozza, hanem a különböző nyelvtani elemek használati szabályainak felismerése után maga igyekszik megalkotni a megfelelő formákat. A grammatizálódási folyamatban így szükségszerűen megjelenik a túlszabályosítás is, például mikor Miki a "patkánnyal" helyett "patkányval"-t, "söpör" helyett "söpöz"-t mond. Az 2. videó Miki, a 3. videó Éva, 4. videó Andi kumulatív nyelvi hálózatának növekedését mutatja hónapról-hónapra.   2. videó   3. videó   4. videó   Andi, Éva, Gyuri és Miki nyelvfejlődéséről már a távirati beszéd és szótári robbanás időszakából (nagyjából 1,5-3 éves korig) vannak adataink, de Zoli nyelvi adatai is átlógnak erre az időszakra. A szótárméret és az átlagos fokszám változásáról az öt gyerek nyelvi hálózata alapján azt állapíthatjuk meg, hogy a gyerkőcök nyelvi fejlődése alapvetően különböző, de egyes szempontok szerint mégis hasonló utat járnak be (1. és 2. ábra). Ez abban nyilvánul meg, hogy mind a szótárméret, mind a fokszám ingadozik az idő előrehaladtával, habár minden gyereknél más-más hónapokban. A jelenség legjobban Mikinél figyelhető meg, akinek nyelvi fejlődéséről 13 hónapon keresztül készültek felvételek. Az ő esetében 4 ilyen hullámot figyelhetünk meg, pontosabban 4 és felet, ugyanis az utolsó két hónapban valószínűleg egy 5. hullám van készülőben. De a többi gyereknél, akiknek minimum 3 hónapnyi beszédanyaguk rendelkezésünkre áll, is tisztán látszanak az ingadozások.   1. ábra   2. ábra   A szótárméret és az átlagos fokszám kapcsolatát vizsgálva az eredeti tanulmány szerzői arra jutottak, hogy azok ellentétes irányban korrelálnak egymással. Tehát az a gyerek, akinek kifejezetten magas a szókincse, az átlagosnál kevésbé kapcsolja egymáshoz az ismert szavakat, megnyilatkozásaiban a sok általa ismert szóból profitál. Míg az a gyerek, akinek a többiekénél alacsonyabb a szókincse, az átlagos fokszáma magasabb, magyarán hiába ismer viszonylag kevés szót, azokat nagyon jól tudja egymással kombinálni. A magyar adatokat kicsit nehezebb volt egymással összehasonlítani, ugyanis a gyerekekkel nem egységes korban készültek a felvételek, azonban vannak olyan időszakok, amikor több gyerekről egyszerre is vannak adataink (pl. 25-26 hónapos korban), valamint az egész időszakra nézve is levonhatunk következtetéseket. A magyar nyelvű adatok az angol nyelvű adatokhoz hasonlóan együttjárást mutatnak a szótárméret és az átlagos fokszám között, de érdekes módon azzal ellenkező irányút. Az általunk vizsgált öt magyar nyelvű gyermek esetében ugyanis, ha valamelyik gyereknek nőtt a szótármérete, az átlagos fokszáma is magasabb lett, és fordítva (3. és 4. ábra). 3 évesen a gyermek már elismétli a 3-4 szavas mondatokat is. Expresszív (kifejező, aktív) szókincse 900-1000, míg receptív (megértő, passzív) szókincse 2000-3000 szóra tehető (Pléh, 2006). Ebben az időszakban használja a többes számot és a névmásokat is. Ekkor jön el az ún. "verbális mámor" időszaka is, amikor az igék használata dominál, és már nem ritkák a többszörösen összetett mondatok sem (vö. Gósy 1984; 1999). Megjelennek a párbeszédek is, majd a 3. év végére a gyermek képessé válik 4-5 elemből álló mondatok képzésére. Ebből a korból Éva és Miki adatait tudjuk megvizsgálni. A szótárméret tulajdonképpen az expresszív szókinccsel egyezik meg. Éva éppen egy növekvő szakaszban volt 3 éves kora környékén, az ő szótármérete 35. hónapban meghaladta az 1500-at, tehát az átlagosnál bővebb expresszív szókinccsel rendelkezett ebben az időszakban. Miki szótármérete, aki egy csökkenő szakaszban volt éppen, nagyjából 400 volt a 36. hónapban, míg az előtte való időszakokban a 800 körüli szótárméretet is elérte. Azonban még így is kicsit alacsonyabbnak számít a szótármérete az átlagos megfigyeléseknél.   3. ábra   4. ábra   A lexikai diverzitás A szótárméret és az átlagos fokszám mellett érdemes a gyermekek lexikai diverzitását, változatosságát is megvizsgálni, hogy jobban feltárhassuk a növekvő és csökkenő időszakok közötti összefüggéseket. Az 5. ábrát a 1. és 2. ábrával összehasonlítva jól látható, hogy azokban a rövid időszakaszokban, amikor a szótárméret és az átlagos fokszám megnő, a lexikai diverzitás éppen lecsökken, és amikor előbbiek lecsökkennek, utóbbi megnő.   5. ábra   Az eddigiek alapján azt az elméletet állíthatjuk fel, hogy a gyermekek 1,5-3 éves koruk között több egymást követő etapban sajátítják el a nyelvet, amelyet a mutatószámok hullámzása is mutat. Vannak olyan időszakok, amikor a gyermekek új szavakat próbálgatnak, amiknek éppen akkor tanulják a jelentését, használatát, és még nem tudják a szavakat más szavakkal kombinálni. Ebben az időszakban a lexikai diverzitás magas lesz, hiszen az anyukájukat vagy a környezetükben lévő más személyeket ismételgetve próbálgatják a szavakat, és a próbálgatások közben sokszor el is hibázzák a hangalakokat, amelyek mind különböző lexikai elemeknek fognak minősülni. Viszont mivel nem ismerik még ezeknek a szavaknak a használatát, nem kombinálják a szavakat sem egymással, sem a szókincsük már meglévő elemeivel, így a szótárméret és az átlagos fokszám is alacsony lesz. Feltételezzük, hogy ezek olyan szituációkban vagy olyan témákkal kapcsolatban jönnek elő, amikkel a gyermek még nem találkozott, ezért a szókincsében még nincsenek meg a szituációhoz alkalmas kifejezések, hanem környezetétől próbálja a helyes szavakat elsajátítani. Emellett vannak olyan időszakok, amikor a gyerek a már elsajátított szókincsét használja, olyan szavakat, amiknek ismeri a használatát, jelentését és könnyedén kombinálni tudja azokat. Ekkor a lexikai diverzitás alacsony lesz, hiszen a szavakat már tudatosan használja, többször is a szituációban, és a szavak hangalakja is viszonylag egységes. A szótárát nagyobb teljességében tudja használni és a már ismert szavakat könnyedén egymáshoz tudja kapcsolni. Feltételezzük, hogy ezek olyan szituációkban vagy olyan témákkal kapcsolatban jönnek elő, amikkel a gyermek már találkozott, és a szókincsében már megvannak a szituációhoz illő szavak. Mivel a gyerekek különböző mértékben, időpontokban és gyakorisággal találkoznak ismert és ismeretlen szituációkkal, nem meglepő, hogy nyelvelsajátításuk különböző utakat jár be. Emellett bizonyára különböző biológiai tényezők is közrejátszanak a gyerekek nyelvelsajátítási folyamatainak egyediségében. Ami pedig csöppet sem elhanyagolható tényező a gyermeki nyelvelsajátításában, az az édesanya szerepe, amellyel a következőkben foglalkozunk.   Miki és Miki anyukája     5. videó   Bruner (1980) szerint a gyermek nyelvelsajátításában az anya és a gyermek ugyanolyan fontos szerepet játszik, melynek során az anya és gyermeke egy közös problémamegoldó folyamatban vesznek részt. A folyamat során az anya a gyerek nyelvi próbálkozásaira neki megfelelően, egyéni módon reagál, miközben a gyermek lehetőséget kap az anyai beszéd utánzására. Az utánzás az életkor előrehaladtával egyre kevésbé jellemző. Egy 2 éves gyermek megnyilatkozásainak még a 20%-a utánzás, egy 3 éves gyermek beszéde pedig már csak 2%-ban ismétli környezetének beszédét. Az utánzás tehát egyrészt arra szolgál, hogy a gyerek bővíteni tudja a saját rendszerét, másrészt ezen keresztül tudja a társas szerepeket is gyakorolni (vö. Klein 2011). Az édesanyák részéről jellemző a dajkanyelv, amely a világ talán összes országában létezik. A dajkanyelvben a kisgyermek bizonyos kezdetleges, de állandóan visszatérő hangjaihoz, hangsorozataihoz az édesanya és a gyermek környezetében élő más személyek bizonyos fogalmakat kapcsolnak. (pl.: papi, bibis) A dajkanyelv jellegzetességei közé tartoznak az egyszerű szavak, az egyszerű mondatok, a tiszta, egyértelmű hangsúlyozás, a magas hangfekvés és a kérdő jellegű intonáció a mondatok végén (vö. Klein 2011). A dajkanyelv hasznosságáról/károsságáról megoszlanak a vélemények. Az édesanyák közül Miki anyukájának a megnyilatkozásait tudtuk könnyedén elkülöníteni a többi társalgásban résztvevő megnyilatkozásaitól, de a kettejük adataiból is nagyszerű összefüggésekhez juthatunk. Az 6., 7. és 8. ábra tanulságos abból a szempontból, hogy Miki és Miki anyukájának megnyilatkozásai látványosan együttmozognak a szótárméretet, az átlagos fokszámot vagy a lexikai diverzitást figyelve, majd 3 éves kor környékén történik valami, és a két vonal egymáshoz való viszonya megváltozik. Miki 3 éves kora előtti megnyilatkozásait anyukájánál kisebb szótárméret, kisebb átlagos fokszám, és nagyobb lexikai diverzitás jellemzi. Tehát kevesebb szót használt, kevésbé tudta őket kombinálni, mint édesanyja, azonban több féle szót használt, ami valószínűleg azért van, mert az éppen gyakorolt szavakat különböző formában ejtette ki, pl. "dódítta", "gyógyítta" a "gyógyította" helyett. A 35. hónapban azonban Miki anyukájának extrém módon megnőtt a lexikai diverzitása Mikihez képest, az átlagos fokszáma lecsökkent, a szótármérete pedig közel azonos volt. Az egyik magyarázata ennek a jelenségnek, hogy Miki anyukája visszavett a dajkanyelvből, és elkezdett Mikivel bonyolultabb szerkezetekkel és gazdagabb szókinccsel kommunikálni, mivel Miki nyelvi fejlődése 3 éves kora környékére elérkezett arra a szintre, hogy ezt is megértse.   6. ábra   7. ábra   8. ábra   Hubs & authorities Ke és Yao tanulmányukban arra jutottak, hogy az édesanyák hub és authority elemei általában névmások, névelők, és nem tartalommal bíró szavak. A "you", "it", "that" és "and" minden anyánál beletartozott az első öt hub szóba, az "a", "the", "you", "that", "it", "your" és "in" pedig tipikus authority szavak voltak. A gyermekek hálózatainál pedig azt találtak, hogy kezdetben még tartalomszavak is megjelennek hub és authority szavakként, azonban a későbbiekben a tartalom nélküli szavak veszik át a helyüket, amilyeneket az anyák nyelvi hálózatai is tartalmaznak. A szakirodalomban is azt találjuk, hogy a telegrafikus beszéd időszakában a gyermek úgy kapcsolja a szavakat egymáshoz, hogy közben nem használ funkciószavakat (vö. Tancz 2011), amely tehát szinkronban van az előbbiekkel. Ez a funkciószavak használatával kapcsolatos kutatássorozatunk szempontjából külön érdekes. Az általunk kapott eredményeket itt lehet jobban megvizsgálni. A táblázatban szavakat a hub és authority értékeiknek megfelelően csökkenő sorrendben szerepelnek. Az anyukák közül Miki anyukáját, a gyerkőcök közül Mikit és Zolit érdemes figyelnünk, mivel az ő nyelvi fejlődésüket tudjuk leghosszabban követni. Miki anyukájának hub szavai között mi is főleg tartalom nélküli szavakat láthatunk, pl. "az", "jó", "és", "igen", "nem", de emellett megjelenik Miki és a többi családtag neve is. Miki anyukájának authority szavai között szinte ugyanazok a szavak jelennek meg, csak más rangsorban. Miki hub és authority szavai között anyukájához képest több tartalomszó bukkan ("bácsi", az "embej", a "néni", a "kávé"), valamint több féle alakban megjelenik az anya megszólítása ("anyu", "anu", "anya"), és olyan igék, mint a "fidej", "meséj", "tudom". Emellett tartalom nélküli szavakból is találunk sokat, pl. "hm", "igen", "nem", "de", "jó". A 36. hónap felé haladva mindkét szócsoportra jellemző, hogy egyre kevesebb tartalomszó foglal el előkelő helyet a rangsorokban. Zolinál is hasonlóakat figyelhetünk meg. Mindkettejüknél érdekes, hogy olyan udvariassági szavak, mint a "kérem" vagy az "én" szó is csak később jelennek meg.   Konklúzió Végezetül pedig üzenjük az összes rossz gyereknek, akik túl sokat használják a "nem" szót és túl keveset a "kérem"-et, hogy jól meggráfoljuk, ha így viselkedik!   IRODALOM Butzkamm, W.-Butzkamm, J. 2008. Wie Kinder sprechen lernen. Tübingen, Francke Verlag. Cole, M.-S.R. Cole 2000. Fejlődéslélektan. Budapest, Osiris. Gósy M. 1984. Hangtani és szótani vizsgálatok hároméves gyermekek nyelvében. Nyelvtudományi értekezések 119. Budapest, Akadémiai Kiadó. Gósy M. 1999. Pszicholingvisztika. Budapest, Corvina. Gósy M. 2005. Pszicholingvisztika. Budapest, Osiris Kiadó. Herrmann, C.-Fiebach, C. 2007. Gehirn und Sprache. Frankfurt, Fischer Verlag. Ke, J - Yao, Y. 2008. Analyzing language development from a network approach. [http://arxiv.org/ftp/cs/papers/0601/0601005.pdf] Kenesi I. szerk. 2004. A nyelv és a nyelvek. Budapest, Akadémiai Kiadó. 190-209. Klein Á. 2011. A nyelvelsajátítástól a nyelvtanulásig. Anyanyelvelsajátítás - kétnyelvűség - idegennyelvűség. [http://janus.ttk.pte.hu/tamop/tananyagok/nyelv_elsajatitas/index.html] Lengyel Zs. 1981. A gyermeknyelv. Budapest, Gondolat Kiadó. Pléh Cs. 2006. A gyermeknyelv. In. Kiefer Ferenc szerk. Magyar nyelv. Budapest, Akadémiai Kiadó. Szomor É. 2009. Kommunikáció és nyelvfejlődés. In. Balázs I. szerk. Gyerekek. Módszertani ajánlások a gyerekekkel végzett munkához a Biztos Kezdet program munkatársai számára Módszertani kézikönyv I. Budapest, Szociálpolitikai és Munkaügyi Intézet. 75-87. Tancz T. 2011. A kommunikáció és a nyelv fejlődése a kora gyerekkorban. [http://janus.ttk.pte.hu/tamop/tananyagok/kommunikacio_es_fejlodes/index.html]


2015. július 17. 9:12

Hogyan befolyásolja a gondolkodásunkat a mindennapi számítógép-használat? A QWERTY-hatás

A QWERTY-hatás fogaloma először Daniel Casasanto & Kyle Jasmin munkájában jelenik meg. Röviden arról van szó, hogy mivel a QWERTY billentyűzet elrendezése aszimmetrikus, (Casasanto és Jasmin (a továbbiakban C&J) kutatásában “résztvevő" mindhárom nyelvben (angol, spanyol és holland) a bal oldalon több betű található, mint a jobbon) az olyan szó, melyben több a jobb oldalról származó betű, kellemesebb érzetet idéz elő az éppen gépelő személyben, mivel azon a térfelen kevesebb opció közül kell választani, ami gyorsabban és folyamatosabban megy, mint a bal oldalon, ahol több opció közül lehet (és kell) választani. Régeni Anna írása Vagyis C&J azt állítják, hogy a szavak valenciája és a betűk helyzete összefügg. Ez a hatás állításuk szerint a 60-as évek után létrejött szavaknál még hangsúlyozottabban jelenik meg. Ennyit az elméletről. Nem árt megjegyezni, hogy a cikkben szintén bebizonyított hatást arról, hogy az amerikai gyermekek névadását is befolyásolja ez a hatás, a Language Log blogon ízekre szedték. Sőt, igazából az egész cikket és az egész QWERTY-hatást atomjaira bontották, gyakorlatilag minden mondatát megkérdőjelezték, az adatokat nagyjából ugyanazokon a korpuszokon újra megvizsgálták és statisztikailag elemezték. Ők nem találtak szignifikáns hatást, illetve nagyon sok érdekes dolgot vetettek fel, mint például: miért a 60-as évektől nézzük a névadási tendenciákat, lehetne szélesebb skálán is vizsgálni a jelenséget (amit a blogon meg is tesznek és kijön, hogy máskor is kirajzolódik a C&J által talált mintázat, ami ennek fényében lehet, hogy nem a QWERTY, hanem bizonyos nevek hypeolásának tudható be.) Ugyanakkor a szerzők igyekeztek alapos munkát végezni, nekik szignifikánsan, másoknak nem szignifikánsan, de kijött a hatás, tehát úgy tűnik, van ott valami, ami megér egy vagy akár több misét is. Ha nem is megyünk olyan messzire, hogy a QWERTY befolyásolná a névadási trendeket, az mégis elgondolkodtató, hogy amióta az internet megjelent és robbanásszerűen elterjedt, a kommunikációs csatorna az orális megnyilatkozásokon kívül a számítógép lett és ugyan a forrás még mindig ugyanaz, vagyis a gondolataink, a beviteli mód jelentősen megváltozott, de legalább is nem elhanyagolható hányada a billentyűzetre helyeződött át.Az, hogy ennek van-e hatása, igazából biztos. Az, hogy mire és milyen hatása van, nehezebb kérdés, de Casasanto és Jasmin munkájában szerintem épp az a rész izgalmas, amit a populáris média nem igazán emelt ki: hogy a billentyűzet valamilyen szinten formálja a szavak jelentését. Lehet, hogy ez a szemantikai jelentést módosító hatás csak árnyalatni és természetesen a szavak jelentéséből származó valencia, tehát a szó negatív vagy pozitív érzelmi/jelentésbeli töltete felülmúlja a QWERTY-hatás mértékét, mégis, ha ott van, érdekes. Éppen ezért mi is készítettünk egy kísérletet, magyarra. A magyar billentyűzet azért különleges ennél a kérdésnél, mert megfordul az aszimmetria és a jobb oldalra kerül több betű, a balra kevesebb.Ha nekünk is kijön a különbség (ha gondolatnyi is), csak épp fordított irányban, akkor még egy bizonyíték fog amellett szólni, hogy a feltevés helyes és valóban a leosztás van hatással a fizikai és ezáltal a pszichológiai érzetre is, ami aztán kihat a betűkből formált szavak jelentésére is, akár olvasáskor, beszéd közben, vagy hallgatáskor. Ezek közül mi az olvasás útján kimutatható hatás meglétét teszteljük. A következő posztban ennek a kísérletnek az eredményeiről adunk hírt. Addig is azoknak, akik mélyebben is szeretnének elmerülni a témában: Az eredeti cikk: http://link.springer.com/article/10.3758%2Fs13423-012-0229-7 Rövid összefoglaló a WIRED prezentálásában: http://www.wired.com/2012/03/qwerty-effect-language/ A Language Log egyik posztja a QWERTY-hatásról, érdemes elolvasni a hozzászólókat is: http://languagelog.ldc.upenn.edu/nll/?p=3829 Még egy poszt a Language Logról, ez tárgyalja a névadási trendet csinos ábrákkal illusztrálva a saját eredményeiket: http://languagelog.ldc.upenn.edu/nll/?p=12378


2015. július 14. 7:30

Agymanók - kutatási témánk, meseformában

Már a beharangozó óta nagy izgalommal vártuk az Agymanók (eredeti címén: Inside Out) egész estés alkotást a Pixar Stúdiótól. A film rendezője az Oscar-díjas Pete Docter, akitől a mozifilm ötlete is származik. A film gondolata legelőször 2011-ben vetődött fel benne: "Mi lenne, ha film készülne egy olyan helyről, amelyet mindenki ismer, de még senki sem látott: az emberi elme belsejéről?" A történet egy kislány fejében játszódik, s azt mutatja be, hogyan működnek benne az érzelmek a mindennapi élet során. Mivel az emóciók nekünk is a szívügyünk (l. pl. ezt, ezt és ezt), gondoltuk, egy posztot a kedves és elgondolkodtató mesének szentelünk.  Riley egy hétköznapi lány, aki Minnesotában él egy nagy kertes házban, mókás szüleivel, és sok-sok barátjával. Az ő tudatába nyerünk  bepillantást a mese által, ahol Derű, Bánat, Harag, Undor, és Majré érzelmekkel találkozunk. Az érzelmek Riley agyának központjában, a Fejhadiszálláson laknak, ahonnan a kislány mindennapi életét irányítják. Riley személyiségét az úgynevezett "Személyiség szigetei" határozzák meg, melyet a lány életének nagy pillanatai, a főemlékek működtetnek. Rileyt rendkívül boldog gyerekkorral áldotta meg az ég, ám amikor tizenegy éves lesz, minden megváltozik. A családjával a békés kertvárosból kénytelenek San Franciscóba költözni, az édesapa új állása miatt. A költözés nem várt változásokat hoz Riley életébe, ami felkavarja az érzelmeit. Többet nem is árulnánk el azoknak, akik még nem látták a filmet, helyette inkább nézzük meg az érzelmeket közelebbről is!  Derű Riley első számú és legmeghatározóbb érzelme, ő tölti be a vezető szerepet. A lány szüntelen jókedvéért és öröméért felel. Melegszívű, és mindenben meglátja a jót. Azonban, amikor Bánattal együtt elvesznek Riley elméjében, Derű fokozatosan átértékeli az addig helyesnek gondolt tevékenységeit, amelynek során nemcsak Riley, de az ő saját személyisége is fejlődik. Bánat Riley szomorúsága. A többi érzelemmel ellentétben nehezen találja a szerepkörét Riley életében, és rosszul viseli, hogy negatív érzelemmel tölti el a kislányt. Amikor azonban ő és Derű véletlenül eltévednek, Derűhöz hasonlóan ő is jellemfejlődésen megy keresztül, és megtalálja a maga fontosságát a lány életében. Harag a lány önbizalmát és becsületét védi. Azért felel, hogy Riley erős, magabiztos legyen, így temperamentumos, türelmetlen, és gyakran fel is robban mérgében. Derű és Bánat távollétében Harag, Undor és Majré együtt próbálják irányítani Rileyt, ami azonban nem kevés galibát okoz. Undor igyekszik megóvni Rileyt a fizikai és lelki sérelmektől, éppen ezért önfejű, szókimondó, és néha kicsit bumfordi is. Viszont mindig a legjobb szándék vezérli Riley érdekében. Majré feladata, hogy Riley biztonságát megóvja. Ennek okán pesszimista és aggályos, idejét pedig folyamatosan azzal tölti, hogy a katasztrófák, veszélyek lehetőségét elemzi a lány életében.   Mint Paul Ekman nagy rajongói, természetesen nem kellett sok idő a film beharangozója után, hogy hiányolni kezdjük a 6. alapérzelmet, a meglepetést. Docter, a rendező a következőt nyilatkozta ebben a vonatkozásban: Összesen 27 emóciótípust vettek számításba a jelenlegi tudományos eredmények alapján, azonban mind a 27 érzelem filmbeli szerepeltetését túl kaotikusnak találták volna, ezért végül Paul Ekman alapérzelmeire hagyatkoztak. Ugyanakkor, közülük is ki kellett hagyniuk a meglepetést, ugyanis Docter Majré karaktere mellett redundánsnak találta volna azt.  Bár értjük Docter gondolatmenetét, és azt is látjuk, hogy Majré mellé nagyon nehéz lett volna egy olyan karaktert rajzolni, aki a puszta meglepődést képviseli. Mégis sajnáljuk ezt a veszteséget, hiszen így csupán a negatív meglepődés képviselteti magát a mesében. A pozitív nem, vagy csak részben, Derű karakterén keresztül. Szerintünk egy folyton csodálkozó, ártatlan lelkű Meglepetés elfért volna még a vásznon. A retro meseillusztrációk alapján elképzeltük, milyen lenne, ha ő is szerepet kapott volna. Lássuk:     FORRÁSOK https://hu.wikipedia.org/wiki/Agyman%C3%B3k http://pixar.wikia.com/Inside_Out http://www.istockphoto.com/illustrations/retro+cartoon#aa42113  


2015. július 13. 10:00

Emóciók vs. funkciószavak I. Egy kutatássorozat első lépése: Felcsigázzuk az érdeklődést

A jelen poszttal induló kutatássorozatunkhoz James W. Pennebaker The Secret Life of Pronouns című könyve adta az ötletet. A szerző angol nyelvű szövegeket vizsgál abból a szempontból, hogy vajon a funkciószavak használata milyen, eleddig rejtve maradt információkat árul el számunkra az adott nyelvhasználót illetően. Kíváncsiak voltunk, mi derül ki, ha a mindezeket a sajátságokat a magyarban is megnézzük. Eredetileg azt szerettük volna megvizsgálni, hogy vajon találunk-e valamilyen szignifikáns összefüggést a magyar nyelvű szövegekben előforduló emóciószavak és a személyes névmások között. Pennebaker könyve azonban annyi izgalmas ötleteket adott, hogy végül úgy döntöttünk, egy egész kis kutatási projektet szentelünk a feladatnak, és mélyebben is beleássuk magunkat a témába. Olvasóink tehát időről időre megismerkedhetnek majd a vizsgálati eredményeinkkel, s a jelen posztban - az izgalmak fokozása céljából - az ötletadó Pennebakerről lesz szó, valamint az emóciók, a személyiség, a nyelv és az agy izgalmas kapcsolatrendszerét tárgyaljuk részletesebben.  Pennebaker 2011-ben publikált könyve, a The Secret Life of Pronouns több évtizednyi kutatómunka eredménye, amelyben a szociálpszichológus szerző többek között nyelvészekkel, számítógépes és marketinges szakemberekkel, valamint jogászokkal együtt vett részt. A vizsgálati sorozat egyik elméleti alapvetése azt volt, hogy az ún. funkciószavak, amelyek közé pl. a névmások, a névelők és a segédigék tartoznak, elárulnak bizonyos részleteket az emberi személyiségről, a gondolkodási sajátságokról, az érzelmi állapotról, illetve az adott személy emberi kapcsolatairól. A funkciószavak az ún. tartalmas szavakkal állnak szemben. Ez utóbbiak ugyanis, ahogyan pl. a főnevek, a melléknevek, a számnevek vagy az igék, általában konvencionális alapon összeköthetőek a világ jelenségeivel - míg a funkciószavak nem. Amíg például az asztal vagy a séta hasonló képzeteket hoz létre az adott nyelv beszélőiben, addig az akkor vagy az ő jelölete rendkívül változatos lehet. A funkciószók szerepe ugyanis a tartalmas szavak közötti kapcsolatok megteremtése, illetve azok jelentéseinek árnyalása, módosítása. (A jelenségről további információt találni többek között itt.)   Az alábbi táblázat tartalmazza a funkciószók típusait, valamint néhány példát mindegyikre az angol és a magyar nyelvből (vö. Lengyel 2000; Szita-Görbe 2010):     Kategória példák az angolból példák a magyarból névmások I, she, it én, ő, az névelők a, an, the a, az, egy prepozíciók up, with, in, for - névutók - fölé, mellett, nélkül, iránt segédigék és segédszók is, don't, have fog, múlik, való, marad, volna negáló elemek no, not, never ne, nem, soha kötőszók but, and, because de, és, mert kvantorok few, some, most néhány, sok, legtöbb határozószók very, really kicsit, nagyon, eléggé   Pennebaker kutatócsoportjának a 90-es években sikerült létrehoznia az ún. LIWC programot (Linguistic Inquiry and Word Count), amely majd' 80 különböző, kézzel összeállított szótár alapján volt képes nagy mennyiségű szöveg elemzésére. Az eszköz segítségével a csoport számtalan szövegtípus nyelvi sajátságait térképezte fel azután, s a munkájuk eredményeképpen létrejött legfontosabb megállapításokat 2011-ben, az említett könyvben publikálták.  A kutatás további figyelemre méltó hozadéka volt, hogy létrehoztak egy gyors személyiségelemző eszközt, amelyet bárki kipróbálhat az interneten keresztül egy szöveg bemásolása segítségével. A program természetesen angol nyelven készült, és ezen a linken érhető el. De miért is irányítsuk figyelmünket a funkciószavakra a tartalomelemzésben? Miért ne csupán azokra a bizonyos tartalmas szavakra fókuszáljunk? Pennebaker többek között azzal érvel, hogy hogy a 20 leggyakoribb előfordulású angol szó között kizárólag funkciószavakat találunk, s pusztán ez a húsz elem megközelítőleg a 30%-át teszi ki az angol nyelvi produktumoknak, az írott és a beszélt nyelvet illetően egyaránt.  A Magyar Nemzeti Szövegtár (MNSZ) adatai alapján megnéztük, vajon mi a helyzet a magyar nyelvben. Az angolhoz hasonló eredményre jutottunk: tartalmas szót nem is találtunk a top 20-ban. A jelenség további érdekes momentuma, hogy a nyelvhasználat során tudatosan alapvetően a tartalmas szavakra fókuszálunk, mind a produkció, mind az interpretáció folyamatában. Ez egyrészről azt jelenti, hogy amikor szövegeket alkotunk, kevésbé vagyunk megfontoltak a funkciószavak használatát illetően; inkább a közölni kívánt szemantikai tartalomra, így szükségképpen elsősorban a tartalmas szavakra koncentrálunk. Ugyanakkor a kommunikációnk során a funkciószó-használatunkkal tudattalanul is olyan információkat közlünk magunkról, mint például a nemünk, a korunk, a szociális viszonyaink vagy az aktuális érzelmi állapotunk - amelyeket esetleg egyáltalán nem is szerettünk volna a partner tudomására hozni. Az elmondottakon túl a funkciószavak "megbúvó" természete azt is eredményezi, hogy amikor szövegeket interpretálunk, a tartalmas szavakra koncentrálunk, azokra támaszkodva igyekszünk megérteni a közvetített tartalmat.  A funkciószavak mégis, mintegy tudat alatt hatnak ránk. Pennebaker Abraham Lincoln 1863-as, elementáris erővel ható beszédét hozza példaként, amelynek java része tulajdonképpen 14, több alkalommal ismételt funkciószóból állt.   Azt mondja Pennebaker tehát, hogy funkciószó-használatunk az érzelmi állapotunkról is árulkodik. De hogyan lehetséges az, hogy ez a két faktor összefügg? Hol és hogyan kapcsolódhatnak össze ezek a faktorok az emberi agyban? A szerző az ún. Broca- és Wernicke-afázia példáján keresztül mutat rá az összefüggés természetére. Tekintsük mi is e jelenségeket részletesebben!  Az alábbi egyszerű sematikus ábra az agyban található ún. Broca- és Wernicke-területek elhelyezkedését szemlélteti.    A Broca-terület, amelyet felfedezője, Paul Broca után neveztek el, a bal homloklebenyen található, míg a Carl Wernicke után elnevezett Wernicke-terület a bal fali lebenyen helyezkedik el. Mindkét tudós orvos volt, és a 19. században, beszédprodukcióval és beszédértéssel kapcsolatos defektusokon keresztül ismerték fel a tárgyalt agyi területek jelentőségét (további információért l. pl. ezt, ezt és ezt). Broca az 1860-as években egy egész sorozat tanulmányt publikált arról, hogy a később róla elnevezett terület károsodása következtében gyakorta fájdalmasan lassú, és elemeiben össze nem függő beszéd alakul ki a betegeknél. Szigorúbban fogalmazva azt mondhatjuk, hogy a terület sérülése a funkciószavak megfelelő használatának képességét (is) veszélyezteti. Súlyos esetben akár drámaian - szinte kizárólag főnevekre -redukálódik a szókincs. Nézzünk egy rövid részletet egy Broca-afáziában szenvedő beteg beszédéből (vö. Bánréti 2006)!  Kérdező: Hogy került a kórházba? Vizsgálati személy: Igen ... hétfőn ... öö ... apa és Piri (a beteg neve) ... és apa ... kórházba. Két ..... orvos, és ... harminc perc ... és ... igen ... és ... kórház. És ööö szerdán ekkor... kilenc órakor ... és ... harminc perc ... csütörtök ... tíz óra, orvosok. Két orvos ..... és fogak. Igen ... így' A fenti részlet jól szemlélteti a Bánréti (2006) által említett alapvető tüneteket, úgymint a mondatrészleteket produkáló, el-elakadó, töredezett beszédet, amelyet a szótalálási nehézségek, a gyakran elhagyott funkciószavak, valamint az elhagyott toldalékok jellemeznek.  Az ún. Wernicke-terület károsodása Broca-afáziától igen eltérő nyelvi tüneteket produkál. Az ebben az agyi rendellenességben szenvedőkre jellemző a rendkívüli szóbőség, beszédük grammatikailag helyes, de tartalmatlan. Megfigyelhető, hogy a betegeknek szótalálási problémái vannak, egészen egyszerű főnevek és igék sem jutnak az eszükbe, ezért azokat gyakran más, oda nem illő, sőt kitalált szavakkal helyettesítik. A tartalmas szavakkal vannak tehát problémáik, ugyanakkor a funkciószavakat gond nélkül, megfelelő módon használják.  A következő részlet egy Wernicke-afáziás magyar betegtől származik, Herman József gyűjtéséből (vö. Pinker 1999):  Vizsgálati személy: ...eltávottam rajta így sikantiá voltunk úgyhogy nem tudtam eztet kiváltani hanem azon gondolkodtam hogy hátha lenne davivi hanem azt mondtam ippen be hogy úgy kell tenni hogy megint el tudtam fele... szóval csak aztat szerettem volna hogy így a gyerek megvan hanem szállítjuk nekik hogy mondhatját táguttuk egymást. Kérdező: Hány éves a bácsi gyereke? Vizsgálati személy: Hát nekem a két epretek huszon dehogy huszon hanem harm... negyven ötvenöt tül van ez az árpa... A Broca-terület, amely tehát a funkciószavak használatának képességével szoros összefüggést mutat, a frontális agyi lebenyben található. Ez az agyi terület azonban több más képességet is irányít, és közülük számos a szociális jellegű képesség és készség. A frontális lebenyhez köthető például a különböző érzelmek kifejezési, sőt palástolási képessége, de több más, szociális kapcsolatainkban fontos szerepet játszó kompetencia is itt lokalizálódik. És ami számunkra még izgalmasabbá teszi a problémakört, az az, hogy az arckifejezések értelmezésének képessége is ehhez az agyi területhez köthető, korábbi posztunkban pedig épp arra igyekeztünk rávilágítani, hogy milyen párhuzamok találhatóak az arcon megjelenő és a szövegszintű emóciókifejezések kontextusbeli megértése között!  A frontális lebenynek a szociális képességekben való kimagasló szerepét mutatja Phineas P. Gage (1823-1860) híressé vált, tragikus esete. A férfi mérnökként az új-angliai vasúttársaságnál a pályamunkások csoportvezetője volt, azonban egy 1848-ban bekövetkezett balesetben egy hosszú vasrúd fúródott a fejébe, amely az agyának a bal frontális lebenyét nagy mértékben elpusztította. A család, és a többi, róla gondoskodó legnagyobb meglepetésére azonban Gage még a tragédia évében felépült. Ugyanakkor, a baleset teljesen átformálta a férfi személyiségét és viselkedését. A korábban figyelmes, kedves, pontos és precíz műszakvezető a tragédia következtében fegyelmezetlen, trágár, figyelmetlen, agresszív, sőt perverz emberré vált, ahogyan arról az esetet publikáló amerikai orvos, John Martyn Harlow beszámolt. Gage barátai egyenesen úgy találták, hogy a férfi “többé már nem Gage". Harlow így ír megfigyeléseiről: His contractors, who regarded him as the most efficient and capable foreman in their employ previous to his injury, considered the change in his mind so marked that they could not give him his place again. He is fitful, irreverent, indulging at times in the grossest profanity (which was not previously his custom), manifesting but little deference for his fellows, impatient of restraint of advice when it conflicts with his desires, at times pertinaciously obstinent, yet capricious and vacillating, devising many plans of future operation, which are no sooner arranged than they are abandoned in turn for others appearing more feasible. In this regard, his mind was radically changed, so decidedly that his friends and acquaintances said he was "no longer Gage".     Pennebaker amellett érvel, hogy amennyiben a személyiség és a szociális viselkedés szorosan kapcsolódik a frontális lebenyhez, nem meglepő, ha azt tételezzük, hogy magának a frontális lebenyben levő nyelvi központnak, a Broca-területnek is kapcsolata kell, hogy legyen a személyiséggel és a szociális viselkedéssel. Pennebaker rámutat, hogy a funkciószavak megfelelő használatához - amelyért tehát a Borca-terület felel - szociális képességek, illetve készségek szükségesek. Ahhoz például, hogy névmásokat megfelelően használhassunk, tisztában kell lennünk azzal, hogy a kommunikációs partnerünk képes megtalálni azok referensét a szövegben vagy a szövegen kívüli világban; így az alábbi mondat esetében: Nem tudom, hova tehette, de hozd akkor azt a másikat onnan. Bár a példában alig találni tartalmas szót, az ilyen és ehhez hasonló megnyilatkozásokat gond nélkül produkáljuk és interpretáljuk mindennapi kommunikációnkban - feltéve persze, ha egészséges Broca-területtel rendelkezünk. A tárgyalt összefüggéseket támasztják alá azok a jelenségek is, miszerint bizonyos funkciószavak használati sajátságai eltérnek a férfiak és a nők, továbbá különböző korosztályok között (pl. a férfiak több névelőt, míg a nők több egyes szám első személyű személyes névmást használnak). Mindemellett a lelkiállapot is jelentősen befolyásolja a funkciószavak használatát. A Kasseli Egyetem kutatói által, Dr. Johannes Zimmerman vezetésével végzett kutatás eredményei szerint például azok az emberek, akik gyakrabban használják az egyes szám első személyű - vagyis a saját magára utaló - személyes névmásokat (én, magam, engem stb.), nagyobb valószínűséggel hajlamosabbak a depresszióra vagy szenvednek depresszióban, továbbá több nehézségük van interperszonális kapcsolataikban is, mint azoknak, akik megnyilatkozásaikban a többes szám első személyű (mi, magunkat stb.) személyes névmásokat részesítik előnyben (a kutatásról részletesebben l. itt).     Az e poszttal indított kutatássorozatunk célja, hogy feltérképezzük, milyen kapcsolatok mutatkoznak a funkciószó- használat és az ember érzelmi állapota, szociális státusza, kora, neme és egyéb esetleges tulajdonságai között. Első eredményeinkről rövidesen beszámolunk. IRODALOM és FORRÁSOK Bánréti Zoltán 2006. Neurolingvisztika. In Kiefer-Siptár (szerk): Magyar nyelv.  Budapest, Akadémiai kiadó - Kluwer. 653-725. Hoffmann Ildikó 2007. Nyelv, beszéd és demencia. Philosophiae Doctores 56. Budapest, Akadémia Kiadó. Hoffmann Ildikó-Németh Dezső 2006. Neurolingvisztikai tanulmányok. Szeged, JGYTF Kiadó. Lengyel Klára 2000. A segédigék és származékaik. In Keszler Borbála (szerk.): Magyar grammatika. Budapest, Nemzeti Tankönyvkiadó. 252-258. Pennebaker, James W.  2011. The Secret Life of Pronouns: What Our Words Say About Us. New York, Bloomsbury Publishing. Pinker, S. 1999. A nyelvi ösztön. Budapest, Typotex. Szita Szilvia-Görbe Tamás 2010. Gyakorló magyar nyelvtan - A Practical Hungarian Grammar. Budapest, Akadémiai Kiadó. Magyar Nemzeti Szövegtár (MNSZ) [http://corpus.nytud.hu/mnsz/] [http://www.theguardian.com/science/blog/2010/nov/05/phineas-gage-head-personality] [http://www.nyest.hu/hirek/nyelvtani-szofajok-az-mti-nel] [http://index.hu/tudomany/gesch/] [http://analyzewords.com/] [http://www.nytud.hu/oszt/neuro/banreti/publ/banretikezi.pdf] [http://nemettolmacs.blogspot.hu/2008/05/broca-s-wernicke-afzirl.html] [http://life.ma/eletmod/betegsegek/8845-depresszios-lehet-aki-sokat-beszel-magarol/]  


2015. július 9. 10:10

Alternatív megoldások a pötyögésre mobilon

Aki mindig is irígykedve figyelte mobilozás közben a két ujjal gyorsan pötyögő ismerőseit, annak jó hírünk van; simán lehet akár náluk is gyorsabb géplő, akár egy ujj használatával is! Kíváncsiak voltunk arra, hogy milyen smartphone billentyűzetek érhetőek el és kettő kiemelkedőnek tartott alkalmazást teszteltünk: a Swype-ot és a SwiftKey-t. Régeni Anna írása A QWERTY-jelenség A qwerty billentyűzetet úgy gondolták ki, hogy az lelassítsa a gépelést. A gyakori betűpárokat is egymástól távol helyezték el a billentyűzeten, hogy ne akadjanak össze a fémkarok, amikor egyszerre vagy gyors egymásutánban ütötték le őket. A pár éve megjelent és mostanában egyre népszerűbb okostelefon alkalmazások a hagyományos billentyűzetet újragondoló alternatívákat nyújtanak, mivel többé nem írógépen gépelünk - amihez alapvetően megalkották a qwerty billentyűzetet - és így ez a kiosztás gyakorlatilag elveszítette a létjogosultságát.Mégis, hogyan lehetséges az, hogy noha az írógépek kora már rég letűnt, még sincs semmi változás a billentyűzet vonatkozásában? Ez az a jelenség, amit QWERTY-jelenségként aposztrofál a szakzsargon. Röviden annyit jelent, hogy nem szeretünk újítani. Ha egyszer már megszoktunk valamit, hiába nem praktikus, fölöslegesen bonyolult és körülményes, vagy csak pusztán rossz megoldás, megtartjuk és nem váltunk még akkor sem, ha van jobb és hatékonyabb alternatíva is a kínálatban. A Swype alapítója Cliff Kushler, aki szerint egyébként 55 szó is begépelhető egy perc alatt és aki többek között a t9 prediktív beviteli módot is megalkotta, amit én is nagyon kedveltem még a Nokia éra alatt. A cég 2002-ben alakult, amit aztán 2011-ben felvásárolt a Nuance Communications nevű amerikai multi, ahol a Swype folytatta a fejlődést. A Swype 3 fő összetevőből áll, egy beviteli út elemzőből, egy szókereső motorból hozzá tartozó adatbázissal és egy személyre szabható interface-ből. A leggyorsabb üzenet begépelésének Guinness rekordját is a Swype-al érték el 2010-ben, bár azóta egy másik alkalmazással már megdöntötték ezt a csúcsot. A Swype crowdsourcingolja a gyakori szavakat és automatikusan hozzáadja az adatbázisához, ezzel is fejlesztve azt. Emellett nyelvi modellt használ, melynek segítségével kísérletet tesz a következő valószínű szóra. Ha több eszközön használjuk a Swype-ot, elméletileg szinkronizálja az eszközök között is a használatból illetve újonnan betáplált szavakból származó plusz információt, bár mi ezt nem teszteltük még le. A Smart Editorral pedig tanulásra is képes a Swype, ez hasonló a sima prediktív funkcióra, csak megvizsgálja a mondatban használt szavakat és megnézni, hogy milyen egyéb, előzőlegesen ajánlott szavak lehetnek esetleg valószínűbbek, mint a betáplált. Ezeken túl még számos apró okos dolog van beleépítve a jobb teljesítmény érdekében.   A SwiftKey mögött álló céget Jon Reynolds és Dr. Ben Medlock alapították 2008-ban. A Swiftkey is számos ügyes megoldást tartalmaz: felhő alapú tanulással biztosítja saját fejlődését, monitorozza a felhasználó gépelés pontosságát és hozzáigazítja az adott “gomb" érintésérzékeny területét. Emellett képes több nyelv szimultán használatára, akár egy mondaton belül is. (Használatban kipróbálva lásd a SwiftKey review részt) A SwiftKey beviteli mód hasonlóan a Swype-hoz gépi tanulást használ, hogy megjósolja az aktuális mondat következő szavát. Képes tanulni a Facebook, a Twitter, a Gmail, az SMS, sőt, akár az RSS hírfolyam használatából is. Továbbá a Trending Phrases funkcióval az adott napi valószínű témákra előre “hangolva" lesz a SwiftKey, ami elég lenyűgözően hangzik. Akárcsak a Swype, a SwiftKey is képes az eszközök közötti szinkronizálásra, ami hasznos. A termék 2010-ben debütált, akkor még beta verzióként. Azóta már újabb verzióit is bemutatták, a legújabb az 5.3.2 Androidra a saját honlapjuk június 30-i posztja alapján.   Próbáld ki valamelyik appot, vagy mindkettőt, vagy akár a piacon megtalálható egyéb hasonló alkalmazások egyikét! Megéri egy kicsit újszerűen gondolni a pötyögésre. A teszteléshez egy 5.1.1-es Androidot és egy 8.3-as verziójú iOS-t futtató készüléket használtunk és igyekeztünk a használattal kapcsolatos személyes élményeinket röviden összefoglalni. Swype A Swype tesztelése során volt néhány fontos szempont, amire különös figyelmet fordítottam, hogy vajon jól működik-e. Az egyik ilyen az újonnan betáplált szavak későbbiek során való felismerése, a másik a nyelvek közötti váltás (esetemben csak az angol-magyar közti váltás lett górcső alá vonva). Ami az újonnan betáplált szavakat illeti, a Swype igazán jól teljesít, ugyanakkor, ha épp nem tud egy szót, nem minden alkalommal dobja fel a “hozzáadja …-t a szótárhoz" lehetőséget, ami problémássá teszi, hogy bővítsem a szótárt. A nyelvek közötti váltás jól működik a Swype-nál, ha egy szót kell beszúrnia a mondatba más nyelven. Ilyen jellegű váltásnál még nem volt problémám a működéssel. Ami inkább nehézkes, az az, hogy ne csak egy szó erejéig, hanem mondatokon át a másik nyelven hozza fel az ajánlott szavakat. A Swype egy narancssárga vonallal jelzi az ujjunkkal megtett utat, ez nekem határozottan tetszett. Intuitív volt, hogy ha kettőzött mássalhagzót akartam bevinni (pl.: tt, ss, vv), csak egy kicsit hosszabb ideig kellett ott tartanom az ujjamat (én egy picit meg is mozgattam ott az ujjbegyemet) és meg is jelent a kívánt betűpár. Ami a gyorsaságot illeti, van ebben a beviteli módban potenciál, de néha kissé nehézkes számomra, hogy nem látom pontosan, hová kell húznom a következő pillanatban az ujjamat és így van, hogy meghiúsul a helyes bevitel. Ugyanis a saját kezem takarja el az alsóbb sorokban elhelyezkedő betűket. Ez persze kiküszöbölhető probléma, csak gyakorlás kérdése az egész, a többit a motoros tanulás megteszi “helyettünk". Alapvetően, minden gyengesége ellenére nagyon kellemes használni, a swype után szinte rossz egyszerűen pötyögni. Végeredményben javaslom bárkinek, aki hajlandó újítani és eltérni egy kicsit a rég megszokottól. SwiftKey A SwiftKey telepítés után engedélyt kér, hogy hozzáférjen különböző közösségi médiás fiókjaink tartalmához, ezzel személyes nyelvi modellünket alkotja meg, ami nagyban növeli a bevitel és a predikció pontosságát. Szerencsére egy adott szolgáltatónál több fiókot is megadhatunk, így például aki külön Twitter accountot tart fent angol és magyar csevegésre, az rögtön két nyelvi modellt taníthat meg az appnak. Használat közben a többnyelvűséget általában jól kezeli a SwitfKey, ha mondat közben váltunk nyelvet, azt azonban nem annyira szereti. A swipe funkció kifejezetten kellemes, egy ujjal könnyen kezelhető. A bejárt út elhalványodása igazán hasznos hosszabb szavak bevitele során. Az új szavak felvétele egyszerű, bevitel során a felső sávban láthatjuk milyen karaktereket vittünk fel eddig és milyen szavakra tippel az applikáció. Ha nem a legjobb tippet szeretnénk bevinni, akkor a sávban rákattintunk a szóra és az kerül bevitelre. A SwiftKey egyetlen árnyoldala az, hogy a magyar ragozott alakok nagyon megbonyolítják a prediktív bevitelt és úgy tűnik, néha teljesen esetleges, hogy melyik formát tekinti “alapnak", azaz a legvalószínűbb bevitelnek és melyeket kínálja fel alternatívának. Gyakori probláma továbbá a hosszú, tíz-tizenkettő karakteres vagy hosszabb szavak felismerése is, de szorgos tanítással a helyzet javítható. A legnagyobb bosszúság számomra nem is az, hogy néha téved hosszú szavak esetében a SwitKey, hanem hogy a “meg" és “még" közül minden kontextusban a “még" formát tartja a legvalószínűbbnek. Mindent összevetve nagyon kényelmes az app, pár nap után nagyon természetes használni és tényleg időt és energiát spórol meg. Mindenkinek ajánlani tudom, aki sokat levelezik mobileszközön, vagy eddig barátai sokat vártak válaszaira a messengeren. Összegzés SwiftKey használat közbeni nyelvváltás jó, mondaton belül kevésbé hosszabb szavak bevitelénél hasznos a bejárt út elhalványítása könnyű az új szavak bevitele magyar ragozott alakok megnehezítik a prediktív bevitelt, úgy tűnik, esetlegesen dönt arról, hogy mi az éppen alapértelmezett rag. hosszú szavak felismerése néha problémás, de kitartó tanítással fejleszthető Swype használat közbeni nyelvváltás gyengébb, a mondaton belüli azonban jó. nem mindig dobja fel a új szó bevitelének lehetőségét, ez megnehezíti a személyes szótár fejlesztését intuitív bevitel gyorsaságából levesz a tény, hogy néha a saját kezemmel takarom ki a szükséges betűket, ez gyakorlással kiküszöbölhető


2015. július 7. 9:00

Kultúrafüggetlenség kontra kontextusfüggés, avagy Ekman "veszélyes" elmélete

A jelen posztban csoportunk eddigi emócióelemzési kutatómunkájához kapcsolódunk, és az érzelmek szövegszintű kivonatolásának elméleti alapvetését szeretnénk alaposabban górcső alá venni.  Amint arról már több konferencián, cikkben és poszban is szóltunk (l. például a Nyelv, kultúra, társadalom konferencia előadás slide-ok, a Racionalitás, érzelmek, nyelv, a MANYE-n voltunk vagy a Miért foglalkozunk emócióelemzéssel és politikai blogokkal? című bejegyzéseinket),  arra törekszünk, hogy hatékony megoldást találjunk az érzelmeket kifejező szövegelemek automatikus kiszűrésére és feldolgozására. Hogy miért tartjuk mi ezt a feladatot ennyire fontosnak, azt ebben a bejegyzésben nem részletezzük, inkább majd külön posztot szentelünk a témának. Annyit mindenesetre itt is hangsúlyozni szeretnénk, hogy a szövegekben rejtőző emóciók megismerésétől olyan információkat remélhetünk, amelyet a szentimentelemzéstől nem. Az emóciók kivonatolása tehát egy másfajta, esetlegesen a szentimentelemzés eredményét kiegészítő gazdasági haszonnal szolgálhat.    Ahhoz, hogy az érzelmeket ki tudjuk szűrni a szövegekből, nyilvánvalóan mindenekelőtt meg kell határoznunk azt, hogy mit is keresünk. Kézenfekvő megoldás, hogy olyan nyelvi kifejezéseket igyekezzünk megtalálni, amelyek egyértelműen egyik vagy másik érzelemtípushoz tartoznak. Nézzünk néhány valós nyelvi példát a netről! 1. XDDDDDDD hát hallod téged még egy ártatlan mosolygós fej is felmérgel.:) 2. Még mindig retteg a színésznő, ezért fordult a nyilvánossághoz.  Úgy tűnik, hogy érdemes az itt kiemelt elemeket összegyűjteni, és aszerint szótárakba rendszerezni, hogy azok mely emóció kifejezésére szolgálnak, tehát mely érzelem meglétét jelölik. Ahhoz azonban, hogy ezeket az emóciókifejezéseket rendszerezni tudjuk, értelemszerűen meg kell határoznunk a kategóriákat, vagyis azt, hogy milyen rendszer szerint kívánjuk a kifejezéseket osztályozni. És itt jön a következő kézenfekvő lépés a nyelvész számára: keressük meg, mit mond a pszichológia, milyen érzelemkategóriákkal érdemes foglalkozni! Az emócióelemzésnek e fentebb vázolt metódus jelenleg a kitaposott útja - már ha a nem túl magas számú nemzetközi, és még csekélyebb számú hazai publikáció mellett egyáltalán lehet kitaposott útról beszélni. Az emóciókat elemző nyelvtechnológus megnézi a pszichológia vonatkozó eredményeit, és megtalálja Paul Ekman elméletét. Ekman azt mondja, hogy hat olyan, ún. alapérzelem van, amelynek arckifejezései a vizsgálati eredmények alapján kultúrafüggetlenül azonosíthatóak, azaz ezek arckifejezései a világon minden ember számára ugyanazt az érzelmi állapotot (bánat, düh, félelem, meglepődés, öröm és undor) tükrözik.  Az 1970-es években azután Ekman, Friesennel együtt kidolgozta az ún. Arctevékenység-kódoló Rendszert, röviden a FACS rendszert. A módszer, amely több évtizednyi kutatás eredménye, feltérképezi az arc 23 pár izmának mozgását, s ezen apró mozgások elemzése alapján megállapítja, hogy az adott személy éppen milyen érzelmi állapotban van. Az elemző precizitását mutatja, hogy a segítségével az igazi és a színlelt érzelmeket is pontosan el lehet különíteni egymástól. Nem csoda hát, ha a Time magazin 2009-ben Ekmant a világ 100 legbefolyásosabb emberének sorába választotta.  Paul Ekman és a Hazudj, ha tudsz! című tévésorozat sztárja, Tim Roth (www.paulekman.com)  Az ekmani elmélet átütő sikeréből következően a nyelvtechnológiai emócióelemzés is alapvetően ebből a kategorizálásból építkezik. A legtöbb vonatkozó dolgozat vagy egyenesen az ekmani hat alapemóció mentén csoportosítja az értelemkifejezéseket (l. pl. Liu et al. 2003; Alm et al. 2005; Neviarouskaya et al. 2007 a,b; Aman-Szpakowicz 2007), vagy ezeket alapul veszi, majd néhány egyéb csoporttal kiegészíti azt (pl. a vonzalom vagy a feszültség kategóriáival, ahogyan újabban például magunk is teszünk, l. Szabó et al. 2015). Annyira meggyőző érv ugyanis az, hogy ezek az érzelemtípusok kultúrafüggetlenek, hogy a számítógépes nyelvész bele sem gondol: Vajon valóban ez az a sajátság, amire nekünk szükségünk van? Illetve, vajon nem takar-e el ez (az egyébként nyilvánvalóan fontos) tény olyan jellegzetességeket a számítógépes nyelvész szeme elől, amely dugába döntheti az elemző munka eredményét? Azt ígértem a poszt címében, hogy Ekman "veszélyes" elméletéről fogok írni. Nos, ezzel a jelzővel Daniel C. Dennett Darwin's dangerous idea (1995) című művére kívántam rájátszani, és az "ekmani veszélyre" igyekeztem rámutatni. Dennett két okból nevezi a darwini elméletet veszélyesnek: Egyrészt, mert Darwin gondolata alapjaiban forgatta fel a hagyományos kozmológiai gondolkodást, miszerint az ember kitüntetett szereppel bír a létezők sorában, sőt alapjaiban kérdőjelezte meg azt, hogy magának az életnek is egyáltalán kitüntetett ontológiai státusza volna. Másrészt, Dennett arra is rá kíván mutatni, hogy (véleménye szerint) sokan rosszul értelmezik Darwint az elmélete könnyű félreérthetősége okán, s ez a félreértelmezhetőség veszélyessé teszi azt. Ekman elmélete azért "veszélyes", mert annak kultúrafüggetlenül érvényes volta olyannyira meggyőző erejű, hogy hajlamosak vagyunk az emóciókifejezések - és legyenek azok most arc- vagy nyelvi kifejezések - egyéb sajátságaira már különösebb figyelmet nem is fordítani. Az egyik ilyen sajátság a kontextus szerepe az emóciókifejezések interpretálásában. És itt nem feltétlenül szövegek elemzéséről van szó. Nézzük meg a jelenséget közelebbről is! Barrett és szerzőtársai (Barrett et al. 2007) dolgozatukban egy a téma szempontjából igen érdekes fotóra hívják fel a figyelmet. A fényképet Jim Webbről, az Amerikai Egyesült államok szenátoráról készítették, miközben a 2007-es választási győzelmet ünnepli. A pszichológiai kísérletek azt mutatják, hogy amennyiben a szenátor arcát önmagában, a kontextusa nélkül látják az alanyok (l. (a) lentebb), arról azt a megállapítást teszik, hogy a férfi arckifejezése agressziót és haragot tükröz. Amennyiben azonban a szenátor arcát a kép eredeti formájában, a teljes kontextusban mutatják meg az alanyoknak (l. (b) lentebb), úgy azok örömöt és izgatottságot vélnek felfedezni rajta.    A vizsgálat eredménye különösen figyelemre méltó, ha meggondoljuk, hogy a szenátor arckifejezését a vizsgálati személyek egyáltalán nem érzékelik  félreérthetőnek, többértelműnek, hanem automatikusan és bármiféle megerőltetés nélkül jutnak ellentétes megállapításra. Barrett (Barrett et al. 2007) a jelenségre paradoxonként utal, hiszen mégiscsak elég paradoxális, ha van hat, egymástól biológiai jegyeiben jól elkülöníthető, emellett univerzális arckifejezés, amelynek interpretációja, mindennek ellenére, akár teljes mértékben kontextusfüggő lehet. A szerzők megpróbálnak valamiféle magyarázatot adni a jelenségre, és dolgozatukban a szavak mint a kategóriaképzés eszközével operálnak, véleményem szerint azonban elméletük nem ad megnyugtató választ. Ugyanakkor, (talán az ekmani kategóráiákért cserébe?) most mintha a nyelvészet kölcsönözne elméleti keretet a pszichológiának.  Az elméleti keretet egészen Wilson és Sperber (2004) pragmatikájáig kell visszavezetnünk. Wilson és Sperber (2004) azt mondja, hogy a megnyilatkozás kommunikált tartalma messze túlmutat azon a tartalmon, amelyet a puszta nyelvi elemek és szerkezetek kódolnak, ezért a jelentést a hallgatónak kell kidolgoznia az aluldeterminált jelentésből a kontextus alapján. Mindez a lexikai pragmatika elméleti keretében azt jelenti, hogy maga a puszta lexéma csupán alulspecifikált szemantikai reprezentációval rendelkezik. Ennek következtében a lexéma a teljes jelentését majd csak a kontextusban nyeri el (vö. Bibok 2014). De honnan van mégis ez az aluldeterminált jelentés? Nyilvánvalóan lennie kell egy pragmatikai tudásnak, amely a kódok kidolgozásához szükséges enciklopédikus információkat tartalmazza.    Mindez igen bonyolultan hangzik, ezért nézzünk meg néhány példát az elmélet működésére a szentiment- és emóciókifejezések megértése területéről! 3.a. Őrizetben a brutális kettős gyilkosság gyanúsítottja (mno.hu) b. Félelmetes élményben volt része egy amerikai nőnek, aki Dél-Afrikában, a Mossel-öbölben vett részt egy ketreces cápamegfigyelésen. (www.erdekesvilag.hu) 4. Bemutatkozott a brutális Volkswagen GTI Supersport Vision Gran Turismo (...) Egy félelmetes ferdehátú, amely egy másik nézőpontból kelti életre a "GTI" koncepcióját. (http://auto-live.hu/) Az fentebb vázolt elképzelés szerint a (3a) és (3b) mondatok esetében a kiemelt szavak megértése a pragmatikai tudásunkban lévő enciklopédikus információkra támaszkodva történik. Mindez azt jelenti, hogy van valamilyen, az eddigi tapasztalatainkon alapuló elképzelésünk arról, hogy milyen az, ami brutális, és milyen az, ami félelmetes. Ez tulajdonképpen az az enciklopédikus információ, amelyet a vizsgált kifejezések alulspecifikált szemantikai reprezentációi magukban foglalnak, és ezekre a számunkra már rendelkezésre álló információkra támaszkodva azt is meg tudjuk fejteni, hogy mit takarnak ezek a kifejezések ezekben az aktuális kontextusokban. Ugyanakkor, a (4) alatti példa esetében ez az enciklopédikus információ nem áll összhangban teljes mértékben az aktuális kontextussal, tehát az alulspecifikált szemantikai reprezentációban foglalt enciklopédikus információ nem elegendő a számunkra, ezért "távolabbi" enciklopédikus információk elérésére van szükség. A (4) alatti példa esetében ez a "távolabbi" információ a brutális és félelmetes kifejezések affektív jegye. Azt mondjuk tehát, hogy ebben és az ehhez hasonló esetekben a vizsgált lexémák prototipikus vagy sztereotipikus jelentése helyett annak puszta affektív vagy intenzitási szemantikai jegye aktiválódik az interpretáció során. Még egyszerűbben: nem arra a következtetésre jutok, hogy a Volkswagen e típusa úgy brutális, mint egy gyilkosság, és rettegnem kell tőle, hiszen félelmetes, hanem arra, hogy annyira hatásos, lehengerlő és meglepő, mint - hogy úgy fogalmazzunk - "amekkora" affektív jegy van a brutális és a félelmetes kifejezésekben.   Ha meggondoljuk ezt az interpretálási folyamatot, könnyen felfedezhetünk egyfajta párhuzamot a szövegszintű emóciókifejezések, valamint az emóciók arckifejezéseinek a megértése között. Hiszen nem lehet nem észrevenni, hogy mennyire hasonlít egymásra az a két jelértelmezési folyamat, amelynek során képes vagyok megfelelően, a  prototipikus vagy sztereotipikus jelentéstől eltérően, a puszta affektív szemantikai sajátság alapján interpretálni jelen esetben például a brutális szót az ezt a fajta interpretációt megkívánó kontextusban, és, hogy képes vagyok az egyébként, kontextus nélkül a számomra a harag egyértelmű jegyeit mutató szenátori arcot az izgatottság és az öröm kifejeződéseként interpretálni az ezt a fajta értelmezést megkívánó kontextusban.  Persze a fentebb bemutatott elméleti párhuzamot nem ok nélkül tárgyaltam - bár kétségtelen, hogy izgalmas és mindenképpen megfontolásra érdemes elképzelés önmagában is. Azt szerettem volna mindenekelőtt megvilágítani, hogy amíg az emócióelemzők (és áruljuk el: a szentimentelemzők is) gyakorta alapvetően a kategóriarendszerre, a rendszerezés problémáira és lehetőségeire fókuszálnak, elsikkadnak olyan jelentős kérdések fölött, mint jelen esetben például a kontextus szerepe a nyelvi (és az arckifejezések esetében nem nyelvi) jelek megértésében. Így pedig egy helytálló, és akár a nyelvtechnológiában és sikerrel alkalmazható pszichológiai elmélet is könnyen "veszélyessé"  válhat.            IRODALOM Alm, C.O.-Roth, D.-Sproat, R. 2005. Emotions from text: machine learning for textbased emotion prediction. In Proceedings of the Joint Conference on Human Language Technology / Empirical Methods in Natural Language Processing (HLT/EMNLP 2005). Vancouver, Canada. 579-586. Aman, S.-Szpakowicz, S. 2007. Identifying Expressions of Emotion in Text. In Proceedings of the 10th International Conference on Text, Speech, and Dialogue (TSD- 2007), Plzeň, Czech Republic, Lecture Notes in Computer Science (LNCS). SpringerVerlag. 196-205. Barrett, L.F.-Lindquist, K.A.-Gendron, M. 2007. Language as context in the perception of emotion. Trends in Cognitive Sciences 11. 327-332. Bibok, K. 2014. Lexical semantics meets pragmatics. Argumentum 10. Debreceni Egyetemi Kiadó. 221-231. Ekman, P.-Friesen, W.V. 1969. The repertoire of nonverbal behavior: Categories, origins, usage, and coding. Semiotica 1. 49-98. Ekman, P.-Friesen, W. V.-Ellsworth, P. 1982. What emotion categories or dimensions can observers judge from facial behavior? In P. Ekman Ed. Emotion in the human face. New York: Cambridge University Press. 39-55. Liu, H.-Lieberman, H.-Selker, T. 2003. A Model of Textual Affect Sensing using RealWorld Knowledge. In Proceedings of the International Conference on Intelligent User Interfaces, IUI 2003, Miami, Florida, USA.Wilson, D.-Sperber, D. 2004. Relevance Theory. In Ward, G.-Horn, L. eds. Handbook of Pragmatics. Oxford, Blackwell. 607−632. Neviarouskaya, A.-Prendinger, H.-Ishizuka, M. 2007a. Analysis of affect expressed through the evolving language of online communication. In Proceedings of the 12th International Conference on Intelligent User Interfaces (IUI-07). Honolulu, Hawaii, USA. 278-281. Neviarouskaya, A.-Prendinger, H.-Ishizuka, M. 2007b. Narrowing the Social Gap among People involved in Global Dialog: Automatic Emotion Detection in Blog Posts, In Proceedings of the International Conference on Weblogs and Social Media (ICWSM 2007). Boulder, Colorado, USA. 293-294.  Szabó M.K.−Vincze V.−Morvay G. 2015. Magyar nyelvű szövegek emócióelemzésének elméleti nyelvészeti és nyelvtechnológiai problémái. Nyelv - Nyelvtechnológia - Nyelvpedagógia: 21. századi távlatok. 25. MANYE-kongresszus, Budapest


2015. július 6. 16:08

Hogyan befolyásolja a gondolkodásunkat a mindennapi számítógép-használat?

Egy kérdőív kitöltésére buzdítjuk kedves olvasóinkat, amit alább meg is találhatnak. A vizsgálat eredményeiről természetesen egy posztban fogunk hamarosan beszámolni.   Loading...


2015. július 3. 9:00

Hogyan cenzúrázd az internetet?

Miután felderítettük a politikai blogok hálózatát, elemezgettük és előadtunk róla, épp itt az ideje, hogy szétromboljuk, ahogyan egy rendes LEGO-építményt illik. Na de mennyire ellenálló az építményünk? Szétesik egy jól irányzott csapástól vagy fogainkat és körmeinket segítségül véve kell szétszednünk az elemeket? Mit tegyen egy gonosz manó, ha nem tetszik neki hogy a különböző nézeteket képviselő oldalak között összeköttetéseket, utakat találhatunk? Posztunkban a hálózat támadásának két stratégiáját vetjük össze. Hogy szétbombázzuk az 1195 kapcsolattal összekötött 747 blogból és híroldalból álló hálózatunkat, két stratégiát vetettünk be Albert Réka, Hawoong Jeong és Barabási Albert László cikke alapján. Az első stratégia a random meghibásodások mintáját követi. Mivel egy hiba véletlenszerűen jelentkezik, mi is véletlenszerűen választunk ki egy-egy weboldalt, és töröljük minden kapcsolatával együtt. Majd jön a következő oldal, azt is töröljük, és így tovább. A második stratégiát követve azonban nem bízzuk a véletlenre a rombolást, hanem megkeressük a hálózat igazán fájó pontjait és azokat támadjuk meg. Barabásiék cikkétől eltérően nem a legnagyobb fokszámú (legtöbb kapcsolattal bíró) oldalakat szüntettük meg, hanem a legnagyobb PageRank értékkel rendelkezőket. (Ezt előzetesen kipróbáltuk, és a PageRank támadás nem sokkal, de valamivel hatásosabb tömegpusztítónak bizonyult.) A rombolást addig folytathatjuk, míg el nem fogy az összes oldal, de mivel mi éppen azon vagyunk, hogy kiélhessük a destruktív hajlamunkat, annak örülünk, ha minél kevesebb oldalt megsemmisítve tudjuk szétszedni a hálózatot. És hogy melyik a nyerő stratégia, a véletlenszerű vagy a PageRank érték szerinti támadás, a következő két videó elárulja:       Mindkét videón 100 oldalt iktattunk ki egyik és másik stratégia szerint. Azt valószínűleg sejthettük, hogy ha a PageRank érték szerinti legfontosabb oldalakat semmisítjük meg, a hálózat súlyos sérüléseket szenved és hamar szétesik. Az azonban meglepő lehet, hogy a random támadások szinte meg sem kottyannak a hálózatnak, és alig történik valami a szerkezetével. Ahogy Barabásiék cikkében is olvashatjuk, ez annak köszönhető, hogy a vizsgált hálózat - ahogyan a valós hálózatok többsége - skálafüggetlen, tehát nagyon sok olyan weboldal van a hálózatban, amely kevés kapcsolattal rendelkezik, és csak néhány olyan oldal van, amely nagyon sokkal. Ezért van az, hogy ha véletlenszerűen támadunk, jóval nagyobb valószínűséggel fogunk ki olyan oldalt, amelynek csak kevés kapcsolata van, és a hálózat szerkezetére nézve nincs különösebb jelentősége a kiiktatásának. Míg ha a PageRank érték szerint támadunk, akkor pont azokat az oldalakat semmisítjük meg, amelyek központi jelentőségűek a gráf szerkezetében. Ezt a jelenséget szemlélteti a következő ábra is, csak a hálózat egy másik tulajdonságának szempontjából. Az ábra azt mutatja, hogy hogyan változik a hálózatban az átlagos úthossz a véletlenszerű és a PageRank támadások hatására. Az eredeti hálózatban kb. 3,26-os volt az átlagos úthossz, azaz bármelyik oldaltól egy másik bármelyik oldalig nagyjából három oldalon keresztül jutottunk el átlagosan. A PageRank támadás hatására az egyre fogyatkozó hálózatban az átlagos úthossz szinte azonnal növekedni kezd, ami azt jelzi, hogy fontos összekötő elemeket szüntettünk meg. Az oldalak csupán egytizedének törlésével szét is esik a hálózat, és az átlagos úthossz értéke is leesik. A random támadások azonban nincsenek nagy hatással az átlagos úthosszra, az oldalak ¾-ét is törölnünk kell ahhoz, hogy megérezze a támadást a hálózat és elkezdjen szétesni.     Ha tehát van egy skálamentes hálózatunk, és szét szeretnénk rombolni, a legjobb amit tehetünk, hogy kiiktatjuk a szerkezetileg legfontosabb elemeket. A fontosságot pedig megítélhetjük fokszám, PageRank, köztesség vagy más szimpatikus centralitásmérték alapján. 


2015. július 1. 9:00

Oroszosaim sikerei a III. Találkozások konferencián, avagy az élénkülő ruszisztika

E rendhagyó posztban egy olyan sikerről számolunk be, amely igazán reménykeltő lehet mindannyiunk számára a hazai orosz nyelvi kutatások - nem mellesleg a hazai orosz számítógépes (!) nyelvészeti kutatások - fellendülését illetően. A múlt hónapban, május 8-án került megrendezésre a III. Találkozások Konferencia a Szegedi Tudományegyetem Juhász Gyula Pedagógusképző Karának Magyar és Alkalmazott Nyelvészeti Tanszékén (a konferencia honlapja itt érhető el). A szervezők, Klippel Rita és Tóth Eszter, valamint a házigazdák, Marsi István dékán, valamint Tóth Szergej tanár úr, a tanszék vezetője gondoskodtak a kiváló rendezésről és a kellemes légkörről.  A konferencián olyan BA, MA, valamint PhD-hallgatók mutathatták be tudományos eredményeiket, akik az alkalmazott nyelvészet területén kutatnak. Az előadásokat az erre felkért zsűri értékelte, amelynek tagjai Bácsi János, Kiss Gábor, Lengyel Zsolt, valamint Szőllősy-Sebestyén András voltak. Az előadók között szerepelt Danics Szabina és Rasztik Zita is, akik a Szegedi Tudományegyetem Bölcsészettudományi Karán az Orosz nyelv és irodalom szak MA-s hallgatói, és a konferencián bemutatott kutatásaiknak volt szerencsém a témavezetője, illetve társtémavezetője lenni. A hallgatókkal a szakon tartott számítógépes nyelvészeti szemináriumon kezdtük el a közös gondolkodást, amely gyorsan kiforrta magát, és a konferencián már be is mutathatták a hallgatók az eredményeiket. A lányok a nyelvtechnológia eszközeit kiaknázva igyekeztek új megállapításokat tenni az orosz nyelv vonatkozásában. Legnagyobb örömünkre a hallgatók munkáját a zsűri is jutalmazta: Szabina "A legmélyebb összehasonlító elemzésért", Zita pedig "A ruszisztika megújításáért" különdíjat kapott, és könyvjutalomban részesült. Nagy megtiszteltetésünkre Tóth Szergej tanár úr külön köszöntötte az ifjú kutatókat, és kifejezte örömét arra vonatkozóan, hogy az orosz nyelvi kutatások újabb lendületet véve ismét nagyobb számban képviseltetik magukat a konferencia programjában. Az alábbiakban a két hallgató prezentációját közöljük, valamint mutatunk néhány, a konferencián készült fotót is.       Remélem, hamarosan ismét Találkozunk!


2015. június 29. 13:29

A "nemzet" és a "nép" szavak Orbán Viktor beszédeiben

Noha mindenki tisztában van azzal, hogy a politikai kommunikáció tervezett és a politikusok tudatosan használnak bizonyos kifejezéseket, érveket beszédeikben, mégis megdöbbentő, mikor a kommunikáció mesterséges szabályozásának olyan kézzelfogható bizonyítékaival szembesülünk, mint például az EMMI ágazati kommunikációnak ajánlott és nem használható elemeit tartalmazó szótára. Ezen kívül persze nap mint nap találkozunk a Nemzeti Dohányboltok logójával, és azon sem lepődünk meg túlságosan, mikor a postaládánkból egy Nemzeti Konzultációs kérdőívet veszünk ki. Többek között ezek a jelenségek irányították a figyelmünket a "nemzet" és a "nép" szavak tudatos elválasztására a kormány kommunikációjában, melyet Orbán Viktor beszédeiben vizsgáltunk meg. Az említett EMMI szótár többek között olyan szópárokat tartalmaz, mint a "nép" és a "nemzet", a "közösség" és a "társadalom", a "segély" és a "támogatás", amelyek közül a dokumentum előbbieket nem ajánlott szavaknak minősíti, és helyettük utóbbiak használatát javasolja. A hétköznapi beszédben azonban ezeknek a fogalmaknak nem igazán érezzük a szemantikai különbségét, olyannyira nem, hogy egymás szinonimáiként használjuk őket. A "nemzet" és a "nép", valamint a szótárban olvasható többi fogalompáros szétválasztását tehát politikai és társadalmi céloknak tulajdoníthatjuk, amelyek szétválasztása egy külön eszmetörténeti feltárást igényelnének. Mi erre itt nem vállalkozunk, azonban van pár sejtésünk a "nemzet" és a "nép" elkülönítésével kapcsolatban. A "nemzet" fogalomban egyrészt ott érezzük a habermasi értelemben vett kulturális és etnikai homogenitás illúziójának megteremtését, és ezzel egyidejűleg a más "nemzethez" tartozók kirekesztését. Ennek szép példája a 2015. május 19-i straßbourgi parlamenti vita, ahol Orbán Viktor kijelentette a bevándorláspolitikával kapcsolatban, hogy meg akarja őrizni "Magyarországot magyar országnak". Másrészt a "nép" szóra rárakódik a magyar történelem hordaléka is, ezáltal érezhetjük a baloldalisághoz való kötődését. Emellett a jelenből is hozzáadódik egy jelentésréteg, amely a népi kultúrát, hagyományokat kisajátító radikális jobboldalisághoz kapcsolódik. Ezt támaszthatja alá Orbán Viktor 2015. április 12-i tapolcai időközi választáson elhangzott beszéde, amelyben a népről egy olyan entitásként beszélt, amelyre a Fidesznek és a kormánynak nincs befolyása, és amiért nem tudnak felelősséget vállalni. Ezzel kvázi a nem-FIDESZ szavazókat azonosította a néppel. Adatok Ezeket megfontolva logikusnak tűnik a "nép" szó kerülése és a "nemzet" szó hangoztatása. A két szó egymáshoz való viszonyát Orbán Viktor beszédeinek 25 évet felölelő korpuszán vizsgáltuk. A korpusz 1381 darab szöveget tartalmaz, amelyek különböző események, ünnepi alkalmak, rendezvények során hangzottak el. A szöveggyűjtemény egy az 1989. március 15-i ünnepség alkalmával mondott beszédtől kezdve 2014. szeptemberig tartalmazza Orbán Viktor beszédeit, melyek több helyen is elérhetőek online (pl. kormany.hu, 2007-2010.orbanviktor.hu). Hipotézisek A "nép" és a "nemzet" szó szétválasztása azonban egy újabb keletű kommunikációs stratégia, ezért azt feltételeztük, hogy a 25 évet átölelő korpuszban még nem lesz tetten érhető a két szó tudatos elválasztása és a "nép" szó használatának kerülése, azaz a két szó gyakori együttes előfordulására számítottunk. Ebből kifolyólag azt vizsgáltuk, hogy ha a "nép" szó megjelenik Orbán Viktor egy beszédében, akkor a "nemzet" szó megjelenésének esélye nőni fog-e ahhoz képest, ha a "nép" szó nem jelenik meg. Illetve ha a "nemzet" szó megjelenik egy beszédében, akkor a "nép" szó megjelenésének esélye nőni fog-e ahhoz képest, ha a "nemzet" szó nem jelenik meg. Emellett azt is vizsgáltuk, hogy ha baloldali párt van kormányon, akkor Orbán Viktor beszédeiben nagyobb eséllyel jelenik-e meg a "nemzet" és a "nép" szó is, ahhoz képest, amikor jobboldali párt vagy a FIDESZ van kormányon. Ezt azért feltételeztük, ugyanis mindkét kifejezés alkalmas hívószó a közösségi érzelmek mozgósítására, amelyre leginkább ellenzéki pozícióból lehet szükség. Módszertan A korpusz alapján három kategoriális változót képeztünk. A nép bináris változó azt tartalmazta, hogy adott beszédben megjelent-e a "nép" szó vagy sem, a nemzet bináris változó pedig azt tartalmazta, hogy adott beszédben megjelent-e a "nemzet" szó vagy sem. A korm három értékű változó azt fejezte ki, hogy a beszéd elhangzásakor baloldali párt volt-e kormányon, vagy jobboldali párt, de nem a FIDESZ avagy a FIDESZ. A fenti hipotézisek alátámasztásához, valamint a változók mérési szintjéhez igazodva Poisson regressziókat illesztettünk. Elemzés A Poisson regressziós modelleket úgy illesztettük, hogy a változókat és a köztük lévő interakciókat különböző, egymást követő lépésekben vontuk be. Az általánosított lineáris modellek, és így a Poisson regressziós modellek illeszkedésének jóságát a deviancia mérőszám alapján hasonlíthatjuk össze, amely a telített modell és a definiált modell log-likelihoodjai közötti különbség kétszerese. Egymásba ágyazott modellek esetében a devianciák különbsége khí-négyzet eloszlású, amelynek szabadságfoka a paraméterek számában elért csökkenés. Épp ezért khí-négyzet próbával tudjuk ellenőrizni, hogy a modellbe bevont újabb paraméterek szignifikánsan jobb illeszkedést mutatnak-e. Az ezzel az eljárással kiválasztott modell együtthatói a következő táblázatban olvashatók: Poisson regresszió - nép + korm + nemzet + nemzet * korm + nemzet * nép + korm * nép     Együtthatók Együtthatók standard hibája z-érték Pr(>|z|)     Intercept 3.1773     0.1776 17.893 < 2e-16 *** nemzet1 0.8121 0.1975 4.112 3.93e-05 *** nép1 -0.6108     0.1907 -3.203 0.001359 ** korm2 0.7749     0. 2209   3.508 0.000452 *** korm3 2.2650 0.1838 12.322 < 2e-16 *** nemzet1:korm2 -2.5723     0.3331 -7.723 1.14e-14 *** nemzet1:korm3 -0.4108     0.2029 -2.024   0.042999 * nemzet1:nép1 1.7689     0.1533 11.539 < 2e-16 *** nép1:korm2 -0.9478     0.3114   -3.043 0.002339 ** nép1:korm3 -0.9807     0.1568 -6.254   4e-10 *** Nulldeviancia: 1741.6107 11 szabadságfok mellett Reziduális deviancia: 2.6646 2 szabadságfok mellett AIC: 91.742   A modell érzékenységét a modell együtthatóinak bootstrappelésével ellenőriztük. 10000-es ismétlésszám mellett a modell együtthatói nem bizonyultak érzékenynek, mindegyik a bootstrap mintákra illesztett modellek együtthatói által kirajzolt konfidenciaintervallumokon belül helyezkedett el. Eredmények Az együtthatók alapján számolt esélyhányadosok szerint Orbán Viktor az elmúlt 25 évben előszeretettel beszélt a nemzetről, ha ellenzéki pozíciót foglalt el. Kb. 20-szor nagyobb volt az esélye, hogy a nemzetről beszéljen, ha baloldali párt volt kormányon ahhoz képest, ha a FIDESZ. Ezzel párhuzamban kb. 8,4-szer volt nagyobb az esélye, hogy a népről tartott beszédet, ha baloldali párt volt kormányon ahhoz képest, ha a FIDESZ. A feltételezésünk, miszerint ellenzéki pozícióban szívesebben használja a "nemzet" és a "nép" hívószavakat, az illesztett modell alapján tehát beigazolódott. Ezt azzal magyarázhatjuk, hogy a "nemzet" és a "nép" kifejezések alkalmas hívószavak a közösségi érzelmek mozgósítására, és erre egy politikusnak leginkább ellenzéki pozícióban lehet szüksége. A "nemzet" és a "nép" szavak különválasztásával kapcsolatban pedig azzal a feltételezéssel éltünk, hogy mivel a szópáros szemantikailag nagyon közel áll egymáshoz, valamint szétválasztásuk egy újabb keletű, politikai célú kommunikációs stratégia, amely az egész korpuszban nem érhető tetten, az egész korpuszon vizsgálva az egyik szó előfordulása növeli az esélyét a másik szó előfordulásának. Az illesztett modell alapján számolt esélyhányadosok ezt a hipotézist is javarészt alátámasztják, ugyanis kb. 5,9-szer volt nagyobb az esélye az elmúlt 25 évben, hogy Orbán Viktor a "nemzet" szót használta, ha a "nép" szó is megjelent egy beszédében. Emellett kb. 2,3-szor volt nagyobb az esélye, hogy a népről is beszéljen, ha a nemzetről is szót ejtett. Ez utóbbi esélyhányados azonban mutatja, hogy van némi eltolódás a "nemzet" szó preferálása felé, azonban a "nép" szó esélyét így is növeli a nemzetről való beszéd. Az illesztett modell tehát alátámasztja, hogy a vizsgált szavak mesterséges különválasztása és a "nép" szó használatának kerülése a korpuszra általánosságban nem volt jellemző, az egyik fogalom megjelenése ugyanis növeli a másik fogalom megjelenésének esélyét, amely a szemantikai hasonlóságuknak köszönhető. Azonban eltolódás tapasztalható a "nemzet" szó használatának javára, amely azt mutatja, hogy a korpuszban valamennyire mégis tetten érhető a "nemzet" szó preferálása a "nép" szóval szemben, amelyet érdemes lenne időben is megvizsgálnunk.


2015. június 17. 13:37

Múlt idő és kognitív technológia

Az ezredforduló tájékán a szexi IT világától távoli lapokban éppen lezárult a nyelvészek és kognitív tudósok között két évtizede zajló "múlt idő vita". Több mint tíz évvel később új formában előjött minden, de most a technika köntösébe bújva; a neurális hálók és a klasszikus, szabályalapú rendszerek hívei között.  A repülő nem madár, mégis repül Da Vinci repülő szerkezetét a madarak ihlették. Nagyon ötletes szerkezet, kifejezetten zöld megoldás és még működőképesnek is tűnnek modern megvalósításai.   Amikor a Wright testvérek megtervezték gépüket, vitathatatlanul a madarak inspirálták őket. Ellenben egy modern utasszállító- vagy egy vadászgép nagyon nem madárszerű, egy helikopter pedig végképpen nem az. Egyes repülőgép-alkatrészek és madárszervek között találhatunk funkcionális hasonlóságokat, de eleve más alapanyagból készülnek és másképp működnek, gondoljunk pl. a madarak és a repülők szárnyaira! Porphüriosz fája és a Google A Google 2010-ben felvásárolta a Freebase-t, amivel az egyik legnagyobb szemantikus adatbázist szerezte meg. A Freebase magját alkotó tudáshalmazt felhasználók ezrei gyűjtögették össze aprólékos munkával. Persze azóta a linked data mozgalom is beindult és egyre több szemantikus adathalmaz válik elérhetővé. Ezek jelentős részét már gépek bányásszák elő. A népszerű DBpedia például a Wikipedia struktúráját kihasználva állít elő tudásbázist. A Google Knowledge Graph is egyre inkább automatikusan bővül, gyakran a nyilvános, szabadon elérhető linked data adatbázisokat használva.   Habár jelentős lépések történtek a linked data automatikus generálása terén, az emberi tudás jelentőseb része még nincs adatbázisokban tárolva. Nyilván ennek egy jelentős részét nem is lehet tárolni. A "tudni hogy" és "tudni mit" distinkció nagyon fontos ezen a téren. A biciklizést el lehet magyarázni, de igazából csak a gyakorlatban lehet tanítani és megtanulni. Viszont nagyon sokszor használjuk a józan eszünket, hiszen vannak dolgok amiket nem kell elmagyarázni, ilyen összefüggések gyűjtését célozta meg a ConceptNet projekt. De mit is értünk józan ész alatt? Ha Nóri a vonaton van, a vonat pedig az állomáson, akkor tudjuk hogy Nóri is az állomáson van. Ha Nóri okos akar lenni, akkor tanulnia kell. Azaz nem csak ontológiából áll tudásunk, hanem abból is hogyan kapcsolódnak annak egyes elemei egymáshoz, sőt ezeket a viszonyokat is szeretjük megnevezni, ami valljuk be igazán kuszává teszi a helyzetet. Habár Arisztotelész az első, akiről tudjuk, hogy szerette volna formálisan rendszerezni az emberi tudást, gyanítható hogy olyan vágynak adott hangot, amely egyidős az emberiséggel. A klasszikus arisztotelianizmus Porphüriosz fájában jelenítette meg a kor linked datáját, ami tulajdonképpen kategóriákat és létezőket ábrázol gráf struktúrában. Azóta a fa sokkal terebélyesebb lett, de úgy tűnik a feladat az emberek számára túl nagy falat, a gépeknek pedig túl bonyolult. Ezért a Knowledge Graph gyarapítására a Google deep learninget vetett be, s ebben sok követőre akadt.   A vita A nyolcvanas években Paul Smolensky (nyelvész olvasóinknak az optimalitáselméletből lehet ismerős a neve) köré kezdtek szerveződni a konnekcionisták, akik a kor színvonalához képest már nagyon jó számítógépes modellekkel dolgoztak. A kétrészes Parallel Distributed Processingtanulmánykötetben összegezték munkáikat 1987-ben, melyet még ma is szívesen hivatkoznak a terület kutatói. A PDP csoport alapvetően Neumann gondolatát vitte tovább a párhuzamos feldolgozást illetően. A gyakorlatban egy-egy ún. szubszimbolikus kognitív folyamatot modelleztek (pl. számjegyek felismerése, szófelismerés, a legbonyolultabb és egyben legismertebb magasabb szintű folyamatot modellező kísérlet a Rumelhart és McCelland On the learning of past tenses of English verbs tanulmányban leírt modell).  Habár nagyon sikeres volt a csoport és figyelemre méltó eredményeket értek el, a kutatási irányzat a kilencvenes években kiesett az ipar látóköréből és megmaradt akadémiai hobbinak. Setven Pinker a "hagyományos" iskola talajáról emelte fel a szavát a megosztott feldolgozás modellje ellen. A szavak és szabályok (WR, vagy Words and Rules) elmélet (legfrissebb formája) nem tagadja, hogy a pl. a múlt idő elsajátítása során egyszerű pattern asszociációkon keresztül sajátítják el a gyermekek mind a szabályos, mind pedig a rendhagyó alakokat. A WR a tárolásról szól, arról, hogy hatékonyan gráf adatstruktúrában érdemes tárolni a lexikon, a rendhagyó alakokat pedig érdemes a hierarchikus gráfba helyezni, minden más elem transzformációját pedig szabályokkal megoldani. (Itt lehet olvasni a múltidő vita összefoglalását Pinker szemszögéből.) McCellend és Rogers The Parallel Distributed Processing Approach to Semantic Cognition című tanulmányukban Porhüriosz fájának modern reinkarnációját, Quillian szemantikus memóriáját vizsgálják a neurális hálók szemszögéből. Nagyon meggyőzően érvelnek amellett, hogy a szemantikus relációk is asszociatív úton sajátíthatóak el, sőt, ezt még empirikus nyelvfejlődési adatokkal is alá tudják támasztani. Ami problematikus számunkra, az a kinyert adatok tárolása és gyors előhívása. Ebben nem sikerül Quillian eredményeit túlszárnyalniuk, sőt, ezt a modellt is alá lehet támasztani sok empirikus adattal is. A modellek csak modellek Technikai értelemben Pinker álláspontja a gazdaságos, hiszen nem feltételezi, hogy a relációk kinyerése, vagy éppen a szemantikai viszonyok elsajátítása egyben tárolásuk problémáját is meg kell hogy oldja. Porphüriosz fáját emberek helyett deep learning algoritmusok szerkeszthetik meg, az adatokat pedig továbbra is gráfadatbázisokban érdemes tárolni. 


2015. június 8. 13:04

Bababeszéd és gráfok 2.

Előző posztunk kapcsán többen jelezték, hogy nem látszik túl jól, miképp növekszik a gyermekek szótára a hónapok során. A megoldást továbbra sem tudjuk, de most két gráfot közlünk, ami talán segít jobban bemutatni a jelenséget. A gráfban minden kapcsolat megtalálható a 17-36 hónapos beszélőktől származó szövegekből. Mindkét gráfon 140 csomópont látható, fokszámuk 84 és 2469 között van. A két gráf megegyezik, azaz ugyanaz az egyes elemek helye, nagysága és színe a két képen. A különbség a címkékben van, az elsőn a számok azt jelentik, hogy az adott lexikai elem hány hónapos beszélőnél jelent meg először a korpuszban, a második képen pedig a csomópontokhoz tartozó szavak láthatóak.


2015. június 5. 20:08

Bababeszéd és gráfok

Korábbi posztunkban a nyelv kisvilág tulajdonságaival foglalkoztunk, s elméláztunk azon hogy vajon a nyelvelsajátítás során hogyan alakulnak a szavak hálózatai. Most CHILDES adatbázis magyar korpuszain keresztül bele is tekinthetünk ebbe.  ... // Powered by Cincopa Video Hosting for Business solution.Teljes gtáfokoriginaldate 1/1/0001 6:00:00 AMwidth 2000height 1165originaldate 1/1/0001 6:00:00 AMwidth 2000height 1165originaldate 1/1/0001 6:00:00 AMwidth 2000height 1165originaldate 1/1/0001 6:00:00 AMwidth 2000height 1165originaldate 1/1/0001 6:00:00 AMwidth 2000height 1165originaldate 1/1/0001 6:00:00 AMwidth 2000height 1165originaldate 1/1/0001 6:00:00 AMwidth 2000height 1165originaldate 1/1/0001 6:00:00 AMwidth 2000height 1165originaldate 1/1/0001 6:00:00 AMwidth 2000height 1165originaldate 1/1/0001 6:00:00 AMwidth 2000height 1165originaldate 1/1/0001 6:00:00 AMwidth 2000height 1165originaldate 1/1/0001 6:00:00 AMwidth 2000height 1165originaldate 1/1/0001 6:00:00 AMwidth 2000height 1165originaldate 1/1/0001 6:00:00 AMwidth 2000height 1165originaldate 1/1/0001 6:00:00 AMwidth 2000height 1165originaldate 1/1/0001 6:00:00 AMwidth 2000height 1165originaldate 1/1/0001 6:00:00 AMwidth 2000height 1165originaldate 1/1/0001 6:00:00 AMwidth 2000height 1165originaldate 1/1/0001 6:00:00 AMwidth 2000height 1165   A fenti képek 17-36 hónapos gyermekek megnyilatkozásait tartalmazó korpuszokból készült teljes szógráfok. Sajnos a korpuszt nem sikerült jól megtisztítani, ezért a szótövezés eredménye sem tökéletes. Egyes elemeket át tudtunk írni (pl. "ajutó" -> "autó"), de továbbra is rengeteg igazi gyereknyelvi forma maradt a szövegekbe. Ezért az alábbi táblázatban a korpusz nagyságát az egyedi "lexikai elemek" számával érzékeltetjük, mert szónak nem hívnánk minden elemét. Az adatot szolgáltató gyermekek korát hónapban adjuk meg. Fontos megjegyezni, hogy az adott korosztályokban eltérő számú beszélőtől származnak az adatok. Kor (hónapban) Lexikai elemek Kapcsolatok 17 12 20 19 20 42 20 936 4153 21 943 4181 22 1244 6620 23 1456 7590 24 1846 10343 25 2136 12306 26 2707 16877 27 3044 19288 28 3672 23496 29 3882 24957 30 3999 25654 31 4340 28420 32 4584 30058 33 5029 33213 34 5593 38550 35 6165 43975 36 6274 44842   Látható, hogy a lexikai elemek száma szépen egyenletesen nő, a kapcsolatok száma viszont gyorsabban, habár egy kicsit hullámozva. Az alábbi négy gráf a száz legmagasabb fokszámú csomópontot tartalmazza a 20, 25, 30 és 36 hónapos beszélők szövegeiből. ... // Powered by Cincopa Video Hosting for Business solution.Better Babaoriginaldate 1/1/0001 6:00:00 AMwidth 1024height 1024originaldate 1/1/0001 6:00:00 AMwidth 1024height 1024originaldate 1/1/0001 6:00:00 AMwidth 1024height 1024originaldate 1/1/0001 6:00:00 AMwidth 1024height 1024 Érdekes, hogy a gráfok központi magjának alakulása. Kezdetben névmások és főnevek uralják a központi magot, s csak a 30-36 hónapos korban kezdenek megerősödni a funkciószavak.Ahogy a hálózat növekszik, azt tapasztaltuk, hogy egy-egy elem kitüntetett szerepet kap, az új elemek hozzájuk kapcsolódnak először. Ilyenek a funkciószavak és egyes főnevek.   Sajnos a CHILDES korpusz nem dúskál magyar adatokban, ami van, az sem a leghasználhatóbb. Az adatokkal játszani viszont nagyon jó volt!


2015. június 1. 10:32

Hálózattudomány és nyelv - magyar könyvek

A hálózatok napjainkban megkerülhetetlenek, még a nyelvészetbe is beszivárogtak. Szerencsére magyar nyelven is elmélyedhetünk a témában, posztunkban az elérhető kötetekből ajánlnunk most párat.   Andrásfai Béla: Gráfelmélet Habár a hálózatkutatás nem egyenlő a gráfelmélettel, azért nem árt tudni pár dolgot a gráfokról. Ebben Andrásfai kis könyve nagyon nagy segítségünkre lehet! Klasszikusan definíció, tétel, bizonyítás felosztás szerint dolgozik a szerző, ami sokaknak kicsit száraz lehet, de nagyon lényegre törően tálalja az alapokat. Mark Buchanan: Nexus, avagy kicsi a világ Az első ismeretterjesztő kötet ami nagyon alaposan mutatja be a hálózattudomány kialakulását, központi problémáit. Az eredeti mű 2002-ben jelent meg s 2003-ban már le is lett fordítva!  Olvasása közben el lehet mélázni azon, hogy jóslatai mennyire jöttek be. Legnagyobb előnye, hogy minden alapvető tanulmányt bemutat röviden, segítségével fel lehet térképezni mit érdemes elolvasni. Érdekes módon ebben a kötetben is találkoztam a hálózatkutatók Popper-ellenességével.  Christakis - Fowler: Kapcsolatok hálójában Mivel a könyvet egy orvos-szociológus és egy politológus jegyzi, nem meglepő hogy a hálózattudomány társadalomtudományi alkalmazásaival találkozhatunk benne főleg. Az ismeretterjesztő művek közül ez inkább a sztorizós fajta, komolyabb kifejtésre ne számítsunk tőle! Ellenben szórakoztató és a hetedik fejezetben a nyelvvel is megpróbál foglalkozni egy kicsit. Barabási Albert-László: Behálózva A KÖNYV a témában. Mivel Barabási nevéhez kötődik a skálafüggetlen hálózatok leírása, ezért ez a könyv amolyan személyes élménybeszámoló is a terület egyik megalapítójának tollából. Buchanan-hez hasonlóan igen alaposan járja körül az alapkérdéseket, sok időt megspórolva az irodalomkutatástól.  Barabási Albert-László: Villanások Ez a kötet már művészibb, inkább elgondolkodtatni és kérdezni szeretne vele a szerző (szerintem). Alapvetése szerint Popper tételét szeretné megcáfolni és az emberi viselkedés előrejelzésének alapjait lefektető program eddigi lépéseit bemutatva vázolná fel a jövő új tudományát. Blaskó - Balázs - Kovács: Hálózatkutatás, Hálózatok a társadalomban és a nyelvben Egy klasszikus konferenciakötet, amiben a hálózattudomány bölcsészet- és társadalomtudományi alkalmazásairól olvashatunk. A nyelvészeti dolgozatok java kifejezetten érdekes, a többiről nem tudunk nyilatkozni. Kovács László: Fogalmi rendszerek és lexikai hálózatok a mentális lexikonban Kovács László könyve nagyon egyedi. Habár a hálózattudomány eszközeit sokan megpróbálták a nyelvre alkalmazni, jelentős részük fizikus, vagy hálózatkutató (akik általában eredetileg fizikusok). Ennek eredménye gyakran az hogy érdekes kérdést tálalnak abszolút baromságokkal körítve, mint pl. a Popper-re való állandó hivatkozás a társadalmi kérdések esetében. Kovács mint nyelvész nem esik ilyen hibába és nagyon egyedi módon sikerül új technikákat alkalmaznia nyelvészeti kérdésekre. Ritka, de nemzetközi viszonylatban is új, egyedi kutatást ismerhetünk meg ezt a könyvet olvasva!


2015. május 29. 9:31

Miről ír a Kuruc.info Cigánybűnözés rovata?

A Kuruc.info 2006 óta a magyar internetes valóság része, s vitathatatlan érdemeket szerzett a magyar nyelvű gyűlöletbeszéd megőrzésében, terjesztésében és továbbfejlesztésében. Indulása óta annyi írás jelent meg, hogy elképzelni is nehéz milyen sok téma kapcsán ragadtak klaviatúrát a "nemzeti radikálisok". Gyakornokunk az LDA társadalomtudományi alkalmazhatóságát járta körül szakdolgozatában és megpróbálta legalább egy töredékét elemezni a szövegáradatnak. Ehhez a Kuruc.info Cigánybűnözés rovatának 10,304 cikkét gyűjtötte be, majd fantasztikus technikai és statisztikai bravúrokkal kiügyeskedte, hogy az LDA elemzés során 27 topik használatával lehet a legjobban leírni az ezekben megjelenő témákat.    Az egyes topikokhoz tartozó top harminc szót az alábbi táblázatban lehet megtalálni. Az alábbi ábrákban a topikok időbeli eloszlását szemléltetjük. Az egyes topikok leíró címeket kaptak, négyesével lettek csoportosítva és a táblázatban található sorrendben követik egymást.            


2015. május 28. 9:48

Orbán Viktor országértékelő beszédei képekben

Pénteken Orbán Viktor az elmúlt öt év kormányzati munkáját fogja értékelni. A hírről a hagyományos országértékelő beszédek jutnak eszünkbe óhatatlanul. Ezekből már van tizenhét, melyeket a Nyelv és Tudománnyal közös projektünk keretében begyűjtöttünk és megvizsgáltunk. Leggyakoribb szavak ... Kulcsszavak ... // Powered by Cincopa Video Hosting for Business solution.Klucsszavakoriginaldate 1/1/0001 6:00:00 AMwidth 1200height 600originaldate 1/1/0001 6:00:00 AMwidth 1200height 600originaldate 1/1/0001 6:00:00 AMwidth 1200height 600originaldate 1/1/0001 6:00:00 AMwidth 1200height 600originaldate 1/1/0001 6:00:00 AMwidth 1200height 600originaldate 1/1/0001 6:00:00 AMwidth 1200height 600originaldate 1/1/0001 6:00:00 AMwidth 1200height 600originaldate 1/1/0001 6:00:00 AMwidth 1200height 600originaldate 1/1/0001 6:00:00 AMwidth 1200height 600originaldate 1/1/0001 6:00:00 AMwidth 1200height 600originaldate 1/1/0001 6:00:00 AMwidth 1200height 600originaldate 1/1/0001 6:00:00 AMwidth 1200height 600originaldate 1/1/0001 6:00:00 AMwidth 1200height 600originaldate 1/1/0001 6:00:00 AMwidth 1200height 600originaldate 1/1/0001 6:00:00 AMwidth 1200height 600originaldate 1/1/0001 6:00:00 AMwidth 1200height 600originaldate 1/1/0001 6:00:00 AMwidth 1200height 600 Szógráfok ... // Powered by Cincopa Video Hosting for Business solution.Szógráfok1999originaldate 1/1/0001 6:00:00 AMwidth 1024height 10242000originaldate 1/1/0001 6:00:00 AMwidth 1024height 10242001originaldate 1/1/0001 6:00:00 AMwidth 1024height 10242002originaldate 1/1/0001 6:00:00 AMwidth 1024height 10242003originaldate 1/1/0001 6:00:00 AMwidth 1024height 10242004originaldate 1/1/0001 6:00:00 AMwidth 1024height 10242005originaldate 1/1/0001 6:00:00 AMwidth 1024height 10242006originaldate 1/1/0001 6:00:00 AMwidth 1024height 10242007originaldate 1/1/0001 6:00:00 AMwidth 1024height 10242008originaldate 1/1/0001 6:00:00 AMwidth 1024height 10242009originaldate 1/1/0001 6:00:00 AMwidth 1024height 10242010originaldate 1/1/0001 6:00:00 AMwidth 1024height 10242011originaldate 1/1/0001 6:00:00 AMwidth 1024height 10242012originaldate 1/1/0001 6:00:00 AMwidth 1024height 10242013originaldate 1/1/0001 6:00:00 AMwidth 1024height 10242014originaldate 1/1/0001 6:00:00 AMwidth 1024height 10242015originaldate 1/1/0001 6:00:00 AMwidth 1024height 1024 Topikok Szavak Hogy készült? A szövegeket kitisztítottuk (minden írásjeltől, számtól és nem betűnek számító karaktertől), csupa kisbetűsre hoztuk, majd szótöveztük és végül a stopszavakat (kötőszavak, névelők, stb.) kiszűrtük. Az így kapott korpuszon számoltunk szógyakoriságot. Az egész korpuszt használva az egyes évek beszédeinek kulcsszavait khí-négyzetes módszerrel kerestük meg. A szógráfokat TextRank eljárással generáltuk. A topikokat látens Dirichet allokációval állítottuk elő. A szavakat Ward-módszerrel rendeztük hierarchikus klaszterekbe. // Powered by Cincopa Video Hosting for Business solution.Orbán Viktor országértékelő beszédei 1999-2015, leggyakoribb szavakoriginaldate 1/1/0001 6:00:00 AMwidth 1200height 600originaldate 1/1/0001 6:00:00 AMwidth 1200height 600originaldate 1/1/0001 6:00:00 AMwidth 1200height 600originaldate 1/1/0001 6:00:00 AMwidth 1200height 600originaldate 1/1/0001 6:00:00 AMwidth 1200height 600originaldate 1/1/0001 6:00:00 AMwidth 1200height 600originaldate 1/1/0001 6:00:00 AMwidth 1200height 600originaldate 1/1/0001 6:00:00 AMwidth 1200height 600originaldate 1/1/0001 6:00:00 AMwidth 1200height 600originaldate 1/1/0001 6:00:00 AMwidth 1200height 600originaldate 1/1/0001 6:00:00 AMwidth 1200height 600originaldate 1/1/0001 6:00:00 AMwidth 1200height 600originaldate 1/1/0001 6:00:00 AMwidth 1200height 600originaldate 1/1/0001 6:00:00 AMwidth 1200height 600originaldate 1/1/0001 6:00:00 AMwidth 1200height 600originaldate 1/1/0001 6:00:00 AMwidth 1200height 600originaldate 1/1/0001 6:00:00 AMwidth 1200height 600


2015. május 27. 11:46

A gépek (még) nem fordulnak ellenünk!

A mesterséges intelligenciáról szóló filmek reneszánszukat élik, Elon Musk és társai egyre jobban aggódnak amiatt, hogy a modern technológia végül maga alá fogja gyűrni megalkotóit és még a legnépszerűbb AI tankönyv társszerzője Stuart Russel is nyílt levélben szólította fel a terület kutatóit hogy olyan rendszereken dolgozzanak, melyek működésében biztosak lehetünk és céljaik jók. Tényleg félnünk kell a mesterséges intelligenciától? De mitől félünk? Alapvetően két dologtól félnek azok akik szeretnek félni a mesterséges intelligenciától az algoritmusok vak működése során valahogy az ember válik a leggyengébb láncszemmé egy folyamatban, s ezért szenvtelenül úgy fog dönteni egy gép, hogy ki kell iktatni minket a gépek öntudatra kelnek és megalkotóik ellen fordulnak Russel tkp. az első lehetőségre figyelmeztet minket (na jó, inkább kollégáit). A jó hír az, hogy kellő odafigyeléssel ez meg megoldható. De miért is kell erre odafigyelni? Manapság a legtöbb mesterséges intelligencia címkével ellátott rendszer a gépi tanulás paradigmájába tartozik. Lényegüket tekintve nem az emberi problémamegoldást próbálják utánozni, hanem előre nem definiált, nem "leprogramozható" feladatokat oldanak meg, olyanokat amelyek számunkra gyakran megoldhatatlanok. A legismertebb az időjárás előrejelzés, de ilyen lehet a jelenbecslés, vagy az orvosi diagnosztikában használt klasszifikációs eljárások. Az ilyen eljárásokon akár életek múlhatnak, de komplett lakóközösségek sorsát is meghatározhatja a manapság egyre divatosabb "predictive policing". Szerencsére ezen a téren egy rendes kutatásnak át kell mennie egy etikai szűrőn, továbbá a szoftverfejlesztésben bevett minőségellenőrzési praktikákra alapozott módszertannal figyelhetjük a kódokat és a statisztika felvértez minket az eredmények kiértékelésének lehetőségével. Ezért az első lehetőséget kipipálhatjuk azzal, hogy résen vagyunk, ha nem is tökéletes minden.   Mi a helyzet a második lehetőséggel? Ez egy általános, nem feladatspecifikus gépet feltételez, olyat, ami képes magának célokat kitűzni. Ma a piacon az általános problémamegoldásra a Google Deep Mind projektje pályázik, ami az Atari játékokkal már egész jól el tud lenni.   Vajon innen már csak egy lépés a Blade Runner Nexus 6 csoportja, ami öntudatra ébred s saját programozott halálát megpróbálja elkerülni s miközben alkotójára tör a Tears in Rain monológhoz hasonló szép költői képeket alkot?   A kétezer éve megoldatlan probléma Nem csak a valóságot kell megértenünk, hogy a valóságot tapasztalni tudjuk, hanem a valóság megértésének már előzőleg is megvilágítottnak kell lennie. A lét megértése már eleve egy általában vett fényt adó, megvilágított horizonton mozog. (Heidegger: A metafizika alapproblémái, 351.o.) A legtöbb AI tankönyvben, valahol a bevezetésben, találhatunk egy részt a mesterséges intelligencia határairól. Érdekes módon nem a klasszikus analitikus filozófia nagyágyúit veszik sorra általában, hanem egy teljesen más területen, a kontinentális, fenomenológiai hagyományban dolgozó Hubert Dreyfus-t. Ennek oka az, hogy 1965-ben megjelent Alchemy and Artificial Intelligence című tanulmánya, majd What Computers Can't Do és What Computers Still Can't Do című könyvei kiállták az idő próbáját és remekül megjósolták a mesterséges intelligencia kutatásának határait és buktatóit!   Dreyfus a klasszikus mesterséges intelligenciát vizsgálva arra jutott, hogy az négy előfeltevésre épül: biológiai előfeltevés - azaz, hogy az elme egy olyan eszközön, az agyon, valósul meg ami diszkrét információfeldolgozást hajt végre. pszichológiai előfeltevés - mely szerint az elme működése formális szabályokban leírható, ezek pedig megvalósíthatóak egy diszkrét információfeldolgozó egységen episztemológiai előfeltevés - a tudás formalizálható, azaz leírható véges számú atomi elem és azok kombinálást lehetővé tevő szabályok által ontológiai előfeltevés - maga a világ is leírható véges számú atomi elem és azok kombinációit leíró szabályok által Ez nem más, mint a nyugati filozófia és tudomány kétezer éve elkezdett programja! A klasszikus AI (vagy GOFAI, azaz good old fashioned AI) még hitt abban, hogy a mesterséges intelligencia megalkotása segít megérteni a természetes, emberi intelligenciát. A pszichológiai előfeltevés erről szól, azonban független a másik háromtól, nagyon hamar el is vetették és a kognitív tudományhoz utalták mint kérdést. A másik három azonban a modern mesterséges intelligenciában is megjelenik.   Dreyfus nem vonja kétségbe a mesterséges intelligencia hasznosságát, sőt azt sem hogy fejlődik. Ellenben felhívja a figyelmet arra, hogy az AI előfeltevéseit használva a nyugati szellemi élet kétezer évig gyúrta az agy és elme problémáját mire rájött, hogy a klasszikus keretben nem megoldható.   Dreyfus abból indul ki, hogy az emberi intelligenciának csak egy része épül fel a tudományos megközelítésnek kedvező módon. Vannak problémamegoldási alapelvek, vannak mintaillesztési műveletek, melyek megközelíthetőek szabály alapon, vagy valószínűségi módon. De az emberi tapasztalat és intelligencia beépült a környezetbe. Legalább annyira vagyunk környezetünk termékei, mint annak szemlélői és alakítói. Quine-hoz hasonlóan Dreyfus is holista. Ahhoz, hogy meglássuk a világ, vagy éppen tudásunk atomi részeit, rendelkeznünk kell egy előzetes átfogó képpel magáról a világról! Vegyünk egy példát, egy korábbi írásunkból: A híres gavagai-példa szerint: ha elvetődünk egy eddig elszigetelt törzshöz, és szeretnénk leírni nyelvüket, megfigyeléseket végzünk, nyelvi adatokat gyűjtünk, és megpróbáljuk a nyelv szabályait a beszélők viselkedéséből, reakcióiból "lepárolni". Ha elkísérjük a törzs egyik tagját útján és meglát egy nyulat, majd felkiált, hogy "gavagai", lejegyezzük, és megpróbáljuk értelmezni ezt a viselkedés. De hogyan fordítsuk le ezt magyarra? "Nyúl", de lehet hogy "ott egy nyúl" vagy "az ott egy nyúl", de akár lehet "az lesz a mai vacsora" is. Nyilván praktikus eszközökkel le tudjuk szűkíteni a lehetséges interpretációkat (pl. ha este, amikor a tányérunkra kerül egy darab hús, és ismét azt halljuk hogy "gavagai", akkor szűkül a kör, de még mindig lehet egyszerre vacsora és nyúl is a lehetséges fordítás). Quine szerint mindez azért van, mert az értelmezésekhez az egész nyelvet "egyszerre" kellene tudnunk előre, mivel nem szimplán mondatokat tanulunk, hanem azok összefüggéseit és a hozzájuk kapcsolt empirikus tapasztalatot is, így a nyelv mondatai absztrakciók csupán, jelentésüket a nyelv egészétől kapják, nem pedig az egyes mondatok adják össze a nyelv egészét.   És ez nem csak a nyelvre igaz, hanem magára az intelligenciára! Nem lehet elválasztani attól, hogy mi emberek a minket körülvevő világba vagyunk beágyazva. A világ legjobb reprezentációja saját maga, úgy ahogy számunkra adva van, s ezt nap mint nap használjuk öntudatlanul! Egy adott objektumot, pl. a templom tornyát, használjuk irányjelzőnek, hogy tudjunk tájékozódni, azaz kiterjesztjük elménket. Ugyanakkor elménk nem egyenlő az agyunkkal! Észlelésünk, a világban való jártasságunk testünk által meghatározott, hiszen a világot érzékszerveinken keresztül tapasztaljuk, testünkkel alakítjuk. Ezzel a gondolattal Dreyfus testesült (embodied) kogníció előfutára is egyben! Jönnek a robotok! Mielőtt valaki azt gondolná, ez csak filozófia, ismerkedjünk meg Moravec paradoxonjával! Moravec és Brooks a modern robotika úttörői részben Dreyfus hatására fordultak a testesült kogníció felé. A klasszikus megközelítés korlátait szeretnék feloldani azzal, hogy testet adnak intelligens rendszereiknek. A program során azzal a paradox helyzettel találkoztak, hogy a szimbolikus feldolgozás kevés, a  szenzomotoros feldolgozás viszont hihetetlenül sok számítási kapacitást igényel. Az pedig csak hab a tortán, hogy a szimbolikus feldolgozás az alacsonyabb szintekre épül. Tegyük fel, képesek vagyunk megépíteni egy robotot, ami testesült kognícióra képes. Tegyük fel, hogy van öntudata, bármit is jelentsen ez. Ez azt jelenti, hogy felépítésében nagyon hasonló kell legyen egy emberhez. Talán annyira hasonlónak, hogy a Blade Runner Voight-Kampff tesztjére szorulnánk annak eldöntésére hogy androiddal vagy emberrel van dolgunk.   Jelentős előrelépések történtek a mesterséges intelligencia területén napjainkban, s Google Deep Mind projektje épp az általános fogalmakat szeretné megtanulni éppen. Dreyfus arra figyelmeztet minket, hogy ez csak egy részét fedi le az elme tényleges működésének, hiszen a az egyedi elemek felismeréséhez szükséges egy átfogó szemlélet, azaz az alacsonyabb és magasabb rendű fogalmakat egyszerre, egymáshoz való viszonyaikkal tanuljuk meg. Ezeket a viszonyokat pedig testesülve érzékeljük, egy világba beágyazva, test és a környező világ nélkül csak részsikereket tudunk elérni.   


2015. május 22. 12:46

Receptkereső a Precognoxtól

Receptkereső alkalmazásunk már a 25. legnépszerűbb app a Google play-en életstílus kategóriában! Új alkalmazásunk elérhető itt. Egyszerű, átlátható felületen kereshetünk receptekre. A találatokat elkészítési idő, nehézség és hozzávalók kizárásával szűkíthetjük, továbbá a keresési forrásokat is módosíthatjuk. Végül egy szép, áttekinthető találati listát kapunk. Reméljük sok jó étel készül majd appunk felhasználóinak konyháiban!


2015. május 20. 7:40

Egri konferenciasiker

A Doktoranduszok Országos Szövetsége idén is megrendezte a Tavaszi Szél konferenciát.  A DOSz a konferenciát, azaz a "fiatal magyar kutatók és doktoranduszok világtalálkozóját" hagyományosan magyar és angol munkanyelvű rendezvényként hirdeti meg. A találkozóra doktoranduszok, doktorjelöltek, valamint mesterszakos hallgatók jelentkezését egyaránt várják a szervezők.  A konferenciának ebben az évben, áprilisban az egri Eszterházy Károly Főiskola adott otthont.  A találkozón különböző tudományterületek kutatói prezentálták eredményeiket, az alábbi szekcióknak megfelelően:   Agrártudományi szekció Közgazdaságtudományi szekció Állam- és jogtudományi szekció Közigazgatás-tudományi szekció Biológiatudományi szekció Matematikai és informatikai szekció Filozófiatudományi szekció Műszaki szekció Fizikatudományi szekció Művészeti és művészettudományi szekció Földtudományi szekció Nyelvtudományi szekció Had- és rendészettudományi szekció Orvos- és egészségtudományi szekció Hittudományi szekció Pszichológiai és neveléstudományi szekció Irodalomtudományi szekció Szociológiai és multidiszciplináris társadalomtudományi szekció Kémiai és környezettudományi szekció Történelem- és politikatudományi szekció   Az egyes szekciók keretében lehetőség nyílt mind az elméleti, mind a gyakorlati hasznosíthatóság oldaláról bemutatni az egyes tudományterületeket és azok tudományágait, illetve az egyes kutatási témákról és eredményekről vitát indítani, beszélgetést folytatni. A találkozón a felsőoktatási intézmények, a kormányzati és az üzleti élet számos képviselője, valamint az egyes témák iránt érdeklődő kolléga, szakértő is jelen volt. A rendezvényről bővebb információ érhető el többek között a Felsőoktatásért Felelős Államtitkárság honlapján, az alábbi linken: http://www.kormany.hu/hu/emberi-eroforrasok-miniszteriuma/felsooktatasert-felelos-allamtitkarsag  A konferencián a Precognox képviseletében a doktoranduszi kutatómunkám egy részproblémájáról adtam elő, A polaritásváltás és - változás kezelési lehetőségei a szentimentelemzésben címmel. Az előadást a zsűri, legnagyobb örömünkre, a nyelvtudományi szekcióban első helyezéssel jutalmazta (http://dosz.hu/hirek/tavaszi_szel_konferencia_eredmenyei).     A Doktoranduszok Országos Szövetsége tagjainak ezúton is további sikeres konferenciaszervezést kívánunk!  


2015. május 19. 8:31

Hogy hivatkoznak egymásra a magyar politikai blogok és híroldalak?

Budapest Science Meetup előadásunk megtekinthető:  


2015. május 18. 9:32

Brainy Solutions - NLP meetup május 20-án

Május 20-án évadot is zárunk, ennek megfelelően eltérünk a szokásos programtól. Továbbra is hatkor kezdünk a Colabs-Budában (Bp, Krisztina körút 99.) és továbbra is ingyenesek vagyunk, de előzetes regisztráció kérnénk mindenkitől itt. A szokásoktól eltérően viszont most angolul meetupolunk és csak egy vendégünk lesz (ha más addig nem jelentkezik), de megéri! Címszavakban; deep learning, cortical learning, startup. Francisco Webber: Semantic Fingerprinting: Democratising NLP cortical.io’s Semantic Fingerprinting technology originates in a new, fundamentally different machine learning approach: it is based on a statistics-free processing model that uses similarity as a foundation for intelligence. The cortical.io Retina converts any kind of text into  a numeric representation, a Semantic Fingerprint, that encodes meaning explicitly with all contained senses and contexts. The system "understands" the relatedness of two items by simply measuring their overlap. As a result, it is very fast, reliable and easy to implement - a breakthrough technology that leverages the intelligence of the brain to enable the Natural Language Processing of Big Text Data.  Francisco Webber, inventor and co-founder at cortical.io


2015. május 15. 7:06

Kisvilágunk, a nyelv

Watts és Storgatz kisvilág gráfjait már 2001-ben alkalmazta a(z angol) nyelvre Ferrer i Cancho és Solé. Sajnos azonban eredményük nem igazán ismert nyelvész körökben, pedig egyrészt túl tud mutatni a Zipf-féle hatványeloszláson, másrészt pedig alternatíváját nyújthatja a nyelvtechnológiában bevett hagyományos szózsák modellnek is, s talán a nyelvi rendellenességek magyarázatához is felhasználható. Nézzük meg magyar példán miről van szó! Adatok A magyar Wikipedia oldalai közül random kiválasztottunk párat, majd begyűjtöttük a szövegeket. 463409 szóból áll korpuszunk, ami 46096 egyedi szótári elem között oszlik el, ahogyan a hagyományosan Zipf nevéhez kötött grafikonunk is mutatja, a gyakoriság szerint első 10-100 szó bizony kiteszi a korpuszunk javát! Tudjuk, a Zipf-eloszlás elején a funkciószavak és további, pár nagyon gyakori szó található. De hogy viszonyulnak ezek egymáshoz?  Hogy készítsünk kisvilág-gráfot szövegekből? Mielőtt megvizsgálnánk gráfunkat, nézzük meg hogyan készült. Vegyük az alábbi gyógypéldát. Zoli nagyon örül, mert Nóri elvitte végre krumplilángost enni. A krumplilángos Zoli számára a legfinomabb kaja a világon és reméli, hogy Nórinak is ízlett. Zoli és Nóri legközelebb nem krumplilángost fog enni, hanem elmennek megnézni az új Avengers filmet. Ez szótövezve és minden nem-betűtől megtisztítva, csupa kisbetűsen így néz ki kb.: zoli nagyon örül mert nóri vinni végre krumplilángos enni a krumplilángos zoli számára a finom kaja a világon és reméli hogy nóri is ízleni zoli és nóri közel nem krumplilángos fog enni hanem menni nézni az új avengers film   Ebből trigramokat készítünk. zoli nagyon örül nagyon örül mert örül mert nóri stb. A gráfot a trigramokból készítjük. Két szó akkor kapcsolódik, ha együtt előfordul egy trigramban, a fenti példából az alábbi éleket kapjuk: zoli - nagyon zoli - örül nagyon - örül nagyon - mert örül - mert mert - nóri stb. Példánkból pedig az alábbi gráf generálható:   Pontosan így készült a mi gráfunk is, egy kis megkötéssel. A trigramok elemeiből csak akkor lettek csomópontok és közöttük élek, ha mindhárom tagjuk szerepelt a leggyakoribb 1500 szó listáján. Ezzel kicsit eltértünk a tanulmányban leírt módszertől, de nem lényegesen. (A tanulmány szerzői egyrészt gyakorisági küszöböt alkalmaztak, másrészt pedig az n-gramok tagjainak együttes előfordulásának valószínűségét is nézték) Jellemzők A fent leírt módon generált gráf 1500 csomópontot tartalmaz, melyek között 87749 él található. A fokszámeloszlást az alábbi ábra mutatja. Jól látható, hogy egy kicsit eltérnek az adatok a klasszikus kisvilág-tulajdonságtól. Ennek oka, hogy a gráfban szerepel pár, a Wikipedia-ra jellemző szó (főleg a struktúra jelölésére használtak, ill. szerkesztéssel kapcsolatosak) melyeket nem szűrtünk ki. Ezek előfordulása gyakori, de általában ugyanolyan közegben fordulnak elő, ezért kevés szóhoz kapcsolódnak - emiatt vannak grafikonjaink "eltolva" a klasszikus kisvilágokat ábrázoló plotokhoz képest.  Gráfunk átmérője kettő, ami megfelel Ferreri i Cancho és Solé eredményeinek. A klaszterezési együttható azonban lényegesen magasabb, 0.75, mint az általuk mért 0.69 és 0.48. Ennek oka, hogy mi erősen szerkesztett, tudományos(abb) szövegeket használtunk, még az eredeti cikk a British National Corpus-ra támaszkodott. A teljes gráf valahogy így néz ki: Ezen a gráfon már szürke csomópontok is vannak, ezek a Zipf-görbe hosszú farkán tanyázó szavak, melyek gyakorisága alacsony, elemben sok van belőlük. Reméljük látható, hogy ezek egy-egy piros, tehát közepes gyakoriságú szó körül "csomósodnak", ez lenne a kisvilágok egyik fő jellemzője. Fokszámra (237 vagy nagyobb) szűrtünk az alábbi ábra elkészítéséhez, hogy csak központi elemeit mutathassuk meg gráfunknak. Az eredeti tanulmányban ezt nevezik "core kernel"-nek, azaz központi magnak. Mi is azt tapasztaljuk, hogy a funkciószavak (itt kékkel jelölve látható többségük, nagyságuk pedig fokszámuk függvénye) alkotta rész felel a többi szóval való összeköttetésért. Aki nagyon sasol, az észreveheti, hogy a piros-kék felosztás nem fedi teljesen a funkció- és tartalomszavak felosztást, de semmi sem lehet tökéletes. Spekuláció Ferrer i Cancho és Solé rámutattak arra, hogy a funkciószavak nem csak összekötik az egyes szavakat, hanem tulajdonképpen a különféle szótári osztályok között ezek létesítenek kapcsolatokat. A lexikon bővülése nem esetleges, hanem a kisvilágokra jellemzően egy-egy elem köré csoportosulva történik, ezért "fürtösödik" a hálózat, ez párhuzamba állítható a nyelvelsajátítással. Amennyiben a grammatikai funkciókat ellátó funkciószavak hálózata és a tartalommal rendelkező szavak lexikonja önálló rendszerek, melyek valahogy össze lettek huzalozva, érthető hogy milyen drasztikus következményekkel járhat valamelyik alrendszer sérülése, kiesése. Habár a kisvilágok (különösen a skálafüggetlen hálózatok, mint pl. az internet) a véletlen támadásokat viszonylag jól tolerálják, a célzott, központi elemeket kiiktató hibák súlyos következményekkel járhatnak rájuk nézve. Sajnos a tanulmány nagyon érintőlegesen foglalkozik csak ezzel a kérdéssel, de a felvetés nagyon érdekes.


2015. május 14. 19:00

Hogy hivatkoznak egymásra a magyar politikai blogok és híroldalak? - prezentáció

Ma a Budapest Science Meetupon beszéltem politikai blogokkal foglalkozó projektünkről.


2015. május 13. 15:15

Kontextus és a hivatkozások ereje - Media Hungary prezentáció

Politikai blogokat vizsgáló projektünkről ma a Media Hungary konferencián adtam elő, a kapcsolódó prezentáció pedig itt található.  


2015. május 11. 9:53

Adatok és jogászok - BOK meetup május 14-én

A májusi meetupon a jog és az adatok felhasználása lesz a téma. 14-én, azaz csütörtökön este hétkor kezdünk a Foncsorozóban (Budapest, Weiner Leó u. 8.) A részvétel ingyenes, de az előzetes regisztráció meetup oldalunkon erősen ajánlott.   A program: Dr. Koncsik Anita: Jog-társadalom-mesterséges intelligencia, avagy modellezhető-e az ideális társadalom Sikolya Zsolt: Új fejlemények a közadatok újrahasznosítása terén


2015. május 8. 7:04

Politikai blogok és híroldalak minden mennyiségben

Május 13-án a Media Hungary-n Kontextus és a hivatkozások ereje című előadásunk keretében mutatjuk be politikai blogokkal foglalkozó projektünket és másnap a Budapest Science Meetupon is találkozhattok velünk, ott Hogyan hivatkoznak egymásra a magyar politikai blogok és híroldalak? címmel adunk elő. A két előadás kutatásunk más-más aspektusait emeli ki, aki mindkettőre eljönne, annak nem kell félnie az ismétléstől!  


2015. május 7. 12:34

A Google és a mobilod

Még áprilisban a Google pár érdekes újítással jelentkezett, melyek segítségével kapcsolatot teremthetünk számítógépünk és (androidos) mobilunk között. Az asztali gépünkön végzett munka közben a Google keresőjébe írva a "find my phone" kifejezést telefonunk helye megjelenik egy térképen, s akár meg is csörgethetjük a készüléket. A "send directions" paranccsal útvonaltervünket küldhetjük mobilunkra, a "set an alarm" és "send  a note" vagy "set a reminder" kifejezésekkel pedig figyelmeztetőket és jegyzeteket menthetünk el. Elvben, sajnos hazánkból ezek a szolgáltatások nem érhetőek el teljesen. Saját tesztünk szerint hol működnek, hol pedig nem ezek a funkciók.      


2015. május 4. 20:11

Racionalitás, érzelmek, nyelv

Van, hogy csak úgy izgatottak vagyunk. Van amikor izgatottan várjuk, hogy írjon nekünk valaki. Izgatottságunkban van, hogy elfelejtünk valami nagyon fontosat, pl. feladni egy levelet. Ilyenkor azt gondoljuk, érzelmeink racionalitásunk útjában állnak. Máskor meg éppen izgatottságunk okán gyorsan meghozunk régen halogatott döntéseket, lerázunk alkalmatlankodó embereket, gyorsan letudjuk a bevásárlást s nem tépelődünk hogy X tej helyett az Y lett volna jobb. Vajon van-e szerepe az emócióknak nyelvünkben? Hogyan kezeljük különös természetüket, hogy néha csak úgy vannak, máskor meg valamire irányulnak?     All sentiment is right; because sentiment has a reference to nothing beyond itself, and is always real, wherever a man is conscious of it. But all determinations of the understanding are not right; because they have a reference to something beyond themselves, to wit, real matter of fact; and are not always conformable to that standard. (Hume)   Tényleg nincs tárgya? Sokak számára nem meggyőző, hogy nincs minden emóciónak tárgya, vagy pontosabban nem minden emóció irányul valamire. Ha már Hume-tól idéztünk, akkor nézzük meg, hogy állunk az ok és okozat kérdésével! Daniel Shargel amellett érvel, hogy az emóciók önmagukban állnak, fiziológiai, mentális állapotokkal azonosíthatóak, de semmiképpen sem hozhatók össze azzal amire irányulnak. Például a (1) Nóri mérges. (2) Nóri mérges Tónira (3) Nóri mérges Tónira, mert megzavarta olvasás közben. mondatokkal ugyanazt az emóciót tulajdonítjuk Nórinak. Kétségtelenül mind (2), mind (3) többletinformációt közöl. (2) megadja, hogy kire mérges Nóri, (3) pedig még az okot is megjelöli. De Shargel, és mások, szerint (1)-(3) esetében arról van szó, hogy Nóri fiziológiai állapota, arousalszintje, stb. megváltozott s ez mérgességének igazi oka. Nyakatekert? Tényleg az! De annyit elfogadhatunk Shargel álláspontjából, hogy bizonyos esetekben hiába adjuk meg az emóció irányultságát, igazából ezzel nem mondunk róla sokat. Pl: (4) Szomorú vagyok. (5) A mai híreket olvasva szomorú lettem. (6) Szomorú volt hallgatni szegény embert. Ellenben vannak olyan emóciók, melyek máshogy viselkednek. (7) Pisti féltékeny Andira. (8) Andi féltékeny a munkádra. (7) és (8) úgy tűnik nem sokban különbözik (4) - (5) példáktól. De ha megkérdezünk valakit, hogy miért szomorú, gyakran van, hogy azt a választ kapjuk "csak úgy", vagy "nem is tudom igazán miért". Ellenben féltékenykedni valakire szoktunk, s általában valami miatt (mármint valamit hiszünk). Akkor mi van? Legnagyobb sajnálatunkra nincs rendszeres leírása az emócióknak, vagy mi még nem találtuk meg (szóval ha kedves olvasó ismer ilyet, tessék bekommentelni!) A SEP vonatkozó szócikke ellenben egész jó összefoglalással szolgál. Saját tapasztalataink alapján és Livet kevert emóciós elképzeléseitől megihletve két kategóriát különítünk el, s ezzel egy kevert (s így nehezen is védhető) megközelítésre hajlunk most. (I) Alapvető érzelmek. Ezeket Ekman nyomán azonosítottuk és szépen szótárakat készítettünk. Úgy gondoljuk, hogy az alapvető érzelmek megjelenése a szótárak használatával mérhető. A SEP szócikkben ez az "Emotions as Feelings" részben leírt megközelítés (II) Intencionális érzelmek Ezek azok az érzelmek, melyeknek van intencionális tárgya, valamire irányulnak (ez a target nevet kapta nálunk). Intencionális és érzelmek Az alapvető érzelmeket nagyon nehéz elkapni a nyelvben. Persze témától és stílustól függ, de emóciószótárainkkal mérve, ha az összes szóhoz viszonyítva mérjük egy-egy emóció mértékét, akkor igen csekély számokat kapunk amit ezrelékben érdemes kifejezni. Persze egyáltalán nem haszontalan ez, pl. a budapesti önkormányzati választásokon induló főpolgármester-jelöltek helyezését a róluk szóló tweeteket vizsgálva egész szépen meg tudtuk tippelni. Elemzésünk során a düh emóció bizonyult a legjobb prediktornak. Elborította volna a düh a választók eszét? Vagy éppen dühük vezette őket az optimális eredményre? Ennek értelmezése valószínűleg politikai hovatartozás függvénye, de annyi bizonyos, érzelmeink szerepet játszanak döntéseinkben. Elster a klasszikus közgazdaságtan szemére veti, hogy elfeledkezik az emóciókról, melyen ő a mi intencionális emócióinkat érti s úgy karakterizálja őket, melyek: - valamiről szólnak, intencionális tárggyal rendelkeznek - valamilyen cselekvéssel is járnak - norma-vezéreltek A nagy kérdés Elster számára, hogy miképp lehet beilleszteni az emóciókat a közgazdasági elméletekbe. A racionalitással nincs probléma, hiszen szépen le lehet írni vele miképp akarjuk maximalizálni jólétünket. De a jólét nem csupán a haszon maximalizálása, hanem egy optimális érzelmi állapot elérése is.   Intencionalitás és racionalitás   De Sousa könyvei foglalják össze az emóciók helyét a racionális gondolkodásban és annak evolúciós magyarázatát. Ami nagyon izgalmas de Sousa munkásságában az az, hogy az idegtudós Damasio Descartes tévedése című kötetében kifejtett elméletével összhangban állítja, az emóciók egyfajta heurisztikát nyújtanak nekünk, melyek nélkül akár döntésképtelenek is lehetünk. Damasio klinikai tapasztalata során olyan páciensekkel találkozott, akiknek az érzelmek megélése, vagy másoknak tulajdonítása nehezen vagy egyáltalán nem ment, s ez bizony megnehezítette a leghétköznapibb döntéseiket is, pl. éttermet választani a vacsorához.   Dennett Az intencionális rendszerek című esszéjében sorra veszi milyen alapállásból próbálja meg az ember értelmezni a vele szembekerülő dolgokat, azaz a világot, s három ilyet talál. tervezet-alapállás: "Ha pontosan tudom, hogyan tervezték meg a komputert (beleértve a tervezet nem állandó részét, a programot is), akkor a program komputációs utasításait követve bejósolható a komputer bármely lépésre betervezett válasza. Jóslatunk be fog igazolódni, amennyiben a komputer a tervezetnek megfelelően működik, vagyis nem romlik el. A tervezet-alapálláson alapuló bejóslásoknak különböző változataik vannak, mindegyik hasonlatos azonban a tekintetben, hogy a funkció fogalmára támaszkodnak, mely célfüggő vagy ideologikus." fizikai hozzáállás: "Erről az alapállásról nézve predikcióink az adott tárgy tényleges fizikai állapotain alapulnak, s a természeti törvények ismeretéből kiindulva alkotjuk meg őket. Ez a hozzáállás szükséges a rendszerek rosszul működésének bejóslására."  intencionális nézőpont: "Ilyen esetben a viselkedést úgy jósoljuk be, hogy a rendszerhez bizonyos információ birtoklását rendeljük hozzá, s feltételezzük, hogy bizonyos célok irányítják, s azután e hozzárendelések és feltevések alapján kidolgozzuk a legésszerűbb s a legmegfelelőbb cselekvést." Fontos megjegyezni, hogy az intencionális nézőpont egy stratégia, nem kell feltétlenül intelligens ágensnek lennie annak amit ebből szemlélünk, ahogy Dennett mondja: Így nincs helye itt azon sopánkodni, hogy vajon a sakkozókomputernek tényleg vannak-e vélekedései és vágyai; az intencionális rendszerekről adott meghatározásunk ugyanis nem állítja azt, hogy az intencionális rendszereknek tényleg vannak vélekedéseik és vágyaik, csak annyit mond, hogy viselkedésüket meg lehet magyarázni és be lehet jósolni úgy, hogy vélekedéseket és vágyakat rendelünk hozzájuk. Annak pedig, hogy amit a számítógéphez rendelünk, vélekedésnek nevezzük, vagy a vélekedés analógjának, vagy információs komplexumoknak, vagy intencionális micsodáknak, nincs következménye azokra a számításokra nézve, melyeket a hozzárendelés alapján végzünk. Ugyanazokra a predikciókra jutunk akkor is, ha nyíltan a számítógép vélekedéseiről és vágyairól gondolkozunk, mint amikor a számítógép információs tárára és célmeghatározásaira gondolunk. Az elkerülhetetlen s érdekes tény az, hogy a mai legjobb sakkozó számítógépeknél a viselkedés intencionális magyarázata és bejóslása nemcsak bevett, hanem akkor is működik, ha viselkedésük predikciójára nincs más használható eljárás. Elég sikeresen tudjuk e komputereket intencionális rendszerekként kezelni, s ez független azoktól a megfontolásoktól, hogy milyen anyagból épültek, mi az eredetük, mi a helyük az erkölcsi ágensek közösségében (vagy éppen nincs is helyük ott), van-e tudatuk vagy öntudatuk, s hogy műveleteik determináltak vagy determinálatlanok-e. A stratégia alkalmazása mellett szóló döntés pragmatikus, s nem eredendően jó vagy rossz.  A racionalitás tehát a hitek, célok és vágyak közötti kapcsolatnak tekinthető, eddig olyan igazán újat nem mondott nekünk Dennett. Azonban az öreg filosz nem véletlenül korunk egyik legismertebb elmefilozófusa, hiszen csavar egyet az intencionalitás fogalmán, s bevezeti annak első- és magasabb rendű változatait.  Az elsőrendű intencionális rendszereknek vannak elképzeléseik, törekvéseik, vágyaik és minden rendes jellemzőjük, ellenben ennek nincsenek tudatában. A másod- és magasabb rendű intencionális rendszerek viszont amolyan meta-rendszerek s tisztában vannak saját vágyaiknak, elképzeléseiknek, sőt másoknak is hasonlókat tulajdonítanak. A másod- és magasabb rendű intencionalitás menthetetlenül összekapcsolódik a nyelvvel, hiszen az intencionális stratégiát nem tudjuk nélküle elkészíteni. Hogyan is néz ki egy ilyen intencionális alapállás? Óhatatlanul olyan mondatokban fogalmazunk mint az alábbi (Denettől lopott) példák x azt hiszi, hogy p y arra törekszik, hogy q z azon töpreng, vajon r A fentiekhez hasonló mondatokat a filozófusok propozícionális attitűdöknek nevezik. Vigyük ezt tovább! Nóri tudja, hogy Zoli szereti a krumplilángost. Zoli arra törekszik, hogy Nóri tudja, ő szereti a krumplilángost Nóri azon töpreng, vajon Zoli arra törekszik-e, hogy Nóri tudja, ő szereti a krumplilángost Ezekben a helyzetekben fontos, hogy ki szeret mit! Ahhoz, hogy Zoli meghívassa magát Nórival egy krumplilángosra, el kell érnie, hogy Nóri eltöprengjen azon, hogy azt akarja-e tudatni hogy ő szereti a krumplilángost, amitől csak egy lépére van az, hogy elmerengjen azon, vajon miért törekszik erre az illető. Hogyan tovább? Mi sem tudjuk pontosan hogyan tovább. Annyi bizonyos, hogy az emóciók felosztásával kapcsolatos irodalmat jobban fel kell térképeznünk. Ahhoz, hogy az igazán érdekes predikciós feladatokra is be tudjuk vetni az emócióelemzést, jobban meg kell ismernünk az intencionális emóciókat, ezért annotálási projektünket kiszélesítjük a jövőben.


2015. április 29. 20:52

NLP erőforrások - meetup prezentációk

NLP erőforrások meetupunk prezentációit alább közöljük. Köszönet az előadóknak és mindenkinek aki eljött! Miháltz Mártonnak külön köszönet az ötletért, szervezésért és lebonyolításért! FELHÍVÁS Vincze Veronika: A Szeged Korpusz és Treebank   Vincze Veronika: Korpuszok az információkinyerésben Sass Bálint: 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezet Miháltz Márton: Magyar WordNet Ács Judit: Online soknyelvű szótárak Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez


2015. április 23. 18:30

Textus; szövegek hálójában

Mai MeetOFF előadásom diái.


2015. április 22. 12:49

NLP erőforrások az áprilisi meetupon

Április 29-én tartjuk meetupunkat, 18 órától a megszokott helyen a Colabs-ben. Rövid, ötperces előadások keretében mindenki megismerheti a magyar korpuszokat. Érdemes eljönni, mert egyrészt tök jó előadások lesznek, másrészt meg továbbra is ingyenes a rendezvény, de regelni azért nem árt itt. Vincze Veronika (MTA-SZTE Mesterséges Intelligencia Kutatócsoport)  A Szeged Korpusz és Treebank Az előadásban bemutatjuk a Szeged Korpusz és Treebank nevű adatbázist, mely a maga 1,2 millió szavával a legnagyobb, teljes egészében kézzel annotált, magyar nyelvű szövegkorpusz. A korpusz hét különböző doménből származó szövegeket foglal magában, ezek számos annotációs réteggel rendelkeznek: megtalálható bennük az egyes szövegszavak összes lehetséges, illetve a kontextusnak megfelelő morfológiai kódja, minden egyes mondathoz hozzá van rendelve annak szintaktikai szerkezete kétféle elméleti keret szerint is, továbbá szemantikai jellegű annotációk is találhatók egyes részkorpuszokban. Korpuszok az információkinyerésben A szövegekben található információk hatékony kinyeréséhez számos nyelvi jelenséget tudnunk kell kezelni, mint például tulajdonnevek és névelemek, többszavas kifejezések, nyelvi bizonytalanság és szubjektivitás. Az előadásban bemutatjuk azokat a Szegeden készült korpuszokat, amelyek különböző doménekből és nyelvekből származó szövegeket tartalmaznak, és bennük nyelvész szakértők kézzel megjelölték az előbb említett jelenségeket, így tanító és tesztadatbázisként szolgálhatnak az információkinyerő rendszerek különböző moduljaihoz.    Sass Bálint (MTA Nyelvtudományi Intézet, Nyelvtechnológiai Kutatócsoport) 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezet Mondataink jelentős része úgy épül fel, hogy egy központi ige körül rendeződnek el az ige különféle bővítményei. Pl.:elrendeződik + mi? bővítmény + mi körül? ige körül. Az ilyen "mondatvázakat'' nevezzük igei szerkezeteknek, tartalmazzanak vonzatot (hisz vmiben), konkrét szókapcsolatot (döntés születik) vagy akár a kettő kombinációját (igényt tart vmire). Az előadás egy nyelvi erőforrást mutat be: magyar igei szerkezetek korpuszból automatikusan kinyert igen jelentős méretű gyűjteményét. Ez a gyűjtemény információt ad az igék és a bővítmények szokásos viselkedéséről, tulajdonságairól, a szelekciós preferenciákról, így hasznos lehet magyar nyelvű szöveg tartalmi, szemantikai feldolgozása során. A fentit egészíti ki egy másik erőforrás: a 28 millió sekély elemzéssel ellátott tagmondatból álló korpusz, melyből az igei szerkezetek származnak. Kutatási célra szabadon, üzleti célra egyedi megállapodás keretében férhetők hozzá.   Miháltz Márton (MTA Nyelvtudományi Intézet, Nyelvtechnológiai Kutatócsoport) Magyar WordNet A Magyar WordNet (HuWN) a Princeton WordNet elveit követve a nyelvi fogalmakat szinonimahalmazokkal (synsetekkel) reprezentálja és közöttük szemantikai viszonyokat definiálva (pl. hipernima (is-a), meronima (rész-egész), antonima stb.) hoz létre egy lexikális fogalmi hálózatot. Noha a wordnetekben a nyelvi fogalmak közötti taxonómia nem felel meg egy szigorú formális ontológia követelményeinek, az NLP különböző alkalmazásaiban mégis gyakran használják őket világismereti reprezentáció forrásaként. A Magyar WordNet 42 ezer synsetet tartalmaz, és össze van kapcsolva az angol (Princeton) WordNet 2.0-ás és 3.0-s verzióival, ami átjárást biztosít több mint 20 egyéb nyelv wordnetjeihez, illetve az angol wordnethez illeszkedő egyéb adatbázisokhoz (Yago, DBPedia, BabelNet stb.). A HuWN szabadon hozzáférhető.   Ács Judit (MTA Nyelvtudományi Intézet, Matematikai Nyelvészeti Kutatócsoport) Online soknyelvű szótárak A kétnyelvű szótárak fontos építőelemei számos NLP alkalmazásnak, azonban előállításuk rendkívül idő- és pénzigényes, ezért az automatikus szótárépítés egyre nagyobb szerepet kap. Bemutatunk egy nyelvfüggetlen módszert, amelynek segítségével a Wiktionaryből kiindulva 53 nyelven összesen 1378 szótárat készült, köztük valószínüleg az első, gép által is olvasható magyar-vietnámi szótár.    Simon Eszter (MTA Nyelvtudományi Intézet, Nyelvtechnológiai Kutatócsoport) Silver standard korpuszok tulajdonnév-felismeréshez A felügyelt gépi tanulási módszerek alkalmazásához nagyméretű annotált korpuszokra van szükség, amelyek előállítása rendkívül emberierőforrás-igényes. Több lehetőség van az annotációs költségek csökkentésére, ezek közül az egyik az automatikus annotálás. Az előadásban egy olyan nyelvfüggetlen módszert mutatunk be, mellyel bármely Wikipédiával rendelkező nyelvre előállítható tulajdonnévi címkéket tartalmazó korpusz. Az automatikus annotálás során a DBpedia ontológiai kategóriáit képeztük le CoNLL-névosztályokra. Az így előállított magyar és angol nyelvű korpuszok ugyan silver standard korpuszok, de a kiértékelésünk alapján hasonlóan jól használhatók felügyelt névfelismerő rendszerek tanításához és kiértékeléséhez, mint a gold standard korpuszok. 


2015. április 20. 8:19

Politikai blogokkal foglalkozó projektünk a Media Hungary-n

Május 12. és 13. között kerül megrendezésre az idei Media Hungary, amin bemutatjuk politikai blogokkal foglalkozó projektünket.  Kontextus és a hivatkozások ereje című előadásunk a második napon, a Tartalommarketing szekcióban 15:15-kor kezdődik és kb. az alábbiakról fogunk beszélni: Hogyan hivatkoznak egymásra a profi szerzők és a webkettes tartalomgyártók? Kik tematizálják az online világot? A Nyelv és Tudománnyal indított projektünk keretében egy hetven blogot tartalmazó listát használva több mint tizenkétezer magyar nyelvű egyedi oldalt gyűjtöttünk be, s ezek között több mint huszonkétezer linket találtunk. Adatainkra alapozva megvizsgáltuk a közéleti szféra topológiáját, azaz hogy kik a legbefolyásosabb szereplők, kiken keresztül áramlik a legtöbb információ, kik linkelnek a leglelkesebben, kik kapják a legtöbb linket. A hagyományos hálózati elemzést szöveganalitikai megoldásokkal ötvözve megvizsgáljuk milyen témák jelennek meg a hálózaton s hogyan terjednek azok térben és időben. Végezetül kitérünk arra is, hogy milyen érzelmek kapcsolódnak az egyes témákhoz és milyen érzelmek kísérik az egyes hivatkozásokat.


2015. április 16. 8:46

Olvasni jó? MeetOFF április 23-án

Április 23-án a MeetOFF Olvasni jó? - Olvasás a 21. században meetupján adok elő. A rendezvényre itt lehet regisztrálni, a belépő 1000 HUF PayPalon fizetve, 1500 a helyszínen. A meetupon főleg könyvekről és az olvasásról hallhattok majd, én politikai blogos projektünkről fogok beszélni.   “Az elektronikus hálózat révén az emberek teljesen bevonódnak egymás életébe. Közvetlenül és szakadatlan ömlik ránk az információ, melyet alighogy feldolgoztunk, máris követ az új, aztán még újabb adag.Elektronikussá alakított világunk arra sarkall bennünket, hogy kategorizáló szokásunkat mintázatfelismerő eljárásra cseréljük." McLuhan már 1967-ben felhívta a figyelmet arra, hogy elárasztanak minket az információk, pedig akkor még nem voltak se blogok, se híroldalak, se közösségi média. Az, hogy az olvasó szelektálja mit olvas, s ez a szelekció mintegy burokba zárja őt, egyre ismertebb. Minket az érdekel hogy a tartalmak előállítói is saját világukban élnek-e? Kikre hivatkoznak a hírek szerzői és a politikai blogok véleményvezérei? Van-e átjárás a megannyi politkai nézetet valló szerző között? Hatnak-e egymásra azok, akik a közvéleményt formálják?A Nyelv és Tudománnyal elindított projektünk során 12 121 posztot/cikket gyűjtöttünk be. Vizsgálataink során a klasszikus linkelemzést (pl. PageRank, be- és kimenő élek száma, stb.) szeretnénk a tartalomelemzés módszereivel ötvözni, s olyan kérdésekre megtalálni a választ mint: milyen témák foglalkoztatják a híroldalakat és blogokat honnét indul el egy-egy téma hogyan terjed egy téma milyen érzelmek tapadnak egy témához


2015. április 14. 8:43

New KConnect search services give healthcare the very best in medical information

Today KConnect launches its official website: www.kconnect.eu and begins the commercialisation of new multi-lingual medical text analysis and search services. The new state-of-the-art medical information search services have the ability to empower healthcare and life science professionals and the public alike. The search services can provide the fastest and most relevant medical support information available from which users can make the best-informed decisions.  The intelligent (semantic) search services can incorporate both published medical literature and in-house medical information sources (such as electronic health records or health registries). The quality of the search performance can help clinicians and researchers remain at the forefront of their profession. By having the right knowledge about best practices and treatments at their fingertips, clinicians can ensure the very best in patient outcomes and a healthier community, says Professor Robert Stewart, Department of Psychological Medicine, King’s College London. Intelligent search for better user experienceThe search services have been made ‘intelligent’ by understanding the meaning/context/intent of user queries. The very best in medical information is made more findable by the fact that the semantic search is not just based on query keywords but also on related concepts and contexts. The user search box has the ability to understand keyword connotations, related concepts and their relationships within a medical context. Such machine comprehension is also employed in the ‘reading’ (indexing, classifying and annotating) of medical content so that the most relevant information can be found even if a user’s chosen keyword happens to be absent within the text. Search global medical information in any languageThe accurate language mapping of key medical concepts allows users to search in their own language (currently there are several European languages available with more to follow). The addition of machine translation means that information can be provided either in English or the source’s original language. Building blocks for tailored medical servicesIndividually created components and toolkits mean that an organisation can tailor its search-driven medical solutions according to its own requirements. There are several tailoring options available including information sources, access (cloud or local installation), language, security, functionality (alerts, recommendations and social search) and whether the created solution is either standalone or embedded. Partnership opportunitiesDue to the expected demand for its services, KConnect is looking to extend its Professional Service Community by looking for new partners to help with the quick and wider adoption of its services. ContactsSales (Northern Europe): Mikael Hallin Email: mikael.hallin@findwise.com Mobile: +46 (0)725 455105www.findwise.com Sales (Eastern Europe): Endre Jofoldi Email: endre.jofoldi@precognox.comMobile: +36 (0)208 861391www.precognox.com Research: Allan Hanbury Email: allan.hanbury@tuwien.ac.atMobile: +43 1 58801 188310www.tuwien.ac.at The KConnect Consortium:Vienna University of Technology (Austria); Findwise AB (Sweden); Precognox Kft (Hungary); Ontotext AD (Bulgaria); Trip Database Ltd (UK); Health on the Net Foundation (Switzerland); Qulturum, Region Jönköping County (Sweden); King’s College London (UK); University of Sheffield (UK); Charles University, Prague (Czech Republic). Source: PRNewsWire


2015. április 13. 8:19

DIGIWHIST a korrupció ellen

Mint a Corruption Research Center Budapest partnere, a múlt héten részt vettünk a DIGIWHIST Horizon 2020 program Kick Off Meeting-jén. A program keretében közbeszerzési felhívásokat fogunk elemezni  korrupciós kockázat szempontjából 35 országból, majdnem ugyanennyi nyelven. Továbbá egy ún whistleblower (közérdekű bejelentést lehetővé tevő) platform kerül kialakításra. A konzorcium tagjai: University of Cambridge ERCAS (Hertie School of Governance) Corruption Research Centre Budapest Datlab Open Knowledge Foundation Deutschland Transcrime  


2015. április 7. 11:09

Hogy közösködnek a politikai blogok és híroldalak?

Ha már van egy szép gráfunk, szeretnénk megtudni, hogy annak szereplői milyen közösségeket alkotnak. Első lépésben tovább egyszerűsítettük a képet és csak a magyar (politikai) blogokat, híroldalakat, politikus blogokat és pártok oldalait és a közöttük lévő kapcsolatokat tartottuk meg gráfunkban. Ennek eredménye 266 egyedi oldal, melyek között 663 él van. Gráfunk most így néz ki: A csomópontok nagyságát PageRank értékük határozza meg, színüket pedig modularitásuk. Azért választottuk a modularitást, mert az egyik legegyszerűbb közösség kereső (community detection) eljárás (akit érdekel, hogyan működik, annak a linket ajánljuk, itt most nagyon informálisan mondjuk el mi is ez). Képzeljünk el egy random gráfot, melyben az éleket véletlenszerűen rajzoltuk meg. Ilyen pl. ez a gráf Ehhez képest a mi gráfunkban szemmel láthatóan egyes csomópontok sokkal több be- és kimenő linkkel rendelkeznek. A modularitás azt mér, hogy a random gráftól mennyire tér ez el, s azt mondhatjuk egy-egy csoportot alkotnak azok a csomópontok, melyek között a véletlenszerű kapcsolódáson túl is vannak összeköttetések.   Lássunk pár példát ilyen csoportokra! Habár a modularitás és a különféle közösség kereső eljárások egész jó eredményeket adnak, vizsgálatunk következő lépésében azt szeretnénk megnézni, hogy begyűjtött szövegek klaszterezése és a community detection eredményei között mekkora az átfedés.


2015. április 2. 17:32

MANYE-n voltunk

A Pázmány Péter Katolikus Egyetem Bölcsészet- és Társadalomtudományi Kara (PPKE BTK), a Pázmány Péter Katolikus Egyetem Információs Technológiai és Bionikai Kara (PPKE ITK) és a Magyar Alkalmazott Nyelvészek és Nyelvtanárok Egyesülete (MANYE) 2015. március 30. és április 1. között a PPKE ITK-n (1083 Budapest, Práter utca 50/a) rendezte meg a  25. MAGYAR ALKALMAZOTT NYELVÉSZETI KONGRESSZUST.     A tudományos konferencia a Nyelv - Nyelvtechnológia - Nyelvpedagógia: 21. századi távlatok központi téma köré szerveződött. Az emócióelemzést célzó projektünk eredményeit egy előadás keretében, a szentimentelemzéssel kapcsolatos munkánk újabb lépéseit poszteren prezentáltuk.  Emóciós előadásunk a következő apropóból született: Korábban létrehoztunk egy emóciószótárat, amelyben az ún. emóciókifejezéseket rendszereztük az általunk meghatározott kategóriarendszerben, valamint létrehoztunk egy kézzel annotált emóciókorpuszt is a szótár hatékonyságának kiértékelése, valamint egy emócióannotáló eszköz fejlesztése céljából. Ugyanakkor a munka során azt tapasztaltuk, hogy az emócióelemzés számos elméleti és nyelvtechnológiai probléma további meggondolását sürgeti. Ezért ebben az előadásban a tapasztalt problémák és felmerült kérdések közül tárgyaltunk néhányat behatóbban. Az előadás prezentációját alább közzétesszük:      A magyar nyelvű szövegek szentimentelemzésében tett újabb lépéseinket poszteren mutattuk be. Jelenleg a szentimentshifterek kezelési kérdésének a hatékony megoldása a fő célunk, ezért ebben a munkában is rájuk, pontosabban a shifterek egy altípusára, a negáló kifejezésekre fókuszáltunk.  Ahhoz, hogy a negáló elemek hatékony kezelési megoldásához közelebb kerülhessünk, fontosnak tartottuk korpuszalapon megvizsgálni ezeknek az elemeknek a pozíciós szabályszerűségeit. A poszter, amelyet alább közzé is teszünk, elsődlegesen ennek a korpuszelemzésnek az eredményeit prezentálja.   A kongresszuson nagyon sok értékes hozzászólást, javaslatot és kérdést kaptunk, amelyeket ezúton is nagyon köszönünk! Külön köszönjük a szervezőknek a hatékony szervezésüket, hasznos tájékoztató munkájukat! Alább csatolunk néhány, a konferencián készült fotót is, köztük egyet Prószéky tanár úrról, akinek volt szerencsénk meghallgatni a nyelvtechnológiáról szóló, igazán izgalmas előadását.


2015. március 31. 18:51

Romaellenes gyűlöletbeszéd képekben

Politikai blogokat vizsgáló projektünk keretében a kuruc.info Cigánybűnözés rovatának 10302 cikkét elemeztük és rendeztük topikokba  az LDA módszer segítségével. Célunk, hogy az egyes topikok segítségével szótárakat hozzuk létre s ezek segítségével nyomon tudjuk követni hogy az egyes politikai blogokon és híroldalakon miképp jelenik meg a romaellenes gyűlöletbeszéd. Posztunkban a számunkra legérdekesebb topikokból csemegéztünk!   Az egyes topikokhoz tartozó kulcsszavakat a mallet produkálta, a témákat mi határoztuk meg a topikokhoz tartozó dokumentumok megvizsgálása után. Az öt topikhoz tartozó dokumentumokra lefuttatunk egy szógyakorisági, egy kulcsszókinyerő és egy TextRank eljárást és az eredményeket használva hoztuk létre szófelhőinket.   1. topik: Magyar Gárda, Szebb Jövőért Polgárőr Egyesület rendezvényei, demonstrációi, kiemelt esemény Gyöngyöspata, jellemzően vidéki helyszíneken, ahol interetnikus problémák léptek fel a roma-nem roma csoportok között kulcsszavak: cigány roma magyar gárda polgármester rendőrség gárdista polgárőr falu család jobbik képviselő önkormányzat szervezet rendőr gyöngyöspata ház rendezvény demonstráció elnök lakos békés egyesület lakosság fórum kisebbségi probléma helyszín félelem   2. topik: a cigányság-magyarság, kisebbségi-többségi társadalom általános problémái, a kulturális devianciák felülreprezentáltak, mint a bűnözés, szegénység, munkapiaci, oktatási problémák, politikai-szociális síkra helyezett probléma, amely megoldást kíván, pl. integrációt kulcsszavak: cigány roma cigányság társadalom magyar probléma társadalmi többség kisebbség százalék csoport kultúra magyarország közösség többségi arány munka politikai etnikai eredmény megoldás fiatal szegény integráció bűnözés európai iskola tapasztalat család szociális       3. topik: szociálpolitikai intézkedések, főleg a szociális segélyek, támogatások, közmunka program, a munkanélküliség kulturális deviancia összefüggésében, kiemelt esemény Szepessy Zsolt monoki polgármester esete, aki valamilyen közhasznú munka ellenében folyósította az ingyenes segélyt a roma származású lakosoknak (a kuruc.infón ezt nagyon helyeselték) kulcsszavak: munka segély szociális pénz támogatás polgármester önkormányzat forint program család gyerek lehetőség rendszer monok összeg közmunka állami százalék szepessy pótlék családi állam dolgozó törvény munkahely monoki rendszeres juttatás munkanélküli havi       4. topik: fém- és fatolvajlás, olyan szent helyekről, mint a templom vagy a temető, vagy olyan kulturális emlékművek rongálása, mint köztéri szobrok (ez az egyik lopáskategória, pl. van kábel és vezetéklopás is, amivel közlekedési károkat okoznak és akadályozzák a közlekedést) kulcsszavak: tolvaj kár forint lopás ismeretlen tettes érték temető elkövető biztonsági őr rendőrség rendőr víz fém rongálás forintos templom értékű fémtolvaj ellopott szolnoki telephely okozott darab szobor épület vas ft fatolvaj       5. topik: a Cozma-gyilkosság (de pl. a másik nagy felhördülést kiváltó esemény, az olaszliszkai lincselés is kijött egy külön topikban hasonló módon) kulcsszavak: cozma veszprém sztojka veszprémi román szórakozóhely enyingi sportoló rendőrség gyilkosság verekedés tanú patrióta kézilabdázó lokál siófoki gyanúsított bár szerb vallomás játékos banda enying diszkó szív kés siófok cigány támadó kézilabdás  


2015. március 24. 7:25

Álmodnak-e az androidok elektronikus bárányokkal?

Philip K. Dick kérdését tovább is gondolhatjuk; vajon egy android, vagy egy mesterséges intelligencia érezhet-e fájdalmat? Lehet-e a közeli jövőben egy gép a barátunk? Elkalandozunk az elmefilozófia, a pragmatika és a dinamikus episztemikus logika világába a válaszért! Intenciók Habár napjainkban rengeteg kritika éri, máig a legismertebb teszt az emberi intelligencia vizsgálatára a Turing-teszt. Az ún. imitációs játék végén akkor tekinthetünk egy programot intelligensnek, ha sikerül meggyőzni a humán zsűri egy jelentős részét arról, hogy emberrel beszélgetett. A kritikák helyett inkább két dolgot emelnénk ki ebből a teszt során beszélni kell, akár szóban, akár egy szöveges interfészen keresztül embereket kell meggyőzni arról, hogy egy emberrel beszélgetnek Daniel Dennett szavaival élve, intencionális alapállás felvételére kell "kényszeríteni" a zsűrit. Dennett Az intencionális rendszerek című esszéjében sorra veszi milyen alapállásból próbálja meg az ember értelmezni a vele szembekerülő dolgokat, azaz a világot, s három ilyet talál. tervezet-alapállás: "Ha pontosan tudom, hogyan tervezték meg a komputert (beleértve a tervezet nem állandó részét, a programot is), akkor a program komputációs utasításait követve bejósolható a komputer bármely lépésre betervezett válasza. Jóslatunk be fog igazolódni, amennyiben a komputer a tervezetnek megfelelően működik, vagyis nem romlik el. A tervezet-alapálláson alapuló bejóslásoknak különböző változataik vannak, mindegyik hasonlatos azonban a tekintetben, hogy a funkció fogalmára támaszkodnak, mely célfüggő vagy ideologikus." fizikai hozzáállás: "Erről az alapállásról nézve predikcióink az adott tárgy tényleges fizikai állapotain alapulnak, s a természeti törvények ismeretéből kiindulva alkotjuk meg őket. Ez a hozzáállás szükséges a rendszerek rosszul működésének bejóslására."  intencionális nézőpont: "Ilyen esetben a viselkedést úgy jósoljuk be, hogy a rendszerhez bizonyos információ birtoklását rendeljük hozzá, s feltételezzük, hogy bizonyos célok irányítják, s azután e hozzárendelések és feltevések alapján kidolgozzuk a legésszerűbb s a legmegfelelőbb cselekvést." Fontos megjegyezni, hogy az intencionális nézőpont egy stratégia, nem kell feltétlenül intelligens ágensnek lennie annak amit ebből szemlélünk, ahogy Dennett mondja: Így nincs helye itt azon sopánkodni, hogy vajon a sakkozókomputernek tényleg vannak-e vélekedései és vágyai; az intencionális rendszerekről adott meghatározásunk ugyanis nem állítja azt, hogy az intencionális rendszereknek tényleg vannak vélekedéseik és vágyaik, csak annyit mond, hogy viselkedésüket meg lehet magyarázni és be lehet jósolni úgy, hogy vélekedéseket és vágyakat rendelünk hozzájuk. Annak pedig, hogy amit a számítógéphez rendelünk, vélekedésnek nevezzük, vagy a vélekedés analógjának, vagy információs komplexumoknak, vagy intencionális micsodáknak, nincs következménye azokra a számításokra nézve, melyeket a hozzárendelés alapján végzünk. Ugyanazokra a predikciókra jutunk akkor is, ha nyíltan a számítógép vélekedéseiről és vágyairól gondolkozunk, mint amikor a számítógép információs tárára és célmeghatározásaira gondolunk. Az elkerülhetetlen s érdekes tény az, hogy a mai legjobb sakkozó számítógépeknél a viselkedés intencionális magyarázata és bejóslása nemcsak bevett, hanem akkor is működik, ha viselkedésük predikciójára nincs más használható eljárás. Elég sikeresen tudjuk e komputereket intencionális rendszerekként kezelni, s ez független azoktól a megfontolásoktól, hogy milyen anyagból épültek, mi az eredetük, mi a helyük az erkölcsi ágensek közösségében (vagy éppen nincs is helyük ott), van-e tudatuk vagy öntudatuk, s hogy műveleteik determináltak vagy determinálatlanok-e. A stratégia alkalmazása mellett szóló döntés pragmatikus, s nem eredendően jó vagy rossz.  Darwin veszélyes ideája Valamit észreveszek, és okot keresek hozzá: ez eredetileg a következőt jelenti: szándékot keresek benne és mindenekelőtt valakit, akinek valami szándéka van, egy szubjektumot, egy cselekvőt: minden történés cselekvés - valaha minden történésben szándékot láttak, ez a mi legrégebbi szokásunk. Vajon az állatoknak is van ilyen szokásuk?  (Nietzsche: A hatalom akarása) Az, hogy intencionális alapállást veszünk fel az evolúció terméke Dennett szerint. A komplexitás egy bizonyos foka felett a reprodukcióra képes önfenntartó rendszerek elkezdtek ilyen-olyan stratégiákat kialakítani, hogy megmaradjanak. Ezeket kedvenc elmefilozófusunk Micsoda elmék című könyvében így rendszerezi: Darwini teremtmények, melyek tkp. élesben tesztelődnak, hiszen vagy életben tudnak maradni tulajdonságaik által, vagy elpusztulnak Skinneri teremtmények, melyek a környezet ingereire reagálva adnak választ. Bizonyos inger-válasz párok megerősödnek a környezeti hatásokra, növelve ezzel a teremtmény túlélésének esélyeit, tehát itt már nem csak a készen kapott tulajdonságok számítanak, hanem az alkalmazkodás képessége is. Popperi teremtmények azok, melyek képesek mentális modelleket létrehozni, cselekvéseiket el tudják gondolni. Ez a darwini és skinneri sémánál sokkal kényelmesebb megoldás, hiszen a popperi teremtmények fejben is hibázhatnak, tökéletesíthetik terveiket, mielőtt cselekedniük kellene. Gregoryi teremtmények azok, melyek elméjüket képesek kiterjeszteni, környezetüket manipulálni tudják "elméleteik" kidolgozása és megvalósítása során. Nem kell nagy dologra gondolni, ilyen lehet pl. egy az elrejtett zsákmány helyét jelölő kereszt, vagy egy gyümölcs leverésére használt ág. Az emlősök nagy része popperi teremtmény, a főemlősök pedig pályázhatnak a gregoryi teremtmény címre, ami a homályos leírás ellenére annyit tesz, intencionális ágens. Mit is jelent az intencionalitás? Alapvetően ami intencionális, az valami másra irányul. Az intencionális alapállásból úgy kezelünk egy entitást, mintha az racionális lenne s lennének szándékai, vágyai, törekvései egy adott cselekvés során. S való igaz, házi kedvenceink viselkedését is gyakran így magyarázzuk, tehát az intencionális alapállásból nem csak az emberekre tekintünk.   Dennett azonban csavar egyet az intencionalitás fogalmán, s bevezeti annak első- és magasabb rendű változatait.  Az elsőrendű intencionális rendszereknek vannak elképzeléseik, törekvéseik, vágyaik és minden rendes jellemzőjük, ellenben ennek nincsenek tudatában. A másod- és magasabb rendű intencionális rendszerek viszont amolyan meta-rendszerek s tisztában vannak saját vágyaiknak, elképzeléseiknek, sőt másoknak is hasonlókat tulajdonítanak.  Attitűdök, nyelv, szimbólumok A másod- és magasabb rendű intencionalitás menthetetlenül összekapcsolódik a nyelvvel, hiszen az intencionális stratégiát nem tudjuk nélküle elkészíteni. Annyi azonban bizonyos, hogy a gregoryi teremtmények számára, mindegy hogy az intencionalitás mely fokán állnak, szimbólumokat kell használniuk, azaz, valami olyat, ami más helyett áll. Clark és Karmiloff-Smith The Cognizer's Innards című tanulmánya 1993-ban, a konnekcionizmus kellős közepén, hívta fel a figyelmet a szimbólumhasználat fontosságára és a skinneri teremtményekre igazított inger-válasz hálózatokat alkalmazó modellek korlátaira. Hogyan is néz ki egy ilyen intencionális alapállás? Óhatatlanul olyan mondatokban fogalmazunk mint az alábbi (Denettől lopott) példák x azt hiszi, hogy p y arra törekszik, hogy q z azon töpreng, vajon r A fentiekhez hasonló mondatokat a filozófusok propozícionális attitűdöknek nevezik. Vigyük ezt tovább! Nóri tudja, hogy Zoli szereti a krumplilángost. Zoli tudja, hogy Nóri tudja, hogy szereti a krumplilángost. Nóri tudja, hogy Zoli tudja, hogy Nóri tudja, szereti a krumplilángost. Az "én tudom, hogy ő tudja" gondolatsorok persze általában véget szoktak érni, ha másért nem, hát időhiány miatt. De látható, hogy egyedül memóriánk és véges időnk szab határt az ilyen elmélkedéseknek. Fontos megjegyezni, hogy a fenti példákban egy-egy sémát használunk, az "X tudja, hogy Q" stb. propozíciók egy-egy mentális állapotra tekintenek úgy, mint egy objektumra!  Beszédaktusok, pragmatika, egyéb nagy szavak Láthatjuk, ahhoz, hogy intelligensnek nevezhessünk valamit, intencionális álláspontra kell helyezkednünk, amikor interakcióba lépünk vele. Ahhoz, hogy igazán emberinek tekintsük, magasabb rendű intencionalitást kell tanúsítania. Ez nem csak azt jelenti, hogy mi propozícionális attitűdök formájában gondolkodunk róla, hanem a kommunikáció során is felmerül egymással szemben az intencionalitás feltételezése. Az olyan mondatok elhangzása során mint pl: Hozd nekem ide azt a szendvicset. Megbüntetlek, nem mehetsz el ma sehova. Értem a feladatot. Elnevezlek Padlinak! Megígérem, elviszlek moziba. nem csupán a propozíciók jelentését kell megértenie egy intelligens ágensnek, hanem a velük kifejezett cselekvést is. Ez ilyen típusú állítások ún. az beszédaktusok, amik feltételezik hogy a bennük résztvevő ágensek intencionálisak. De akkor most mi van a gépekkel? Láthattuk, a manapság divatos megközelítéseknél nem érdemes magasabb rendű intencionalitás után kutakodni - már amennyiben Dennett meggyőző számunkra. A dinamikus episztemikus logika "ezoterikus" tudománya  pontosan azzal foglalkozik, hogyan lehet formálisan modellezni azt, hogy ágensek egymásnak hiteket, vágyakat, törekvéseket stb. tulajdonítanak. Hogyan lehet egy ilyen helyzetet modellezni? Vegyük a korábbi példánkban szereplő Nórit és a krumplilángost szerető Zolit. Egy zajos csatornán keresztül próbálják megbeszélni, hogy elmennek és keresnek egy éttermet ahol ehetnek. A csatorna zajos, de annyit tudunk róla, hogy kellő n számban ismételve előbb-utóbb átjut rajta egy üzenet. Formalizáljuk a helyzetet, Nórit és Zolit nevezzük át, egyikük legyen S (mint sender, azaz küldö vagy feladó), a másik pedig R (mint receiver, azaz fogadó vagy címzett). Vezessünk be egy modális operátort, K-t. Ks(a) és Kr(a) intuitív értelmezése csupán annyi, hogy s ágens tudja hogy a. Legyen X = [x1, ... xn] egy diszkrét üzenetekből álló sorozat amit S küld K-nak. Ditmarsch, van der Hoek és Kooi (p. 25) nyomán ekkor az alábbi protokollok határozzák meg a sikeres megállapodást. S protokollS1 i :=0S2 while true doS3      begin read xi ;S4      send xi until KsKr(xi);S5      send “KsKr(xi)" until Ks Kr Ks Kr(xi)S6      i := i + 1S7 endR protokollR2 when Kr(x0) set i :=0R2 while true doR3     begin write xi ;R4     send “Kr(xi)" until KrKsKr(xi);R5     send “KrKsKr(xi)" until Kr(xi+1)R6     i := i + 1R7 end Látható, harmadrendű intencionalitás szükséges ahhoz, hogy mindkét fél tudja, megbeszélték a dolgot s biztosak legyenek abban, mindketten tudják miben állapodtak meg. Mielőtt azt hinnénk, erre csak az ember képes, lelombozzuk a kedélyeket! A fenti kis protokoll ún. alternáló bit protokoll működését írta le eredetileg! Persze akadnak ennél komolyabb szituációkra alkalmazható eszközök is a dinamikus episztemikus logika tárában!   Hogy lesz-e olyan android, akiről csak nehezen deríthető ki, hogy gép-e vagy ember, azt ma nem lehet megmondani. A kutatások gyerekcipőben járnak és rendkívül sok terület összekapcsolását kívánják meg. A Szárnyas fejvadász Tears in Rain monológjának szintjét elérő mesterséges intelligenciára még sokat kell várni, ha egyáltalán elérhető. I've seen things you people wouldn't believe. Attack ships on fire off the shoulder of Orion. I watched C-beams glitter in the dark near the Tannhäuser Gate. All those moments will be lost in time, like tears in rain. … Time to die. 


2015. március 18. 15:03

European Commission study of big data and other data-driven approaches for policy-making (data4policy)

The European Commission has commissioned Technopolis Group, Oxford Internet Institute (OII) and the Centre for European Policy Studies (CEPS) to conduct an international study on innovative data-driven approaches to inform policymaking, cutting across all policy areas and societal challenges. For more information about the study, please visit the study website. Currently, the study team is preparing an inventory of big data for policy and other innovative data-driven approaches/initiatives for evidence-informed policymaking.Our inventory of relevant initiatives will focus on:a) operational pilots, demonstrators and implementations,b) that are supported, on a structural basis, by policymakers,c) that are at the national leveld) at the international level, initiated or supported by EC, OECD, WHO, WTO, Worldbank, UN, etc.As such, the inventory does not cover research projects that do not prepare for implementation  or initiatives at sub-national level (e.g. smart cities). Open data initiatives are within the scope of the study if there are clear elements of data analytics and use of the data in one or several steps of the policy cycle of agenda and priority setting, policy options generation, policy design, ex ante impact assessment, monitoring and ex post evaluation and impact assessment.Does your organisation undertake initiatives in the scope of this study or knows of relevant initiatives in Hungary and/or abroad? The study team welcomes your suggestions and/or contributions! You can also reach out to us via Twitter @data4policyEUShould you have any questions, feel free to contact Jérôme Treperman at jerome.treperman(at)technopolis-group­.com


2015. március 16. 10:31

Szavak, városok, politikai blogok

Az emberalkotta jelenségeket áthatják a hatványtörvények, melyekre először egy szavakat számolgató nyelvész figyelt fel, de a szógyakoriságon túl azóta a népesség eloszláson át a webes hálózatok topológiájáig sok mindenre alkalmaznak manapság.  Politikai blogokról indított crawler-ünk eredményeinek értelmezése során sem mehetünk el ezek mellett. A blogok világában nincs egyenlőség  Korábbi posztunkban már ismertetett crawler-ünk erről a seed listáról indult el. Az egyes doménekről begyűjtött egyedi url-ek száma az alábbiak szerint alakult: Láthatjuk, csupán az első három domén esetében került be több mint 1000 egyedi oldal, ezek közül csupán a Mandiner szerepelt a kiindulási pontok között. Ahogy haladunk a top ötvenes listán lefelé, láthatjuk, nagyságrendi különbségek vannak a helyezettek között. A negyedik és ötödik helyezettről már csak ötszáz és ezer közötti oldalt,  a hatodik és tizenegyedik helyezett esetében már csak két-háromszáz, a tizenhatodik helyezésig már csak száz, a tizenhetediktől az ötvenedikig kb. ötven oldallal képviselteti magát egy domén a gyűjtésben.Ha tovább haladnánk, akkor még drámaibb esést láthatnánk, a következő ötven oldal már csak tíz, majd öt, végül kettő-három és a jelentős többség csak egy-egy egyedi url-lel került a korpuszba. Hogy lehetséges ez? A fenti ábrán látható, az oldalak jelentős része egy linket kap csupán. Szinte ugyanezt a képet mutatja a kimenő linkek eloszlása is (már ha tartalmaz egyáltalán linket egy adott oldal, ne feledjük, mi csak a tartalomban lévő hivatkozásokat követtük!).  Log-log skálán ábrázolva a ki- és bemenő linkek eloszlása jobban szemlélteti, hogy a legtöbb oldal egy linket indít vagy kap, de akadnak olyan oldalak, melyekre az átlagosnál jóval többen linkelnek, illetve melyek szeretnek egy-egy írásban sokat linkelni (ez utóbbiak általában listák). Ha megnézzük a fenti ábrán, hogy egy-egy oldalnak milyenek a szomszédai (azaz a melyekre linkel, vagy melyektől kap linket), akkor érdekes dologra figyelhetünk fel. Ahogy látható, a "kicsik" azaz az alacsony fokszámúak heterogén közegben vannak, szomszédaik között megtalálhatóak alacsony, közepes és magas fokszámú oldalak is. Láthatjuk azt is, hogy minél magasabb egy oldal fokszáma, annál válogatósabb szomszédai tekintetében. A fenti adatok azt támasztják alá, hogy az általunk vizsgált hálózat is ún. skálafüggetlen, s hatványfüggvényekkel (ezért a sok logartimus a plotokon) írható le. De mit is jelent ez?  Normális????? A legtöbb dolog a valószínűleg jól ismert normális eloszlással írható le. Ilyen pl. a testmagasság. Ha sok férfi és nő magasságát megmérjük, akkor ilyesmi ábrát kapunk:   A statisztikában ez nagyon hasznos, mivel ezzel a hipotetikus és ideális normál eloszlással viszonylag könnyű számolni, sokat tudunk róla és megbízhatóan működik. Tapasztalat alapján arra jutottak a statisztikusok, hogy a legtöbb jelenség követi a normál eloszlást (azaz közelíti, különösen ha sok megfigyelést tudunk végezni) aminek örülünk, mert nagyon kényelmes ilyen eloszlású adatokkal dolgozni. Szavak Azonban valahogy az ember alkotta dolgok esetében nem mindig működik a normális eloszlás. George Kingsley Zipf fedezte fel szógyakorisági vizsgálatai során a róla elnevezett törvényt, mely kimondja, hogy egy szó gyakorisága fordítottan arányos a frekvenciatáblában (csökkenő sorrendű szógyakorisági táblázat) szereplő sorszámával. A következő ábrán látható pár ideális Zipf-eloszlás. A Magyar Webkorpusz 10.000 leggyakoribb elemét  mutatja az alábbi grafikon (a vízszintes tengelyen a frekvenciatáblában elfoglalt pozíciót, a függőlegesen pedig a gyakorisági értéket mutatjuk). Láthatjuk, nem tökéletesen követi a hipotetikus Zipf-eloszlást, de azért hasonlít rá.  Városok A szógyakoriság mellett Zipf törvényét előszeretettel alkalmazzák a társadalomtudományokban is, erről a területről a legtöbben a városok lélekszáma és a lakosság szerinti sorrendben elfoglalt pozíció közötti fordított arányosságot ismerik.A PopulationData.net oldal adatait használva Brazília, Kína, Németország, India, Indonézia, Nigéria, Oroszország és az Egyesült államok nagyobb városainak összesített népesség szerinti listáját mutatjuk: Az alábbi ábra mutatja, hogy a hatványeloszlás nem csak összesítve, hanem adott országokon belül is megjelenik. Az alábbi ábrát a KSH Magyaroszág közigazgatási helynévkönyve 2012. január 1. táblája alapján készítettük, reméljük látható, hazánk sem kivétel hatványtörvények alól. 80/20 szabály A Zipf-eloszlást szokás diszkrét Pareto-eloszlásnak is nevezni. Vilfredo Pareto neve általában a 80/20 szabály kapcsán ismert, melyre néhány példa rá a vonatkozó Wikipedia szócikkből: A profit 80%-a az ügyfelek 20%-tól származik. A reklamációk 80%-a az ügyfelek 20%-tól érkezik. A profit 80%-a a munkára fordított idő 20%-ból keletkezik. Az eladások 80%-a a termékportfólió 20%-ból keletkezik. Az eladások 80%-át a sales csapat 20%-a hozza. A felsoroláshoz hozzátehetjük még a szoftverfejlesztésben használatos 80/20 elveket is: A hibák 80%-a a kód 20%-ában rejlik. A követelmények 20%-a adja a funkcionalitás 80%-át. A társadalmi egyenlőtlenségek terén is jelentkezik a Pareto-elv, mely szerint a javak 80%-ával a népesség 20%-a bír. A leghíresebb azonban az e-kereskedelemben bevett ún. hosszú farok, ami arra int minket, hogy a görbe elvékonyodó részén is van mit keresni. Az élet olyan, hogy a hatványeloszlást követi, a modern technika pedig elérhetővé teszi az elvékonyodó részt! Nem kell kétségbe esni ha nem kerülünk a top ötven oldal közé, vagy ha alacsony a PageRank értékünk, egy jó kereső segítségével és a keresőmarketing alkalmazásával megtalál minket az, aki kíváncsi ránk. Ahogy azokat a szavakat is használjuk a megfelelő helyen, melyek gyakorisága elenyésző, vagy ellátogatunk abba a városba is, ahol kevesen élnek.


2015. március 16. 10:31

Szavak, városok, politikai blog

Az ember alkotta jelenségeket áthatják a hatványtörvények, melyekre először egy szavakat számolgató nyelvész figyelt fel, de a szógyakoriságon túl azóta a népesség eloszláson át a webes hálózatok topológiájáig sok mindenre alkalmaznak manapság.  Politikai blogokról indított crawler-ünk eredményeinek értelmezése során sem mehetünk el Zipf említése nélkül. A blogok világában nincs egyenlőség  Korábbi posztunkban már ismertetett crawler-ünk erről a seed listáról indult el. Az egyes doménekről begyűjtött egyedi url-ek száma az alábbiak szerint alakult: Láthatjuk, csupán az első három domén esetében került be több mint 1000 egyedi oldal, ezek közül csupán a Mandiner szerepelt a kiindulási pontok között. Ahogy haladunk a top ötvenes listán lefelé, láthatjuk, nagyságrendi különbségek vannak a helyezettek között. A negyedik és ötödik helyezettről már csak ötszáz és ezer közötti oldalt,  a hatodik és tizenegyedik helyezett esetében már csak két-háromszáz, a tizenhatodik helyezésig már csak száz, a tizenhetediktől az ötvenedikig kb. ötven oldallal képviselteti magát egy domén a gyűjtésben.Ha tovább haladnánk, akkor még drámaibb esést láthatnánk, a következő ötven oldal már csak tíz, majd öt, végül kettő-három és a jelentős többség csak egy-egy egyedi url-lel került a korpuszba. Hogy lehetséges ez? A fenti ábrán látható, az oldalak jelentős része egy linket kap csupán. Szinte ugyanezt a képet mutatja a kimenő linkek eloszlása is (már ha tartalmaz egyáltalán linket egy adott oldal, ne feledjük, mi csak a tartalomban lévő hivatkozásokat követtük!).  Log-log skálán ábrázolva a ki- és bemenő linkek eloszlása jobban szemlélteti, hogy a legtöbb oldal egy linket indít vagy kap, de akadnak olyan oldalak, melyekre az átlagosnál jóval többen linkelnek, illetve melyek szeretnek egy-egy írásban sokat linkelni (ez utóbbiak általában listák). Ha megnézzük a fenti ábrán, hogy egy-egy oldalnak milyenek a szomszédai (azaz a melyekre linkel, vagy melyektől kap linket), akkor érdekes dologra figyelhetünk fel. Ahogy látható, a "kicsik" azaz az alacsony fokszámúak heterogén közegben vannak, szomszédaik között megtalálhatóak alacsony, közepes és magas fokszámú oldalak is. Láthatjuk azt is, hogy minél magasabb egy oldal fokszáma, annál válogatósabb szomszédai tekintetében. A fenti adatok azt támasztják alá, hogy az általunk vizsgált hálózat is ún. skálafüggetlen, s hatványfüggvényekkel (ezért a sok logartimus a plotokon) írható le. De mit is jelent ez?  Normális????? A legtöbb dolog a valószínűleg jól ismert normális eloszlással írható le. Ilyen pl. a testmagasság. Ha sok férfi és nő magasságát megmérjük, akkor ilyesmi ábrát kapunk:   A statisztikában ez nagyon hasznos, mivel ezzel a hipotetikus és ideális normál eloszlással viszonylag könnyű számolni, sokat tudunk róla és megbízhatóan működik. Tapasztalat alapján arra jutottak a statisztikusok, hogy a legtöbb jelenség követi a normál eloszlást (azaz közelíti, különösen ha sok megfigyelést tudunk végezni) aminek örülünk, mert nagyon kényelmes ilyen eloszlású adatokkal dolgozni. Szavak Azonban valahogy az ember alkotta dolgok esetében nem mindig működik a normális eloszlás. George Kingsley Zipf fedezte fel szógyakorisági vizsgálatai során a róla elnevezett törvényt, mely kimondja, hogy egy szó gyakorisága fordítottan arányos a frekvenciatáblában (csökkenő sorrendű szógyakorisági táblázat) szereplő sorszámával. A következő ábrán látható pár ideális Zipf-eloszlás. A Magyar Webkorpusz 10.000 leggyakoribb elemét  mutatja az alábbi grafikon (a vízszintes tengelyen a frekvenciatáblában elfoglalt pozíciót, a függőlegesen pedig a gyakorisági értéket mutatjuk). Láthatjuk, nem tökéletesen követi a hipotetikus Zipf-eloszlást, de azért hasonlít rá.  Városok A szógyakoriság mellett Zipf törvényét előszeretettel alkalmazzák a társadalomtudományokban is, erről a területről a legtöbben a városok lélekszáma és a lakosság szerinti sorrendben elfoglalt pozíció közötti fordított arányosságot ismerik.A PopulationData.net oldal adatait használva Brazília, Kína, Németország, India, Indonézia, Nigéria, Oroszország és az Egyesült államok nagyobb városainak összesített népesség szerinti listáját mutatjuk: Az alábbi ábra mutatja, hogy a hatványeloszlás nem csak összesítve, hanem adott országokon belül is megjelenik. Az alábbi ábrát a KSH Magyaroszág közigazgatási helynévkönyve 2012. január 1. táblája alapján készítettük, reméljük látható, hazánk sem kivétel hatványtörvények alól. 80/20 szabály A Zipf-eloszlást szokás diszkrét Pareto-eloszlásnak is nevezni. Vilfredo Pareto neve általában a 80/20 szabály kapcsán ismert, melyre néhány példa rá a vonatkozó Wikipedia szócikkből: A profit 80%-a az ügyfelek 20%-tól származik. A reklamációk 80%-a az ügyfelek 20%-tól érkezik. A profit 80%-a a munkára fordított idő 20%-ból keletkezik. Az eladások 80%-a a termékportfólió 20%-ból keletkezik. Az eladások 80%-át a sales csapat 20%-a hozza. A felsoroláshoz hozzátehetjük még a szoftverfejlesztésben használatos 80/20 elveket is: A hibák 80%-a a kód 20%-ában rejlik. A követelmények 20%-a adja a funkcionalitás 80%-át. A társadalmi egyenlőtlenségek terén is jelentkezik a Pareto-elv, mely szerint a javak 80%-ával a népesség 20%-a bír. A leghíresebb azonban az e-kereskedelemben bevett ún. hosszú farok, ami arra int minket, hogy a görbe elvékonyodó részén is van mit keresni. Az élet olyan, hogy a hatványeloszlást követi, a modern technika pedig elérhetővé teszi az elvékonyodó részt! Nem kell kétségbe esni ha nem kerülünk a top ötven oldal közé, vagy ha alacsony a PageRank értékünk, egy jó kereső segítségével és a keresőmarketing alkalmazásával megtalál minket az, aki kíváncsi ránk. Ahogy azokat a szavakat is használjuk a megfelelő helyen, melyek gyakorisága elenyésző, vagy ellátogatunk abba a városba is, ahol kevesen élnek.


2015. március 14. 8:59

Március 27-28 BOK meetup és K-monitor Hackathon

Máriuc 28-án a Google Grundon kerül megrendezésre a K-monitor Hackathon, melyre még mindig lehet jelentkezni! Aki szeretne a jó ügy érdekében adatot elemezni, kódolgatni és vizualizálni és ezzel civil szervezeteknek segíteni, az további részleteket és jelentkezési lapot itt talál (a csapatoknak érdemes sietni, a jelentkezési határidő nekik március 15). 27-én este a Budapest Open Knowledge Meetupon mutatkoznak be a csapatok, erre is miden érdeklődőt szeretettel várunk - a részvétel ingyenes, de az előzetes regisztráció ajánlott itt. Előzetes program: Az est első előadója Gönczi Péter lesz, a Hashtag Charity CTO-ja. http://hashtagcharity.org/   A meetup második felében a K-Monitor március 28-i hackathonjának résztvevői adják elő 2 perces bemutatkozásukat. Babies Born Better, adatok a várandósgondozásról - Születésház Egyesület  Önkormányzati dokumentumok felszabadítása - Civil Kapocs Egyesület  15 éve kellett volna kijelölni a türelmi zónákat, de mit is jelent ez? - Szexmunkások Érdekvédelmi Egyesülete  Állami reklámköltések bemutatása infografikán - Mérték Médiaelemző


2015. március 9. 7:17

Agyas gépek

A mesterséges intelligencia programadó konferenciája 1956-ban nagyon optimista volt, akkor még úgy gondolták, pár évtized elegendő lesz az emberi intelligenciát elérő, vagy akár meg is haladó megoldások elkészítése. Ma, amikor már szoftver segített megoldani a négyszín-sejtést, a Watson megnyerte a Jeopardy! vetélkedőt és autonóm, vezető nélküli autókat tesztel több gyártó, azt hihetnénk, az álom szinte megvalósult. Ellenben autonóm robotokat továbbra sem vagyunk képesek készíteni, egy rendes arcfelismerő betanításához minimum a Facebook adatbázisával kell rendelkeznünk, a nyelvfeldolgozás terén pedig még egy óvodás képességeit sem tudja elérni egy-egy alkalmazás. Egyre többen gondolják úgy, hogy a továbblépéshez alaposan át kell gondolnunk azt, ahogyan eddig közelítettük a problémához, mindeközben egyre gyakrabban merül fel egy 18. századi filozófus, a jó öreg Kant neve. Kezdeti optimizmus Turing és Church munkájának gyümölcse az általános számítógép a második világháború alatt valósággá vált, ennek alapelveit a következő évtizedben Neumann tökéletesített és mind a tudományos, mind az üzleti életben megjelentek a komputerek. A mesterséges intelligenciát máig átható optimista paradigmát Churchland fogalmazta meg a legjobban: The question that confronts the research program of AI, therefore, is not whether suitably programmed computers can simulate the continuing behavior produced by the computational procedures found in natural animals, including those found in humans. That question is generally regarded as settled. In principle, at least, they can. The important question is whether the activities that constitute conscious intelligence are all computational procedures of some kind or other. The guiding assumption of AI is that they are, and its aim is to contstruct actual programs that will simulate them. That is why the vast majority of AI workers have been concerned with writing programs rather than with building ever more novel forms of computing hardware. (Paul M. Churchland: Matter and Consciousness, p. 105) Hideg napok A mesterséges intelligencia története során eddig kilenc (!) "jégkorszak" (AI winter) volt, ami a kutatási pénzek befagyasztásával és az ipar elfordulásával járt. Részben ennek is köszönhető, hogy folyamatosan új név alatt jelenik meg ez a tudományterület. Az "artificial intelligence" a kilencvenes években "intelligent systems" néven éledt újjá, de a manapság divatos "machine learning" vagy az IBM Watson kapcsán felmelegített "cognitive computing" is ide sorolható, egyes kutatók pedig inkább besorolták magukat a "(computational) cognitive science" kategóriába (megúszva evvel az ipari alkalmazhatóság számonkérését).   Figyeljünk az agyra! A neurális háló elmélete egyidős a számítógéppel. A első idealizált neuron modell McCulloch és Pitts írta le A logical calculus of the ideas immanent in nervous activity című dolgozatukban. Neumann eképpen foglalja össze ennek jelentőségét Az automaták általános és logikai elméletében: McCulloch és Pitts elméletének fontos eredménye, hogy a fenti értelemben vett bármely olyan működés, amelyet véges számú "szó" segítségével logikailag szigorúan és egyértelműen egyáltalán definiálhatunk, ilyen formális neurális hálózattal meg is valósítható. [...] A McCulloch-Pitts-féle eredmény [...] bebizonyítja, hogy minden, amit kimerítően és egyértelműen szavakba lehet foglalni - alkalmas véges neuronhálózattal ipso facto realizálható is. Minthogy az állítás megfordítása nyilvánvaló, állíthatjuk, hogy bármely reális vagy elképzelt, teljesen és egyértelműen szavakba foglalható viselkedési mód leírásának a lehetőse és ugyanennek a véges formális neuronhálózattal való megvalósításának a lehetősége között nincs különbség. A két fogalom terjedelme egyenlő.   Neumann A számológép és az agy című írásában veti részletesebben össze a természetes és mesterséges automatákat, azaz az emberi agyat és a számítógépeket. A természetes automatákkal kapcsolatban külön kiemeli, hogy a mai szakzsargonnal élve meglepő módon jó hibatűrők, nem akasztja meg őket egy-egy "alkatrész" hiánya vagy a zavaros input. Megállapítja továbbá, hogy [...] az adatok arra mutatnak, hogy természetes alkatelemekből felépített berendezések esetében nagyobb számú, bár lassúbb szerv alkalmazása részesíthető előnyben, míg mesterséges alkatelemekből felépített berendezések esetében előnyösebb, ha kevesebb, de gyorsabb szervet alkalmaznak. Így tehát azt várhatjuk, hogy egy hatékonyan megszervezett természetes automata (mint az emberi idegrendszer) minél több logikai (vagy információs) adat egyidejű felvételére és feldolgozására lesz berendezve, míg egy hatékonyan megszervezett nagy mesterséges automata (például egy nagy modern számológép) inkább egymás után látja majd el teendőit - egyszerre csak egy dologgal vagy legalábbis nem olyan sok dologgal foglalkozik. Röviden: a nagy és hatékony természetes automaták valószínűleg nagy mértékben párhuzamos működésűek, míg a nagy és hatékony mesterséges automaták inkább soros működésre rendezhetők be. A sorozatos jégkorszakok közül külön figyelmet érdemel a hatvanas évek végén kezdődő periódus. Ekkor meszelik el a mai neurális hálók elődjének tartott Rosenblatt féle perceptron modellt használó kutatásokat. Azok egyszerű, a kezdetleges modellek hiába voltak ígéretesek, hardveresen nehéz volt megvalósítani azokat. Húsz évre ki is szorult a mainstreamből a neurális hálók elmélete.  A nyolcvanas években Paul Smolensky (nyelvész olvasóinknak az optimalitáselméletből lehet ismerős a neve) köré kezdtek szerveződni a konnekcionisták, akik a kor színvonalához képest már nagyon jó számítógépes modellekkel dolgoztak. A kétrészes Parallel Distributed Processingtanulmánykötetben összegezték munkáikat 1987-ben, melyet még ma is szívesen hivatkoznak a terület kutatói. A PDP csoport alapvetően Neumann gondolatát vitte tovább a párhuzamos feldolgozást illetően. A gyakorlatban egy-egy ún. szubszimbolikus kognitív folyamatot modelleztek (pl. számjegyek felismerése, szófelismerés, a legbonyolultabb és egyben legismertebb magasabb szintű folyamatot modellező kísérlet a Rumelhart és McCelland On the learning of past tenses of English verbs tanulmányban leírt modell).  Habár nagyon sikeres volt a csoport és figyelemre méltó eredményeket értek el, a kutatási irányzat a kilencvenes években kiesett az ipar látóköréből és megmaradt akadémiai hobbinak.   2005-ben Hinton és Salakhutdinov Reducing the Dimensionality of Data with Neural Networks című tanulmánya után jelent meg a deep learning elnevezés (habár a paper még a deep autoencoder network kifejezést használja) a neurális háló egy új fajtájára. A deep learning arra utal, hogy a mesterséges neuronok több rétegbe szerveződve tanulnak. A hatvanas években még csak két, egy be- és egy kimeneti réteget használtak, a nyolcvanas években ezek közé iktattak be egy ún. hidden layert, de egészen a kétezres évek elejéig kellett várni arra, hogy algoritmikusan kezelhető legyen több réteg beiktatása. A deep learning szerencsés pillanatban lépet színre, hiszen vele együtt fejlődött ki a big data, azaz a hatalmas adatmennyiségek gyűjtésének, tárolásának és hatékony feldolgozásának területe is. Az igazi sikert az algoritmikus megoldások mellett a hardver és a rendelkezésre álló adatok mennyisége hozta meg. A Facebook arcfelismerő algoritmusa több milliárd felhasználó megtagelt fotóin tanulhatja az arcfelismerést, a Google alkalmazása a macska fogalmát tkp. a netre feltöltött összes cicás képet felhasználva tanulta meg. Fontos különbség még a hagyományos neurális hálók és a deep learning között, hogy a modern irányzat egyre inkább a nem-felügyelt (azaz a felcímkézett tréningadatok használata nélküli) megközelítés felé mozdult el.    Figyelemre méltó, hogy az agy egy nagyon leegyszerűsített modelljével mi mindenre képesek a kutatók. Ugyanakkor felmerül a kérdés, mennyire gazdaságos, mennyire életszerű pl. több évtizedig gyűjteni fotók milliárdjait egy arcfelismerő létrehozásához? Tényleg csak egy Google vagy Facebook nagyságú, hihetetlen adatmennyiségen ülő cég képes ilyen dolgokra? Az arcfelismerést, az autóvezetést és a többi intelligenciát igénylő feladatot észrevétlenül végezzük, annyira könnyedén, hogy bele sem gondolunk milyen nehéz ezt replikálni. Hogy lehetséges ez? Kant és a neocortex Amikor hazamegyünk, kinyitjuk a lakás ajtaját, levesszük a kabátunkat, felakasztjuk, levesszük a cipőnket, belebújunk kedvenc papucsunkba, becsoszogunk a nappaliba, lehuppanunk a kanapéra és feltesszük lábunkat a dohányzóasztalra, odanyúlunk az újságunkért és a táviránytóval bekapcsoljuk a hifit csupa rutincselekvést végzünk. Ha valamelyik kreatív családtagunk odébb tette például a fogast, akkor lehet hogy kabátunk a földre fog hullani, mert megszokásból, oda sem nézve akartuk felakasztani. Bosszankodunk egy kicsit, de folytatjuk rutinunkat. Igen ám, de a kanapéra ülve észrevesszük, lábunk nem éri el a dohányzóasztalt! Azon már meg sem lepődünk hogy újságunk helyett prospektusok között turkálunk a hifi meg már nincs a szobában. Jeff Hawkins, a Numenta alapítója szerint a fenti szituáció remekül példázza hogy agyunk tulajdonképpen egy prediktív rendszer. A rutinunk belénk ültette a lakásunkról kialakított képet. Agyunk megtanulta hogy hol van a fogas, a távkapcsoló, az újságunk stb. Amikor valami váratlan történik, pl. leesik a kabátunk akkor egy eltérő mintázatot tapasztalunk. A fenti szituációban ekkor körbenézünk, de azt találjuk hogy minden más változatlan, ezért agyunk visszaáll a megszokott dolgok előrejelzésére. Amikor azonban nem tudjuk lábunkat kényelmes pozícióba helyezni, hirtelen elkezdünk figyelni jobban a különbségekre és agyunk szinte várja a következő anomáliát. A intelligencia Hawkins szerint nem más, mint az, hogy agyunk egyfajta rendet vetít a világra, elrendezi és megjósolja hogyan fog alakul és reagál a nem várt helyzetekre. Ez nagyon úgy hangzik, mint Kant gondolatai a Prolegomenában: Tehát egyedül az érzéki szemlélet formája révén vagyunk képesek arra, hogy a dolgokat a priori szemléljük, ámde ekként csak úgy ismerjük meg az objektumokat, ahogyan azok nekünk (érzékeinkben) megjelenhetnek, nem pedig úgy, ahogyan magukban vannak. Hawkins On Intelligence című könyvében amellett érvel, hogy a mesterséges intelligencia eddig tulajdonképpen tévúton járt a Churchland által megfogalmazott paradigmát követve. Az agy hatékonyan oldja meg a gépi tanulás által nagyon nehezen megközelített problémákat, ezért érdemes tanulmányozni működését. Hawkins az agy általános működése helyett a neocortex modelljét célozza meg, mivel ez felel a magasabb, emberi intelligenciáért. A modell neve Hierarchical Temportal Memory, vagy újabban Cortical Learning Algorithm. Ez a modell is tkp. egy deep learning modell, hiszen mesterséges neuronok szerveződnek benne szintekbe. Azonban jelentősen el is tér a neurális hálók elméletétől, ugyanis nagyon nagy szerepet kap a modellben az idő és az ún. online learning (azaz valós időben történő tanulás és előrejelzés - igazi előfutára a Sparse Distributed Memory elmélete). Ahhoz, hogy hatékonyan tudjuk modellezni a neocortex működését, el kell szakadnunk a hagyományos számítási modellektől! A neocortex ugyanis a PDP iskola által is hangoztatott párhuzamos, megosztott feldolgozás szerint működik. Sajnos a Numenta még nem kezdett hardvert gyártani, de hagyományos Neumann architektúrára elérhető algoritmusuk open source formája NuPIC néven itt. Hardver vs szoftver Hawkins nagyon várja a hagyományos architektúráktól eltérő számítógépek megjelenését, habár jelenlegi termékei simán elfutnak az öreg paradigma vasain is. Nincs ezen mit csodálkozni, hiszen pl. a Bluebrain projekt, ami az emberi agy (illetve a neocortex) teljes komputációs modelljének megalkotását tűzte ki céljának, is "hagyományos" szuperszámítógépek segítségével dolgozik.  Nagyon régóta izgatja a szakembereket egy, az agy felépítéséhez hasonló számítógép megalkotása, ám valahogy ideáig nem sikerült az elmélet keretein túljutni. Carver Mead, a VLSI áramkörök tervezésének egyik forradalmi megújítója már a nyolcvanas évektől intenzíven foglalkozott a ma neuromorphic computing néven emlegetett irányzattal, mely célja a neuronokhoz hasonló számítási egységek fizikai megvalósítása. Ennek ellenére az egyetlen igazán jelentős hardver a 2009-ben megjelent Neurogrid, ami fizikailag modellezi a neocortex egy részét, ami egymillió neuront és egy hatmilliárd szinapszist jelent, mindezt a Bluebrain energiaigényének egymilliomod részéből lehet üzemeltetni.   Jelenleg sokkal egyszerűbb a hagyományos hardvereket használni. Az általános számítógép szépségét az adja, hogy programozással egyedivé tehetjük, más rendszereket modellezhetünk rajta. Ellenben, ha meg akarjuk érteni azt, miképp képes agyunk intelligens viselkedést produkálni, szükségünk van fizikai modellekre is, hiszen ezek megépítése egyben az agy felépítésére vonatkozó elméleteink tesztelését is jelenti. 


2015. március 4. 16:01

Így hivatkoznak egymásra a magyar politikai blogok és híroldalak

Politikai blogokat vizsgáló projektünk adatait kibővítettük és megvizsgáltuk hogyan hivatkoznak egymásra a magyar politikai blogok és híroldalak. Ezzel főztünk Crawlerünk egy nyolcvan magyar politkai blogot tartalmazó listán indult el és tízes mélységben vizsgálta a link struktúrát (az megnézte a kiindulási listán blogbejegyzéseiben található linkeket, majd az azokon találhatókat és így tovább tíz lépésben). A crawler kizárólag a tartalomban szereplő linkeket kereste, ezért amennyiben azok közösségi média oldalra, nem szöveges tartalomra, vagy nem magyar nyelvű tartalomra mutattak, nem haladt tovább. Gyűjtésünk eredménye 12121 darab egyedi url, melyek között 22542 él (azaz link) található. Az egyedi url-eket összevontuk az ún. pay-level domain alá. Pl. legutóbbi posztunk egyedi url azonosítójához "http://kereses.blog.hu/2015/03/02/kiszamithatoak_vagyunk" a "kereses" pay-level tartozik. A pay-levelre átkódolt url-ek segítségével egy új, egyszerűbb gráfot készítettünk melyben 1441 csomópont (pay-level url) és 2472 él (link) található. A csomópontok közötti átlagos utak hossza 3.341833, a gráf átmérője 9.  Az alábbi gráfokon a legalább négy be- vagy kimenő éllel rendelkező csomópontok láthatók, ez adataink 9.02 százaléka, az éleknek pedig 50.81 százaléka látható. A csomópontok nagysága minden ábrán eltér, mert más-más ranking eljárással állapítottuk meg. A csomópontok színét modularitásuk alapján alapítottuk meg, ami nagyon leegyszerűsítve annyit tesz, hogy a gráfban leírt tulajdonságaik alapján egy csoportba tartoznak. PageRank A Google által kifejlesztett PageRank algoritmus mind a be-, mind a kimenő éleket figyelembe veszi, ezért nagyon jó képet ad egy-egy csomópont autoritásáról. Az alábbi ábrán a csomópontok nagysága PageRank értékük alapján lett megállapítva. In-degree A bemenő élek száma alapján rangsoroltuk a csomópontokat az alábbi ábrán, azaz minél nagyobb egy csomópont, annál több hivatkozást kapott. Out-degree Az ábrán a kimenő élek száma alapján rangsoroltuk a csomópontokat, azaz minél nagyobb egy csomópont, annál több hivatkozás indul róla más oldalak irányába.


2015. március 2. 13:56

Kiszámíthatóak vagyunk?

Gyűlnek rólunk az adatok. A mobilszolgáltatónk nálunk is jobban tudja, hol leszünk holnap ilyenkor, kedvenc online könyváruházunk barátainknál is jobban el tudja találni melyik új kötet okozna nekünk feledhetetlen élményt, a sarki hipermarket bizton számít arra, hogy holnap elfogy a kenyerünk s ismét betérünk vásárolni. Az NSA terrorista-gyanús emberek után kutat az online világban, az arab tavasz kapcsán pedig a forradalmak megjósolhatósága napjaink egyik kedvenc kérdésévé vált. Végre rendes tudománnyá válhat az emberi viselkedés előrejelzése?   Kiszámíthatóak vagyunk! Barabási Popper Prediction and Prophecy in the Social Sciences című esszéjére többször is hivatkozik, mint a társadalmi folyamatok előrejelezhetetlenségét legjobban kifejtő műre. Miközben az előrejelzésnek és a véletlenszerűségnek ezen a bizonytalan határvonalán töprengünk, rá kell jönnünk, hogy akármilyen tekintélyes és nagy hatású gondolkodó volt Popper, nem feltétlenül volt igaza. Állításával ellentétben nincs rá szilárd bizonyíték, hogy a társadalmi rendszereket nem lehet előre jelezni.[...] [...] Az előrejelző eszközök, első sorban üzleti érdekektől hajtva, folyamatosan fejlődnek, különösen azok, amelyek az egyéni viselkedés mérésére szolgálnak. És a pontosság növelése érdekében ezek az eszközök a jövőben az egyének helyett egyre inkább az őket magukba foglaló csoportokra fognak koncentrálni, mert amikor az ember eltér a szabályszerű, megszokott viselkedéstől (például munka után nem egyenesen haza, hanem előbb a sörözőbe megy), gyakran a barátai tehetnek róla.Az előrejelző eszközök hatóköre is ki fog bővülni néhány percről néhány órára, ami cselekvéseink rövid távú tehetetlenségét tekintve elképzelhető időtartamnak tűnik. És amikor ugyanezek az eszközök az egy- vagy többnapos előrejelzésre való áttéréssel birkóznak, eleinte pontatlanok lesznek, mint évtizedekkel korábban az időjárás-előrejelzés. Ám előrejelző képességük szükségképpen fejlődni fog, és egyszer csak azt látjuk majd, hogy a jövő már egyáltalán nem olyan talányos, mint korábban volt. (Barabási Albert László: Villanások) A fenti idézet remekül kifejezi vágyunkat. Az üzleti élet és maga a politikai is egyre nagyobb igényt tart arra, hogy valamilyen módon előre tudja jelezni az egyéni és csoportos viselkedést. Mielőtt hátradőlnénk és megnyugodnánk, hogy a fizika és az alkalmazott matematika eszköztára hamarosan meghozza a várva várt áttörést nézzük meg egy kicsit, miről is beszélt Popper. Kis kitérő  A Barabási által hivatkozott esszét helyezzük először kontextusba. Popper tudományfilozófus volt, aki mélyen hitt a racionalitásban. Ennek ellenére meg kellett élnie a nácizmus térnyerését és hazája, Ausztria elhagyására kényszerült. A világháború alatt írta az Open Society and Its Enemies című könyvét (ennek címe köszön vissza tanítvány, Soros György alapítványának nevében), ami tulajdonképpen a diktatúrákra alkalmazta tudományfilozófiai nézeteit. Popper szerint a tudomány lényege, hogy megadja cáfolhatóságának feltételeit (falszifikálható). A tudományhoz hasonlóan egy nyílt, demokratikus társadalom nem hibátlan, hanem rendelkezik a korrekció képességével (szabad véleménynyilvánítás, szabad választások, nyílt viták stb). 1945-ben ez nyílt állásfoglalás volt a fasizmussal és a kommunizmussal szemben, s ettől kezdve tudományfilozófusunk időről-időre visszatért ehhez a témához. A Prediction and Prophecy a marxizmust kritizáló hosszabb könyvecske, a The Poverty of Historicism előfutára. Popper célja, hogy a történelmi materializmus és a tudományos szocializmus, s így minden tudományos köntösbe bújtatott ideológia cáfolatát adja. Nagyon leegyszerűsítve, a történelmi materializmus és a tudományos szocializmus szerint a történelem menete szükségszerű változások sorozata, melynek elkerülhetetlen vége a kommunizmus. Mivel a történelmi változásokat törvények alakítják, egy-egy társadalmi jelenség előrejelezhető. Akit jobban izgat a kérdés, annak Balibar Marx filozófiája című rövid könyvét ajánljuk.   Popper historicizmusnak nevezi azt a doktrínát, mely szerint a politikacsináláshoz a történelmi szükségszerűségek ismerete szükséges. Ennek két tétele van: The task of social sciences is fundamentally the same as that of the natural sciences - to make predictions, and, more especially, historical predictions, that is to say, predictions about the social and political development of mankind. Once these predictions are available, the task of politics can be determined. Azaz, ha vannak társadalomtudományi általános törvények, akkor adott hogy mit kell tennünk. Vitának helye nincs, hiszen a társadalmi törvényszerűségek egyben kijelölik a szükséges cselekvéseket is. Csakhogy Popper szerint a társadalomtudományok nem egészen úgy működnek, mint a természettudományok.   A természettudományokban a predikció mindennapos. Ennek vannak feltételes esetei, pl. ha nem tartom a kezemben a könyvemet, akkor az leesik. Vannak feltétel nélküli predikciók is, melyeket általános törvényeknek is nevezhetünk. Pl. abból, hogy minden tárgy leesik ha megszűnik az alátámasztása, levezethető a gravitáció. Popper szerint azonban a társadalomtudományokban nincsenek ilyen általános törvények vagy feltétel nélküli predikciók. A természettudományokban azért lehetséges általános törvényszerűségeket találni, mert long term prophecies can be derived from scientific conditional predictions only if they apply to systems which can be described as well isolated, stationary and recurrent.  Ennek tükrében a társadalomtudományok fő feladata   It is to trace the unintended social repercussions of intentional human actions. Hasznuk a politikacsinálásban pedig They do not allow us to make historical prophecies, but they may give us an idea of what can, and what cannot be done in the political field. Látható, Popper egyáltalán nem tagadja a társadalomtudományok képességét arra, hogy előrejelzést tegyenek. Egyedül azt tagadja, hogy a természettudományokhoz hasonlóan általános törvényekkel állhatnak elő. Reflexivitás Soros György, még mielőtt a pénzügyek felé fordult volna, Popper diákja volt. Hiába lett belőle befektetési guru, fektette meg az angol fontot és csinált hihetetlen vagyont, filozófus énjét nem tudta kiiktatni. Saját bevallása szerint Soros pénzügyi stratégiáját Popper falszifikációs elméletére alapozta, amit megannyi kötetben osztott meg már, ezek közül a magyarul is hozzáférhető A nyílt társadalom avagy a globális kapitalizmus megreformálásból szemezgetünk, hogy jobban megértsük miben különbözik az emberi társas világ a fizikai objektumok valóságától. Soros filozófiájának központi eleme a reflexivitás.  Popper nem szándékos következményeknek (repercussions of intentional human actions) nevezi azt a tényt, hogy cselekedeteinknek nem tudjuk az összes következményét belátni, ergo minden szándékos cselekedetnek vannak szándékolatlan következményei is. Soros ezt a gondolatot viszi tovább a reflexivitással; ha elindítunk egy szándékos cselekvést, akkor szembesülnünk kell azzal, hogy az nem várt módon visszahathat ránk, ami módosíthatja eredeti elképzeléseinket. A történelmi folyamatokkal kapcsolatban erről így ír Soros: A különböző résztvevők előítéletei is különböznek, ám sok esetben - és ez különösen igaz a pénzpiacokra - "uralkodó" előítéletekről beszélhetünk. Kezdetben az események kimenetele még alátámasztja az uralkodó nézetet, ám azok egyre túlzottabbá válnak, és ezzel párhuzamosan egyre kevésbé képesek az események sodrára hatni. Következésképpen a megerősítés is elmarad. Az eredmények és az elvárás közötti szakadék mélyülésével egyre nehezebbé válik az uralkodó előítéletek fenntartása. Amikor pedig a résztvevők megkérdőjelezik, sőt megtagadják előítéletüket, egy ellentétes irányú, önerősítő folyamat lendül mozgásba. Minél inkább függ egy uralkodó előítélet az önigazolástól, annál nagyobb a valószínűsége annak, hogy ez az ellentétes folyamat megindul.  Ennek szellemében minden ágens (vagy nevezzük nyugodtan embernek) gyarló, azaz nem rendelkezik biztos, elmélettel arról hogyan is működik a társas világ, hanem folyamatosan teszteli elméleteit és a történések függvényében alakítja azokat. Ez nem sima gyarlóság, hanem radikális gyarlóság, ami a reflexivitással párosulva olyan visszafordíthatatlan történelmi folyamatokat tesz lehetővé, amelyek kizárják az időtállóan érvényes általánosításokat. Pontosabban: a reflexív eseményekből általánosított következtetéseket nem vizsgálhatjuk meg újra és újra, hiszen a kezdeti és végső feltételeket nem ismételhetjük meg. Akkor előre lehet jelezni bármit? Természetesen igen - de számolnunk kell azzal, hogy nagyon behatároltak a lehetőségeink, amikor emberekről beszélünk. Popper és Soros arra hívja fel a figyelmet, hogy amikor emberekről beszélünk, akkor nem tudunk univerzális törvényeket alkotni, csak az adott kontextusban, az adott társadalmi körülmények között, az adott időben mondhatunk ki szabályszerűségeket. De gondoljunk csak bele, a középkorban, vagy az ősközösségi társadalmakban alkalmazhatjuk a modern közgazdaságtan elméleteit? Tudhatunk arról valami, hogy a mostani szegénységellenes programok működhettek-e volna a múltszázadban, vagy működni fognak-e harminc év múlva is? 


2015. február 27. 9:55

Miért menj szoftverfejlesztőnek? - Tanácsok pályaválasztóknak

 


2015. február 9. 8:39

Kapcsolódjunk össze! Linked data a közös BOK és NLP meetupon február 18-án

Az évad első meetupján a BOK meetuppal közösen jövünk össze 2015. február 18-án 19:00-tól, rendhagyó módon ezúttal a SZTAKI-ban (Budapest, XI. Kende u. 13-17). Témánk a linked data, mi a fene is az, mire használják és mivel NLP meetup is egyben az esemény, a magyar WordNetről is hallhatunk majd, mint tipikus linked data adathalmazról. A részvétel ingyenes, de arra kérünk mindenkit, részvételi szándékát jelezze vagy a BOK, vagy az NLP meetup oldalán. Szász Barnabás: Linked Data - van-e adathalmazoknak hálózati hatása?   A World Wide Web egy olyan globális infrastruktúrát hozott létre, amely lehetőséget nyújt összekapcsolt dokumentumok hálózatának a publikálására és elérésére. A Linked (Open) Data ennek mintájára - és a Web eredményeire és technológiáira építve - ad hasonló módon összekapcsolt adathalmazok publikálására és fogyasztására eszközöket. Az előadás egy bevezetőt ad a LOD világába, kitérve röviden a szemantika fogalmára, a Szemantikus Webes technológiákra és a LOD néhány gyakorlati alkalmazására, köztük az Apache Stanbol projekt rövid ismertetésével példát ad arra, hogy a LOD hogyan tudja akár az NLP-t támogatni.   Szász Barnabás több mint egy évtizede foglalkozik webes fejlesztéssel, nagyvállalati tartalomkezelő, metaadat kezelő és keresőrendszerek implementálásával és 2005 óta a Szemantikus Web kutatásával, jelenleg a Linked Data alkalmazásait és a szemantikus keresés lehetőségeit vizsgálja. A munkán túl újdonsült családapa, amatőr fotós és hobby-tengerész.       Horváth Ádám: Könyvtári és múzeumi adatok automatikus publikálása a szemantikus weben -   az ALIADA projekt ismertetése   A könyvtárak és a múzeumok az adataik publikálásával vehetnek részt a szemantikus web építésében. Az ALIADA projekt ezt a folyamatot szeretné felgyorsítani azzal, hogy egy olyan nyílt forráskódú szoftvert hoz létre, melynek segítségével a könyvtárak és a múzeumok automatikusan publikálhatják az adataikat a szemantikus weben. Az előadásomban az ALIADA projektet szeretném ismertetni. Az előadásban ki szeretnék térni a Linked Open Data egyik felhasználási területére a Library of Congress új katalogizálási szabványára a BIBFRAME-re, mely teljes egészében a kapcsolt adatokon nyugszik.    Horváth Ádám informatikus könyvtáros az Országos Széchényi Könyvtár informatikai vezetője volt 10 évig. A könyvtárinformatika teljes spektrumában (integrált rendszerek, karakterkészletek, hálózati protokollok, visszakereső rendszerek, digitális könyvtár, stb.) elmélyült ismeretekre tett szert. Vezetése alatt a könyvtár a teljes állományát, valamint a tezauruszt és a név besorolási adatait publikálta a szemantikus weben, még 2010-ben. Később a Szépművészeti Múzeum dolgozójaként megismerkedett a múzeumi gyűjteménykezelő rendszerekkel is. Jelenleg a Magyar Nemzeti Múzeum Központi Könyvtárában dolgozik. Szabadidejében amatőr természetfotós és lelkes tanulója a kanadai és freestyle kenuzásnak.    Héder Mihály arról tart előadást, hogy hogyan kapcsolódik a Linked Data és az NLP a DBpedia Spotlight eszközön keresztül. Hogyan segít a Linked Data előállításában a human-in-the-loop gépi tanulás? Milyen mashup-ok épülnek a DBpedia adathalmazára? Hogyan hat ki mindez az ember-gép interfészek jövőjére? Héder Mihály 2004-ben kezdett gyakornokként az MTA SZTAKI-ban. Okleveles mérnök informatikus diplomáját 2009-ben védte meg, 2014-ben filozófia PhD fokozatot szerzett. Szakterülete a mesterséges intelligencia filozófiája, szemantikus annotációk, szoftver integráció.   Miháltz Márton: Magyar WordNet a LOD felhőben Ebben az előadásban egy konkrét erőforrást, a Magyar WordNetet szeretnénk bemutatni, az előadással kb. egy időben LOD felhőbe kerülésének apropójából. A Magyar WordNet (HuWN) egy természetesnyelvi ontológia, amely a Princeton WordNet elveit követve a nyelvi fogalmakat szinonimahalmazokkal (synsetekkel) reprezentálja és közöttük szemantikai viszonyokat definiálva (pl. hipernima (is-a), meronima (rész-egész), antonima stb.) hoz létre egy lexikális fogalmi hálózatot. Noha a wordnetekben a nyelvi fogalmak közötti taxonómia nem felel meg egy szigorú formális ontológia követelményeinek, az NLP különböző alkalmazásaiban mégis gyakran használják őket világismereti reprezentáció forrásaként. A Magyar WordNet 42 ezer synsetet tartalmaz, és össze van kapcsolva az angol (Princeton) WordNet 2.0-ás és 3.0-s verzióival, ami átjárást biztosít több mint 20 egyéb nyelv wordnetjeihez, illetve az angol wordnethez illeszkedő egyéb adatbázisokhoz (Yago, DBPedia, BabelNet stb.) A HuWN szabadon hozzáférhető, az előadással egy időben tervezzük RDF formátumú megosztását a LOD felhőben is. Miháltz Márton az MTA Nyelvtudományi Intézet Nyelvtechnológia Kutatócsoportjának és a PPKE ITK Magyar Nyelvtechnológiai Kutatócsoportjának tudományos munkatársa. Korábban nyelvtechnológiai területen dolgozott az iparban (MorphoLogic, in4, GeoX). PhD fokozatát nyelvtechnológia témában 2010-ben szerezte a PPKE ITK-n. Kutatási területei az információkinyerés, véleményelemzés, jelentésegyértelműsítés, koreferenciafeloldás.


2015. február 7. 8:47

Életképek kaposvári irodánkból


2015. február 5. 12:04

Morvay Gergő gyakornokunk ELTE Almuni ösztöndíjas

Nagyon büszkék vagyunk Morvay Gergő gyakornokunkra, aki elnyerte az ELTE Alumni Alapítvány ösztöndíját. Gergő Szabó Martina kollégánkkal dolgozik szentiment- és emócióelemzés projektünkön.  


2015. február 3. 23:29

Kísérlet egy magyar R-index létrehozására

A Recession/R-indexet az 1990-es évek elején találták ki a The Economistnál azzal a céllal, hogy az USA gazdasági helyzetét, kiváltképp a válság időszakokat egy egyszerű mérőszámmal tudják előrejelezni. Ez az általuk kitalált index azt méri, hogy a "recession" - azaz "válság" vagy "recesszió" - szó hányszor jelenik meg negyedévente két befolyásos amerikai napilapban, a New York Timesban és a Washington Postban. Az index segítségével jelezni tudták az 1981-es, az 1990-es és a 2001-es válság kezdetét is. Azonban arra is volt példa, hogy tévedett a mutató, ugyanis az 1990-es évek eleji válság vége után még egy évvel is recessziót jeleztek vele. A The Economist próbálkozásán túl mások is megkíséreltek összehozni egy működő R-indexet. A sikeresek közé sorolhatjuk például Iselin és Siliverstovs svájci, illetve Maticek és Mayr német R-indexét. Utóbbiakon felbuzdulva úgy döntöttünk, mi is megpróbálunk létrehozni egy magyar R-indexet.   Az utóbbi évtizedben egyre többen használják az online elérhető szövegeket és a közösségi médiában található tartalmakat arra a célra, hogy gazdasági trendeket elemezzenek és jelezzenek előre. Egy társadalmi, gazdasági jelenség médiabeli megjelenése egyrészt az érdeklődésre és a közönséghangulatra reflektál, másrészt a médiabeli megjelenés is befolyásolja az emberek véleményét, fogalmi kereteiket és fókuszálja figyelmüket. Ez az oda-visszaható folyamat megfelelő mérőszámokat eredményezhet adott társadalmi, gazdasági jelenség médiabeli lecsapódása során. Emellett az információs technológiák megengedik, hogy valós időben kövessük a társadalmi, gazdasági történéseket az interneten, például a digitalizált újságokban, valamint hogy magunk is lenyomatot hagyjunk, például a keresések során. Tehát a különböző webes tartalmak olyan információknak a forrásai lehetnek, amelyeket hatékonyan és gyorsan lehet előrejelzési célokra használni. A társadalmi, de főleg gazdasági folyamatok online szöveges tartalmakkal történő elemzése során az utóbbi időben két csapásirány jellemző. Az egyik a digitalizált folyóiratokban található tartalmak használatára terjed ki, a másik pedig a Google Trendsről leszedett keresési adatokat próbálja előrejelző modellekbe belegyúrni. Mi mindkét csapásiránnyal megpróbálkozunk a magyar R-index előállításakor. A befolyásos, sokak által olvasott online folyóiratként az Indexet választottuk ki, emellett a Google Trendsről is letöltöttük a kiválasztott kulcsszavak keresési idősorát.   ADATOK Egy ország gazdaságának állapotáról adott ország GDP-jének segítségével kaphatunk általános képet, amely a gazdasági termelés mértékének meghatározására használt mérőszám. Mivel ennek mozgását szeretnénk előrejelezni, a GDP termelés volumenindexével dolgoztunk, amelyet az előző év azonos időszakához képest határoztak meg. Ennek idősorát a KSH honlapján értük el. Az egyik féle R-indexhez az Index online hírportált használtuk, melynek saját keresője megengedi, hogy beállítsuk a keresőszót, a keresési időszakot, valamint a megfelelő rovatot. A dolog szépsége, hogy az idei évtől megváltozott az Index keresője annyiban, hogy már nem lehet a töredékszavas találatokat kiszűrni az összes találat közül. Így vannak a még 2014. III. negyedévében leszedett adataink, amelyek 2006. I. negyedévétől 2014. II. negyedévéig tartanak. Ezekből, mivel volt lehetőségünk, kiszűrtük a töredékszavas találatokat, mert úgy gondoltuk, ezek relevánsabb találatokat tartalmaznak. Emellett rendelkezésünkre állnak a 2015. januárban leszedett adatok, amelyek 2006. I. negyedévétől 2014. IV. negyedévéig tartanak és a töredékszavas találatokat is tartalmazzák, mivel már nincs opció ezek kiszűrésére. A következő kulcsszavakra kapott gyakorisági idősorokat használtuk fel az elemzéshez negyedéves bontásban: Régi keresés szerint (töredékszavak nélkül): "válság", minden rovatban "válság", Gazdaság rovatban "válság", Belföld rovatban "recesszió", minden rovatban "recesszió", Gazdaság rovatban "recesszió", Belföld rovatban "csőd", minden rovatban "árfolyam", minden rovatban "részvény", minden rovatban Új keresés szerint (töredékszavakkal): "recesszió", minden rovatban "recesszió", Gazdaság rovatban   A másik féle R-indexhez a Google Trendsről töltöttük le az adott kulcsszavakhoz tartozó Magyarországra beállított idősorokat. Ezekből nem szedtünk le frisset, az idősorok 2006. I. negyedévétől 2014. II. negyedévéig tartanak. Mivel az idősorokat heti vagy havi bontásban lehet lekérni, az idősorokat negyedévesre aggregáltuk. A következő kulcsszavakra kapott standardizált gyakorisági idősorokat használtuk fel az elemzéshez negyedéves bontásban: "válság" "válság magyarország" "recesszió" "csőd" "árfolyam" "részvény"   A GDP negyedéves értékét a KSH az adott negyedév utáni 3. hónap elején közli. Ezzel szemben az Indexes , valamint a Google Trendses R-indexet akár már az adott negyedév utáni első napon is elérhetjük. Így ha sikerülne létrehozni egy megfelelő R-indexet, a KSH-val szemben 2 hónapos előnnyel tudnánk megfelelő becslést adni a GDP adott negyedéves értékére.   MÓDSZERTAN Az elemzés során követett módszertanban nagy segítséget jelentett David Iselin és Boriss Siliverstovs két tanulmánya, a The R-Word Index in Switzerland, valamint a Using Newspapers for Tracking the Business Cycle: A comparative study for Germany and Switzerland. Elméleti modellként hozzájuk hasonlóan az autoregresszív osztott késleltetésű modellt (autoregressive distributed lag model, ARDL) használtuk (2. képlet), ezekbe ágyaztuk be az R-indexeket. A benchmark modellünk pedig az autoregresszív modell (1. képlet) volt. Az yt függő változó a GDP volumenváltozása az előző év azonos negyedévéhez képest. A t futóindex jelöli a GDP megfigyelési időpontjait, azaz t = 2006Q1, 2006Q2, …, 2014Q3. A magyarázó változók egyrészt a GDP idősorának időben késleltetett értékei, amelyeket az yt-i jelöl, ahol i = 1, 2, …, p. A függő változó időben eltolt értékeit az AR és ARDL modell is tartalmazza magyarázó változóként. Ezeket hívjuk autoregresszív tagoknak, ugyanis ezek jelzik, hogy a függő változó melyik múltbeli értékeivel korrelál. Az ARDL modell ezenkívül tartalmaz még egy tagot, amely helyére az előállított R-indexek jelenbeli vagy múltbeli értékei kerülhetnek (j = 0, 1, …, q). Ez a tag lehet azonos idejű a függő változóval vagy lehetnek időben eltoltak is, míg az autoregresszív tagok csak időben késleltetettek lehetnek, ezért hívják a modellt osztott késleltetésűnek. Az adatok vizsgálata során úgy találtuk, hogy az AR(2)-es modell lesz a megfelelő benchmark modell (3. képlet) és az ARDL(2,0) volt az alkalmazási feltételeknek eleget tevő, az adatokra legjobban illeszkedő modell (4. képlet).     ELEMZÉS A régebbi idősorok összesen 34 megfigyelésből állnak 2006. I. negyedévtől 2014. II. negyedévig, a hosszabb idősorok 36 megfigyelést tartalmaznak 2014. IV. negyedévéig. A GDP Idősora 2006. I. negyedévtől tart 2014. III. negyedévig (1. ábra). Ábra 1. A GDP volumenértékei az előző év azonos időszakához képest, 2006 I. negyedév- 2014. III. negyedév A függő változó és a magyarázó változók korrelációjának vizsgálata során a következő változókat ítéltük a legjobbnak a modellalkotásra: "válság", Index, minden rovatban, régi keresés szerint "recesszió", Index, minden rovatban, régi keresés szerint "recesszió", Index, Gazdaság rovatban, régi keresés szerint "recesszió", Index, minden rovatban, új keresés szerint "recesszió", Index, Gazdaság rovatban, új keresés szerint "válság", Google Trends Az ARDL(2, 0) rendű modellek építésekor a 2. és 3. modellt ki kellett ejtenünk, ugyanis erős multikollinearitást jeleztek az egyes magyarázó változókhoz tartozó VIF értékek. A modellek többségénél szemmel úgy láttuk, gond lehet a reziduálisok normalitásával, noha a Shapiro-Wilk teszt alapján egyik esetben sem volt elvethető a nullhipotézis, miszerint a reziduálisok normális eloszlásúak. Ezért megnéztük, hogyan lehetne bootstrappelni az idősorokat. Egyrészt mivel szerettük volna megtartani az épített modelleket az újramintavételezés során, másrészt mivel a használt idősorok mindegyike autoregresszív és ezért nem használhattunk naiv bootstrapet, úgy döntöttünk, az egyes modellekben kapott standardizált reziduálisokat fogjuk bootstrappelni. Először elmentettük a modellek illesztett értékeit, valamint a reziduálisokat, majd a reziduálisokat 999-szer újramintavételeztük visszatevéssel. Ezután az illesztett értékeket és a reziduálisokat összeadtuk, és minden így kapott új idősorra újraillesztettük az ARDL(2,0) modellt. Az összes Index rovatbeli, új keresés szerinti "recesszió" keresőszó gyakoriságával épített bootstrappelt modellek például a következőképp néztek ki (a fekete vonal az eredeti modell): Ábra 2. Bootstrappelt idősorok - "recesszió" Index, összes rovat modell A bootstrappelt minták alapján konfidenciaintervallumokat állítottunk a különböző statisztikákra, és nem találtunk az alkalmazási feltételeknek nem megfelelő modellt. Végül a 3 legjobban illeszkedő modellt tartottuk meg, amelyek a következő R indexeket tartalmazzák: "válság", Index, minden rovatban, régi keresés szerint "recesszió", Index, minden rovatban, új keresés szerint "válság", Google Trends A modellek előrejelzési pontosságát és a robusztusságát úgy vizsgáltuk, hogy kiválasztottunk egy rövidebb becslőablakot 2006 I. negyedévétől 2010. IV. negyedévéig, előrejeleztünk a következő időszakra, majd minden egyes lépésben bővítettük a becslőablakot egy negyedévvel és úgy jeleztünk előre. Ezt mind a három modell esetében megtettük 2014. II. negyedévig, valamint az AR(2) modell esetében is. Az előrejelzések a következő táblázat szerint alakultak: Táblázat 1. A modellek előrejelzései   Az előrejelzések pontosságát az átlagos hiba (ME), az átlagos négyzetes hiba négyzetgyöke (RMSE), az átlagos abszolút hiba (MAE), az átlagos százalékos hiba (MPE) és az átlagos abszolút százalékos hiba (MAPE) mérőszámokkal mértük, valamint a Diebold-Mariano teszttel vizsgáltuk meg, hogy szignifikánsan jobbnak bizonyul-e valamelyik modell előrejelzése az AR(2) modellénél. (Táblázat 2.) Táblázat 2. A modellek előrejelzésének pontossága Az előrejelzés pontosságában csak az átlagos négyzetes hiba négyzetgyöke alapján láthatunk egyöntetű javulást a 2-es rendű autoregresszív modellhez képest. Ez a mérőszám jobban bünteti a nagyobb eltéréseket, tehát az AR(2) modell bár abszolút értékben átlagosan nagyjából ugyanannyit tévedett, mint a többi modell, de egyes esetekben viszonylag jobban eltért az előrejelzés értéke a valós értéktől, mint a többi modellnél. A Diebold-Mariano teszt alapján azonban nem utasíthatjuk el a nullhipotézist, miszerint a modellek becslési pontossága ugyanolyan. Így hát szomorúan konstatáltuk, hogy a szimpla szógyakorisági indexekkel nem sikerült statisztikailag jobb modellt összehoznunk.  EREDMÉNYEK Az elemzés során három ARDL(2,0) modellt építettünk háromféle R-index modellbe foglalásával. A benchmark modellünk az AR(2) modell volt, amelynél nem sikerült a GDP volumenértékét becslő statisztikailag sikeresebb modellt építenünk. Emellett egyik modell sem bizonyult megfelelőnek a 2012. I. negyedévében bekövetkező kisebb válságidőszak előrejelzésére, noha az Indexről származó R-indexekkel bővített két modell is stagnálást jelzett. Összefoglalásképp tehát egyik modellt sem tartjuk célnak megfelelőnek. Annyi pozitívumot azonban megemlíthetünk, hogy 2014. IV. negyedévében az AR(2) és az Indexes "recesszió" kulcsszóval bővített ARDL(2, 0) modell szerint is nőtt a GDP, előbbi 102.1231, utóbbi 102.5951 volumenértéket jósol. Na de azért nem adjuk fel! A szógyakorisági idősorok mellett ugyanis egyes kulcsszavakhoz a cikkeket is letöltöttük. Így a cikkek szentiment- illetve emócióértékeivel is futni fogunk még egy kört...


2015. február 2. 13:03

A nyolcvanas és kilencvenes évek slágerei meg a deep learning

A deep learning buzzword lett, a big data területén lassan nem szexi az, ami nem alkalmaz valamilyen deep neural networköt vagy valami hasonlót. A Google Brain projekt kapcsán a mesterséges intelligencia reneszánszáról beszélnek sokan. Avval viszont kevesen vannak tisztában, hogy alapvetően a "forradalmian új" ötlet a kognitív tudományból érkezett, leánykori nevén konnekcionizmusnak és párhuzamos megosztott feldolgozásnak hívták, gyökerei egészen a számítástudomány hajnaláig, Neumann és Turing írásaihoz köthetők.   Neumann és a digitális számológépek A első idealizált neuron modell McCulloch és Pitts írta le A logical calculus of the ideas immanent in nervous activity című dolgozatukban. Neumann eképpen foglalja össze ennek jelentőségét Az automaták általános és logikai elméletében: McCulloch és Pitts elméletének fontos eredménye, hogy a fenti értelemben vett bármely olyan működés, amelyet véges számú "szó" segítségével logikailag szigorúan és egyértelműen egyáltalán definiálhatunk, ilyen formális neurális hálózattal meg is valósítható. [...] A McCulloch-Pitts-féle eredmény [...] bebizonyítja, hogy minden, amit kimerítően és egyértelműen szavakba lehet foglalni - alkalmas véges neuronhálózattal ipso facto realizálható is. Minthogy az állítás megfordítása nyilvánvaló, állíthatjuk, hogy bármely reális vagy elképzelt, teljesen és egyértelműen szavakba foglalható viselkedési mód leírásának a lehetőse és ugyanennek a véges formális neuronhálózattal való megvalósításának a lehetősége között nincs különbség. A két fogalom terjedelme egyenlő. Neumann A számológép és az agy című írásában veti részletesebben össze a természetes és mesterséges automatákat, azaz az emberi agyat és a számítógépeket. A természetes automatákkal kapcsolatban külön kiemeli, hogy a mai szakzsargonnal élve meglepő módon jó hibatűrők, nem akasztja meg őket egy-egy "alkatrész" hiánya vagy a zavaros input. Megállapítja továbbá, hogy [...] az adatok arra mutatnak, hogy természetes alkatelemekből felépített berendezések esetében nagyobb számú, bár lassúbb szerv alkalmazása részesíthető előnyben, míg mesterséges alkatelemekből felépített berendezések esetében előnyösebb, ha kevesebb, de gyorsabb szervet alkalmaznak. Így tehát azt várhatjuk, hogy egy hatékonyan megszervezett természetes automata (mint az emberi idegrendszer) minél több logikai (vagy információs) adat egyidejű felvételére és feldolgozására lesz berendezve, míg egy hatékonyan megszervezett nagy mesterséges automata (például egy nagy modern számológép) inkább egymás után látja majd el teendőit - egyszerre csak egy dologgal vagy legalábbis nem olyan sok dologgal foglalkozik. Röviden: a nagy és hatékony természetes automaták valószínűleg nagy mértékben párhuzamos működésűek, míg a nagy és hatékony mesterséges automaták inkább soros működésre rendezhetők be.   Neumann álma valóra válik a nyolcvanas években A konnekcionizmus szülőapja Donald O. Hebb a múlt század negyvenes éveiben javasolta az idegrendszerhez hasonló modellek használatát először. Egy idealizált konnekcionista modellben az inputokat outputokhoz kötjük, az asszociáció erősségét is megadjuk (azaz mikor tüzel képzeletbeli neuronunk) és van egy nagyon egyszerű hálónk. Ezek közül a legegyszerűbbek pl. a AND, NAND és OR logikai függvényeket megvalósító hálózatok, mivel csupán két réteg (layer) mesterséges neuronnal megvalósíthatóak.   Kicsit bonyolultabb a XOR logikai kapu neurális megvalósítása, mivel ehhez már három rétegre van szükségünk. (Bővebben erről itt) A nyolcvanas években Paul Smolensky (nyelvész olvasóinknak az optimalitáselméletből lehet ismerős a neve) köré kezdtek szerveződni a konnekcionisták, akik a kor színvonalához képest már nagyon jó számítógépes modellekkel dolgoztak. A kétrészes Parallel Distributed Processing tanulmánykötetben összegezték munkáikat 1987-ben, melyet még ma is szívesen hivatkoznak a terület kutatói. A PDP csoport alapvetően Neumann gondolatát vitte tovább a párhuzamos feldolgozást illetően. A gyakorlatban egy-egy ún. szubszimbolikus kognitív folyamatot modelleztek (pl. számjegyek felismerése, szófelismerés, a legbonyolultabb és egyben legismertebb magasabb szintű folyamatot modellező kísérlet a Rumelhart és McCelland On the learning of past tenses of English verbs tanulmányban leírt modell).  Habár nagyon sikeres volt a csoport és figyelemre méltó eredményeket értek el, a kutatási irányzat a kilencvenes években kiesett az ipar látóköréből és megmaradt akadémiai hobbinak. Hogyan reprezentál és tanul egy konnekcionista rendszer? Már Neumann számára is felmerült ez a kérdés. Az automaták általános és logikai elméletében a Smolensky által javasolt megoldást előlegezte meg: A logikai műveleteket [...] olyan eljárással kell tárgyalni, amelyek kicsi, de nem zérus valószínűséggel megengednek kivételeket (hibás működést. Mindez olyan elméletekhez fog vezetni, amelyek sokkal kevésbé mereven "minden vagy semmi" természetűek, mint a fomális logika a múltban és a jelenben. [...] Ez a termodinamika, elsősorban abban a formájában, amelyet Boltzman alkotott meg. Smolensky On the proper teatment of connectionism (magyarul A konnekcionizmus helyes kezeléséről in. Pléh (szerk.): Kognitív tudomány) c. tanulmányában tesz kísérletet a PDP határainak és módszereinek kijelölésére. A Neumann által kifejtett következtetést Smolensky a Legjobb Illeszkedés Elvének hívja: Egy adott bemenet esetén a szubszimbolikus rendszer kimenete egy következtetéshalmaz, amely mint egész a legjobb illeszkedést mutatja az inputhoz, abban a statisztikai értelemben, amelyet a rendszer kapcsolataiban tárolt statisztikai tudás határoz meg.   Ez nem más mint egy Boltzmann-gép, ami egy olyan H harmóniafüggvény, ami bemenethez illeszkedő kimeneteket rangsorolja az előállításukhoz szükséges komputációs "hőmérséklet"  vagy energiaszint szerint. (Ezeket a Boltzmann-gépeket tökéletesítette kiszámíthatósági szempontból Geoffry Hinton, a deep learning alapítója) Képletek helyett nézzük meg inkább egy gyakorlati példán keresztül mit is jelent ez! Rakéták és Cápák Clark A megismerés építőköveiben McCelland, Rumelhart és Hinton(!) példáján keresztül nagyon szemléletesen mutatja meg, hogyan is reprezentálható tudás egy hálózatban és mit jelent a Legjobb Illeszkedés Elve szerint következtetni. Ehhez először nézzünk meg két New York utcáin tevékenykedő banda felépítését. A táblázat hálózatban így néz ki. Tegyük fel, hogy meg akarjuk tudni milyen egy harmincas cápa. Ekkor a bemeneti aktivitások tovaterjednek és a legerősebb kapcsolatok irányában. Úgy tűnik, ezzel megkapjuk a prototipikus harmincas cápát, aki elvált, betörő és középiskolát végzett... Jól látható, hogy a konnekcionista hálónk bizonyos mértékig tűri a hibákat. Ha valamiért pl. a családi állapotra vonatkozó információ nem elérhető, akkor is egész jól közelíti az optimumot az eredmény, hiszen a betörő és a középiskolai végzettség továbbra is aktív marad. Geoffry Hinton és a deep learning Hinton a pszichológia felől érkezett a mesterséges intelligenciába, érhető hogy a PDP csoportnál találta magát. Itt a Boltzmann-gépek tökéletesítése során érdeklődése a számítástudományi alkalmazások felé fordult és a kilencvenes években egy sor új eljárást dolgoztak ki a neurális hálókkal történő tanulásra. Mindeközben erős tudományszervező tevékenységet folytatott és Kanadát igazi neurális háló nagyhatalommá tette.   A deep learning neve onnét ered, hogy a XOR kapu három rétegénél jóval több ún. rejtett réteggel (hidden layer) dolgozik ez ilyen elven megvalósított rendszer. A mély rétegek többféle architektúrával dolgoznak (a deep learing szócikk a Wikipedia-n nagyon jó a témában!) és általános problémájuk hogy rendkívül számításigényesek és sok adattal adnak igazán jó eredményeket. Ezért sokkal inkább mérnöki bravúr egy deep learnign rendszer, mint kognitív modell! A deep learning kutatói általában GPGPU technológiával dolgoznak, nagyon gyakran olcsó, játékosoknak szánt GPU-kkal felszerelt gépeken. A Google kutatói által publikál Large Scale Distributed Deep Networks paper alaposan megkritizálta ezt a paradigmát s egyben körvonalazta, hogyan lehet big data infrastruktúrán megvalósítani egy deep learning rendszert. Napjainkban sorra indulnak a deep learning startupok - meglátjuk mire jutnak. Nem árt észben tartani, hogy a mesterséges intelligenciában két nagyobb ún. "AI winter"-t tartanak nyilván, számtalan kisebb mellett, melyeket hatalmas lelkesedés és jókora csalódás követett!


2015. január 27. 10:32

Váltsunk együtt paradigmát a nyílt tudománnyal!

Miközben a magyar (és úgy általában a világ kevésbé eleresztett felén élő) tudósok kalózkodásra kényszerülnek, hogy képben legyenek a kurrens szakirodalommal, a nagy szaklapokban egyre több kétes tanulmány kerül be és egyre többen aggódnak a tudományos munka minősége miatt. Mindkét problémára megoldás a nyílt tudomány! Mi a probléma? Az áltudományos szövegek generálása lassan külön sporttá vált, s nem is olyan régen a Springer és az IEEE több mint 120 darab cikket vont vissza, mert bebizonyosodott hogy gépileg generált nonszensz a tartalmuk. Christopher Chabris és tsai az általános intelligencia genetikai hátterét vizsgáló kutatásokat elemezve arra jutottak, hogy a legtöbb feltételezett asszociáció valószínűleg hamis. A pszichológusok egyik kedvenc kísérleti eljárása az előfeszítés (priming), de az utóbbi időben az ilyen eljárást alkalmazó kutatások jelentős részéről bebizonyosodott hogy nem megismételhetőek.   Úgy tűnik, a tudományt remekül szolgáló peer review rendszer nem működik igazán. A fenti hibák nem jelentik azt, hogy a tudományos tudás leértékelődött, vagy hogy el kellene vetnünk. A megoldást sokan a nyílt adatokban, a kutatáshoz kapcsolódó workflow-k és szoftverek megosztásában és a beszámolók szabad közlésében látják. Hol érdemes kezdeni? Mozilla Science Lab A Mozilla Science Lab különböző tudományterületeknek készít szoftvereket, nagyon aktívak a tudásmegosztás terén. A tudományos programozással foglalkozók és/vagy pythonisták körében régóta népszerű Software Carpentry-vel kötött együttműködésüknek köszönhetően egyre több kutató tanulhatja meg, miképp lehet spagetti kód helyett rendes programokat írni. Center for Open Science A Center for Open Science ingyenes statisztikai konzultációt biztosít és több tudományterületen is reprodukciós programot indított. Az alapítvány fejleszti az Open Science Framework-öt, ami egy online, ingyenesen elérhető tudományos workflow és projekt menedzsment eszköz. rOpenSci A rOpenSci az R statisztikai programozási nyelvhez nyújt könyvtárakat melyek megkönnyítik a reprodukálható kutatást, a nyílt adatokhoz való hozzáférést, az kutatási adatok publikálását és vizualizációját. Directory of Open Access Journals A DOAJ egy egyszerű és könnyen használható keresőfelületet nyújt a legtöbb minőségi nyílt hozzáférésű szaklaphoz. opendata.hu és CKAN A magyar opendata.hu célja, hogy kereshetővé tegye a magyar vonatkozású nyílt adatokat, beleértve ebbe a tudományos adatokat is. Az Open Knowledge Foundation által fejlesztett CKAN szoftver fut az oldalon, amit különféle kormányzati és civil szervezetek használnak adatok megosztására és elérhetővé tételére. Az oldalon lehetőség van az adatokat linkelni, vagy akár fel is tölteni. Miért nem jó a régi bevált rendszer? A tudomány szeretne meritokratikus lenni. De ha csak az fér hozzá a tudáshoz, akinek megfelelő az anyagi háttere, akkor félő, nem a legjobb, legokosabb emberek fognak tudásunk gyarapításán dolgozni. Egyre hosszabb időt kell tanulással tölteni ahhoz, hogy valaki a tudományos közösség tagjává válhasson, ami egyre drágább mulatság. A tudományos adatok és workflow-k megosztásával a legjobb eljárásokat ismerhetik meg a tanulók, nem kell adatokat gyűjteniük, vagy kis projektjeikkel beszállhatnak egy nagy kutatásba is.   Az ipar számára is egyre fontosabb a tudomány. Innováció csak a kutatói szféra és az ipar együttműködéséből születhet. Saját területünknél maradva, a nyílt forráskódú szoftverek nélkül rendkívül magas lenne belépési költsége egy-egy új cégnek. Nyílt adatok nélkül, mint pl. a UCI Machine Learning Repository, nem tudnánk kiértékelni az elkészült termékeinket, sőt gyakran tréning adatunk sem lenne.  Az olyan nyílt hozzáférésű szaklapok, mint a Journal of Machine Learning Research vagy a Computational Linguistics, a kis és közepes vállalkozásoknál dolgozók nem férnének hozzá a terület legújabb eredményeihez. A tudomány egyre nagyobb szerepet játszik a kormányzati döntéshozatalban is. Miközben szakértők döntik el, milyen új gyógyszereket engedélyeznek, hol épüljön atomerőmű, vagy éppen a szegénység felszámolását célzó randomizált kontrollált vizsgálatokat végeznek kormányzati szervek, a laikusok  számára ezek egyre inkább érthetetlenek. A nyílt tudomány megteremti a társadalmi kontroll lehetőségét, az ismeretterjesztés alapja lehet és a különféle citizen science mozgalmak bevonhatják az érdeklődő laikusokat és hobbistákat a tudományos munkába.


2015. január 21. 7:19

Nem elég okosnak látszani (?)

Alig pár hónapja ment át egy program a Turing-teszten, a mesterséges intelligencia kutatói már azon agyalnak, miként lehetne életszerűbbé tenni ezen teszteket. Habár a Turing-teszten jól szereplő programok (mint látni fogjuk) "tudása" nem éppen hatalmas, valahogy intuitíven jónak érezzük Turing alapötletét;  egy intelligens ágens képes társalogni, kérdésekre válaszolni csak úgy mint a Jeopardy-t 2011-ben megnyerő Watson.  Kacsák és tesztek Turing tesztjének több változata van, az alap helyzet háromszereplős imitációs játék. Ebben egy kérdező egy géppel és egy emberrel beszélget s a társalgás végén meg kell mondania melyik partnere humán. A gép akkor nyer, ha rá esik a kérdező választása. A bonyolultabb verzió szerint több kérdező vesz részt a játékban és akkor tekinthető intelligensnek a gép, ha a vizsgálatot végző személyek jelentős hányadát győzi meg arról, hogy "ő" ember. A Turing-teszt tkp. egy ún. duck test, hiszen annyit mond; ami úgy viselkedik mint egy ember, az intelligens és fordítva, ami intelligens, az úgy viselkedik mint egy ember. Dennett szerint teljesen racionális, ha vélekedéseket, vágyakat, stb. tulajdonítunk valaminek, ami kellően komplex módon viselkedik. Ez nem jelenti azt, hogy ténylegesen intencionális, értelmes rendszerrel állunk szemben ilyenkor. Searle Az eleme, az agy és a programok világa című esszéjében a mesterséges intelligencia erős programjának nevezi azt az elképzelést, mely szerint egy megfelelően programozott számítógépre tekinthetünk úgy, mint egy elmére. Ez azzal jár, hogy elfogadjuk az agy és az elme kettősségét, hiszen a programok függetlenek az őket futtató gépektől. Searle szerint azonban az ilyen elme nem rendelkezhet intencionalitással, hiszen szimplán szimbólumokat manipulál. Hiába tűnik úgy, hogy intencionális a rendszer, ez csak a programozóinak köszönhető. Erről szól az előző posztunkban ismertetett kínai szoba gondolatkísérlet. De miről is szól Turing tesztje? Mit tesztel és miért? Hogyan lehet átmenni ezen a teszten, anélkül, hogy az intelligencia legkisebb jelét is mutassuk? Mond gyorsan hogy Entscheidungsproblem! Mindenki tudja, hogy Turingnak volt egy képzeletbeli gépe, a Turing-gép. Azután lett több nagyon konkrét gépe, melyekkel sikeresen törték fel Bletchley Parkban a német Enigma kódokat. Azt már kevesebben tudják, hogy Turing gépe a 19. század végén kezdődő matematikai és logikai válság lezárásának csodálatos pontja. A matematika megalapozásának programja a 19. században kezdődött, ennek terméke Frege munkássága, ami megalapozta a modern logikát (s egyben a számítástudományt). Sajnos Frege teljesen lemaradt arról, hogy learathassa a babérokat, mivel nagy összegző művében, Az aritmetika alaptörvényeiben Russel ellentmondást fedezett fel (Russel erről szóló levelét mellékletként leközölte Frege!) Innét elindult a hajsza a matematika megalapozása után. 1928-ban Hilbert fogalmazta meg, milyen követelményeket kell kielégítenie a szilárd alapoknak, ez a híres Entscheidungsproblem, vagy eldöntésprobléma. Ez tkp. azt követeli meg, hogy egy rendes algoritmusunk legyen, ami minden jólformált kijelentésre képes megadni hogy helyes-e, vagy másképp fogalmazva, levezethető-e rendszerünk axiómáiból. Gödel tétlei (mert kettő van neki) bebizonyították egy konzisztens rendszerben vannak igaz, de nem bizonyítható állítások s az ilyen rendszerek konzisztenciája nem bizonyítható a rendszeren belül. Gödel eredményei alig három évvel Hilbert problémájának ismertetése után jelentek meg. Turing egy kicsit tovább várt, mivel őt az izgatta, hogy mi "kiszámítható", azaz mit lehet levezetni, már ha érdeklődésünket a levezethető, bizonyítható állításokra korlátozzuk. Ez tulajdonképpen a matematikai tevékenység formalizálása, ami a híres Church-Turing tézishez vezetett. A Turing-gép nem más, mint annak formalizált leírása, hogy mit lehet bizonyítani, ezért lett az ezt bemutató tanulmány címe On Computable Numbers,  with an Application to the Entscheidungsproblem. A Breaking the Code-ban a zseniális Derek Jacobi pár szóban így foglalja össze, mit is jelentett ez a kis dolgozat.   Gondolkodás, nyelv, más elmék Turing, Church és Gödel tételei lényegében visszacsempészik a pszichologizmust a logikába. No nem abban az értelemben, hogy a modus ponens aktuális pszichikai állapotunk függvényében fog működni, hanem visszatért vele az intuíció. Wittgenstein előadásaira járva Turing elgondolkodhatott azon, hogy miért is kell formalizálni és stabilnak tudni a matematikai alapjait. Wittgenstein:... Think of the case of the Liar. It is very queer in a way that this should have puzzled anyone — much more extraordinary than you might think... Because the thing works like this: if a man says 'I am lying' we say that it follows that he is not lying, from which it follows that he is lying and so on. Well, so what? You can go on like that until you are black in the face. Why not? It doesn't matter. ...it is just a useless language-game, and why should anyone be excited? Turing: What puzzles one is that one usually uses a contradiction as a criterion for having done something wrong. But in this case one cannot find anything done wrong. W: Yes — and more: nothing has been done wrong, ... where will the harm come? T: The real harm will not come in unless there is an application, in which a bridge may fall down or something of that sort. W: ... The question is: Why are people afraid of contradictions? It is easy to understand why they should be afraid of contradictions, etc., outside mathematics. The question is: Why should they be afraid of contradictions inside mathematics? Turing says, 'Because something may go wrong with the application.' But nothing need go wrong. And if something does go wrong — if the bridge breaks down — then your mistake was of the kind of using a wrong natural law. ...  C. Diamond (ed.) Wittgenstein's Lectures on the Foundations of Mathematics A fenti párbeszéd analógiája mondhatjuk, hogy akkor az ellentmondásmentesség egyben azt is jelenti, hogy működőképes is valami? Lehet olyan, hogy ellentmondásos, vagy eldönthetetlen és ennek ellenére működik valami? Elvileg igen, hiszen erről szólna (az eredeti kontextusától persze elszakítva) a Gödel-tétel. Ez lenne az intuíció, olyan igazságok megtalálása, melyek nem levezethetőek.   Az intuíció itt nem valami misztikus dolog, hanem valami, ami a Turing-gép keretein kívül van. De honnét tudjuk akkor, hogy valami többre képes mint egy Turing-gép? Hogyan állíthatjuk valakiről, hogy hozzánk hasonló intuícióval rendelkezik? Ezt nevezik a filozófusok a más elmék (other minds) problémájának. Wittgenstein privát nyelv argumentuma szerint ahhoz hogy feltételezzünk más elméket, szükség van a nyelvre. "Mi lenne, ha az emberek nem nyilvánítanák meg fájdalmaikat (nem nyögnének, nem fintorítanák el az arcukat stb.)? Akkor egy gyereknek nem lehetne a 'fogfájás' szó használatát megtanítani." - Nos, tegyük fel, hogy a gyermek egy zseni, és maga talál ki egy szót arra, amit érez! - Ekkor persze ezzel a szóval nem tudná megértetni magát. - Szóval ő érti a nevet, de senkinek nem tudja jelentését megmagyarázni? - De mit is jelent, hogy 'megnevezte a fájdalmát'? - Hogy csinálta, hogy megnevezte a fájdalmat? ! És, akármit is tett - mi vele a célja? - Amikor azt mondják: "Nevet adott annak, amit érzett", akkor elfelejtik, hogy a nyelvben már sok mindennek készen kell állnia ahhoz, hogy a puszta megnevezésnek értelme legyen. És ha arról beszélünk, hogy valaki a fájdalomnak nevet ad, akkor itt a "fájdalom" szó grammatikája az, ami elő van készítve; jelzi azt a posztot, ahová majd az új szó kerül. Wittgenstein: Filozófiai vizsgálódások Habár lehetséges, hogy valaminek nyelvi megnyilvánulások nélkül intelligenciát tulajdonítsunk, az intencionalitás, miképp a Wittgenstein idézet rávilágít, társas és nyelvi természetű. ELIZA, a legjobb beszélgetőpartner Joseph Weizenbaum ELIZA programja a Turing-tesztre készülő programok őse. Az ELIZA-t leíró klasszikus tanulmányából vett példa szerint kb. így néz ki egy beszélgetés vele (a nagybetűs mondatok a géptől származnak). Men are all alike. IN WHAT WAY? They're always bugging us about something or other. CAN YOU THINK OF A SPECIFIC EXAMPLE? Well, my boyfriend made me come here. YOUR BOYFRIEND MADE YOU COME HERE He says I'm depressed much of the time. I AM SORRY TO HEAR YOU ARE DEPRESSED It's true. I am unhappy DO YOU THINK COMING HERE WILL HELP YOU NOT TO BE UNHAPPY I need some help, that much seems certain. WHAT WOULD IT MEAN TO YOU IF YOU GOT SOME HELP Perhaps I could learn to get along with my mother. TELL ME MORE ABOUT YOUR FAMILY My mother takes care of me. WHO ELSE IN YOUR FAMILY TAKES CARE OF YOU My father. YOUR FATHER You are like my father in some ways. WHAT RESEMBLANCE DO YOU SEE You are not very aggressive but I think you don't want me to notice that. WHAT MAKES YOU THINK I AM NOT VERY AGGRESSIVE You don't argue with me. WHY DO YOU THINK I DON'T ARGUE WITH YOU You are afraid of me. DOES IT PLEASE YOU TO BELIEVE I AM AFRAID OF YOU My father is afraid of everybody. WHAT ELSE COMES TO YOUR MIND WHEN YOU THINK OF YOUR FATHER Bullies. DOES THAT HAVE ANYTHING TO DO WITH THE FACT THAT YOUR BOYFRIEND MADE YOU COME HERE Persze egy idő után fárasztó tud lenni ELIZA és könnyen ki lehet ejteni a szerepéből, de nagyon sokáig el lehet vele játszani. "Tudása" és fantasztikus "együttérzése" ún mintaillesztő szabályoknak köszönhető, melyek az ún. rogeriánus pszichológia visszakérdező módszerét imitálják. Norvig Paradigms of Artificial Intelligence Programming c. könyvében egy ELIZA típusú programhoz a következő szabályokat adja meg. Minden (((?* ?x) W (?* ?y)) egy helyettesítő szabályt ad meg, pl. a (((?* ?x) computer (?* ?y)) akkor lép életbe, ha a bemenet tartalmazza a 'computer' szót, ami aktiválja a  (Do computers worry you?) (What do you think about machines?) (Why do you mention computers?) válaszok valamelyikét (pl. véletlenszerűen választva). Sokkal inkább tűnik ez trükknek, mint valódi intelligenciának! Az ELIZA effect nevet kapta ezért az a jelenség, amikor gépeket emberi tulajdonsággal ruházunk fel pusztán viselkedésük alapján. Maga Weizenbaum is erre a jelenségre akarta felhívni a figyelmet programjával, ahogy tanulmányának bevezetőjében írja: It is said that to explain is to explain away. This maxim is nowhere so well fulfilled as in the area of computer programming, especially in what is called heuristic programming and artificial intelligence. For in those realms machines are made to behave in wondrous ways, often sufficient to dazzle even the most experienced observer. But once a particular program is unmasked, once its inner workings are explained in language sufficiently plain to induice understanding, its magic crumbles away; it stands revealed as a mere collection of procedures, each quite comprehensible. The observer says to himself "I could have written that". With that thought he moves the program in question from the shelf marked "intelligent" to that reserved for curios, fit to be discussed only with people less enlightened that he. The object of this paper is to cause just such a reevaluation of the program about to be "explained". Few programs ever needed it more. Akkor most mi van? Annyi bizonyos, hogy a Turing a tesztet az intelligencia szükséges és elégséges feltételeinek tekintette, azaz ha valami intelligens, akkor átmegy a teszten, ha nem, akkor megbukik. Úgy tűnik, bővítenünk kell a feltételek körét!


2015. január 13. 11:21

Miért nem kell félni attól, hogy a mesterséges intelligencia átveszi felettünk a hatalmat?

A technika fejlődése megállíthatatlannak tűnik. Már akad olyan program, ami átment a Turing-teszten. Az Amazon raktáraiban már most robotok indítják útjára a legtöbb rendelést, a Google Brain projekt képes volt YouTube videók alapján képes volt "megtanulni" a macska azonosításához szükséges készségeket, a Microsoft sem maradt le, real-time szöveges és hang alapú gépi fordítást vezet be a Skype-on. Pár éve a Google vezető közgazdásza még a statisztikust nevezte a 21. század legszexibb foglalkozásának, de nem is olyan régen úgy döntött a keresőóriás, hogy az Automatic Statistician projekt támogatásával megpróbálja a jövőben gépekre váltani a szakembereket is. A gépek egyre intelligensebbek és már nem csak a képzetlen munkaerőt fenyegetik, de vajon képesek lesznek egyszer teljesen leváltani minket?    Mi az a tudatosság? Mind a Google, mind pedig a Microsoft újdonságai az ún. deep learning módszert alkalmazzák. Ez nem más, mint a neurális hálók vagy konnekcionista modellek egy újabb, hatékonyabb megvalósítása. Az eljárás lényege abban rejlik, hogy előre megadott reprezentációk helyett a neuronokhoz hasonló kis egységek közötti kapcsolatok erősségét állítgatják a tanulási folyamat során.  Daniel Denett karteziánus színháznak nevezi a bevett agy-elme felosztást, mely szerint az agyi folyamatok szintje mellett van egy minőségileg más szint, ez az elme. Dennett szerint teljesen felesleges feltételeznünk valami mögöttest, az elme, vagy a tudatosság nem más, mint neuronjaink működésének mellékterméke.    Ha a tudatossághoz nem kell feltételeznünk mögöttes szervezőelveket, akkor a neurális hálókban megjelenő aktivitási mintázatokra alapozott viselkedést is tekinthetjük tudatosnak. Nagyon csábító gondolat ez, hiszen leredukálhatjuk egy fizikai jelenségre (a neuronok aktivitási mintázataira) a gondolkodás világát, amit így akár emberi sejtek helyett szilíciumlapkákon is megvalósíthatunk. De mit tud egy ilyen rendszer? Milyen tudással rendelkezik?   Searle kínai szoba gondolatkísérlete egy ilyen tudatosan viselkedő gépet szimulál. Képzeljünk el egy embert, akit bezárnak egy szobába egy kínai "grammatikával", ami egy szabálykönyv arra vonatkozóan hogy adott jelekre milyen választ kell adni. A külvilággal az ajtó alatt ki-becsúsztatott kínai írásjeleket tartalmazó lapokkal kommunikálhat emberünk. Ha egy anyanyelvi beszélő elkezd társalogni emberünkkel, akkor minden kérdésére választ kap, mert egy nagyon jó szabálykönyvet adtunk  a szobában tartózkodó emberünknek. A külső megfigyelő számára a szoba intelligensen viselkedik. Sőt, a józan észnek engedelmeskedve kedves kínai kísérleti alanyunk fel fogja tételezni, hogy a szobában tartózkodik egy kínaiul beszélő ember! Habár a szoba úgy viselkedik mint egy értelmes ember, valahogy nem szeretnénk intelligensnek nevezni a benne megvalósuló szabálykövetést. A gondolkodás testesült A redukcionizmus hatására egyre inkább elvetik a kutatók az elme és az agy kettősségét. Ugyanakkor jelentős problémát okoz annak megválaszolása, hogyan tesz rendet az agy a rázúduló információk áradatában. Hogyan lehetséges, hogy vannak közös hiteink, meg tudjuk érteni egymást, az eget kéknek látjuk stb. A hagyományos válasz szerint az elme rendezőelvei, pl. a chomskyánus univerzális grammatika és egyéb "előrehuzalozott" készségek miatt van ez így. A gépi tanulásban az ún. felügyelt módszerekkel tkp. ezt az implicit tudást adjuk át a gépeknek, amikor ún. tréningkorpuszokban jelezzük nekik pl. hogy egy adott képen van egy macska, a másikon pedig egy kutya. A neurális modellek során így épülnek fel az előre adott aktivitási mintázatok a neuronok között, melyek később természetesen a további tapasztalatoknak megfelelően átírhatóak. Persze tekinthetjük ezeket az előzetes tudásokat a karteziánus színház visszacsempészésének is, de manapság inkább azt mondjuk az evolúció, s azon keresztül véletlenek sorozata miatt alakultak ezek ki és nincs sok közük az eredetileg feltételezett elméhez. Sokkal érdekesebb kérdés az, hogy a felügyelt tanítás során tényleg át tudjuk-e adni ezt az implicit, előzetes ismeretet a gépeknek. Ha igen, akkor képesek vagyunk mesterséges agyakat előállítani és van mitől félnünk. Thomas Nagel híres What Is it Like to Be a Bat? esszéjében azonban arra hívja fel a figyelmet, hogy a mentális állapotok kontextusfüggőek. Nem tudhatjuk milyen lehet denevérnek lenni, mert nincs olyan jó fülünk, hogy hallásunkkal tájékozódjunk, nem úgy látjuk a világot ahogyan egy denevér látja, nem tudunk repülni, stb. stb. Készíthetünk egy denevér modellt, amit mi értünk, de ezzel csak magunk számára tettük elérhetővé a denevér lététet, továbbra sem tudjuk milyen is denevérnek lenni. Ez azért van, mert a denevérséghe,z s úgy általában a mentális állapotokhoz hozzá tartozik egy ún. kválé, azaz szubjektív minőség. De honnét jön ez a kválé?   A testesült gondolkodás (embodied cognition) adja erre a legfrappánsabb választ (rövid érvek amellett hogy többek vagyunk mint csupán az agyunk itt). A kválé eredete nem más, mint az, hogy agyunk egy testhez kapcsolódik. Testünk határozza meg, hogy milyen ingerek érhetik agyunkat és milyen válaszokat adhatunk ezen ingerekre. A karteziánus cogito ergo sum ebben az elméletben átfordul "cselekszem, tehát gondolkodom"-ba. A testesült gondolkodás nem csak egy szép elmélet, gyakorlatban is használják! Rolf Pfeifer kutatócsoportja a robotika terén hasznosítja a testesült gondolkodás eredményeit s robotjaik révén gazdagítják tudásunkat a területről. Az EUCOG program keretében is nagy hangsúlyt fektettek az irányzat megismertetésére. Ugyanakkor a legpraktikusabb kutatásokat a MODE program végzi, hiszen ők azt vizsgálják, hogy az új információ- és kommunikációs technológiák hogyan hatnak ránk. A számítógépek, a mobilok és a hordozható kütyük ugyanis egyfajta kiterjesztéseink, kezünk, szemünk, fülünk és kitudja milyen érzékszerveink meghosszabbításai. Ha hatékony kütyüket, szoftvereket akarunk használni, akkor nem mehetünk el ezen tények mellett.   Meg kell tanulnunk a gépekkel együtt dolgozni! Ha félnünk kell valamitől, az az, hogy nem tudunk alkalmazkodni a gépek jelentette kihívásokhoz. Az ipari forradalom óta a technológia egyre gyorsabban fejlődik, s ezzel az emberek produktivitása is jelentősen megnőtt. Ellenben a nyolcvanas évek óta a növekvő produktivitást nem követik a bérek. Brynjolfsson és McAfee The Second Machine Age című könyvében megdöbbentő grafikont találunk erről. Ez annak köszönhető, hogy már nem csak a kékgallérosok állásait veszélyezteti a technológia. De egyben azt is jelenti, hogy az új technológiák kitalálói és kezelői egyre hatékonyabbak is! Nem a gépek győzik le az embereket, hanem gépek és emberek teremtenek soha nem látott hatékonyságot! Brynolfsson kedvenc példája Kasparov sakkbajnoksága, minek keretében nem emberek és gépek csapnak össze, hanem vegyes, gépek és emberek alkotta csapatok. Az új technológiáknak hála amatőr sakkozók és számítógépeik sokkal hatékonyabban tudnak együttműködni mint a csak gépekből vagy profi nagymesterekből álló csapatok! A kérdés az, hogy testesült gondolkodásunk kiterjesztése az új technológiák által hogyan fog megvalósulni. A kognitív tudomány a schumpeteriánus innováció segítségére lehet megtalálni azokat az új területeket, ahol egyre több ember produktivitása növelhető s ennek anyagi gyümölcseit így minél többen élvezhessék is. A gépek eszközök, a kérdés az, kinek a kezében vannak!


2015. január 5. 14:19

Ráfázhatsz a big data elemzésével!

A big data korában egyre gyakrabban halljuk, az adatok majd mindent megoldanak. A Google a cambridge-i egyetemmel összefogva elindította az Automatic Statistician projektet, ami azt célozza, hogy a hihetetlen adatmennyiségeket automatikusan feldolgozva találhassunk összefüggéseket. Úgy tűnik semmi dolgunk nem maradt, a technológiai megoldások átveszik a tudományos kutatás szerepét is, Chris Anderson jóslata az elméletek végéről hamarosan igazzá fog válni. Tényleg automatizálható a tudományos munka? Van technológiai megoldás a tudomány és az ipar területén keletkező adatok egyszerű és olcsó elemzésére? Gary King és társai  a Google FluTrends adatait vizsgálva arra hívják fel a big data híveinek figyelmét, hogy a szép új világ bizony nagyon messze van még és a technológiai szolucionizmus helyett a jó öreg viselkedés - és társadalomtudományok módszertanához kell fordulnunk.  A Google Flu Trends a hype ellenére mellélő A Google 2009-ben a Nature hasábjain megjelent tanulmányában mutatta be, hogy a keresési statisztikák influenza járvány előrejelzésében nagyon hasznosak lehetnek. A kutatás eredménye a Google Flu Trends , amely alapjaira épült a Google Correlate, a napjainkban divatos jelenbecslés (nowcasting) módszerek elindítója lett. 2014 legfontosabb tanulmánya a big data területén vitathatatlanul a Gary King és tsai nevéhez fűződő The Parable of Google Flu: Traps in Big Data Analysis. A rövid írás tkp. összefoglalható a benne közölt ábrával:   A fenti ábrán is láthatjuk, a Google Flu jelentősen túlbecsüli az influenza trendet, a hagyományos egészségügyi adatok sokkal jobbak (még akkor is, ha sokkal lassabb a beszerzésük). A legjobb azonban az, ha kombináljuk a keresési és a hagyományos adatokat! Hogy mi lehet ennek hátterében? A szerzők a big data felhasználásával kapcsolatban az alábbi problémákat említik: A Google algoritmusai változnak, az hogy mi számít releváns keresésnek, változik időben A találatok megjelenítése is változik, a Google egyre inkább elmozdul a question answering irányába, a betegségekkel kapcsolatos keresések, gyakran a Knowledge Graph által "kibányászott" tényeket tartalmazó dobozt adják első találatnak (l. az lentebbi képet). További problémát jelent az algoritmus változása hat a felhasználó vkiselkedésére. Ezt nevezik manapság a "name it they'll game it" elvnek. Automatikusan szimpla korrelációkat keresni érdekes feladat, nagyon hasznos eredményeket is adhat ez, de nem lehetünk biztosak abban, hogy a feltárt összefüggés mögött oksági kapcsolat van s a jövőben is fent fog állni ez. Először fordul elő a történelemben, hogy a privát szektorban több adat áll rendelkezésre mint a kormányzati és kutatóiban összesen. A privát szektor az adatokra mint erőforrásra tekint, nem áll érdekében (és gyakran jogilag sincs lehetősége) megosztani hogyan és milyen adatokat gyűjt. Fontos megjegyezni, hogy King és tsai nem fikázzák le a Google Flu-t! Arra hívják fel a figyelmet, hogy annak alapvetően számítástudományi beállítottságú megalkotói elsiklottak metodológiai kérdések felett. Továbbá rávilágítanak arra, hogy a big data mellett az ún. small data és az adathalmazok összekapcsolása jelenti az igazán forradalmi lehetőséget. Minden összefügg mindennel  A keresők, de az egész internet világa alapvetően ember alkotta dolgok. Pontosan ezért alkalmasak, ha csak behatároltan is, a társadalmi jelenségek vizsgálatára. Azonban ha emberekkel van dolgunk, akkor egy különös világba csöppenünk, amit Soros reflexivitás fogalma jellemez a legjobban.     The concept of reflexivity needs a little more explication. It applies exclusively to situations that have thinking participants. The participants’ thinking serves two functions. One is to understand the world in which we live; I call this the cognitive function. The other is to change the situation to our advantage. I call this the participating or manipulative function. The two functions connect thinking and reality in opposite directions. In the cognitive function, reality is supposed to determine the participants’ views; the direction of causation is from the world to the mind. By contrast, in the manipulative function, the direction of causation is from the mind to the world, that is to say, the intentions of the participants have an effect on the world. When both functions operate at the same time they can interfere with each other. How? By depriving each function of the independent variable that would be needed to determine the value of the dependent variable. Because, when the independent variable of one function is the dependent variable of the other, neither function has a genuinely independent variable. This means that the cognitive function can’t produce enough knowledge to serve as the basis of the participants’ decisions. Similarly, the manipulative function can have an effect on the outcome, but can’t determine it. In other words, the outcome is liable to diverge from the participants’ intentions. There is bound to be some slippage between intentions and actions and further slippage between actions and outcomes. As a result, there is an element of uncertainty both in our understanding of reality and in the actual course of events. (George Soros: The General Theory of Reflexivity) Az internet világában folyamatos változásban vagyunk! Adatokat gyűjtünk, hogy jobbá tegyük meglévő rendszerünket. A megváltozott rendszer nyilván visszahat a felhasználókra is, ahogy Kingék is kimutatták a Google Flu esetében. A reflexivitás világában élünk!  Mind társadalomtudósok vagyunk! Justin Grimmer We're All Social Scientists Now: How Big Data, Machine Learning and Causal Inference Work Together című tanulmányában amellett érvel, hogy a a big data fantasztikus technikai lehetőségeket teremtette, de a technológiával elemezhető kérdések értelmes vizsgálatához a társadalomtudományok eszköztárára van szükség. Nem is annyira meglepő ez, hiszen az iparban általában felhasználókról és ügyfelekről, azaz emberekről szóló adatokkal foglalkozunk. Nem arról van szó, hogy ki kell rúgni minden programozót! Sokkal inkább arról, hogy a technológia nyújtotta lehetőségek kiaknázásához sokszínű csapatra van szükség.  Hogy állunk ezzel mi? King és társai tanulmányát olvasva alapvetően megnyugodtam. A Jobmonitor keresési adataira alapozott jelenbecsléses vizsgálataink során mi is a kevert modelleket (a hivatalos statisztikák, a GoogleTrends és a Jobmonitor logok adatainak mixelése ez esetünkben) találtuk a legjobbnak (erről a májusi meetupon számolt be kollégánk). De nem önmagában az eredmény nyugtatott meg, hanem az, hogy kis csapatunkban pont a megfelelő mixben vannak szakemberek. Egy IT cégnél nem meglepő, hogy vannak szép számmal programozóink, de az sem annyira egzotikus hogy akadnak nálunk alkalmazott fizikusok. A kutatóink viszont legalább két területen vannak otthon a nyelvészet, filozófia (nem kell meglepődni, a logika nagyon jól jön a szemantikus technológiáknál!) a szociológia és a statisztika tudományaiban. Nem mellesleg kutató kollégáink az informatikában sem elveszettek!


2015. január 2. 14:02

Miért foglalkozunk emócióelemzéssel és politikai blogokkal?

Az utóbbi időkben a legtöbbször azt kérdezték tőlem, miért foglalkozunk olyan ezoterikus dolgokkal mint az emócióelemzés és a politikai blogok világa. Egyáltalán, hogy jutott eszünkbe ez az téma? A rövid válaszom erre általában az, hogy szeretjük a szexi témákat és reméljük, valami hasznos (eladható) is kipottyanhat a projektből. A hosszú változat pedig ez a poszt. Három, elsőre nagyon különböző témát ismertetek röviden, melyek az emóciók és a politikai blogok vizsgálata felé tereltek minket.  Hogyan kerültek előtérbe az érzelmek? A tudomány alapvetően racionális, az érzelmekkel legfeljebb a pszichológia és a filozófia foglalkozott nagyon sokáig. A gazdasági válság hatására azonban nagyon megváltozott valami és hirtelen a közbeszédben is megjelent az eddig bevettnek hitt nézetek újragondolásának igénye. Michael Sandel Mi igazságos? című könyvében az AIG biztosító példáján keresztül szemlélteti hogy az érzelmeknek milyen mély szerepe van mindennapjainkban. A 2008-as válságban megroggyant biztosítót a kormányzat többmilliárd dollárral mentette meg, amit a vezetőség részben arra használt, hogy megjutalmazza magát. Az esetet "zsigeri felháborodás" követte, ami nagyon jól mutatja, hogy vannak olyan alapvető társadalmi kérdések, melyek nagyon mély érzelmeket váltanak ki az emberekből. Sandel mint politikafilozófus inkább azt elemzi, mi alakítja ki ezeket a közös elveket, miért nem szeretjük kimondani; igenis léteznek ezek és beszélnünk kell róluk, hiszen ez az a közös alap, amire a modern demokrácia épül. Martha Nussbaum politikafilozófiájának középpontjába az emberi készségeket állítja, Amartya Sen közgazdász megközelítését továbbgondolva. A Political Emotions-ban Nussbaum arra tesz igen meggyőző kísérletet, hogy a szeretet iránti igényből vezesse le a társadalmi összetartozást. Az egymás iránt érzett szeretet ebben a keretben nem csak a családi kapcsolatokat tartja össze, hanem ez alapozza meg az igazságosság alapelveinek elfogadását és a társadalom iránti elköteleződést. Az érzelmek megférnek a racionalitással George Lakoff gondolataival már sokszor foglalkoztunk blogunkon, most csak röviden összefoglaljuk hogy mennyiben hatott ránk. Lakoff szerint fogalmi gondolkodásunk metaforákban zajlik, ezek pedig ún. keretekbe (frame) rendeződnek. Ezek a keretek teremtenek analógiás kapcsolatot az elvont és konkrét dolgok között (pl. a fent a jó, a lent a rossz, stb.) Az hogy ilyen analógiákat észlelünk embervoltunk terméke. Ez kicsit fából vaskarika érvnek hangzik, de Lakoff az ún. embodid (testesült) gondolkodás híve, mely szerint az elme nem választható attól az anyagtól, amiben megvalósul, esetünkben az emberi testtől. Ebben az elméletben az érzelmeknek is megvan a maguk szerepe, hiszen nem választhatóak el a testesült gondolkodástól - magyarán a gondolkodással járnak - s szerencsénkre megjelennek a nyelvben is. Paul Ekman az érzelemkutatás megalapítója a non-verbális megnyilatkozásokat vizsgálja főleg. Számunkra azért jelentős figura ő, mert elmélete szerint a hat alapvető érzelem univerzálé, azaz jelen van minden emberben, kultúrától függetlenül. A metaforák terén maximum relatív univerzálékról beszélhetünk, azaz a nyelvek többségében fellelhető jelenségekről, vagy bizonyos mintázatot mutató jelenségekről (pl. ha X jelenség jelen van egy adott nyelvben, akkor Z is, de ha N jelenik meg, akkor X nem) és nagyon bonyolult automatikus felismerésük. Ellenben az emóciók szótári alapon azonosíthatóak, igaz a sifterek és targetek problémáját nem tudjuk elkerülni esetükben sem. Külön érdekességként megemlítjük, hogy Ekman az utóbbi időkben az emóciók társadalmi vonatkozásai felé fordult. Nem csak megfigyelhetünk, cselekedhetünk is Akbas és társai a Pollyanna jelenséghez hasonló folyamatot figyeltek meg a pénzügyi híreket elemezve, melyet Mispricing Following Public News: Overreaction for Losers, Underreaction for Winners című tanulmányukban összegeztek. A vizsgálatok szerint a negatív szentimentre alapozott kereskedési stratégia sokkal jobban teljesít, mint a pozitív hírekre figyelő. A szerzők ezt egy ún. kognitív torzításnak (cognitive bias) tulajdonítják, ami összhangban van a Pollyanna jelenség vizsgálata során felhalmozott empirikus adatokkal.   A kognitív torzulások elmélete Kahneman és Tversky nevéhez köthető s egy manapság nagyon divatos tudományág, a viselkedésökonómia egyik alapkövévé vált. Mára már rengeteg kognitív torzulást katalogizáltak, ezek lényege hogy egy "racionális vagy helyes" következtetés, vagy viselkedés helyett szisztematikusan tévesztünk bizonyos helyzetekben. Kérdés, hogy ha tudjuk hogy tévedünk, akkor beavatkozhatunk-e? Sunstein és Thaler Nudge című könyvükben amellett érvel hogy igen, be kell avatkoznunk bizonyos helyzetekben. A könyv címe is utal arra, hogy noszogatnunk kell a helyes irányba az embereket, erre külön "mozgalom" is alakult és nudge theory néven emlegetik elméletüket. Ennek lényege, hogy ha ismerjük milyen helyzetekben hibázunk szisztematikusan, akkor alakítsuk úgy a körülményeket, hogy optimálisan döntsünk. (Pl. ha valaki opcionálisan köthet nyugdíjbiztosítást pár ezer forintért, vagy választhatja hogy nagyobb fizetése legyen, akkor a jelen vágyai (no meg az adminisztrációs teher) felülírják a távoli jövővel kapcsolatos megfontolásait. A nudge theory hívei szerint legyen kötelező a biztosítás és az járjon adminisztrációs teherrel, ha valaki inkább magára költené azt a pár ezrest minden hónapban.)   Azzal, hogy befolyásoljuk döntéseinket, visszatértünk kiindulási pontunkhoz. Hogy merre tereljük az embereket, az egy értékítélet arról, mit gondolunk a jólétről, mit tartunk helyesnek és helytelennek, ez pedig visszavezet minket az érzelmekhez.   Hogy jön ez a mi projektjeinkhez? OK, eddig a nyelvtechnológiáról egy szót se szóltunk, egyedül egy kis nyelvészetet érintettünk Lakoffon keresztül. Reméljük annyi már látszik, hogy a politikafilozófia inspirált minket és nyelvészeti, pszichológiai valamint társadalomtudományi irodalma van szépen a politikai viselkedésnek. A politikai blogok világa kínálja magát a megfigyelésre, hogy megnézzük milyen szerepet játszanak ezen a területen az emóciók, hogyan fejezik ki nyelvi viselkedésükkel a szereplők szándékaikat, hoznak döntéseket, stb. A fenti forrásokból jött az inspiráció, de a mi megközelítésünk két, igen jelentős pontban eltér forrásainktól. A hálózatelemzés segítségével azt vizsgáljuk, mennyiben szolgálják az érzelmek ténylegesen a csoportok koordinálását. Hogyan terjednek az egyes emóciók, köthetők-e bizonyos témákhoz ezek? Az egyén vs. csoport vitával, azaz hogy alapvetően az individuum vagy a társas beágyazottság számít e nem foglalkozunk, a hálózatelemzés megközelítésé segít ezen túllépni és egy dinamikus rendszerben kezelni ezt a kettősséget. A projekt során szerzett tapasztalataink reméljük átültethetőek más területekre is - akár az online marketing vagy éppen a pénzügyi hírelemzés és előrejelzés terén. 


2015. január 1. 13:00

Sikeres előrejelzés a jobmonitor.hu keresési adataival

Egy korábbi posztban beszámoltunk róla, hogy a munkanélküliség jelenbecslésével kísérletezgetünk a jobmonitor.hu álláskereső oldal adataival kiegészített modellekkel. Ezúttal már "élesben" teszteltük a 2014. február-áprilisi időszakra, méghozzá nem kis sikerrel. A Központi Statisztikai Hivatal május 29-én közölte a 2014. február-áprilisi adatokat, mely szerint hazánkban a munkanélküliek száma tovább csökkent 360 500 főre. Ez mind az előző havi (369 700 fő), mind az előző évi adathoz (476 200 fő) képest csökkenést jelent. A legutóbbi poszt óta tovább finomítottuk a modelleket figyelembe véve, hogy az álláskereső tevékenység megelőzi a munkába állást. Többféle modellt kipróbáltunk, melyek közül kettő bizonyult statisztikailag szignifikánsnak a vizsgált időszak alatt. A két modell a munkanélküliség adott 3 hónapra eső számát közelíti egyrészt a munkanélküliek előző időszakban mért számával, másrészt az előző időszak utolsó, illetve az adott időszak első hetében történt jobmonitoros keresésekkel. A jobmonitor keresési adatokkal kiegészített modelleken kívül másféle módszereket is bevetettünk a munkanélküliek február-áprilisi átlagos számának előrejelzésére, melyek összehasonlítási alapul szolgáltak a jobmonitor modellek eredményességének ellenőrzéséhez. Az utóbbi időszakban a Holt-féle simítás tűnt az általunk kipróbált módszerek közül a legsikeresebbnek a jelenség közelítésében és előrejelzésében. Ez nem meglepő, hiszen 2013 januárjától a munkanélküliség szezonális mozgása megszűnt és folyamatosan csökkent a munkanélküliek száma. Azonban nem maradtak el sokkal a jobmonitor adatokkal kibővített modelljeink se, melyek a legutóbbi február-áprilisi időszakra még a Holt-féle simításnál is sikeresebb becslést adtak. Az előző időszak utolsó hetével becslő modell 1192 főt, az adott időszak első hetével becslő modell pedig csupán 831 főt tévedett. Ennél a többi módszer (Holt-féle simítás, egyszeres exponenciális simítás, megfelelő ARIMA modell, más beágyazott modellek) előrejelzései mind többel lőttek félre február-áprilisra. A becsléseket visszanézve (2013. augusztus - 2014. április) a jobmonitor modellek és a Holt-simítás nagyjából egyenlő hibával jelezték előre a munkanélküliek számát. Az átlagos abszolút eltérése mindegyiknek 7000 fő körül mozog, tehát körülbelül ennyivel tértek el átlagosan a tényleges értéktől ebben az időszakban, valamint az átlagos négyzetes eltérésük is nagyjából egyenlőnek bizonyult. A nagy kérdés azonban, hogy meddig csökkenhet még tovább a munkanélküliek száma. Ugyanis ha ez bekövetkezik, a Holt-féle simítás felmondja a szolgálatot és a jobmonitor.hu keresési adataival beágyazott modellektől megbízhatóbb előrejelzéseket várhatunk majd.


2014. december 26. 15:40

John Batelle: Hogyan fog kinézni a keresés mobil eszközökön?

Számos érdekes startup cégre bukkantam, miközben a mobil-világ megértésén tüsténkedtem. Az iram csak gyorsult, ahogy az alapítók elkezdték felfedni műhelytitkaikat. Ahogy az várható volt, rengeteg ember fáradozik érdekes dolgok létrehozásán - olyan szolgáltatásokon, melyek már eleve feltételezik, hogy a mobil-keresés fennálló rendszere nem fog sokáig állni. Lenyűgözőnek és további vizsgálatra alkalmasnak találom ezeket. A legutóbbi a Jack Mobile, egy titokban feltörekvő startup, melyet a korábbi Facebook- és Apple-alkalmazott, Charles Jolley alapított Mike Hansonnal kb. egy éve, a Mozilla és a Cisco főmérnökével, aki korábban a Sherlock keresőalkalmazás 1.0-ás verzióját írta Apple-re. Linkelnék valamit a Jack-ről, de egy oldalnyi általános információn kívül semmit nem lehet róla olvasni. Most, hogy Charles és Mike bevezettek a műhelytitkokba, lenyűgöző dolgokról tudok beszámolni, melyek rávilágítanak a poszt-webes világ keresési-, és az alkalmazások interfész-problémáira. Ha sikerül elrugaszkodni az asztali PC előtti üldögélés képétől, hogyan nézne ki a keresés? Mi a keresés maga, amikor az ember ezt a telefonján, az óráján, vagy bármilyen más, ráaggatott készüléken teszi? A Jack megpróbál ezen kérdésekre válaszolni, és a csapat újragondolja az interfész alapvető felépítését is. A keresés mobileszközökön eleve “génhibás". A webes keresés alapvetései - melyektől működni tud az egész - egyszerűen hiányoznak a mobilokon. A telefonunkon nincsenek indexelhető linkek vagy nyilvánosan elérhető weboldalak gyűjteménye, melyeket szabadon lehetne analizálni vagy keresőrobottal követni. Csak izolált, a nagy levesben kavargó, egymástól független alkalmazások halmaza van, melynek elemei mind csak a saját funkciójuk betöltésére hivatottak. De ez nem jelenti azt, hogy ne lenne szükségünk keresésre a mobilokon, sőt, nagyon is sokat keresünk rajtuk. De a kapott eredmények nem valami felemelőek. Ez főleg azért lehet, mert a telefonunk a  keresésre a webről szedi a választ. De ahogy arra Jolley és Hanson rámutatott, ezek a válaszok nem megfelelőek a mobil kontextusában. Webes- kontra mobilkeresés   Webes keresés Mobilos (poszt webes) keresés Kontextus információ alapú szükség alapú Keresőkifejezés Meghatározó (mi, ki, hol, miért) Tett vezérelt (hogyan tudok, mit tudok, hol tudok, miért (nem) tudok) Korpusz Teljes (találd meg, amire szükségem van) Javasló (Találj valami releváns információt) Kulcsszignál Link(ek) Személyes háttér (kontextus) Felhasználói felület Parancsalapú Társalgás jellegű Személyre szabás Keresési történet App használat, helyszín, kontextus   A mobilkeresések egyszerűen mások   Kontextus: Amikor a telefonunkon keresünk (vagy bármilyen, helyhez nem kötött eszközön), nagy valószínűséggel teljesen más szituációban vagyunk, mint a “weben". A mobilos keresések szolgáltatásokhoz kötődnek, pl. “Hogyan jutok el erre a címre?" és/vagy helyszínhez kötöttek, pl. “Milyen jó szállások vannak a közelben?" Keresési kifejezés / Korpusz: A kontextus-különbözőség miatt a keresésünk tárgya rendkívül leszűkül. A mobilkereséseknek általában egy találata van. Nem egy linkhalmazt várunk, amit aztán átböngészhetünk, hanem a konkrét helyzetünkre vonatkozó választ szeretnénk. A mobilkeresések ezért inkább a szolgáltatások és a tettek felé mozdulnak el a keresési kifejezések oldaláról. Ez azt jelenti, hogy a keresés teljessége elé gördülő, vélelmezett akadály (az ár amit pl. a Google fizet a teljes Internet RAM-ban tárolásáért) mobilokon egyáltalán nem hátrány. Nincs szükségünk az összes, lehetséges, indexelt információra, csak az éppen megfelelőre. Hogy ez milyen információ? Ez a következő pontunk. Szignál: Mobilon olyan új szignálok  is rendelkezésre állnak, melyek extra információként szolgálhatnak (és kellene szolgálniuk) a relevánsabb keresési találatok érdekében (de nem teszik). Az egyik ilyen fő szignál az aktuális helyszín. Aztán ott van még a helyszíntörténet (merre jártunk korábban), a telefonra letöltött alkalmazások, azok használatának története és alkalmazási módja, ami rá is vezet következő pontunkra.Felhasználói felület: A keresés mobilon jelenleg megegyezik webes társával. Parancssoros interfész, ahova begépelhetjük a kereső-kifejezésünket, amire kattintható linkeket kapunk válaszul. A Google keményen dolgozik ennek megreformálásán és általános keresőjének - ami képes előhozakodni az “egy igaz válasszal" - hang-alapú kereséssel való kombinálásával nagyot lépett előre. De a Jack-es srácok egy egészen másféle interfésszel hozakodtak elő, amelyet rendkívül izgalmasnak találok. Nevezzük a megközelítést “társalgásnak". A társalgási kereső-interfész   2004-ben találkoztam Gary Flake-kel, aki akkor az Overture  - korának vezető kereső cége, amit a Yahoo később felvásárolt, ami ezáltal egészen a Microsoft általi bekebelezésig volt a Yahoo kereső “lelke") - senior technikai vezetője volt. Már akkor is, amikor a mobilos keresés maximum csak hírből volt ismert, bosszantott a kereső-interfész.Megkérdeztem, hogy miért nem tudunk előrébb lépni a keresésben, mivel a “tíz kék link" megközelítés olyan semmilyen volt. Fel akartam tenni egy kérdést, válaszokat kapni, majd új kérdést feltenni. Vagy még inkább: azt akartam, hogy a szolgáltatás tegyen fel nekem kérdéseket, pl. “A ‘jaguár’-ra kerestél. Az állatra, az autóra, a focicsapatra, vagy valami másra gondoltál?" Gary búslakodva rámnézett és olyasmit mondott, amit soha nem felejtek el: “Ha csak egy modális ablakom lehetne…"Ezt arra értette, hogy akkoriban a keresés a tíz legjobb linkért való versengés volt, és bármi, ami ennek az útjába került - úgy mint egy felugró dialógus-ablak, amivel a keresést lehetett volna finomítani - visszatartó erejű volt az alkalmazás használatával szemben. És amennyivel kevesebben használják, annyival kevesebb a bevétel.De az ötletet - az oda-vissza kérdezéses keresést, társalgást, ha úgy tetszik - nem tudtam kiverni a fejemből. Így talán elképzelhető meglepődésem, amikor Jolley és Hanson megmutatta a Jack Mobile kereső interfészének korai prototípusát, ami olyan volt, mint egy párbeszéd.Megkértek, hogy ne áruljak el részleteket  az interfészről, elég az hozzá, hogy egészen újszerű, és sokkal inkább oda-visszakérdezős mint bármi más a weben jelenleg. Kellemes, és menő a használata. A Jack tudja hol vagyunk, így ha rákérdezünk arra, hogy “A Galaxis Őrzői", megmutatja a vetítési időpontokat a közelünkben találatként. Ha arra kérdezünk, hogy “olasz éttermek", nem egy listát ad Google+ értékelések alapján, hanem a közelünkben található éttermeket, esetlegesen értékelési sorrendben, amennyiben mondjuk GrubHub vagy OpenTable alkalmazás van a telefonunkon. Tanulságok   A Jack még mindig nagyon korai stádiumban van, de alapítói számos kulcsfontosságú megállapítást tettek eddig is. Az egyik a teljességgel kapcsolatos. Míg a “hosszú farok" (ritkán előforduló keresések) esetek nagyon jelentősek a webes keresésekben, addig a mobilos keresés közvetlenül a lényegre koncentrál, ami azt jelenti, hogy szűkíthetjük indexelésünket és algoritmusainkat, úgy, hogy közben még mindig eredményre vezet a keresőkifejezések nagy része. A mobilos keresés ugyanakkor nagyban személyreszabott. Nincs egy, általánosan megfelelő találati lista. Mobilon az alapján kell rangsort felállítani, ami a felhasználó számára leginkább célravezető, nem abból kell kiindulni, hogy valamely külső rangsoroló rendszer mit ítélt meg mérvadónak. A “3-as BMW" kifejezésre keresve más eredményt kell, hogy kidobjon a Mercedes szalon mellett, mint a főút menti gyorsétteremben. Noha a személyreszabott keresés a Google+ egyik legfőbb jellemvonása, az igazság az, hogy elég halovány a próbálkozásuk. A weben rettentően keveset tud rólunk a Google. Annál többet a telefonunk. Mindezen adat felszabadítása még mindig nagyon nehéz, de nincs már messze. A Jack megközelítésének egyik legérdekesebb vonzata azonban az lehet, hogy hogyan kavarja fel az ökoszisztémát a “publikálók" és a “közönség" között. Hanson rámutat arra, hogy a webes keresés a fogyasztóról szól, a tartalom előállítója sokadrangú utas a történetben, nehéz helyzetbe hozva magát: állandóan tudatosítani, publikálni kell jelenlétét a weben, vagy elnyeli a jelentéktelenség mocsara. Mindenesetre teljesen az ismeretlen működésű varázsdoboz jóindulatára vagyunk bízva, amikor arról kezdünk agyalni, hogyan is találhatnak meg minket a weben. Hanson egészen másféle modellt vázol fel a Jack indexelési elvéhez. Olyat, melyben a publikálók app- és tartalmi struktúrájukat megadott query-típusokhoz címkézett, különbejáratú feedjeiken kézbesítik a Jack-nek. Ha  ez úgy hangzik, mint a szemantikus keresés, nem véletlen. Hanson, aki a Mozillánál eltöltött ideje alatt a nyílt webes szabványok élharcosává nőtte ki magát, elárulta, mély sebeket hord a témával kapcsolatban. Ugyanakkor az az érzésük Jolley-val egyetemben, hogy egy újfajta játéktér jöhet létre, mely ténylegesen lehetővé teszi a szemantikus, személyreszabott keresést. A Jack több kérdést vet fel mint amennyit megválaszol, de éppen ettől érdekes. Itt van egy kicsi, jól finanszírozott, kereső-, web-, és mobil-szakértőkből verbuvált csapat, akik ténylegesen új megközelítésből tekintenek egy problémára/lehetőségre. Erre mindenképpen oda kell figyelni 2015-ben.


2014. december 15. 7:25

Dec. 18. Évadzáró NLP meetup

Évadzáró meetupunkat csütörtökön (december 18-án) tartjuk, a szokott helyen (Colabs-Buda) 18:00-tól. Érdemes eljönni, mert februárig kell várni a következőre! A részvétel továbbra is ingyenes, de arra kérünk mindenkit, hogy regisztráljon az esemény oldalán. Az évad utolsó rendezvényén nyelvtechnológiai cégek mesélik el hogyan indultak, milyen nehézségekkel kellett szembenézniük és képet kaphatunk arról milyen is az az igazán nagybetűs élet ebben a világban. A bemutatkozók: Neticle Technologies Kilgray Translation Technologies Precognox


Az összes hír