Beállítás kezdőlapnak! Hozzáadás a kedvencekhez! Az összes hírt látni akarom!  
Nyitóoldal Autó-motor Blogok Bulvár Életmód, egészség Gazdaság Kultúra, művészet Női témák Politika, közélet Sport Technológia Tudomány Videó
 

Kereső Világ

2015. március 4. 16:01

Így hivatkoznak egymásra a magyar politikai blogok és híroldalak

Politikai blogokat vizsgáló projektünk adatait kibővítettük és megvizsgáltuk hogyan hivatkoznak egymásra a magyar politikai blogok és híroldalak. Ezzel főztünk Crawlerünk egy nyolcvan magyar politkai blogot tartalmazó listán indult el és tízes mélységben vizsgálta a link struktúrát (az megnézte a kiindulási listán blogbejegyzéseiben található linkeket, majd az azokon találhatókat és így tovább tíz lépésben). A crawler kizárólag a tartalomban szereplő linkeket kereste, ezért amennyiben azok közösségi média oldalra, nem szöveges tartalomra, vagy nem magyar nyelvű tartalomra mutattak, nem haladt tovább. Gyűjtésünk eredménye 12121 darab egyedi url, melyek között 22542 él (azaz link) található. Az egyedi url-eket összevontuk az ún. pay-level domain alá. Pl. legutóbbi posztunk egyedi url azonosítójához "http://kereses.blog.hu/2015/03/02/kiszamithatoak_vagyunk" a "kereses" pay-level tartozik. A pay-levelre átkódolt url-ek segítségével egy új, egyszerűbb gráfot készítettünk melyben 1441 csomópont (pay-level url) és 2472 él (link) található. A csomópontok közötti átlagos utak hossza 3.341833, a gráf átmérője 9.  Az alábbi gráfokon a legalább négy be- vagy kimenő éllel rendelkező csomópontok láthatók, ez adataink 9.02 százaléka, az éleknek pedig 50.81 százaléka látható. A csomópontok nagysága minden ábrán eltér, mert más-más ranking eljárással állapítottuk meg. A csomópontok színét modularitásuk alapján alapítottuk meg, ami nagyon leegyszerűsítve annyit tesz, hogy a gráfban leírt tulajdonságaik alapján egy csoportba tartoznak. PageRank A Google által kifejlesztett PageRank algoritmus mind a be-, mind a kimenő éleket figyelembe veszi, ezért nagyon jó képet ad egy-egy csomópont autoritásáról. Az alábbi ábrán a csomópontok nagysága PageRank értékük alapján lett megállapítva. In-degree A bemenő élek száma alapján rangsoroltuk a csomópontokat az alábbi ábrán, azaz minél nagyobb egy csomópont, annál több hivatkozást kapott. Out-degree Az ábrán a kimenő élek száma alapján rangsoroltuk a csomópontokat, azaz minél nagyobb egy csomópont, annál több hivatkozás indul róla más oldalak irányába.


2015. március 2. 13:56

Kiszámíthatóak vagyunk?

Gyűlnek rólunk az adatok. A mobilszolgáltatónk nálunk is jobban tudja, hol leszünk holnap ilyenkor, kedvenc online könyváruházunk barátainknál is jobban el tudja találni melyik új kötet okozna nekünk feledhetetlen élményt, a sarki hipermarket bizton számít arra, hogy holnap elfogy a kenyerünk s ismét betérünk vásárolni. Az NSA terrorista-gyanús emberek után kutat az online világban, az arab tavasz kapcsán pedig a forradalmak megjósolhatósága napjaink egyik kedvenc kérdésévé vált. Végre rendes tudománnyá válhat az emberi viselkedés előrejelzése?   Kiszámíthatóak vagyunk! Barabási Popper Prediction and Prophecy in the Social Sciences című esszéjére többször is hivatkozik, mint a társadalmi folyamatok előrejelezhetetlenségét legjobban kifejtő műre. Miközben az előrejelzésnek és a véletlenszerűségnek ezen a bizonytalan határvonalán töprengünk, rá kell jönnünk, hogy akármilyen tekintélyes és nagy hatású gondolkodó volt Popper, nem feltétlenül volt igaza. Állításával ellentétben nincs rá szilárd bizonyíték, hogy a társadalmi rendszereket nem lehet előre jelezni.[...] [...] Az előrejelző eszközök, első sorban üzleti érdekektől hajtva, folyamatosan fejlődnek, különösen azok, amelyek az egyéni viselkedés mérésére szolgálnak. És a pontosság növelése érdekében ezek az eszközök a jövőben az egyének helyett egyre inkább az őket magukba foglaló csoportokra fognak koncentrálni, mert amikor az ember eltér a szabályszerű, megszokott viselkedéstől (például munka után nem egyenesen haza, hanem előbb a sörözőbe megy), gyakran a barátai tehetnek róla.Az előrejelző eszközök hatóköre is ki fog bővülni néhány percről néhány órára, ami cselekvéseink rövid távú tehetetlenségét tekintve elképzelhető időtartamnak tűnik. És amikor ugyanezek az eszközök az egy- vagy többnapos előrejelzésre való áttéréssel birkóznak, eleinte pontatlanok lesznek, mint évtizedekkel korábban az időjárás-előrejelzés. Ám előrejelző képességük szükségképpen fejlődni fog, és egyszer csak azt látjuk majd, hogy a jövő már egyáltalán nem olyan talányos, mint korábban volt. (Barabási Albert László: Villanások) A fenti idézet remekül kifejezi vágyunkat. Az üzleti élet és maga a politikai is egyre nagyobb igényt tart arra, hogy valamilyen módon előre tudja jelezni az egyéni és csoportos viselkedést. Mielőtt hátradőlnénk és megnyugodnánk, hogy a fizika és az alkalmazott matematika eszköztára hamarosan meghozza a várva várt áttörést nézzük meg egy kicsit, miről is beszélt Popper. Kis kitérő  A Barabási által hivatkozott esszét helyezzük először kontextusba. Popper tudományfilozófus volt, aki mélyen hitt a racionalitásban. Ennek ellenére meg kellett élnie a nácizmus térnyerését és hazája, Ausztria elhagyására kényszerült. A világháború alatt írta az Open Society and Its Enemies című könyvét (ennek címe köszön vissza tanítvány, Soros György alapítványának nevében), ami tulajdonképpen a diktatúrákra alkalmazta tudományfilozófiai nézeteit. Popper szerint a tudomány lényege, hogy megadja cáfolhatóságának feltételeit (falszifikálható). A tudományhoz hasonlóan egy nyílt, demokratikus társadalom nem hibátlan, hanem rendelkezik a korrekció képességével (szabad véleménynyilvánítás, szabad választások, nyílt viták stb). 1945-ben ez nyílt állásfoglalás volt a fasizmussal és a kommunizmussal szemben, s ettől kezdve tudományfilozófusunk időről-időre visszatért ehhez a témához. A Prediction and Prophecy a marxizmust kritizáló hosszabb könyvecske, a The Poverty of Historicism előfutára. Popper célja, hogy a történelmi materializmus és a tudományos szocializmus, s így minden tudományos köntösbe bújtatott ideológia cáfolatát adja. Nagyon leegyszerűsítve, a történelmi materializmus és a tudományos szocializmus szerint a történelem menete szükségszerű változások sorozata, melynek elkerülhetetlen vége a kommunizmus. Mivel a történelmi változásokat törvények alakítják, egy-egy társadalmi jelenség előrejelezhető. Akit jobban izgat a kérdés, annak Balibar Marx filozófiája című rövid könyvét ajánljuk.   Popper historicizmusnak nevezi azt a doktrínát, mely szerint a politikacsináláshoz a történelmi szükségszerűségek ismerete szükséges. Ennek két tétele van: The task of social sciences is fundamentally the same as that of the natural sciences - to make predictions, and, more especially, historical predictions, that is to say, predictions about the social and political development of mankind. Once these predictions are available, the task of politics can be determined. Azaz, ha vannak társadalomtudományi általános törvények, akkor adott hogy mit kell tennünk. Vitának helye nincs, hiszen a társadalmi törvényszerűségek egyben kijelölik a szükséges cselekvéseket is. Csakhogy Popper szerint a társadalomtudományok nem egészen úgy működnek, mint a természettudományok.   A természettudományokban a predikció mindennapos. Ennek vannak feltételes esetei, pl. ha nem tartom a kezemben a könyvemet, akkor az leesik. Vannak feltétel nélküli predikciók is, melyeket általános törvényeknek is nevezhetünk. Pl. abból, hogy minden tárgy leesik ha megszűnik az alátámasztása, levezethető a gravitáció. Popper szerint azonban a társadalomtudományokban nincsenek ilyen általános törvények vagy feltétel nélküli predikciók. A természettudományokban azért lehetséges általános törvényszerűségeket találni, mert long term prophecies can be derived from scientific conditional predictions only if they apply to systems which can be described as well isolated, stationary and recurrent.  Ennek tükrében a társadalomtudományok fő feladata   It is to trace the unintended social repercussions of intentional human actions. Hasznuk a politikacsinálásban pedig They do not allow us to make historical prophecies, but they may give us an idea of what can, and what cannot be done in the political field. Látható, Popper egyáltalán nem tagadja a társadalomtudományok képességét arra, hogy előrejelzést tegyenek. Egyedül azt tagadja, hogy a természettudományokhoz hasonlóan általános törvényekkel állhatnak elő. Reflexivitás Soros György, még mielőtt a pénzügyek felé fordult volna, Popper diákja volt. Hiába lett belőle befektetési guru, fektette meg az angol fontot és csinált hihetetlen vagyont, filozófus énjét nem tudta kiiktatni. Saját bevallása szerint Soros pénzügyi stratégiáját Popper falszifikációs elméletére alapozta, amit megannyi kötetben osztott meg már, ezek közül a magyarul is hozzáférhető A nyílt társadalom avagy a globális kapitalizmus megreformálásból szemezgetünk, hogy jobban megértsük miben különbözik az emberi társas világ a fizikai objektumok valóságától. Soros filozófiájának központi eleme a reflexivitás.  Popper nem szándékos következményeknek (repercussions of intentional human actions) nevezi azt a tényt, hogy cselekedeteinknek nem tudjuk az összes következményét belátni, ergo minden szándékos cselekedetnek vannak szándékolatlan következményei is. Soros ezt a gondolatot viszi tovább a reflexivitással; ha elindítunk egy szándékos cselekvést, akkor szembesülnünk kell azzal, hogy az nem várt módon visszahathat ránk, ami módosíthatja eredeti elképzeléseinket. A történelmi folyamatokkal kapcsolatban erről így ír Soros: A különböző résztvevők előítéletei is különböznek, ám sok esetben - és ez különösen igaz a pénzpiacokra - "uralkodó" előítéletekről beszélhetünk. Kezdetben az események kimenetele még alátámasztja az uralkodó nézetet, ám azok egyre túlzottabbá válnak, és ezzel párhuzamosan egyre kevésbé képesek az események sodrára hatni. Következésképpen a megerősítés is elmarad. Az eredmények és az elvárás közötti szakadék mélyülésével egyre nehezebbé válik az uralkodó előítéletek fenntartása. Amikor pedig a résztvevők megkérdőjelezik, sőt megtagadják előítéletüket, egy ellentétes irányú, önerősítő folyamat lendül mozgásba. Minél inkább függ egy uralkodó előítélet az önigazolástól, annál nagyobb a valószínűsége annak, hogy ez az ellentétes folyamat megindul.  Ennek szellemében minden ágens (vagy nevezzük nyugodtan embernek) gyarló, azaz nem rendelkezik biztos, elmélettel arról hogyan is működik a társas világ, hanem folyamatosan teszteli elméleteit és a történések függvényében alakítja azokat. Ez nem sima gyarlóság, hanem radikális gyarlóság, ami a reflexivitással párosulva olyan visszafordíthatatlan történelmi folyamatokat tesz lehetővé, amelyek kizárják az időtállóan érvényes általánosításokat. Pontosabban: a reflexív eseményekből általánosított következtetéseket nem vizsgálhatjuk meg újra és újra, hiszen a kezdeti és végső feltételeket nem ismételhetjük meg. Akkor előre lehet jelezni bármit? Természetesen igen - de számolnunk kell azzal, hogy nagyon behatároltak a lehetőségeink, amikor emberekről beszélünk. Popper és Soros arra hívja fel a figyelmet, hogy amikor emberekről beszélünk, akkor nem tudunk univerzális törvényeket alkotni, csak az adott kontextusban, az adott társadalmi körülmények között, az adott időben mondhatunk ki szabályszerűségeket. De gondoljunk csak bele, a középkorban, vagy az ősközösségi társadalmakban alkalmazhatjuk a modern közgazdaságtan elméleteit? Tudhatunk arról valami, hogy a mostani szegénységellenes programok működhettek-e volna a múltszázadban, vagy működni fognak-e harminc év múlva is? 


2015. február 27. 9:55

Miért menj szoftverfejlesztőnek? - Tanácsok pályaválasztóknak

 


2015. február 9. 8:39

Kapcsolódjunk össze! Linked data a közös BOK és NLP meetupon február 18-án

Az évad első meetupján a BOK meetuppal közösen jövünk össze 2015. február 18-án 19:00-tól, rendhagyó módon ezúttal a SZTAKI-ban (Budapest, XI. Kende u. 13-17). Témánk a linked data, mi a fene is az, mire használják és mivel NLP meetup is egyben az esemény, a magyar WordNetről is hallhatunk majd, mint tipikus linked data adathalmazról. A részvétel ingyenes, de arra kérünk mindenkit, részvételi szándékát jelezze vagy a BOK, vagy az NLP meetup oldalán. Szász Barnabás: Linked Data - van-e adathalmazoknak hálózati hatása?   A World Wide Web egy olyan globális infrastruktúrát hozott létre, amely lehetőséget nyújt összekapcsolt dokumentumok hálózatának a publikálására és elérésére. A Linked (Open) Data ennek mintájára - és a Web eredményeire és technológiáira építve - ad hasonló módon összekapcsolt adathalmazok publikálására és fogyasztására eszközöket. Az előadás egy bevezetőt ad a LOD világába, kitérve röviden a szemantika fogalmára, a Szemantikus Webes technológiákra és a LOD néhány gyakorlati alkalmazására, köztük az Apache Stanbol projekt rövid ismertetésével példát ad arra, hogy a LOD hogyan tudja akár az NLP-t támogatni.   Szász Barnabás több mint egy évtizede foglalkozik webes fejlesztéssel, nagyvállalati tartalomkezelő, metaadat kezelő és keresőrendszerek implementálásával és 2005 óta a Szemantikus Web kutatásával, jelenleg a Linked Data alkalmazásait és a szemantikus keresés lehetőségeit vizsgálja. A munkán túl újdonsült családapa, amatőr fotós és hobby-tengerész.       Horváth Ádám: Könyvtári és múzeumi adatok automatikus publikálása a szemantikus weben -   az ALIADA projekt ismertetése   A könyvtárak és a múzeumok az adataik publikálásával vehetnek részt a szemantikus web építésében. Az ALIADA projekt ezt a folyamatot szeretné felgyorsítani azzal, hogy egy olyan nyílt forráskódú szoftvert hoz létre, melynek segítségével a könyvtárak és a múzeumok automatikusan publikálhatják az adataikat a szemantikus weben. Az előadásomban az ALIADA projektet szeretném ismertetni. Az előadásban ki szeretnék térni a Linked Open Data egyik felhasználási területére a Library of Congress új katalogizálási szabványára a BIBFRAME-re, mely teljes egészében a kapcsolt adatokon nyugszik.    Horváth Ádám informatikus könyvtáros az Országos Széchényi Könyvtár informatikai vezetője volt 10 évig. A könyvtárinformatika teljes spektrumában (integrált rendszerek, karakterkészletek, hálózati protokollok, visszakereső rendszerek, digitális könyvtár, stb.) elmélyült ismeretekre tett szert. Vezetése alatt a könyvtár a teljes állományát, valamint a tezauruszt és a név besorolási adatait publikálta a szemantikus weben, még 2010-ben. Később a Szépművészeti Múzeum dolgozójaként megismerkedett a múzeumi gyűjteménykezelő rendszerekkel is. Jelenleg a Magyar Nemzeti Múzeum Központi Könyvtárában dolgozik. Szabadidejében amatőr természetfotós és lelkes tanulója a kanadai és freestyle kenuzásnak.    Héder Mihály arról tart előadást, hogy hogyan kapcsolódik a Linked Data és az NLP a DBpedia Spotlight eszközön keresztül. Hogyan segít a Linked Data előállításában a human-in-the-loop gépi tanulás? Milyen mashup-ok épülnek a DBpedia adathalmazára? Hogyan hat ki mindez az ember-gép interfészek jövőjére? Héder Mihály 2004-ben kezdett gyakornokként az MTA SZTAKI-ban. Okleveles mérnök informatikus diplomáját 2009-ben védte meg, 2014-ben filozófia PhD fokozatot szerzett. Szakterülete a mesterséges intelligencia filozófiája, szemantikus annotációk, szoftver integráció.   Miháltz Márton: Magyar WordNet a LOD felhőben Ebben az előadásban egy konkrét erőforrást, a Magyar WordNetet szeretnénk bemutatni, az előadással kb. egy időben LOD felhőbe kerülésének apropójából. A Magyar WordNet (HuWN) egy természetesnyelvi ontológia, amely a Princeton WordNet elveit követve a nyelvi fogalmakat szinonimahalmazokkal (synsetekkel) reprezentálja és közöttük szemantikai viszonyokat definiálva (pl. hipernima (is-a), meronima (rész-egész), antonima stb.) hoz létre egy lexikális fogalmi hálózatot. Noha a wordnetekben a nyelvi fogalmak közötti taxonómia nem felel meg egy szigorú formális ontológia követelményeinek, az NLP különböző alkalmazásaiban mégis gyakran használják őket világismereti reprezentáció forrásaként. A Magyar WordNet 42 ezer synsetet tartalmaz, és össze van kapcsolva az angol (Princeton) WordNet 2.0-ás és 3.0-s verzióival, ami átjárást biztosít több mint 20 egyéb nyelv wordnetjeihez, illetve az angol wordnethez illeszkedő egyéb adatbázisokhoz (Yago, DBPedia, BabelNet stb.) A HuWN szabadon hozzáférhető, az előadással egy időben tervezzük RDF formátumú megosztását a LOD felhőben is. Miháltz Márton az MTA Nyelvtudományi Intézet Nyelvtechnológia Kutatócsoportjának és a PPKE ITK Magyar Nyelvtechnológiai Kutatócsoportjának tudományos munkatársa. Korábban nyelvtechnológiai területen dolgozott az iparban (MorphoLogic, in4, GeoX). PhD fokozatát nyelvtechnológia témában 2010-ben szerezte a PPKE ITK-n. Kutatási területei az információkinyerés, véleményelemzés, jelentésegyértelműsítés, koreferenciafeloldás.


2015. február 7. 8:47

Életképek kaposvári irodánkból


2015. február 5. 12:04

Morvay Gergő gyakornokunk ELTE Almuni ösztöndíjas

Nagyon büszkék vagyunk Morvay Gergő gyakornokunkra, aki elnyerte az ELTE Alumni Alapítvány ösztöndíját. Gergő Szabó Martina kollégánkkal dolgozik szentiment- és emócióelemzés projektünkön.  


2015. február 3. 23:29

Kísérlet egy magyar R-index létrehozására

A Recession/R-indexet az 1990-es évek elején találták ki a The Economistnál azzal a céllal, hogy az USA gazdasági helyzetét, kiváltképp a válság időszakokat egy egyszerű mérőszámmal tudják előrejelezni. Ez az általuk kitalált index azt méri, hogy a "recession" - azaz "válság" vagy "recesszió" - szó hányszor jelenik meg negyedévente két befolyásos amerikai napilapban, a New York Timesban és a Washington Postban. Az index segítségével jelezni tudták az 1981-es, az 1990-es és a 2001-es válság kezdetét is. Azonban arra is volt példa, hogy tévedett a mutató, ugyanis az 1990-es évek eleji válság vége után még egy évvel is recessziót jeleztek vele. A The Economist próbálkozásán túl mások is megkíséreltek összehozni egy működő R-indexet. A sikeresek közé sorolhatjuk például Iselin és Siliverstovs svájci, illetve Maticek és Mayr német R-indexét. Utóbbiakon felbuzdulva úgy döntöttünk, mi is megpróbálunk létrehozni egy magyar R-indexet.   Az utóbbi évtizedben egyre többen használják az online elérhető szövegeket és a közösségi médiában található tartalmakat arra a célra, hogy gazdasági trendeket elemezzenek és jelezzenek előre. Egy társadalmi, gazdasági jelenség médiabeli megjelenése egyrészt az érdeklődésre és a közönséghangulatra reflektál, másrészt a médiabeli megjelenés is befolyásolja az emberek véleményét, fogalmi kereteiket és fókuszálja figyelmüket. Ez az oda-visszaható folyamat megfelelő mérőszámokat eredményezhet adott társadalmi, gazdasági jelenség médiabeli lecsapódása során. Emellett az információs technológiák megengedik, hogy valós időben kövessük a társadalmi, gazdasági történéseket az interneten, például a digitalizált újságokban, valamint hogy magunk is lenyomatot hagyjunk, például a keresések során. Tehát a különböző webes tartalmak olyan információknak a forrásai lehetnek, amelyeket hatékonyan és gyorsan lehet előrejelzési célokra használni. A társadalmi, de főleg gazdasági folyamatok online szöveges tartalmakkal történő elemzése során az utóbbi időben két csapásirány jellemző. Az egyik a digitalizált folyóiratokban található tartalmak használatára terjed ki, a másik pedig a Google Trendsről leszedett keresési adatokat próbálja előrejelző modellekbe belegyúrni. Mi mindkét csapásiránnyal megpróbálkozunk a magyar R-index előállításakor. A befolyásos, sokak által olvasott online folyóiratként az Indexet választottuk ki, emellett a Google Trendsről is letöltöttük a kiválasztott kulcsszavak keresési idősorát.   ADATOK Egy ország gazdaságának állapotáról adott ország GDP-jének segítségével kaphatunk általános képet, amely a gazdasági termelés mértékének meghatározására használt mérőszám. Mivel ennek mozgását szeretnénk előrejelezni, a GDP termelés volumenindexével dolgoztunk, amelyet az előző év azonos időszakához képest határoztak meg. Ennek idősorát a KSH honlapján értük el. Az egyik féle R-indexhez az Index online hírportált használtuk, melynek saját keresője megengedi, hogy beállítsuk a keresőszót, a keresési időszakot, valamint a megfelelő rovatot. A dolog szépsége, hogy az idei évtől megváltozott az Index keresője annyiban, hogy már nem lehet a töredékszavas találatokat kiszűrni az összes találat közül. Így vannak a még 2014. III. negyedévében leszedett adataink, amelyek 2006. I. negyedévétől 2014. II. negyedévéig tartanak. Ezekből, mivel volt lehetőségünk, kiszűrtük a töredékszavas találatokat, mert úgy gondoltuk, ezek relevánsabb találatokat tartalmaznak. Emellett rendelkezésünkre állnak a 2015. januárban leszedett adatok, amelyek 2006. I. negyedévétől 2014. IV. negyedévéig tartanak és a töredékszavas találatokat is tartalmazzák, mivel már nincs opció ezek kiszűrésére. A következő kulcsszavakra kapott gyakorisági idősorokat használtuk fel az elemzéshez negyedéves bontásban: Régi keresés szerint (töredékszavak nélkül): "válság", minden rovatban "válság", Gazdaság rovatban "válság", Belföld rovatban "recesszió", minden rovatban "recesszió", Gazdaság rovatban "recesszió", Belföld rovatban "csőd", minden rovatban "árfolyam", minden rovatban "részvény", minden rovatban Új keresés szerint (töredékszavakkal): "recesszió", minden rovatban "recesszió", Gazdaság rovatban   A másik féle R-indexhez a Google Trendsről töltöttük le az adott kulcsszavakhoz tartozó Magyarországra beállított idősorokat. Ezekből nem szedtünk le frisset, az idősorok 2006. I. negyedévétől 2014. II. negyedévéig tartanak. Mivel az idősorokat heti vagy havi bontásban lehet lekérni, az idősorokat negyedévesre aggregáltuk. A következő kulcsszavakra kapott standardizált gyakorisági idősorokat használtuk fel az elemzéshez negyedéves bontásban: "válság" "válság magyarország" "recesszió" "csőd" "árfolyam" "részvény"   A GDP negyedéves értékét a KSH az adott negyedév utáni 3. hónap elején közli. Ezzel szemben az Indexes , valamint a Google Trendses R-indexet akár már az adott negyedév utáni első napon is elérhetjük. Így ha sikerülne létrehozni egy megfelelő R-indexet, a KSH-val szemben 2 hónapos előnnyel tudnánk megfelelő becslést adni a GDP adott negyedéves értékére.   MÓDSZERTAN Az elemzés során követett módszertanban nagy segítséget jelentett David Iselin és Boriss Siliverstovs két tanulmánya, a The R-Word Index in Switzerland, valamint a Using Newspapers for Tracking the Business Cycle: A comparative study for Germany and Switzerland. Elméleti modellként hozzájuk hasonlóan az autoregresszív osztott késleltetésű modellt (autoregressive distributed lag model, ARDL) használtuk (2. képlet), ezekbe ágyaztuk be az R-indexeket. A benchmark modellünk pedig az autoregresszív modell (1. képlet) volt. Az yt függő változó a GDP volumenváltozása az előző év azonos negyedévéhez képest. A t futóindex jelöli a GDP megfigyelési időpontjait, azaz t = 2006Q1, 2006Q2, …, 2014Q3. A magyarázó változók egyrészt a GDP idősorának időben késleltetett értékei, amelyeket az yt-i jelöl, ahol i = 1, 2, …, p. A függő változó időben eltolt értékeit az AR és ARDL modell is tartalmazza magyarázó változóként. Ezeket hívjuk autoregresszív tagoknak, ugyanis ezek jelzik, hogy a függő változó melyik múltbeli értékeivel korrelál. Az ARDL modell ezenkívül tartalmaz még egy tagot, amely helyére az előállított R-indexek jelenbeli vagy múltbeli értékei kerülhetnek (j = 0, 1, …, q). Ez a tag lehet azonos idejű a függő változóval vagy lehetnek időben eltoltak is, míg az autoregresszív tagok csak időben késleltetettek lehetnek, ezért hívják a modellt osztott késleltetésűnek. Az adatok vizsgálata során úgy találtuk, hogy az AR(2)-es modell lesz a megfelelő benchmark modell (3. képlet) és az ARDL(2,0) volt az alkalmazási feltételeknek eleget tevő, az adatokra legjobban illeszkedő modell (4. képlet).     ELEMZÉS A régebbi idősorok összesen 34 megfigyelésből állnak 2006. I. negyedévtől 2014. II. negyedévig, a hosszabb idősorok 36 megfigyelést tartalmaznak 2014. IV. negyedévéig. A GDP Idősora 2006. I. negyedévtől tart 2014. III. negyedévig (1. ábra). Ábra 1. A GDP volumenértékei az előző év azonos időszakához képest, 2006 I. negyedév- 2014. III. negyedév A függő változó és a magyarázó változók korrelációjának vizsgálata során a következő változókat ítéltük a legjobbnak a modellalkotásra: "válság", Index, minden rovatban, régi keresés szerint "recesszió", Index, minden rovatban, régi keresés szerint "recesszió", Index, Gazdaság rovatban, régi keresés szerint "recesszió", Index, minden rovatban, új keresés szerint "recesszió", Index, Gazdaság rovatban, új keresés szerint "válság", Google Trends Az ARDL(2, 0) rendű modellek építésekor a 2. és 3. modellt ki kellett ejtenünk, ugyanis erős multikollinearitást jeleztek az egyes magyarázó változókhoz tartozó VIF értékek. A modellek többségénél szemmel úgy láttuk, gond lehet a reziduálisok normalitásával, noha a Shapiro-Wilk teszt alapján egyik esetben sem volt elvethető a nullhipotézis, miszerint a reziduálisok normális eloszlásúak. Ezért megnéztük, hogyan lehetne bootstrappelni az idősorokat. Egyrészt mivel szerettük volna megtartani az épített modelleket az újramintavételezés során, másrészt mivel a használt idősorok mindegyike autoregresszív és ezért nem használhattunk naiv bootstrapet, úgy döntöttünk, az egyes modellekben kapott standardizált reziduálisokat fogjuk bootstrappelni. Először elmentettük a modellek illesztett értékeit, valamint a reziduálisokat, majd a reziduálisokat 999-szer újramintavételeztük visszatevéssel. Ezután az illesztett értékeket és a reziduálisokat összeadtuk, és minden így kapott új idősorra újraillesztettük az ARDL(2,0) modellt. Az összes Index rovatbeli, új keresés szerinti "recesszió" keresőszó gyakoriságával épített bootstrappelt modellek például a következőképp néztek ki (a fekete vonal az eredeti modell): Ábra 2. Bootstrappelt idősorok - "recesszió" Index, összes rovat modell A bootstrappelt minták alapján konfidenciaintervallumokat állítottunk a különböző statisztikákra, és nem találtunk az alkalmazási feltételeknek nem megfelelő modellt. Végül a 3 legjobban illeszkedő modellt tartottuk meg, amelyek a következő R indexeket tartalmazzák: "válság", Index, minden rovatban, régi keresés szerint "recesszió", Index, minden rovatban, új keresés szerint "válság", Google Trends A modellek előrejelzési pontosságát és a robusztusságát úgy vizsgáltuk, hogy kiválasztottunk egy rövidebb becslőablakot 2006 I. negyedévétől 2010. IV. negyedévéig, előrejeleztünk a következő időszakra, majd minden egyes lépésben bővítettük a becslőablakot egy negyedévvel és úgy jeleztünk előre. Ezt mind a három modell esetében megtettük 2014. II. negyedévig, valamint az AR(2) modell esetében is. Az előrejelzések a következő táblázat szerint alakultak: Táblázat 1. A modellek előrejelzései   Az előrejelzések pontosságát az átlagos hiba (ME), az átlagos négyzetes hiba négyzetgyöke (RMSE), az átlagos abszolút hiba (MAE), az átlagos százalékos hiba (MPE) és az átlagos abszolút százalékos hiba (MAPE) mérőszámokkal mértük, valamint a Diebold-Mariano teszttel vizsgáltuk meg, hogy szignifikánsan jobbnak bizonyul-e valamelyik modell előrejelzése az AR(2) modellénél. (Táblázat 2.) Táblázat 2. A modellek előrejelzésének pontossága Az előrejelzés pontosságában csak az átlagos négyzetes hiba négyzetgyöke alapján láthatunk egyöntetű javulást a 2-es rendű autoregresszív modellhez képest. Ez a mérőszám jobban bünteti a nagyobb eltéréseket, tehát az AR(2) modell bár abszolút értékben átlagosan nagyjából ugyanannyit tévedett, mint a többi modell, de egyes esetekben viszonylag jobban eltért az előrejelzés értéke a valós értéktől, mint a többi modellnél. A Diebold-Mariano teszt alapján azonban nem utasíthatjuk el a nullhipotézist, miszerint a modellek becslési pontossága ugyanolyan. Így hát szomorúan konstatáltuk, hogy a szimpla szógyakorisági indexekkel nem sikerült statisztikailag jobb modellt összehoznunk.  EREDMÉNYEK Az elemzés során három ARDL(2,0) modellt építettünk háromféle R-index modellbe foglalásával. A benchmark modellünk az AR(2) modell volt, amelynél nem sikerült a GDP volumenértékét becslő statisztikailag sikeresebb modellt építenünk. Emellett egyik modell sem bizonyult megfelelőnek a 2012. I. negyedévében bekövetkező kisebb válságidőszak előrejelzésére, noha az Indexről származó R-indexekkel bővített két modell is stagnálást jelzett. Összefoglalásképp tehát egyik modellt sem tartjuk célnak megfelelőnek. Annyi pozitívumot azonban megemlíthetünk, hogy 2014. IV. negyedévében az AR(2) és az Indexes "recesszió" kulcsszóval bővített ARDL(2, 0) modell szerint is nőtt a GDP, előbbi 102.1231, utóbbi 102.5951 volumenértéket jósol. Na de azért nem adjuk fel! A szógyakorisági idősorok mellett ugyanis egyes kulcsszavakhoz a cikkeket is letöltöttük. Így a cikkek szentiment- illetve emócióértékeivel is futni fogunk még egy kört...


2015. február 2. 13:03

A nyolcvanas és kilencvenes évek slágerei meg a deep learning

A deep learning buzzword lett, a big data területén lassan nem szexi az, ami nem alkalmaz valamilyen deep neural networköt vagy valami hasonlót. A Google Brain projekt kapcsán a mesterséges intelligencia reneszánszáról beszélnek sokan. Avval viszont kevesen vannak tisztában, hogy alapvetően a "forradalmian új" ötlet a kognitív tudományból érkezett, leánykori nevén konnekcionizmusnak és párhuzamos megosztott feldolgozásnak hívták, gyökerei egészen a számítástudomány hajnaláig, Neumann és Turing írásaihoz köthetők.   Neumann és a digitális számológépek A első idealizált neuron modell McCulloch és Pitts írta le A logical calculus of the ideas immanent in nervous activity című dolgozatukban. Neumann eképpen foglalja össze ennek jelentőségét Az automaták általános és logikai elméletében: McCulloch és Pitts elméletének fontos eredménye, hogy a fenti értelemben vett bármely olyan működés, amelyet véges számú "szó" segítségével logikailag szigorúan és egyértelműen egyáltalán definiálhatunk, ilyen formális neurális hálózattal meg is valósítható. [...] A McCulloch-Pitts-féle eredmény [...] bebizonyítja, hogy minden, amit kimerítően és egyértelműen szavakba lehet foglalni - alkalmas véges neuronhálózattal ipso facto realizálható is. Minthogy az állítás megfordítása nyilvánvaló, állíthatjuk, hogy bármely reális vagy elképzelt, teljesen és egyértelműen szavakba foglalható viselkedési mód leírásának a lehetőse és ugyanennek a véges formális neuronhálózattal való megvalósításának a lehetősége között nincs különbség. A két fogalom terjedelme egyenlő. Neumann A számológép és az agy című írásában veti részletesebben össze a természetes és mesterséges automatákat, azaz az emberi agyat és a számítógépeket. A természetes automatákkal kapcsolatban külön kiemeli, hogy a mai szakzsargonnal élve meglepő módon jó hibatűrők, nem akasztja meg őket egy-egy "alkatrész" hiánya vagy a zavaros input. Megállapítja továbbá, hogy [...] az adatok arra mutatnak, hogy természetes alkatelemekből felépített berendezések esetében nagyobb számú, bár lassúbb szerv alkalmazása részesíthető előnyben, míg mesterséges alkatelemekből felépített berendezések esetében előnyösebb, ha kevesebb, de gyorsabb szervet alkalmaznak. Így tehát azt várhatjuk, hogy egy hatékonyan megszervezett természetes automata (mint az emberi idegrendszer) minél több logikai (vagy információs) adat egyidejű felvételére és feldolgozására lesz berendezve, míg egy hatékonyan megszervezett nagy mesterséges automata (például egy nagy modern számológép) inkább egymás után látja majd el teendőit - egyszerre csak egy dologgal vagy legalábbis nem olyan sok dologgal foglalkozik. Röviden: a nagy és hatékony természetes automaták valószínűleg nagy mértékben párhuzamos működésűek, míg a nagy és hatékony mesterséges automaták inkább soros működésre rendezhetők be.   Neumann álma valóra válik a nyolcvanas években A konnekcionizmus szülőapja Donald O. Hebb a múlt század negyvenes éveiben javasolta az idegrendszerhez hasonló modellek használatát először. Egy idealizált konnekcionista modellben az inputokat outputokhoz kötjük, az asszociáció erősségét is megadjuk (azaz mikor tüzel képzeletbeli neuronunk) és van egy nagyon egyszerű hálónk. Ezek közül a legegyszerűbbek pl. a AND, NAND és OR logikai függvényeket megvalósító hálózatok, mivel csupán két réteg (layer) mesterséges neuronnal megvalósíthatóak.   Kicsit bonyolultabb a XOR logikai kapu neurális megvalósítása, mivel ehhez már három rétegre van szükségünk. (Bővebben erről itt) A nyolcvanas években Paul Smolensky (nyelvész olvasóinknak az optimalitáselméletből lehet ismerős a neve) köré kezdtek szerveződni a konnekcionisták, akik a kor színvonalához képest már nagyon jó számítógépes modellekkel dolgoztak. A kétrészes Parallel Distributed Processing tanulmánykötetben összegezték munkáikat 1987-ben, melyet még ma is szívesen hivatkoznak a terület kutatói. A PDP csoport alapvetően Neumann gondolatát vitte tovább a párhuzamos feldolgozást illetően. A gyakorlatban egy-egy ún. szubszimbolikus kognitív folyamatot modelleztek (pl. számjegyek felismerése, szófelismerés, a legbonyolultabb és egyben legismertebb magasabb szintű folyamatot modellező kísérlet a Rumelhart és McCelland On the learning of past tenses of English verbs tanulmányban leírt modell).  Habár nagyon sikeres volt a csoport és figyelemre méltó eredményeket értek el, a kutatási irányzat a kilencvenes években kiesett az ipar látóköréből és megmaradt akadémiai hobbinak. Hogyan reprezentál és tanul egy konnekcionista rendszer? Már Neumann számára is felmerült ez a kérdés. Az automaták általános és logikai elméletében a Smolensky által javasolt megoldást előlegezte meg: A logikai műveleteket [...] olyan eljárással kell tárgyalni, amelyek kicsi, de nem zérus valószínűséggel megengednek kivételeket (hibás működést. Mindez olyan elméletekhez fog vezetni, amelyek sokkal kevésbé mereven "minden vagy semmi" természetűek, mint a fomális logika a múltban és a jelenben. [...] Ez a termodinamika, elsősorban abban a formájában, amelyet Boltzman alkotott meg. Smolensky On the proper teatment of connectionism (magyarul A konnekcionizmus helyes kezeléséről in. Pléh (szerk.): Kognitív tudomány) c. tanulmányában tesz kísérletet a PDP határainak és módszereinek kijelölésére. A Neumann által kifejtett következtetést Smolensky a Legjobb Illeszkedés Elvének hívja: Egy adott bemenet esetén a szubszimbolikus rendszer kimenete egy következtetéshalmaz, amely mint egész a legjobb illeszkedést mutatja az inputhoz, abban a statisztikai értelemben, amelyet a rendszer kapcsolataiban tárolt statisztikai tudás határoz meg.   Ez nem más mint egy Boltzmann-gép, ami egy olyan H harmóniafüggvény, ami bemenethez illeszkedő kimeneteket rangsorolja az előállításukhoz szükséges komputációs "hőmérséklet"  vagy energiaszint szerint. (Ezeket a Boltzmann-gépeket tökéletesítette kiszámíthatósági szempontból Geoffry Hinton, a deep learning alapítója) Képletek helyett nézzük meg inkább egy gyakorlati példán keresztül mit is jelent ez! Rakéták és Cápák Clark A megismerés építőköveiben McCelland, Rumelhart és Hinton(!) példáján keresztül nagyon szemléletesen mutatja meg, hogyan is reprezentálható tudás egy hálózatban és mit jelent a Legjobb Illeszkedés Elve szerint következtetni. Ehhez először nézzünk meg két New York utcáin tevékenykedő banda felépítését. A táblázat hálózatban így néz ki. Tegyük fel, hogy meg akarjuk tudni milyen egy harmincas cápa. Ekkor a bemeneti aktivitások tovaterjednek és a legerősebb kapcsolatok irányában. Úgy tűnik, ezzel megkapjuk a prototipikus harmincas cápát, aki elvált, betörő és középiskolát végzett... Jól látható, hogy a konnekcionista hálónk bizonyos mértékig tűri a hibákat. Ha valamiért pl. a családi állapotra vonatkozó információ nem elérhető, akkor is egész jól közelíti az optimumot az eredmény, hiszen a betörő és a középiskolai végzettség továbbra is aktív marad. Geoffry Hinton és a deep learning Hinton a pszichológia felől érkezett a mesterséges intelligenciába, érhető hogy a PDP csoportnál találta magát. Itt a Boltzmann-gépek tökéletesítése során érdeklődése a számítástudományi alkalmazások felé fordult és a kilencvenes években egy sor új eljárást dolgoztak ki a neurális hálókkal történő tanulásra. Mindeközben erős tudományszervező tevékenységet folytatott és Kanadát igazi neurális háló nagyhatalommá tette.   A deep learning neve onnét ered, hogy a XOR kapu három rétegénél jóval több ún. rejtett réteggel (hidden layer) dolgozik ez ilyen elven megvalósított rendszer. A mély rétegek többféle architektúrával dolgoznak (a deep learing szócikk a Wikipedia-n nagyon jó a témában!) és általános problémájuk hogy rendkívül számításigényesek és sok adattal adnak igazán jó eredményeket. Ezért sokkal inkább mérnöki bravúr egy deep learnign rendszer, mint kognitív modell! A deep learning kutatói általában GPGPU technológiával dolgoznak, nagyon gyakran olcsó, játékosoknak szánt GPU-kkal felszerelt gépeken. A Google kutatói által publikál Large Scale Distributed Deep Networks paper alaposan megkritizálta ezt a paradigmát s egyben körvonalazta, hogyan lehet big data infrastruktúrán megvalósítani egy deep learning rendszert. Napjainkban sorra indulnak a deep learning startupok - meglátjuk mire jutnak. Nem árt észben tartani, hogy a mesterséges intelligenciában két nagyobb ún. "AI winter"-t tartanak nyilván, számtalan kisebb mellett, melyeket hatalmas lelkesedés és jókora csalódás követett!


2015. január 27. 10:32

Váltsunk együtt paradigmát a nyílt tudománnyal!

Miközben a magyar (és úgy általában a világ kevésbé eleresztett felén élő) tudósok kalózkodásra kényszerülnek, hogy képben legyenek a kurrens szakirodalommal, a nagy szaklapokban egyre több kétes tanulmány kerül be és egyre többen aggódnak a tudományos munka minősége miatt. Mindkét problémára megoldás a nyílt tudomány! Mi a probléma? Az áltudományos szövegek generálása lassan külön sporttá vált, s nem is olyan régen a Springer és az IEEE több mint 120 darab cikket vont vissza, mert bebizonyosodott hogy gépileg generált nonszensz a tartalmuk. Christopher Chabris és tsai az általános intelligencia genetikai hátterét vizsgáló kutatásokat elemezve arra jutottak, hogy a legtöbb feltételezett asszociáció valószínűleg hamis. A pszichológusok egyik kedvenc kísérleti eljárása az előfeszítés (priming), de az utóbbi időben az ilyen eljárást alkalmazó kutatások jelentős részéről bebizonyosodott hogy nem megismételhetőek.   Úgy tűnik, a tudományt remekül szolgáló peer review rendszer nem működik igazán. A fenti hibák nem jelentik azt, hogy a tudományos tudás leértékelődött, vagy hogy el kellene vetnünk. A megoldást sokan a nyílt adatokban, a kutatáshoz kapcsolódó workflow-k és szoftverek megosztásában és a beszámolók szabad közlésében látják. Hol érdemes kezdeni? Mozilla Science Lab A Mozilla Science Lab különböző tudományterületeknek készít szoftvereket, nagyon aktívak a tudásmegosztás terén. A tudományos programozással foglalkozók és/vagy pythonisták körében régóta népszerű Software Carpentry-vel kötött együttműködésüknek köszönhetően egyre több kutató tanulhatja meg, miképp lehet spagetti kód helyett rendes programokat írni. Center for Open Science A Center for Open Science ingyenes statisztikai konzultációt biztosít és több tudományterületen is reprodukciós programot indított. Az alapítvány fejleszti az Open Science Framework-öt, ami egy online, ingyenesen elérhető tudományos workflow és projekt menedzsment eszköz. rOpenSci A rOpenSci az R statisztikai programozási nyelvhez nyújt könyvtárakat melyek megkönnyítik a reprodukálható kutatást, a nyílt adatokhoz való hozzáférést, az kutatási adatok publikálását és vizualizációját. Directory of Open Access Journals A DOAJ egy egyszerű és könnyen használható keresőfelületet nyújt a legtöbb minőségi nyílt hozzáférésű szaklaphoz. opendata.hu és CKAN A magyar opendata.hu célja, hogy kereshetővé tegye a magyar vonatkozású nyílt adatokat, beleértve ebbe a tudományos adatokat is. Az Open Knowledge Foundation által fejlesztett CKAN szoftver fut az oldalon, amit különféle kormányzati és civil szervezetek használnak adatok megosztására és elérhetővé tételére. Az oldalon lehetőség van az adatokat linkelni, vagy akár fel is tölteni. Miért nem jó a régi bevált rendszer? A tudomány szeretne meritokratikus lenni. De ha csak az fér hozzá a tudáshoz, akinek megfelelő az anyagi háttere, akkor félő, nem a legjobb, legokosabb emberek fognak tudásunk gyarapításán dolgozni. Egyre hosszabb időt kell tanulással tölteni ahhoz, hogy valaki a tudományos közösség tagjává válhasson, ami egyre drágább mulatság. A tudományos adatok és workflow-k megosztásával a legjobb eljárásokat ismerhetik meg a tanulók, nem kell adatokat gyűjteniük, vagy kis projektjeikkel beszállhatnak egy nagy kutatásba is.   Az ipar számára is egyre fontosabb a tudomány. Innováció csak a kutatói szféra és az ipar együttműködéséből születhet. Saját területünknél maradva, a nyílt forráskódú szoftverek nélkül rendkívül magas lenne belépési költsége egy-egy új cégnek. Nyílt adatok nélkül, mint pl. a UCI Machine Learning Repository, nem tudnánk kiértékelni az elkészült termékeinket, sőt gyakran tréning adatunk sem lenne.  Az olyan nyílt hozzáférésű szaklapok, mint a Journal of Machine Learning Research vagy a Computational Linguistics, a kis és közepes vállalkozásoknál dolgozók nem férnének hozzá a terület legújabb eredményeihez. A tudomány egyre nagyobb szerepet játszik a kormányzati döntéshozatalban is. Miközben szakértők döntik el, milyen új gyógyszereket engedélyeznek, hol épüljön atomerőmű, vagy éppen a szegénység felszámolását célzó randomizált kontrollált vizsgálatokat végeznek kormányzati szervek, a laikusok  számára ezek egyre inkább érthetetlenek. A nyílt tudomány megteremti a társadalmi kontroll lehetőségét, az ismeretterjesztés alapja lehet és a különféle citizen science mozgalmak bevonhatják az érdeklődő laikusokat és hobbistákat a tudományos munkába.


2015. január 21. 7:19

Nem elég okosnak látszani (?)

Alig pár hónapja ment át egy program a Turing-teszten, a mesterséges intelligencia kutatói már azon agyalnak, miként lehetne életszerűbbé tenni ezen teszteket. Habár a Turing-teszten jól szereplő programok (mint látni fogjuk) "tudása" nem éppen hatalmas, valahogy intuitíven jónak érezzük Turing alapötletét;  egy intelligens ágens képes társalogni, kérdésekre válaszolni csak úgy mint a Jeopardy-t 2011-ben megnyerő Watson.  Kacsák és tesztek Turing tesztjének több változata van, az alap helyzet háromszereplős imitációs játék. Ebben egy kérdező egy géppel és egy emberrel beszélget s a társalgás végén meg kell mondania melyik partnere humán. A gép akkor nyer, ha rá esik a kérdező választása. A bonyolultabb verzió szerint több kérdező vesz részt a játékban és akkor tekinthető intelligensnek a gép, ha a vizsgálatot végző személyek jelentős hányadát győzi meg arról, hogy "ő" ember. A Turing-teszt tkp. egy ún. duck test, hiszen annyit mond; ami úgy viselkedik mint egy ember, az intelligens és fordítva, ami intelligens, az úgy viselkedik mint egy ember. Dennett szerint teljesen racionális, ha vélekedéseket, vágyakat, stb. tulajdonítunk valaminek, ami kellően komplex módon viselkedik. Ez nem jelenti azt, hogy ténylegesen intencionális, értelmes rendszerrel állunk szemben ilyenkor. Searle Az eleme, az agy és a programok világa című esszéjében a mesterséges intelligencia erős programjának nevezi azt az elképzelést, mely szerint egy megfelelően programozott számítógépre tekinthetünk úgy, mint egy elmére. Ez azzal jár, hogy elfogadjuk az agy és az elme kettősségét, hiszen a programok függetlenek az őket futtató gépektől. Searle szerint azonban az ilyen elme nem rendelkezhet intencionalitással, hiszen szimplán szimbólumokat manipulál. Hiába tűnik úgy, hogy intencionális a rendszer, ez csak a programozóinak köszönhető. Erről szól az előző posztunkban ismertetett kínai szoba gondolatkísérlet. De miről is szól Turing tesztje? Mit tesztel és miért? Hogyan lehet átmenni ezen a teszten, anélkül, hogy az intelligencia legkisebb jelét is mutassuk? Mond gyorsan hogy Entscheidungsproblem! Mindenki tudja, hogy Turingnak volt egy képzeletbeli gépe, a Turing-gép. Azután lett több nagyon konkrét gépe, melyekkel sikeresen törték fel Bletchley Parkban a német Enigma kódokat. Azt már kevesebben tudják, hogy Turing gépe a 19. század végén kezdődő matematikai és logikai válság lezárásának csodálatos pontja. A matematika megalapozásának programja a 19. században kezdődött, ennek terméke Frege munkássága, ami megalapozta a modern logikát (s egyben a számítástudományt). Sajnos Frege teljesen lemaradt arról, hogy learathassa a babérokat, mivel nagy összegző művében, Az aritmetika alaptörvényeiben Russel ellentmondást fedezett fel (Russel erről szóló levelét mellékletként leközölte Frege!) Innét elindult a hajsza a matematika megalapozása után. 1928-ban Hilbert fogalmazta meg, milyen követelményeket kell kielégítenie a szilárd alapoknak, ez a híres Entscheidungsproblem, vagy eldöntésprobléma. Ez tkp. azt követeli meg, hogy egy rendes algoritmusunk legyen, ami minden jólformált kijelentésre képes megadni hogy helyes-e, vagy másképp fogalmazva, levezethető-e rendszerünk axiómáiból. Gödel tétlei (mert kettő van neki) bebizonyították egy konzisztens rendszerben vannak igaz, de nem bizonyítható állítások s az ilyen rendszerek konzisztenciája nem bizonyítható a rendszeren belül. Gödel eredményei alig három évvel Hilbert problémájának ismertetése után jelentek meg. Turing egy kicsit tovább várt, mivel őt az izgatta, hogy mi "kiszámítható", azaz mit lehet levezetni, már ha érdeklődésünket a levezethető, bizonyítható állításokra korlátozzuk. Ez tulajdonképpen a matematikai tevékenység formalizálása, ami a híres Church-Turing tézishez vezetett. A Turing-gép nem más, mint annak formalizált leírása, hogy mit lehet bizonyítani, ezért lett az ezt bemutató tanulmány címe On Computable Numbers,  with an Application to the Entscheidungsproblem. A Breaking the Code-ban a zseniális Derek Jacobi pár szóban így foglalja össze, mit is jelentett ez a kis dolgozat.   Gondolkodás, nyelv, más elmék Turing, Church és Gödel tételei lényegében visszacsempészik a pszichologizmust a logikába. No nem abban az értelemben, hogy a modus ponens aktuális pszichikai állapotunk függvényében fog működni, hanem visszatért vele az intuíció. Wittgenstein előadásaira járva Turing elgondolkodhatott azon, hogy miért is kell formalizálni és stabilnak tudni a matematikai alapjait. Wittgenstein:... Think of the case of the Liar. It is very queer in a way that this should have puzzled anyone — much more extraordinary than you might think... Because the thing works like this: if a man says 'I am lying' we say that it follows that he is not lying, from which it follows that he is lying and so on. Well, so what? You can go on like that until you are black in the face. Why not? It doesn't matter. ...it is just a useless language-game, and why should anyone be excited? Turing: What puzzles one is that one usually uses a contradiction as a criterion for having done something wrong. But in this case one cannot find anything done wrong. W: Yes — and more: nothing has been done wrong, ... where will the harm come? T: The real harm will not come in unless there is an application, in which a bridge may fall down or something of that sort. W: ... The question is: Why are people afraid of contradictions? It is easy to understand why they should be afraid of contradictions, etc., outside mathematics. The question is: Why should they be afraid of contradictions inside mathematics? Turing says, 'Because something may go wrong with the application.' But nothing need go wrong. And if something does go wrong — if the bridge breaks down — then your mistake was of the kind of using a wrong natural law. ...  C. Diamond (ed.) Wittgenstein's Lectures on the Foundations of Mathematics A fenti párbeszéd analógiája mondhatjuk, hogy akkor az ellentmondásmentesség egyben azt is jelenti, hogy működőképes is valami? Lehet olyan, hogy ellentmondásos, vagy eldönthetetlen és ennek ellenére működik valami? Elvileg igen, hiszen erről szólna (az eredeti kontextusától persze elszakítva) a Gödel-tétel. Ez lenne az intuíció, olyan igazságok megtalálása, melyek nem levezethetőek.   Az intuíció itt nem valami misztikus dolog, hanem valami, ami a Turing-gép keretein kívül van. De honnét tudjuk akkor, hogy valami többre képes mint egy Turing-gép? Hogyan állíthatjuk valakiről, hogy hozzánk hasonló intuícióval rendelkezik? Ezt nevezik a filozófusok a más elmék (other minds) problémájának. Wittgenstein privát nyelv argumentuma szerint ahhoz hogy feltételezzünk más elméket, szükség van a nyelvre. "Mi lenne, ha az emberek nem nyilvánítanák meg fájdalmaikat (nem nyögnének, nem fintorítanák el az arcukat stb.)? Akkor egy gyereknek nem lehetne a 'fogfájás' szó használatát megtanítani." - Nos, tegyük fel, hogy a gyermek egy zseni, és maga talál ki egy szót arra, amit érez! - Ekkor persze ezzel a szóval nem tudná megértetni magát. - Szóval ő érti a nevet, de senkinek nem tudja jelentését megmagyarázni? - De mit is jelent, hogy 'megnevezte a fájdalmát'? - Hogy csinálta, hogy megnevezte a fájdalmat? ! És, akármit is tett - mi vele a célja? - Amikor azt mondják: "Nevet adott annak, amit érzett", akkor elfelejtik, hogy a nyelvben már sok mindennek készen kell állnia ahhoz, hogy a puszta megnevezésnek értelme legyen. És ha arról beszélünk, hogy valaki a fájdalomnak nevet ad, akkor itt a "fájdalom" szó grammatikája az, ami elő van készítve; jelzi azt a posztot, ahová majd az új szó kerül. Wittgenstein: Filozófiai vizsgálódások Habár lehetséges, hogy valaminek nyelvi megnyilvánulások nélkül intelligenciát tulajdonítsunk, az intencionalitás, miképp a Wittgenstein idézet rávilágít, társas és nyelvi természetű. ELIZA, a legjobb beszélgetőpartner Joseph Weizenbaum ELIZA programja a Turing-tesztre készülő programok őse. Az ELIZA-t leíró klasszikus tanulmányából vett példa szerint kb. így néz ki egy beszélgetés vele (a nagybetűs mondatok a géptől származnak). Men are all alike. IN WHAT WAY? They're always bugging us about something or other. CAN YOU THINK OF A SPECIFIC EXAMPLE? Well, my boyfriend made me come here. YOUR BOYFRIEND MADE YOU COME HERE He says I'm depressed much of the time. I AM SORRY TO HEAR YOU ARE DEPRESSED It's true. I am unhappy DO YOU THINK COMING HERE WILL HELP YOU NOT TO BE UNHAPPY I need some help, that much seems certain. WHAT WOULD IT MEAN TO YOU IF YOU GOT SOME HELP Perhaps I could learn to get along with my mother. TELL ME MORE ABOUT YOUR FAMILY My mother takes care of me. WHO ELSE IN YOUR FAMILY TAKES CARE OF YOU My father. YOUR FATHER You are like my father in some ways. WHAT RESEMBLANCE DO YOU SEE You are not very aggressive but I think you don't want me to notice that. WHAT MAKES YOU THINK I AM NOT VERY AGGRESSIVE You don't argue with me. WHY DO YOU THINK I DON'T ARGUE WITH YOU You are afraid of me. DOES IT PLEASE YOU TO BELIEVE I AM AFRAID OF YOU My father is afraid of everybody. WHAT ELSE COMES TO YOUR MIND WHEN YOU THINK OF YOUR FATHER Bullies. DOES THAT HAVE ANYTHING TO DO WITH THE FACT THAT YOUR BOYFRIEND MADE YOU COME HERE Persze egy idő után fárasztó tud lenni ELIZA és könnyen ki lehet ejteni a szerepéből, de nagyon sokáig el lehet vele játszani. "Tudása" és fantasztikus "együttérzése" ún mintaillesztő szabályoknak köszönhető, melyek az ún. rogeriánus pszichológia visszakérdező módszerét imitálják. Norvig Paradigms of Artificial Intelligence Programming c. könyvében egy ELIZA típusú programhoz a következő szabályokat adja meg. Minden (((?* ?x) W (?* ?y)) egy helyettesítő szabályt ad meg, pl. a (((?* ?x) computer (?* ?y)) akkor lép életbe, ha a bemenet tartalmazza a 'computer' szót, ami aktiválja a  (Do computers worry you?) (What do you think about machines?) (Why do you mention computers?) válaszok valamelyikét (pl. véletlenszerűen választva). Sokkal inkább tűnik ez trükknek, mint valódi intelligenciának! Az ELIZA effect nevet kapta ezért az a jelenség, amikor gépeket emberi tulajdonsággal ruházunk fel pusztán viselkedésük alapján. Maga Weizenbaum is erre a jelenségre akarta felhívni a figyelmet programjával, ahogy tanulmányának bevezetőjében írja: It is said that to explain is to explain away. This maxim is nowhere so well fulfilled as in the area of computer programming, especially in what is called heuristic programming and artificial intelligence. For in those realms machines are made to behave in wondrous ways, often sufficient to dazzle even the most experienced observer. But once a particular program is unmasked, once its inner workings are explained in language sufficiently plain to induice understanding, its magic crumbles away; it stands revealed as a mere collection of procedures, each quite comprehensible. The observer says to himself "I could have written that". With that thought he moves the program in question from the shelf marked "intelligent" to that reserved for curios, fit to be discussed only with people less enlightened that he. The object of this paper is to cause just such a reevaluation of the program about to be "explained". Few programs ever needed it more. Akkor most mi van? Annyi bizonyos, hogy a Turing a tesztet az intelligencia szükséges és elégséges feltételeinek tekintette, azaz ha valami intelligens, akkor átmegy a teszten, ha nem, akkor megbukik. Úgy tűnik, bővítenünk kell a feltételek körét!


2015. január 13. 11:21

Miért nem kell félni attól, hogy a mesterséges intelligencia átveszi felettünk a hatalmat?

A technika fejlődése megállíthatatlannak tűnik. Már akad olyan program, ami átment a Turing-teszten. Az Amazon raktáraiban már most robotok indítják útjára a legtöbb rendelést, a Google Brain projekt képes volt YouTube videók alapján képes volt "megtanulni" a macska azonosításához szükséges készségeket, a Microsoft sem maradt le, real-time szöveges és hang alapú gépi fordítást vezet be a Skype-on. Pár éve a Google vezető közgazdásza még a statisztikust nevezte a 21. század legszexibb foglalkozásának, de nem is olyan régen úgy döntött a keresőóriás, hogy az Automatic Statistician projekt támogatásával megpróbálja a jövőben gépekre váltani a szakembereket is. A gépek egyre intelligensebbek és már nem csak a képzetlen munkaerőt fenyegetik, de vajon képesek lesznek egyszer teljesen leváltani minket?    Mi az a tudatosság? Mind a Google, mind pedig a Microsoft újdonságai az ún. deep learning módszert alkalmazzák. Ez nem más, mint a neurális hálók vagy konnekcionista modellek egy újabb, hatékonyabb megvalósítása. Az eljárás lényege abban rejlik, hogy előre megadott reprezentációk helyett a neuronokhoz hasonló kis egységek közötti kapcsolatok erősségét állítgatják a tanulási folyamat során.  Daniel Denett karteziánus színháznak nevezi a bevett agy-elme felosztást, mely szerint az agyi folyamatok szintje mellett van egy minőségileg más szint, ez az elme. Dennett szerint teljesen felesleges feltételeznünk valami mögöttest, az elme, vagy a tudatosság nem más, mint neuronjaink működésének mellékterméke.    Ha a tudatossághoz nem kell feltételeznünk mögöttes szervezőelveket, akkor a neurális hálókban megjelenő aktivitási mintázatokra alapozott viselkedést is tekinthetjük tudatosnak. Nagyon csábító gondolat ez, hiszen leredukálhatjuk egy fizikai jelenségre (a neuronok aktivitási mintázataira) a gondolkodás világát, amit így akár emberi sejtek helyett szilíciumlapkákon is megvalósíthatunk. De mit tud egy ilyen rendszer? Milyen tudással rendelkezik?   Searle kínai szoba gondolatkísérlete egy ilyen tudatosan viselkedő gépet szimulál. Képzeljünk el egy embert, akit bezárnak egy szobába egy kínai "grammatikával", ami egy szabálykönyv arra vonatkozóan hogy adott jelekre milyen választ kell adni. A külvilággal az ajtó alatt ki-becsúsztatott kínai írásjeleket tartalmazó lapokkal kommunikálhat emberünk. Ha egy anyanyelvi beszélő elkezd társalogni emberünkkel, akkor minden kérdésére választ kap, mert egy nagyon jó szabálykönyvet adtunk  a szobában tartózkodó emberünknek. A külső megfigyelő számára a szoba intelligensen viselkedik. Sőt, a józan észnek engedelmeskedve kedves kínai kísérleti alanyunk fel fogja tételezni, hogy a szobában tartózkodik egy kínaiul beszélő ember! Habár a szoba úgy viselkedik mint egy értelmes ember, valahogy nem szeretnénk intelligensnek nevezni a benne megvalósuló szabálykövetést. A gondolkodás testesült A redukcionizmus hatására egyre inkább elvetik a kutatók az elme és az agy kettősségét. Ugyanakkor jelentős problémát okoz annak megválaszolása, hogyan tesz rendet az agy a rázúduló információk áradatában. Hogyan lehetséges, hogy vannak közös hiteink, meg tudjuk érteni egymást, az eget kéknek látjuk stb. A hagyományos válasz szerint az elme rendezőelvei, pl. a chomskyánus univerzális grammatika és egyéb "előrehuzalozott" készségek miatt van ez így. A gépi tanulásban az ún. felügyelt módszerekkel tkp. ezt az implicit tudást adjuk át a gépeknek, amikor ún. tréningkorpuszokban jelezzük nekik pl. hogy egy adott képen van egy macska, a másikon pedig egy kutya. A neurális modellek során így épülnek fel az előre adott aktivitási mintázatok a neuronok között, melyek később természetesen a további tapasztalatoknak megfelelően átírhatóak. Persze tekinthetjük ezeket az előzetes tudásokat a karteziánus színház visszacsempészésének is, de manapság inkább azt mondjuk az evolúció, s azon keresztül véletlenek sorozata miatt alakultak ezek ki és nincs sok közük az eredetileg feltételezett elméhez. Sokkal érdekesebb kérdés az, hogy a felügyelt tanítás során tényleg át tudjuk-e adni ezt az implicit, előzetes ismeretet a gépeknek. Ha igen, akkor képesek vagyunk mesterséges agyakat előállítani és van mitől félnünk. Thomas Nagel híres What Is it Like to Be a Bat? esszéjében azonban arra hívja fel a figyelmet, hogy a mentális állapotok kontextusfüggőek. Nem tudhatjuk milyen lehet denevérnek lenni, mert nincs olyan jó fülünk, hogy hallásunkkal tájékozódjunk, nem úgy látjuk a világot ahogyan egy denevér látja, nem tudunk repülni, stb. stb. Készíthetünk egy denevér modellt, amit mi értünk, de ezzel csak magunk számára tettük elérhetővé a denevér lététet, továbbra sem tudjuk milyen is denevérnek lenni. Ez azért van, mert a denevérséghe,z s úgy általában a mentális állapotokhoz hozzá tartozik egy ún. kválé, azaz szubjektív minőség. De honnét jön ez a kválé?   A testesült gondolkodás (embodied cognition) adja erre a legfrappánsabb választ (rövid érvek amellett hogy többek vagyunk mint csupán az agyunk itt). A kválé eredete nem más, mint az, hogy agyunk egy testhez kapcsolódik. Testünk határozza meg, hogy milyen ingerek érhetik agyunkat és milyen válaszokat adhatunk ezen ingerekre. A karteziánus cogito ergo sum ebben az elméletben átfordul "cselekszem, tehát gondolkodom"-ba. A testesült gondolkodás nem csak egy szép elmélet, gyakorlatban is használják! Rolf Pfeifer kutatócsoportja a robotika terén hasznosítja a testesült gondolkodás eredményeit s robotjaik révén gazdagítják tudásunkat a területről. Az EUCOG program keretében is nagy hangsúlyt fektettek az irányzat megismertetésére. Ugyanakkor a legpraktikusabb kutatásokat a MODE program végzi, hiszen ők azt vizsgálják, hogy az új információ- és kommunikációs technológiák hogyan hatnak ránk. A számítógépek, a mobilok és a hordozható kütyük ugyanis egyfajta kiterjesztéseink, kezünk, szemünk, fülünk és kitudja milyen érzékszerveink meghosszabbításai. Ha hatékony kütyüket, szoftvereket akarunk használni, akkor nem mehetünk el ezen tények mellett.   Meg kell tanulnunk a gépekkel együtt dolgozni! Ha félnünk kell valamitől, az az, hogy nem tudunk alkalmazkodni a gépek jelentette kihívásokhoz. Az ipari forradalom óta a technológia egyre gyorsabban fejlődik, s ezzel az emberek produktivitása is jelentősen megnőtt. Ellenben a nyolcvanas évek óta a növekvő produktivitást nem követik a bérek. Brynjolfsson és McAfee The Second Machine Age című könyvében megdöbbentő grafikont találunk erről. Ez annak köszönhető, hogy már nem csak a kékgallérosok állásait veszélyezteti a technológia. De egyben azt is jelenti, hogy az új technológiák kitalálói és kezelői egyre hatékonyabbak is! Nem a gépek győzik le az embereket, hanem gépek és emberek teremtenek soha nem látott hatékonyságot! Brynolfsson kedvenc példája Kasparov sakkbajnoksága, minek keretében nem emberek és gépek csapnak össze, hanem vegyes, gépek és emberek alkotta csapatok. Az új technológiáknak hála amatőr sakkozók és számítógépeik sokkal hatékonyabban tudnak együttműködni mint a csak gépekből vagy profi nagymesterekből álló csapatok! A kérdés az, hogy testesült gondolkodásunk kiterjesztése az új technológiák által hogyan fog megvalósulni. A kognitív tudomány a schumpeteriánus innováció segítségére lehet megtalálni azokat az új területeket, ahol egyre több ember produktivitása növelhető s ennek anyagi gyümölcseit így minél többen élvezhessék is. A gépek eszközök, a kérdés az, kinek a kezében vannak!


2015. január 5. 14:19

Ráfázhatsz a big data elemzésével!

A big data korában egyre gyakrabban halljuk, az adatok majd mindent megoldanak. A Google a cambridge-i egyetemmel összefogva elindította az Automatic Statistician projektet, ami azt célozza, hogy a hihetetlen adatmennyiségeket automatikusan feldolgozva találhassunk összefüggéseket. Úgy tűnik semmi dolgunk nem maradt, a technológiai megoldások átveszik a tudományos kutatás szerepét is, Chris Anderson jóslata az elméletek végéről hamarosan igazzá fog válni. Tényleg automatizálható a tudományos munka? Van technológiai megoldás a tudomány és az ipar területén keletkező adatok egyszerű és olcsó elemzésére? Gary King és társai  a Google FluTrends adatait vizsgálva arra hívják fel a big data híveinek figyelmét, hogy a szép új világ bizony nagyon messze van még és a technológiai szolucionizmus helyett a jó öreg viselkedés - és társadalomtudományok módszertanához kell fordulnunk.  A Google Flu Trends a hype ellenére mellélő A Google 2009-ben a Nature hasábjain megjelent tanulmányában mutatta be, hogy a keresési statisztikák influenza járvány előrejelzésében nagyon hasznosak lehetnek. A kutatás eredménye a Google Flu Trends , amely alapjaira épült a Google Correlate, a napjainkban divatos jelenbecslés (nowcasting) módszerek elindítója lett. 2014 legfontosabb tanulmánya a big data területén vitathatatlanul a Gary King és tsai nevéhez fűződő The Parable of Google Flu: Traps in Big Data Analysis. A rövid írás tkp. összefoglalható a benne közölt ábrával:   A fenti ábrán is láthatjuk, a Google Flu jelentősen túlbecsüli az influenza trendet, a hagyományos egészségügyi adatok sokkal jobbak (még akkor is, ha sokkal lassabb a beszerzésük). A legjobb azonban az, ha kombináljuk a keresési és a hagyományos adatokat! Hogy mi lehet ennek hátterében? A szerzők a big data felhasználásával kapcsolatban az alábbi problémákat említik: A Google algoritmusai változnak, az hogy mi számít releváns keresésnek, változik időben A találatok megjelenítése is változik, a Google egyre inkább elmozdul a question answering irányába, a betegségekkel kapcsolatos keresések, gyakran a Knowledge Graph által "kibányászott" tényeket tartalmazó dobozt adják első találatnak (l. az lentebbi képet). További problémát jelent az algoritmus változása hat a felhasználó vkiselkedésére. Ezt nevezik manapság a "name it they'll game it" elvnek. Automatikusan szimpla korrelációkat keresni érdekes feladat, nagyon hasznos eredményeket is adhat ez, de nem lehetünk biztosak abban, hogy a feltárt összefüggés mögött oksági kapcsolat van s a jövőben is fent fog állni ez. Először fordul elő a történelemben, hogy a privát szektorban több adat áll rendelkezésre mint a kormányzati és kutatóiban összesen. A privát szektor az adatokra mint erőforrásra tekint, nem áll érdekében (és gyakran jogilag sincs lehetősége) megosztani hogyan és milyen adatokat gyűjt. Fontos megjegyezni, hogy King és tsai nem fikázzák le a Google Flu-t! Arra hívják fel a figyelmet, hogy annak alapvetően számítástudományi beállítottságú megalkotói elsiklottak metodológiai kérdések felett. Továbbá rávilágítanak arra, hogy a big data mellett az ún. small data és az adathalmazok összekapcsolása jelenti az igazán forradalmi lehetőséget. Minden összefügg mindennel  A keresők, de az egész internet világa alapvetően ember alkotta dolgok. Pontosan ezért alkalmasak, ha csak behatároltan is, a társadalmi jelenségek vizsgálatára. Azonban ha emberekkel van dolgunk, akkor egy különös világba csöppenünk, amit Soros reflexivitás fogalma jellemez a legjobban.     The concept of reflexivity needs a little more explication. It applies exclusively to situations that have thinking participants. The participants’ thinking serves two functions. One is to understand the world in which we live; I call this the cognitive function. The other is to change the situation to our advantage. I call this the participating or manipulative function. The two functions connect thinking and reality in opposite directions. In the cognitive function, reality is supposed to determine the participants’ views; the direction of causation is from the world to the mind. By contrast, in the manipulative function, the direction of causation is from the mind to the world, that is to say, the intentions of the participants have an effect on the world. When both functions operate at the same time they can interfere with each other. How? By depriving each function of the independent variable that would be needed to determine the value of the dependent variable. Because, when the independent variable of one function is the dependent variable of the other, neither function has a genuinely independent variable. This means that the cognitive function can’t produce enough knowledge to serve as the basis of the participants’ decisions. Similarly, the manipulative function can have an effect on the outcome, but can’t determine it. In other words, the outcome is liable to diverge from the participants’ intentions. There is bound to be some slippage between intentions and actions and further slippage between actions and outcomes. As a result, there is an element of uncertainty both in our understanding of reality and in the actual course of events. (George Soros: The General Theory of Reflexivity) Az internet világában folyamatos változásban vagyunk! Adatokat gyűjtünk, hogy jobbá tegyük meglévő rendszerünket. A megváltozott rendszer nyilván visszahat a felhasználókra is, ahogy Kingék is kimutatták a Google Flu esetében. A reflexivitás világában élünk!  Mind társadalomtudósok vagyunk! Justin Grimmer We're All Social Scientists Now: How Big Data, Machine Learning and Causal Inference Work Together című tanulmányában amellett érvel, hogy a a big data fantasztikus technikai lehetőségeket teremtette, de a technológiával elemezhető kérdések értelmes vizsgálatához a társadalomtudományok eszköztárára van szükség. Nem is annyira meglepő ez, hiszen az iparban általában felhasználókról és ügyfelekről, azaz emberekről szóló adatokkal foglalkozunk. Nem arról van szó, hogy ki kell rúgni minden programozót! Sokkal inkább arról, hogy a technológia nyújtotta lehetőségek kiaknázásához sokszínű csapatra van szükség.  Hogy állunk ezzel mi? King és társai tanulmányát olvasva alapvetően megnyugodtam. A Jobmonitor keresési adataira alapozott jelenbecsléses vizsgálataink során mi is a kevert modelleket (a hivatalos statisztikák, a GoogleTrends és a Jobmonitor logok adatainak mixelése ez esetünkben) találtuk a legjobbnak (erről a májusi meetupon számolt be kollégánk). De nem önmagában az eredmény nyugtatott meg, hanem az, hogy kis csapatunkban pont a megfelelő mixben vannak szakemberek. Egy IT cégnél nem meglepő, hogy vannak szép számmal programozóink, de az sem annyira egzotikus hogy akadnak nálunk alkalmazott fizikusok. A kutatóink viszont legalább két területen vannak otthon a nyelvészet, filozófia (nem kell meglepődni, a logika nagyon jól jön a szemantikus technológiáknál!) a szociológia és a statisztika tudományaiban. Nem mellesleg kutató kollégáink az informatikában sem elveszettek!


2015. január 2. 14:02

Miért foglalkozunk emócióelemzéssel és politikai blogokkal?

Az utóbbi időkben a legtöbbször azt kérdezték tőlem, miért foglalkozunk olyan ezoterikus dolgokkal mint az emócióelemzés és a politikai blogok világa. Egyáltalán, hogy jutott eszünkbe ez az téma? A rövid válaszom erre általában az, hogy szeretjük a szexi témákat és reméljük, valami hasznos (eladható) is kipottyanhat a projektből. A hosszú változat pedig ez a poszt. Három, elsőre nagyon különböző témát ismertetek röviden, melyek az emóciók és a politikai blogok vizsgálata felé tereltek minket.  Hogyan kerültek előtérbe az érzelmek? A tudomány alapvetően racionális, az érzelmekkel legfeljebb a pszichológia és a filozófia foglalkozott nagyon sokáig. A gazdasági válság hatására azonban nagyon megváltozott valami és hirtelen a közbeszédben is megjelent az eddig bevettnek hitt nézetek újragondolásának igénye. Michael Sandel Mi igazságos? című könyvében az AIG biztosító példáján keresztül szemlélteti hogy az érzelmeknek milyen mély szerepe van mindennapjainkban. A 2008-as válságban megroggyant biztosítót a kormányzat többmilliárd dollárral mentette meg, amit a vezetőség részben arra használt, hogy megjutalmazza magát. Az esetet "zsigeri felháborodás" követte, ami nagyon jól mutatja, hogy vannak olyan alapvető társadalmi kérdések, melyek nagyon mély érzelmeket váltanak ki az emberekből. Sandel mint politikafilozófus inkább azt elemzi, mi alakítja ki ezeket a közös elveket, miért nem szeretjük kimondani; igenis léteznek ezek és beszélnünk kell róluk, hiszen ez az a közös alap, amire a modern demokrácia épül. Martha Nussbaum politikafilozófiájának középpontjába az emberi készségeket állítja, Amartya Sen közgazdász megközelítését továbbgondolva. A Political Emotions-ban Nussbaum arra tesz igen meggyőző kísérletet, hogy a szeretet iránti igényből vezesse le a társadalmi összetartozást. Az egymás iránt érzett szeretet ebben a keretben nem csak a családi kapcsolatokat tartja össze, hanem ez alapozza meg az igazságosság alapelveinek elfogadását és a társadalom iránti elköteleződést. Az érzelmek megférnek a racionalitással George Lakoff gondolataival már sokszor foglalkoztunk blogunkon, most csak röviden összefoglaljuk hogy mennyiben hatott ránk. Lakoff szerint fogalmi gondolkodásunk metaforákban zajlik, ezek pedig ún. keretekbe (frame) rendeződnek. Ezek a keretek teremtenek analógiás kapcsolatot az elvont és konkrét dolgok között (pl. a fent a jó, a lent a rossz, stb.) Az hogy ilyen analógiákat észlelünk embervoltunk terméke. Ez kicsit fából vaskarika érvnek hangzik, de Lakoff az ún. embodid (testesült) gondolkodás híve, mely szerint az elme nem választható attól az anyagtól, amiben megvalósul, esetünkben az emberi testtől. Ebben az elméletben az érzelmeknek is megvan a maguk szerepe, hiszen nem választhatóak el a testesült gondolkodástól - magyarán a gondolkodással járnak - s szerencsénkre megjelennek a nyelvben is. Paul Ekman az érzelemkutatás megalapítója a non-verbális megnyilatkozásokat vizsgálja főleg. Számunkra azért jelentős figura ő, mert elmélete szerint a hat alapvető érzelem univerzálé, azaz jelen van minden emberben, kultúrától függetlenül. A metaforák terén maximum relatív univerzálékról beszélhetünk, azaz a nyelvek többségében fellelhető jelenségekről, vagy bizonyos mintázatot mutató jelenségekről (pl. ha X jelenség jelen van egy adott nyelvben, akkor Z is, de ha N jelenik meg, akkor X nem) és nagyon bonyolult automatikus felismerésük. Ellenben az emóciók szótári alapon azonosíthatóak, igaz a sifterek és targetek problémáját nem tudjuk elkerülni esetükben sem. Külön érdekességként megemlítjük, hogy Ekman az utóbbi időkben az emóciók társadalmi vonatkozásai felé fordult. Nem csak megfigyelhetünk, cselekedhetünk is Akbas és társai a Pollyanna jelenséghez hasonló folyamatot figyeltek meg a pénzügyi híreket elemezve, melyet Mispricing Following Public News: Overreaction for Losers, Underreaction for Winners című tanulmányukban összegeztek. A vizsgálatok szerint a negatív szentimentre alapozott kereskedési stratégia sokkal jobban teljesít, mint a pozitív hírekre figyelő. A szerzők ezt egy ún. kognitív torzításnak (cognitive bias) tulajdonítják, ami összhangban van a Pollyanna jelenség vizsgálata során felhalmozott empirikus adatokkal.   A kognitív torzulások elmélete Kahneman és Tversky nevéhez köthető s egy manapság nagyon divatos tudományág, a viselkedésökonómia egyik alapkövévé vált. Mára már rengeteg kognitív torzulást katalogizáltak, ezek lényege hogy egy "racionális vagy helyes" következtetés, vagy viselkedés helyett szisztematikusan tévesztünk bizonyos helyzetekben. Kérdés, hogy ha tudjuk hogy tévedünk, akkor beavatkozhatunk-e? Sunstein és Thaler Nudge című könyvükben amellett érvel hogy igen, be kell avatkoznunk bizonyos helyzetekben. A könyv címe is utal arra, hogy noszogatnunk kell a helyes irányba az embereket, erre külön "mozgalom" is alakult és nudge theory néven emlegetik elméletüket. Ennek lényege, hogy ha ismerjük milyen helyzetekben hibázunk szisztematikusan, akkor alakítsuk úgy a körülményeket, hogy optimálisan döntsünk. (Pl. ha valaki opcionálisan köthet nyugdíjbiztosítást pár ezer forintért, vagy választhatja hogy nagyobb fizetése legyen, akkor a jelen vágyai (no meg az adminisztrációs teher) felülírják a távoli jövővel kapcsolatos megfontolásait. A nudge theory hívei szerint legyen kötelező a biztosítás és az járjon adminisztrációs teherrel, ha valaki inkább magára költené azt a pár ezrest minden hónapban.)   Azzal, hogy befolyásoljuk döntéseinket, visszatértünk kiindulási pontunkhoz. Hogy merre tereljük az embereket, az egy értékítélet arról, mit gondolunk a jólétről, mit tartunk helyesnek és helytelennek, ez pedig visszavezet minket az érzelmekhez.   Hogy jön ez a mi projektjeinkhez? OK, eddig a nyelvtechnológiáról egy szót se szóltunk, egyedül egy kis nyelvészetet érintettünk Lakoffon keresztül. Reméljük annyi már látszik, hogy a politikafilozófia inspirált minket és nyelvészeti, pszichológiai valamint társadalomtudományi irodalma van szépen a politikai viselkedésnek. A politikai blogok világa kínálja magát a megfigyelésre, hogy megnézzük milyen szerepet játszanak ezen a területen az emóciók, hogyan fejezik ki nyelvi viselkedésükkel a szereplők szándékaikat, hoznak döntéseket, stb. A fenti forrásokból jött az inspiráció, de a mi megközelítésünk két, igen jelentős pontban eltér forrásainktól. A hálózatelemzés segítségével azt vizsgáljuk, mennyiben szolgálják az érzelmek ténylegesen a csoportok koordinálását. Hogyan terjednek az egyes emóciók, köthetők-e bizonyos témákhoz ezek? Az egyén vs. csoport vitával, azaz hogy alapvetően az individuum vagy a társas beágyazottság számít e nem foglalkozunk, a hálózatelemzés megközelítésé segít ezen túllépni és egy dinamikus rendszerben kezelni ezt a kettősséget. A projekt során szerzett tapasztalataink reméljük átültethetőek más területekre is - akár az online marketing vagy éppen a pénzügyi hírelemzés és előrejelzés terén. 


2015. január 1. 13:00

Sikeres előrejelzés a jobmonitor.hu keresési adataival

Egy korábbi posztban beszámoltunk róla, hogy a munkanélküliség jelenbecslésével kísérletezgetünk a jobmonitor.hu álláskereső oldal adataival kiegészített modellekkel. Ezúttal már "élesben" teszteltük a 2014. február-áprilisi időszakra, méghozzá nem kis sikerrel. A Központi Statisztikai Hivatal május 29-én közölte a 2014. február-áprilisi adatokat, mely szerint hazánkban a munkanélküliek száma tovább csökkent 360 500 főre. Ez mind az előző havi (369 700 fő), mind az előző évi adathoz (476 200 fő) képest csökkenést jelent. A legutóbbi poszt óta tovább finomítottuk a modelleket figyelembe véve, hogy az álláskereső tevékenység megelőzi a munkába állást. Többféle modellt kipróbáltunk, melyek közül kettő bizonyult statisztikailag szignifikánsnak a vizsgált időszak alatt. A két modell a munkanélküliség adott 3 hónapra eső számát közelíti egyrészt a munkanélküliek előző időszakban mért számával, másrészt az előző időszak utolsó, illetve az adott időszak első hetében történt jobmonitoros keresésekkel. A jobmonitor keresési adatokkal kiegészített modelleken kívül másféle módszereket is bevetettünk a munkanélküliek február-áprilisi átlagos számának előrejelzésére, melyek összehasonlítási alapul szolgáltak a jobmonitor modellek eredményességének ellenőrzéséhez. Az utóbbi időszakban a Holt-féle simítás tűnt az általunk kipróbált módszerek közül a legsikeresebbnek a jelenség közelítésében és előrejelzésében. Ez nem meglepő, hiszen 2013 januárjától a munkanélküliség szezonális mozgása megszűnt és folyamatosan csökkent a munkanélküliek száma. Azonban nem maradtak el sokkal a jobmonitor adatokkal kibővített modelljeink se, melyek a legutóbbi február-áprilisi időszakra még a Holt-féle simításnál is sikeresebb becslést adtak. Az előző időszak utolsó hetével becslő modell 1192 főt, az adott időszak első hetével becslő modell pedig csupán 831 főt tévedett. Ennél a többi módszer (Holt-féle simítás, egyszeres exponenciális simítás, megfelelő ARIMA modell, más beágyazott modellek) előrejelzései mind többel lőttek félre február-áprilisra. A becsléseket visszanézve (2013. augusztus - 2014. április) a jobmonitor modellek és a Holt-simítás nagyjából egyenlő hibával jelezték előre a munkanélküliek számát. Az átlagos abszolút eltérése mindegyiknek 7000 fő körül mozog, tehát körülbelül ennyivel tértek el átlagosan a tényleges értéktől ebben az időszakban, valamint az átlagos négyzetes eltérésük is nagyjából egyenlőnek bizonyult. A nagy kérdés azonban, hogy meddig csökkenhet még tovább a munkanélküliek száma. Ugyanis ha ez bekövetkezik, a Holt-féle simítás felmondja a szolgálatot és a jobmonitor.hu keresési adataival beágyazott modellektől megbízhatóbb előrejelzéseket várhatunk majd.


2014. december 26. 15:40

John Batelle: Hogyan fog kinézni a keresés mobil eszközökön?

Számos érdekes startup cégre bukkantam, miközben a mobil-világ megértésén tüsténkedtem. Az iram csak gyorsult, ahogy az alapítók elkezdték felfedni műhelytitkaikat. Ahogy az várható volt, rengeteg ember fáradozik érdekes dolgok létrehozásán - olyan szolgáltatásokon, melyek már eleve feltételezik, hogy a mobil-keresés fennálló rendszere nem fog sokáig állni. Lenyűgözőnek és további vizsgálatra alkalmasnak találom ezeket. A legutóbbi a Jack Mobile, egy titokban feltörekvő startup, melyet a korábbi Facebook- és Apple-alkalmazott, Charles Jolley alapított Mike Hansonnal kb. egy éve, a Mozilla és a Cisco főmérnökével, aki korábban a Sherlock keresőalkalmazás 1.0-ás verzióját írta Apple-re. Linkelnék valamit a Jack-ről, de egy oldalnyi általános információn kívül semmit nem lehet róla olvasni. Most, hogy Charles és Mike bevezettek a műhelytitkokba, lenyűgöző dolgokról tudok beszámolni, melyek rávilágítanak a poszt-webes világ keresési-, és az alkalmazások interfész-problémáira. Ha sikerül elrugaszkodni az asztali PC előtti üldögélés képétől, hogyan nézne ki a keresés? Mi a keresés maga, amikor az ember ezt a telefonján, az óráján, vagy bármilyen más, ráaggatott készüléken teszi? A Jack megpróbál ezen kérdésekre válaszolni, és a csapat újragondolja az interfész alapvető felépítését is. A keresés mobileszközökön eleve “génhibás". A webes keresés alapvetései - melyektől működni tud az egész - egyszerűen hiányoznak a mobilokon. A telefonunkon nincsenek indexelhető linkek vagy nyilvánosan elérhető weboldalak gyűjteménye, melyeket szabadon lehetne analizálni vagy keresőrobottal követni. Csak izolált, a nagy levesben kavargó, egymástól független alkalmazások halmaza van, melynek elemei mind csak a saját funkciójuk betöltésére hivatottak. De ez nem jelenti azt, hogy ne lenne szükségünk keresésre a mobilokon, sőt, nagyon is sokat keresünk rajtuk. De a kapott eredmények nem valami felemelőek. Ez főleg azért lehet, mert a telefonunk a  keresésre a webről szedi a választ. De ahogy arra Jolley és Hanson rámutatott, ezek a válaszok nem megfelelőek a mobil kontextusában. Webes- kontra mobilkeresés   Webes keresés Mobilos (poszt webes) keresés Kontextus információ alapú szükség alapú Keresőkifejezés Meghatározó (mi, ki, hol, miért) Tett vezérelt (hogyan tudok, mit tudok, hol tudok, miért (nem) tudok) Korpusz Teljes (találd meg, amire szükségem van) Javasló (Találj valami releváns információt) Kulcsszignál Link(ek) Személyes háttér (kontextus) Felhasználói felület Parancsalapú Társalgás jellegű Személyre szabás Keresési történet App használat, helyszín, kontextus   A mobilkeresések egyszerűen mások   Kontextus: Amikor a telefonunkon keresünk (vagy bármilyen, helyhez nem kötött eszközön), nagy valószínűséggel teljesen más szituációban vagyunk, mint a “weben". A mobilos keresések szolgáltatásokhoz kötődnek, pl. “Hogyan jutok el erre a címre?" és/vagy helyszínhez kötöttek, pl. “Milyen jó szállások vannak a közelben?" Keresési kifejezés / Korpusz: A kontextus-különbözőség miatt a keresésünk tárgya rendkívül leszűkül. A mobilkereséseknek általában egy találata van. Nem egy linkhalmazt várunk, amit aztán átböngészhetünk, hanem a konkrét helyzetünkre vonatkozó választ szeretnénk. A mobilkeresések ezért inkább a szolgáltatások és a tettek felé mozdulnak el a keresési kifejezések oldaláról. Ez azt jelenti, hogy a keresés teljessége elé gördülő, vélelmezett akadály (az ár amit pl. a Google fizet a teljes Internet RAM-ban tárolásáért) mobilokon egyáltalán nem hátrány. Nincs szükségünk az összes, lehetséges, indexelt információra, csak az éppen megfelelőre. Hogy ez milyen információ? Ez a következő pontunk. Szignál: Mobilon olyan új szignálok  is rendelkezésre állnak, melyek extra információként szolgálhatnak (és kellene szolgálniuk) a relevánsabb keresési találatok érdekében (de nem teszik). Az egyik ilyen fő szignál az aktuális helyszín. Aztán ott van még a helyszíntörténet (merre jártunk korábban), a telefonra letöltött alkalmazások, azok használatának története és alkalmazási módja, ami rá is vezet következő pontunkra.Felhasználói felület: A keresés mobilon jelenleg megegyezik webes társával. Parancssoros interfész, ahova begépelhetjük a kereső-kifejezésünket, amire kattintható linkeket kapunk válaszul. A Google keményen dolgozik ennek megreformálásán és általános keresőjének - ami képes előhozakodni az “egy igaz válasszal" - hang-alapú kereséssel való kombinálásával nagyot lépett előre. De a Jack-es srácok egy egészen másféle interfésszel hozakodtak elő, amelyet rendkívül izgalmasnak találok. Nevezzük a megközelítést “társalgásnak". A társalgási kereső-interfész   2004-ben találkoztam Gary Flake-kel, aki akkor az Overture  - korának vezető kereső cége, amit a Yahoo később felvásárolt, ami ezáltal egészen a Microsoft általi bekebelezésig volt a Yahoo kereső “lelke") - senior technikai vezetője volt. Már akkor is, amikor a mobilos keresés maximum csak hírből volt ismert, bosszantott a kereső-interfész.Megkérdeztem, hogy miért nem tudunk előrébb lépni a keresésben, mivel a “tíz kék link" megközelítés olyan semmilyen volt. Fel akartam tenni egy kérdést, válaszokat kapni, majd új kérdést feltenni. Vagy még inkább: azt akartam, hogy a szolgáltatás tegyen fel nekem kérdéseket, pl. “A ‘jaguár’-ra kerestél. Az állatra, az autóra, a focicsapatra, vagy valami másra gondoltál?" Gary búslakodva rámnézett és olyasmit mondott, amit soha nem felejtek el: “Ha csak egy modális ablakom lehetne…"Ezt arra értette, hogy akkoriban a keresés a tíz legjobb linkért való versengés volt, és bármi, ami ennek az útjába került - úgy mint egy felugró dialógus-ablak, amivel a keresést lehetett volna finomítani - visszatartó erejű volt az alkalmazás használatával szemben. És amennyivel kevesebben használják, annyival kevesebb a bevétel.De az ötletet - az oda-vissza kérdezéses keresést, társalgást, ha úgy tetszik - nem tudtam kiverni a fejemből. Így talán elképzelhető meglepődésem, amikor Jolley és Hanson megmutatta a Jack Mobile kereső interfészének korai prototípusát, ami olyan volt, mint egy párbeszéd.Megkértek, hogy ne áruljak el részleteket  az interfészről, elég az hozzá, hogy egészen újszerű, és sokkal inkább oda-visszakérdezős mint bármi más a weben jelenleg. Kellemes, és menő a használata. A Jack tudja hol vagyunk, így ha rákérdezünk arra, hogy “A Galaxis Őrzői", megmutatja a vetítési időpontokat a közelünkben találatként. Ha arra kérdezünk, hogy “olasz éttermek", nem egy listát ad Google+ értékelések alapján, hanem a közelünkben található éttermeket, esetlegesen értékelési sorrendben, amennyiben mondjuk GrubHub vagy OpenTable alkalmazás van a telefonunkon. Tanulságok   A Jack még mindig nagyon korai stádiumban van, de alapítói számos kulcsfontosságú megállapítást tettek eddig is. Az egyik a teljességgel kapcsolatos. Míg a “hosszú farok" (ritkán előforduló keresések) esetek nagyon jelentősek a webes keresésekben, addig a mobilos keresés közvetlenül a lényegre koncentrál, ami azt jelenti, hogy szűkíthetjük indexelésünket és algoritmusainkat, úgy, hogy közben még mindig eredményre vezet a keresőkifejezések nagy része. A mobilos keresés ugyanakkor nagyban személyreszabott. Nincs egy, általánosan megfelelő találati lista. Mobilon az alapján kell rangsort felállítani, ami a felhasználó számára leginkább célravezető, nem abból kell kiindulni, hogy valamely külső rangsoroló rendszer mit ítélt meg mérvadónak. A “3-as BMW" kifejezésre keresve más eredményt kell, hogy kidobjon a Mercedes szalon mellett, mint a főút menti gyorsétteremben. Noha a személyreszabott keresés a Google+ egyik legfőbb jellemvonása, az igazság az, hogy elég halovány a próbálkozásuk. A weben rettentően keveset tud rólunk a Google. Annál többet a telefonunk. Mindezen adat felszabadítása még mindig nagyon nehéz, de nincs már messze. A Jack megközelítésének egyik legérdekesebb vonzata azonban az lehet, hogy hogyan kavarja fel az ökoszisztémát a “publikálók" és a “közönség" között. Hanson rámutat arra, hogy a webes keresés a fogyasztóról szól, a tartalom előállítója sokadrangú utas a történetben, nehéz helyzetbe hozva magát: állandóan tudatosítani, publikálni kell jelenlétét a weben, vagy elnyeli a jelentéktelenség mocsara. Mindenesetre teljesen az ismeretlen működésű varázsdoboz jóindulatára vagyunk bízva, amikor arról kezdünk agyalni, hogyan is találhatnak meg minket a weben. Hanson egészen másféle modellt vázol fel a Jack indexelési elvéhez. Olyat, melyben a publikálók app- és tartalmi struktúrájukat megadott query-típusokhoz címkézett, különbejáratú feedjeiken kézbesítik a Jack-nek. Ha  ez úgy hangzik, mint a szemantikus keresés, nem véletlen. Hanson, aki a Mozillánál eltöltött ideje alatt a nyílt webes szabványok élharcosává nőtte ki magát, elárulta, mély sebeket hord a témával kapcsolatban. Ugyanakkor az az érzésük Jolley-val egyetemben, hogy egy újfajta játéktér jöhet létre, mely ténylegesen lehetővé teszi a szemantikus, személyreszabott keresést. A Jack több kérdést vet fel mint amennyit megválaszol, de éppen ettől érdekes. Itt van egy kicsi, jól finanszírozott, kereső-, web-, és mobil-szakértőkből verbuvált csapat, akik ténylegesen új megközelítésből tekintenek egy problémára/lehetőségre. Erre mindenképpen oda kell figyelni 2015-ben.


2014. december 15. 7:25

Dec. 18. Évadzáró NLP meetup

Évadzáró meetupunkat csütörtökön (december 18-án) tartjuk, a szokott helyen (Colabs-Buda) 18:00-tól. Érdemes eljönni, mert februárig kell várni a következőre! A részvétel továbbra is ingyenes, de arra kérünk mindenkit, hogy regisztráljon az esemény oldalán. Az évad utolsó rendezvényén nyelvtechnológiai cégek mesélik el hogyan indultak, milyen nehézségekkel kellett szembenézniük és képet kaphatunk arról milyen is az az igazán nagybetűs élet ebben a világban. A bemutatkozók: Neticle Technologies Kilgray Translation Technologies Precognox


Az összes hír