Beállítás kezdőlapnak! Hozzáadás a kedvencekhez! Az összes hírt látni akarom!  
Nyitóoldal Autó-motor Blogok Bulvár Életmód, egészség Gazdaság Kultúra, művészet Női témák Politika, közélet Sport Technológia Tudomány Videó
 

Kereső Világ

2014. április 15. 9:54

Az angol bizony nem elég!

Ma már minden angolul van! Aki nem tud angolul, az nem is létezik! Nem érdemes foglalkozni más nyelvekkel, ami számít az úgyis meg fog jelenni angolul! Az előbbi mondatok nem képezik hivatalos álláspontunkat, csupán az utóbbi időkben egyre gyakrabban hallunk ehhez hasonló kijelentéseket - és akik így vélekednek azok TÉVEDNEK! Nem csak a szép bölcsész lelkünk mondatja ezt velünk, hanem a rideg gazdasági racionalitás is. Habár nem szeretünk az angol (és esetleg anyanyelvünk) mellett más nyelvekkel próbálkozni, általánosan elterjedt siránkozni amiatt, hogy telített a piac. A válság után még mindig nehéz kinyitni a megrendelők pénztárcáját is. Érdemes megnézni, hol van most tartós növekedés! A pénzügyi világban elterjedt mozaikszavak, mint a BRIC (Brazília, Oroszország, India, Kína), BRIMC (Mexikót takarja az M), BIRCA (ahol az A az arab országokat jelöli) ill. a BRICET (az E kelet-európa, a T pedig Törökország) jelzik merre érdemes nézelődni. 2001 és 2011 között ezen országok nyelvein megjelenő netes tartalmak száma hihetetlen mértékben növekedett! the growth in English usage online stands at just over 281% over the past decade - far less than Spanish (743%), Chinese (1,277%), Russian (1,826%) or Arabic (showing a massive growth of 2,501% over the same period). [forrás] Ezek bizony nem kicsi nyelvek, rajta vannak a tíz legnagyobb nyelv listáján, de jelenleg "alig" használják őket az interneten. A kínait a világ lakosságának kb. 14.4 százaléka beszéli, az internetes tartalmak terén az aránya viszont csupán 3.3%. Az arab nyelv különféle változatait kb. 300 millióan beszélik mint első nyelv és összesen 450 millióan értik, ami több mint az emberiség 4%-a, de weboldalak kb. 0.8%-a érhető el arabul. (Az érdeklődő olvasó figyelmébe ajánljuk az Ethnologue statisztikáit a világ nyelveiről és a Wikipedia szócikkét az internetes arányukról.) A globalizáció ellenére, ahogy erősödik ezen országok gazdasága, egyre többen anyanyelvükön kezdik használni az internetet. Nekik pedig előbb, vagy utóbb szükségük lesz nyelvtechnológiai megoldásokra...   Jelenleg a feljövőben lévő nyelvekkel leginkább a kormányzati és pénzügyi elemzéseket végző kutatók foglalkoznak. A Twitter forradalmak kutatása, a társadalmi változások közösségi média elemzéssel történő előrejelzése, vagy a hírelemzés a nyugati világ mániája még manapság. De érdemes elgondolkodni azon, hogy ezen a területen növekedés és biztos kereslet mutatkozik és valószínűleg ez még sokáig így is marad!


2014. április 9. 17:38

A munkanélküliség előrejelzése a jobmonitor keresési adataival

Hal Varianék Google Trends adatokkal kiegészített gazdasági előrejelzéseit követve a Precognox Labs kipróbálta magyar adatokon, vajon hasznunkra lehet-e a hivatalos statisztikák kiegészítése internetes keresési adatokkal. A vizsgálathoz a KSH és az NFSZ hivatalos munkanélküliségi statisztikáit használtuk fel, melyeket a jobmonitor.hu álláskeresési adataival bővítettük ki a pontosabb becslés érdekében. A felhasznált idősoros adatok és 2013-as trendjük A munkanélküliség előrejelzésénél a Központi Statisztikai Hivatal és a Nemzeti Foglalkoztatási Szolgálat statisztikáit vettük alapul. Mindkét hivatalos szerv adattáblái megtalálhatóak honlapjukon, a KSH munkaerő-piaci statisztikái a http://www.ksh.hu/munkaeropiac címen, az NFSZ statisztikái pedig a http://www.afsz.hu/engine.aspx?page=full_AFSZ_KOZOS_Statisztika címen érhetők el. A KSH a munkanélküliek számának háromhavi átlagát közli havonta, úgy, hogy az első időszak adott évben januártól márciusig tart, a második februártól áprilisig, a harmadik márciustól áprilisig és így tovább, tehát összesen 10 teljes időszak esik egy évre. Az NFSZ a nyilvántartott álláskeresők számát havi bontásban közli minden hónapban. A két hivatal eltérő módszertannal dolgozik, amiből némi különbség adódik a két adatsor között. A KSH a Nemzetközi Munkaügyi Szervezet által bevezetett munkanélküli definíciót használja, melyet a KSH a munkaerő-felmérés során önbesorolás alapján mér fel. Azt a személyt tekintik munkanélkülinek, aki az adott héten nem dolgozott és nincs is olyan munkája, amitől átmenetileg távol lenne, ezen kívül aktívan keresett munkát a felmérést megelőző négy hétben, valamint munkába tudna állni két héten belül, ha találna megfelelő munkát. Az NFSZ a nyilvántartott álláskeresőkről vezet statisztikát. Nyilvántartott álláskeresőnek számít az a személy, aki rendelkezik a munkaviszony létesítéséhez szükséges feltételekkel, nem számít gazdaságilag inaktívnak (tanuló, öregségi vagy rokkantnyugdíjas), nem áll alkalmi munkaviszonyban és az illetékes kirendeltségnél álláskeresőként van nyilvántartva. A két halmaz jórészt fedi egymást, azonban a nem közös részbe leginkább azok a személyek tartoznak, akik ugyan nyilvántartott álláskeresők, azonban nem felelnek meg a KSH munkanélküli definíciójának, mert például dolgoztak 1-2 órát az adott héten vagy nem kerestek aktívan állást a felmérést megelőző egy hónapban. Emiatt a nyilvántartott álláskeresők száma általában 80-150.000 fővel magasabb a munkanélküliekénél, de mozgásuk egymással összhangban alakul. (ld. Ábra 1. és 2.)2013-ban a munkanélküliek száma negyedévről negyedévre csökkent, amely eltér a munkanélküliség megszokott éves szezonális mozgásától. (ld. Ábra 1.) A szokásos mozgás szerint az I. negyedév során megemelkedik a munkanélküliek száma, a II. negyedévben lecsökken és a III. vagy a IV. negyedévtől újra megemelkedik. Ezzel ellentétben 2013-ban csak az első negyedévben növekedett a munkanélküliek száma 2012 IV. negyedévéhez képest, azután folyamatosan csökkent. A KSH munkaerő-felmérése alapján a munkanélküliek 2013. évi átlagos létszáma 448 900 főnek felelt meg, az első negyedéves átlag 508 740 főt számlált, mely a IV. negyedévre 403 320 főre csökkent.  A szezonális jelleg mérséklődése a közmunkaprogrammal magyarázható, mely leginkább a téli közmunkaprogram hatásaként mutatkozik meg a IV. negyedévben. Az álláskeresők számánál ugyanezt a tendenciát figyelhetjük meg, az első negyedévi átlagos 620 126 főről 414 270 főre csökkent a nyilvántartott álláskeresők létszáma 2013 IV. negyedévére, az éves átlagos létszám pedig 528 000 főnek felelt meg. (ld. Ábra 2.) A csökkenés mértéke a KSH szerint azért volt nagyobb a nyilvántartott álláskeresők körében, mint a munkanélküliekében, mivel a közmunkában való részvétel lehetősége és az álláskeresőként történő nyilvántartás között közvetlen kapcsolat áll fenn, tehát azt a halmazt érinti jobban a közmunkaprogram, akik nyilvántartott álláskeresők, azonban nem számítanak munkanélkülinek. Ábra 1. A munkanélküliek számának alakulása 2013. január-március időszakától október-december időszakig (KSH) Ábra 2. A nyilvántartott álláskeresők számának alakulása 2013. januártól decemberig (NFSZ) A jobmonitor.hu adatai és a benne rejlő lehetőségek A jobmonitor.hu egy álláskereső oldal, mely összegyűjti más álláskereső oldalak álláshirdetéseit és biztosítja a keresést a meghirdetett állások tevékenysége és területi elhelyezkedése szerint. A jobmonitor adatainak nagy előnye, hogy a keresésekről és álláshirdetésekről akár napi szinten is számot tudunk adni, ami által könnyen hozzáigazíthatjuk az adatokat más statisztikákhoz, valamint a későbbiekben lehetőséget nyújt naprakész jelentések készítésére. A kereséseket elsősorban álláskereső, munkanélküli emberek indítják, ezért feltételezzük, hogy a keresések volumene összefüggésben van a munkanélküliek számának mozgásával, azonban nem fedi le azokat teljesen. Egyrészt az álláskeresések növekedése feltételezésünk szerint ellentétesen jár együtt a munkanélküliek mozgásával, amit a Google Trends irodalom is megerősít.  Tehát ha nő az álláskeresések mértéke, a munkanélküliségnek csökkennie kell. Másrészt a hivatalos munkaerő-piaci statisztikákba a közfoglalkoztatottak, valamint a külföldi telephelyen dolgozók számát is beleszámolják, ami befolyással lehet a foglalkoztatotti és munkanélküli statisztikák trendjeire. A 2013-as munkanélküli statisztika csökkenő tendenciájában pont ezeknek a csoportoknak a növekedése játszik közre. A jobmonitor keresési adatai ezzel szemben inkább a piaci szféra helyzetét tükrözik, melybe nem zavar bele a közfoglalkoztatottság, valamint a területi bontás miatt a külföldön dolgozni kívánók adatait is ki tudjuk szűrni. Ezért, ahogyan 3-5. ábrák is mutatják, a jobmonitor keresések éves mozgása eltér a hivatalos statisztikák tendenciáitól, a keresések átlagos száma a II. és a IV. negyedévben is emelkedett.2009-ben Hal Varian, a Google vezető közgazdásza a Google egy másik közgazdászával, Hyunyoung Choijal közösen megírták a Predicting the Present with Google Trends c. tanulmányukat, melyben leírják, hogy a Google Trends keresési adataival korrigált hivatalos statisztikák előrejelző modelljei előbb képesek jelezni a gazdasági folyamatok változásait, valamint sok esetben pontosabbak, mint a keresési adatok nélküli modellek. Az állításukat több példával is igazolják, többek között az egyesült államokbeli kiskereskedelmi eladások, autó eladások, utazások, valamint az egyesült államokbeli munkanélküliség idősoraival. Ezután többen követték Varianék útját más országbeli és/vagy másféle adatokkal, melyek mind alátámasztották állításukat. Több kutató is sikerrel állította elő saját munkanélküliséget előrejelző modelljét, melyben összegyúrták az adott ország hivatalos statisztikáját a Google Trends adatokkal. Erre példa Askitas és Zimmermann német, D’Amuri és Marcucci olasz, valamint Anvik és Gjelstad norvég adatokat felhasználó modellje. Általános megállapításuk, hogy a Google kereső adatainak felhasználásával több esetben is előbb tudták jelezni, ha az idősor trendje megváltozott. Ezek a tanulmányok vezettek minket arra, hogy kipróbáljuk, vajon magyar adatokkal is működnek-e az internetes keresési adatokkal kiegészített előrejelző modellek, melyet a jobmonitor keresési adataival és a KSH, valamint az NFSZ hivatalos statisztikáival próbáltunk ki. Ábra 3. A jobmonitor keresések számának alakulása 2013. januártól decemberig, simítás polinomiális regresszióval Ábra 4. A jobmonitor keresések számának alakulása 2013. januártól decemberig, spline simítással Ábra 5. A jobmonitor keresések számának alakulása 2013. januártól decemberig havi bontásban Előrejelző modellek 2014. januárra és februárra Az előrejelzés során két hónappal becsültünk előre a 2013-as évi adatok alapján, ugyanis ezek az adatok már rendelkezésünkre állnak 2014-re mind a KSH, mind az NFSZ által, így egyből ellenőrizni is tudtuk becsléseink pontosságát. A KSH szerint a munkanélküliek száma 2014. januárban és februárban tovább folytatta a 2013-as évi csökkenő tendenciát, míg az NFSZ adatai alapján a nyilvántartott álláskeresők száma januárban megtörte az egy éves tendenciát és újra nőni kezdett februárban is folytatva a növekedést. Első lépésben megnéztük, mit mutatnak az előrejelzések csak a KSH, illetve az NFSZ 2013. évi idősorainak adataiból becsülve, majd egy a hivatalos statisztikákat és a jobmonitor keresési adatokat egyesítő modellel is elkészítettük az előrejelzéseket. A 6. ábrán a munkanélküliek 2014. januári és februári számára vonatkozó becslései láthatóak, melyek mind megjósolják a december-februári csökkenő tendenciát. A valós értékhez legközelebb álló előrejelzéshez a Holt módszerrel és a spline simítással jutottunk. A hivatalos statisztikák és a jobmonitor keresési adatait egyesítő modell, mely a log(yt) ~ ß0 + ß1 * log(xt) + et  alakot veszi fel, azt adja meg, hogy egy adott időszakban mekkora a munkanélküliek mértéke. Ezt az értéket az adott időszakra vonatkozó jobmonitor keresések és a hivatalos statisztika munkanélküliségi adatai együttesen befolyásolják. A modellben szereplő ß1 érték arra vonatkozik, hogy milyen mértékben nő vagy csökken a munkanélküliség, ha a keresések mértéke(xt) változik. Tehát ha a KSH munkanélküli statisztikájából és a jobmonitor adataiból álló modellt nézzük, akkor a ß1 értéke -0.079 lett, ami azt jelenti, hogy a jobmonitor keresések 1%-os növekedésével 7,9%-kal csökken a munkanélküliek száma. A modell segítségével nem csak arra az időszakra lehet kiszámolni a munkanélküliek mértékét, amely időszak alapján a modellt létrehoztuk, hanem jövőbeli időszakokra is becslést tudunk adni. A modellel készített előrejelzés a 2013. decembertől 2014. februárig tartó időszakra 0,018%-os csökkenést becsült a valós 3,33%-os csökkenés helyett, tehát a tendenciát jól jelezte, azonban a csökkenés mértékét nem.   Ábra 6. A munkanélküliek számának valós alakulása és különböző becslései 2013. január-márciustól 2013. december-2014. februárigÁbra 7. A munkanélküliek számának előrejelzése 2013. december-2014. február időszakra A nyilvántartott álláskeresők száma mind januárban, mind februárban emelkedett, azonban ezt a tendenciabeli változást egyik előrejelzés sem tudta kimutatni, ugyanis mindegyik a 2013. évi tendencia szerinti csökkenés folytatását várta. (ld. Ábra 8.) Az NFSZ és a jobmonitor adataira számolt modell azonban beváltotta a hozzá fűződő reményeket. A modell értékei szerint ha 1%-kal nő a jobmonitoros keresések mértéke, 44,17%-kal csökken a nyilvántartott álláskeresők száma. Ez a modell tehát jelezni tudta a januári-februári tendenciabeli változást, amire egyik másik előrejelzés sem volt képes. Januárra 0,8%-os jósolt, februárra pedig 0,04%-os emelkedést jósolt, amely ugyan elmarad a valós százalékoktól (5% és 1,4%), de megerősíti a Google Trends irodalom azon megállapítását, hogy a keresésekkel kiegészített modellek előbb előrejelzik a trendbeli változásokat. Ábra 8. A nyilvántartott álláskeresők számának valós alakulása és különböző becslései 2013. januártól 2014. februárig Ábra 9. A nyilvántartott álláskeresők számának előrejelzése 2014. januárra és februárra Következtetések A használt becslések megerősítették, hogy a hagyományos előrejelzések nehezen képesek a trendbeli változások kimutatására. A keresési adatokkal kiegészített modellünk még ugyan finomításra szorul, azonban eredményeink így is biztatóak, és azt jelzik, hogy érdemes a hivatalos munkanélküli statisztikákat a jobmonitor keresési adataival kiegészítenünk. A kapott értékek alapján a netes álláskeresések mértéke előrejelzi az álláskereső személyek számának mozgását, méghozzá ellentétes irányban, azaz ha nő az álláskereső tevékenység mértéke, csökken a munkanélküliek száma. Az álláskereső tevékenység megelőzi a munkába állást, ezért ha nő a webes munkakeresési tevékenység intenzitása, arra számíthatunk, hogy a nagyobb befektetett munka következményeként az emberek nagyobb valószínűséggel fognak munkát találni maguknak. Így elképzelhető, hogy az álláskeresésre irányuló webes keresések előbb mutatják a munkanélküliek csökkenését, mint maguk a hivatalos statisztikák, ezért a jövőben modellünkbe érdemes lesz az eltérés időtényezőjét is belevenni.


2014. április 8. 10:42

Szemantikai-pragmatikai konferencia Szegeden

A Szegedi Tudományegyetem Általános Nyelvészeti Tanszéke és a Pragmatika Centrum Országos Kutatóközpont konferenciasorozatot indít Újdonságok a szemantikai és pragmatikai kutatásokban címmel.   A konferencia időpontja 2014. április 11., helye pedig a Szegedi Tudományegyetem Bölcsészettudományi Karának (Szeged, Egyetem u. 2.) Kari Konferenciaterme. A konferencia szervezői Maleczki Márta, Németh T. Enikő és Szécsényi Tibor.A konferencián résztvevők hallhatnak érdekességeket az átokhasználat pragmatikájáról, illetve megtudhatják, meddig is ér a nganaszan takaró.A konferencia előadásai alapján beküldött tanulmányok a Jelentés és nyelvhasználat címmel indítandó új elektronikus folyóiratban fognak megjelenni. A konferenciára előzetes regisztráció nem szükséges.Az esemény facebook oldala itt érhető el.  


2014. április 3. 8:00

Robotok: bevándorlók a jövőből

Vezető nélküli autók, autonóm porszívók, drónok - az utóbbi évtizedben egyre több robot jelent meg életünkben, a The Economist melléklete szerint ők nem mások, mint bevándorlók a jövőből. Habár az iparban - különösen a gépgyártás és az autóipar területén - már régóta alkalmaznak robotokat, napjainkban érkeztünk el egy fordulóponthoz, amikor több technológiai tényező együttállásának köszönhetően kritikus tömegű robotikai kutatás és vállalkozás gyűlt össze. A nagy dobásra még várni kell, a mennyiség még nem csapott át minőségbe, de a köztünk "élő" robotok betekintést nyújtanak a jövőbe!   A The Economist csatornáján a riport szerkesztője röviden összefoglalta a robotika jelenlegi helyzetét. Akik a cikkeket szeretnék bogarászni, azok figyelmét felhívjuk arra, hogy a lap ún. metered paywall modellben csak napi pár írást tesz elérhetővé ingyen - ezért előfizetéssel nem rendelkező olvasóinknak be kell osztaniuk a cikkeket.   A riport érdekessége, hogy az ipari robotok fő használói Dél-Korea és Japán után európai államok! Nem véletlen, hogy külön a robotikával foglalkozó kockázati tőketársaságok alakulnak sorra az öreg kontinensen! Hogy mit hoz a jövő, azt nem tudhatjuk. Azonban elgondolkodtató, hogy a robotok által betöltött állások helyett valószínűleg kevesebb új munkahely jön majd létre. Ha szerencsénk van, akkor Marx jóslata szerint minden ember felszabadul a munka terhe alól s művésszé válhat, ha nem akkor McAfee és Brynjolfsson (sajnos empirikusan is alátámasztott) jóslata szerint egyre tovább nyílik a gazdag és technológiai újításokhoz hozzáférő réteg és a szegények között. A robotok itt vannak, meglátjuk mihez kezdünk velük (és ők mihez kezdenek velünk!)


2014. április 2. 8:00

CEU MicroData is hiring a junior programmer to perform text analytics tasks

CEU MicroData is hiring a junior programmer to perform text analytics tasks. You would work with a team of faculty, programmers and research assistants to identify and match Hungarian firms and individuals by their name and address. Required skills: familiarity with standard Unix text processing tools demonstrated expertise with a high-level programming language (preferably Python) fluent Hungarian, conversational English experience with text processing is a plus You would be working 20 hours a week with flexible schedule. We are paying market wages and providing a better-than-market work environment. If you are interested, please send your CV and samples of your programming work to Miklós Koren at korenm@ceu.hu. CEU is an equal opportunity employer.  


2014. április 1. 8:00

Trading Consequences: gazdaságtörténet és nyelvtechnológia

Talán csak azok tudnak megúszni egy napot anélkül, hogy belefutnak a globalizáció szóba, akik egy lakatlan szigeten élnek (természetesen külön-külön mind érintett). A Trading Consequences projekt célja, hogy a fellelhető adatokat digitalizálva kutathatóvá tegye miképp alakult ki a globális kereskedelem - ehhez pedig számítógépes nyelvészek és gazdaságtörténészek együttműködése kellett! A Trading Consequences igai interdiszciplináris projekt, a gazdaságtörténeti kutatást kanadai tudósok végzik, a nyelvtechnológiai hátteret pedig skóciai szakik biztosították. Az eredmény nem csak internetes felületen keresztül érhető el, hanem github-ról is mindenki letöltheti az adatokat és a kapcsolódó kódot is.   Az online felület elvileg négy szempont szerinti keresést tesz lehetővé, de ezek közül mi csak hármat találtunk működőképes állapotban; árucikkek és helyek szerinti keresés ill. a kettő együttes vizualizációja.   Az árucikk keresés során a keresőmezőbe gépelve keresési javaslatokat kapunk, ami kifejezetten hasznos tud lenni, mert nem olyan egyszerű egy árucikket hivatalos nevén nevezni. Az eredmények szűkíthetőek korpusz és év alapján, egy térképen pedig a kapcsolódó helyek is megjelennek. Helyekre keresve meglepően jól szerepel az alkalmazás. Azonban a térképen csak a jelenlegi politikai határok láthatóak és nem derül ki, hogy egy-egy adott hely hova is tartozott egy adott időpontban. Az árucikkeknél is alkalmazott korpusz és évszám szerinti szűkítés itt is nagyon hasznos. A Location Cloud Visualization néven emlegetett kereső megpróbálja emészthető formában tálalni a hely és árucikk alapú keresés eredményeit. Talán ez lehet a legfontosabb a téma iránt érdeklődők számár, sajnos azonban még nem olyan fejlett mint az előző két megoldás. Egy kulcsszóhoz évtizedekre bontva jelennek meg a kapcsolódó földrajzi nevek, a szófelhőkből megszokott módon betűméretükkel jelezve frekvenciájukat. Ugyanakkor az árucikk mellett megadhatunk egy földrajzi nevet is másodlagos keresésnek, ez semmi mást nem tesz, mint kiemeli a találatot a szófelhőben. Láthatunk továbbá egy grafikont, ami a földrajzi név említésgyakoriságát jeleníti meg. Egy térképen pedig kontinensekre bontva láthatjuk az említések megoszlását. A projekt abszolút rajongói vagyunk az első perctől, de úgy gondoljuk van még mit dolgozni ezen az alkalmazáson. A Trading Consequences egyike az első olyan digitális bölcsészet projekteknek, melyek nagy mennyiségű történeti dokumentum feldolgozását teszik lehetővé. Az új módszerek eddig elérhetetlen perspektívát nyújtanak a kutatóknak s várhatóan izgalmas eredményekkel fognak szolgálni hamarosan. 


2014. március 25. 8:42

Elindult a kozbeszerzes.ceu.hu oldal

A CEU Department of Economics Koren Miks és Szeidl Ádám által vezetett CEU Microdata kutatócsoportja elindította a kozbeszerzes.ceu.hu oldalt, ami a magyar közbeszerzési hirdetményeket teszi egyszerűen kereshetővé és elemezhetővé.  A közbeszerzési hirdetmények sajnos strukturálatlan szöveges fájlok formájában kerülnek nyilvánosságra, ezek feldolgozását cégünk a Precognox Kft. végezte. Büszkék vagyunk arra, hogy magyar kutatók nemzetközileg is elismert munkáját segíthetjük. Az adatok segítségével már most nagyon érdekes dolgokra derült fényt, pl. egy, az Indexen olvasható cikkben számoltak be arról, hogy a mindenki által sejtett közbeszerzési mutyi empirikusan is kimutatható. Maga az oldal egyszerű, könnyen kezelhető, nagyon hamar megismerhető. Akik szeretnék az adatokat letölteni, azok akár programmatikusan is megtehetik ezt, hiszen mindenkit arra ösztönöznek az üzemeltetők, hogy vigye magával robotját is az oldalra.   A CEU Microdata csoporttól további izgalmas projektek várhatóak még, melyeket izgatottan várunk. Sok sikert kívánunk a csapatnak!


2014. március 24. 10:31

Mi az a nowcasting?

Egyik kedves olvasónk nekünk szegezte a kérdést, hogy akkor most mi ez a nowcasting őrület. A legegyszerűbb válasz, az hogy az ún. high-frequency real time, azaz nagyon gyorsan frissülő valós idejű adatok segítségével beleláthatunk a jelenbe. Ez elsőre nem tűnik egy nagy dobásnak, de gondoljunk bele abba, hogy a legtöbb gazdasági statisztikát havonta közlik, és általában bizonyos időközönként ki is igazítják a jelentéseket. Ilyen körülmények között nagyon hasznos lehet látni a pillanatnyi állapotot is, amire már lehet rövidtávú előrejelzést is adni. A hosszabb válaszhoz a mindenki által ismert Google eszközeit hívjuk segítségül. A Google Trends eszköz nagyon sokan kedvelik, mivel betekintést nyújt egy-egy keresési kifejezés népszerűségébe és immár minden év végén szerepelnek a hírekben az ún. Zeitgeist helyezettek, azaz egy térség legnépszerűbb keresései. A Google kutatói 2009-ben a Nature-ben publikálták tanulmányukat arról, hogy eszközük az infulenza trendek előrejelzésében is hasznosítható, s innét nem volt megállás.   A Google vezető közgazdásza Hal Varian szintén 2009-ben publikálta híres Predicting the Present with Google Trends című tanulmányát, ami a nowcasting irodalomban legtöbbet idézett mű lett. Varian kutatásai alapozták meg a Google Correlate eszközt, ami tkp. lehetővé teszi, hogy a felhasználó által megadott idősorhoz a Google Trends adataiból automatikusan megkapjuk azon idősorokat melyek korrelálnak adatainkkal. Habár fantasztikus eszközt adott kezünkbe a Google, nem árt megjegyezni, hogy maga Varian is arra ösztönöz mindenkit, akinek hasonló adatai vannak hogy próbálják meg ezeket valahogy kombinálni. Sajnos/szerencsére azonban nehezen elképzelhető, hogy a hitelkártya adatok, vagy éppen a kiskereskedelmi forgalom adatai elérhető k lesznek mindenki számára. Azonban hatalmas mennyiségű adatot gyűjt immár a kormányzati szektor is, ezek általában amúgy is nyilvánosak, érdemes ezeket elérhetővé tenni, mivel így az ipar is növelheti hatékonyságát, továbbá a civil kontroll és a tudományos elemző munka eredményessége is növelhető így. Érdemes megjegyezni, hogy a nowcasting területén alkalmazott korrelációs módszerek nem szólnak az okságról! Minden statisztika órán elhangzik, hogy a korreláció nem jelent okságot, a Wikipedia pedig külön szócikket szentel a "correlation does not imply causation" frázisnak. Ezért az ilyen vizsgálatokat fogadjuk egészséges szkepticizmussal!  


2014. március 21. 9:55

Alan Turing Institute - brit tudósok és a big data

A brit parlamentben nem rég jelentették be az Alan Turing Institute megalapítását.  Az intézet célja, hogy az Egyesült Királyság a big data és az gépi tanulási algoritmusok területén vezető szerepét megerősítse. Alan Turing a múlt század egyik legnagyobb logikusa volt, aki a modern számítástudomány mellett a számítógépes statisztika úttörője is egyben. A második világháború során sikeresen törte fel csapatával a németek Enigma kódját, de érdemei ellenére is bíróságon hurcolták meg homoszexualitása miatt. Turing 2013-ban kapott csak kegyelmet, ez tette lehetővé hogy nevét állami intézmények is felvehessék immár. De mi köze van Turing-nak a big data-hoz?   Turing neve leginkább az ún. Turing-gép kapcsán ugrik be a legtöbb embernek. Ez még nem egy valódi gép, hanem egy elméleti konstruktum, mely segítségével az ún eldöntés probléma megoldása vázolható. A probléma nagyon slendriánul fogalmazva arról szól, hogy adható-e egyszerű igen vagy nem válasz egy matematikai állítás érvényességére nézve. Az amerikai Alonzo Church is hasonló problémákon dolgozott Princetonban, az ő megoldása az ún. lambda kalkulus lett. A két megközelítés ekvivalens, ezért ma Church-Turing tézis néven hivatkoznak a függvények kiszámíthatóságáról szóló tételre. A világháborúban vált az elméleti gép valóságos számítógéppé, mivel a németek Engima kódját emberi erőforrásokkal nem lehetett feltörni. A logikai alapokon nyugvó gép célja bayesiánus statisztikai elemzés lett! Az Y Service által rögzített német rádióforgalmazást naponta többször is elküldték a kódfejtők központjába, ezzel a kor mércéje szerint igazi big data keletkezett. A kommunikáció sajátosságait vizsgálva arra jutottak, hogy az üzenetek bizonyos elemei ismétlődnek (pl. a rejtjelezők először közlik hogy adásban vannak, azonosítják magukat a másik félnek stb), ezt kihasználva mint előfeltevés a számítógépek sikeresen tudták feltörni a rejtjeleket (no meg persze pár készüléket is sikerült megszereznie a hírszerzésnek). Akit bővebben érdekel a módszer, annak Larranaga és Bielza rövid és érthető tanulmányát ajánljuk.   A történet érdekessége, hogy napjainkban ismét kezd egymásra találni a lambda kalkulus ihlette funkcionális programozás és az adatok elemzése (gondoljunk pl. az R statisztikai programozási nyelvre, vagy a Clojure népszerűségére a gépi tanulás területén). A britek hagyományosan jók mind a számítástudomány, mind a statisztika területén, ezért az Alan Turing Institute biztosan remek szakemberekkel lesz feltöltve. Érdemes lenne elgondolkodni azon, hogy hazánkban sem állunk rosszul - a Rényi Intézet és a SZTAKI Adatbányászat és Keresés Csoportja világviszonylatban is megállja a helyét - és viszonylag kis anyagi ráfordítást igényel ez a terület, más tudományágakkal összevetve.


2014. március 19. 17:15

Infografika az európai nyelvtechnológia piac jelenéről és jövőjéről


2014. március 17. 9:21

Könyvajánló: Taming Text

Szerencsére a nyelvtechnológia és a keresés iránt érdeklődők számára ma már klasszikusnak mondható könyvek érhetők el, mint pl. a túlárazott Manning & Schütze, Jurafsky & Martin és az ingyenesen is letölthető Manning, Raghavan & Schütze. Azonban a gyakorlatiasabb megközelítés, érthető okokból, ezen kötetekből hiányzik. A Python kedvelő elméleti olvasmányaikat a szabad hozzáférésű NLTK könyvvel egészíthetik ki, illetve az NLTK Cookbook segítségével mélyíthetik el tudásukat, sajnos azonban a keresésről ezen forrásokból csak keveset tudhat meg az olvasó. Grant S. ingersall, Thomas S. Morton és Andrew L. Farris Taming Text című könyve unikális több tekintetben is, mivel a keresés és a nyelvtechnológia problémáit együttesen tárgyalja és nyílt forráskódú Java eszközökön keresztül, gyakorlati példákkal illusztrálja hogyan lehet ma szoftveres megoldást találni rájuk. Habár a Manning marketingesei szeretnék, ha mindenki, aki ismeri a Java alapjait megvenné a könyvet, nem árt tudni, hogy a Apache Solr, az OpenNLP és az Apache Mahout könyvtárakat használják a szerzők példáikban és nem igazán szöszölnek azzal, hogy mélyebben bemutassák ezen eszközöket. Persze egy kellőképpen motivált olvasót ez nem rettent vissza, de nem árt egy kicsit megismerkedni a tárgyalt eszközökkel, a keresés és a nyelvtechnológia alapjaival mielőtt valaki beruház a könyv megvásárlásába!   Az első három fejezet tkp. bevezetés, úgy általában a kötet témáiba, a nyelvfeldolgozásba és a keresésbe. A negyedik fejezettől a nyolcadikig a fuzzy string matching, a named entity extraction, a klaszterezés és a klasszifikáció kérdéseit járják körül a szerzők. A nyolcadik fejezetben egy konkrét question answering alkalmazás elkészítésén keresztül láthatja az olvasó, miképp függnek össze az egyes területek. Az utolsó fejezet pedig ízelítőt ad a nyelvtechnológia további alkalmazási területeiből. Mindehhez pedig nagyon jó példakódok tartoznak, már azzal sokat lehet tanulni, ha az ember veszi a fáradtságot és egy kicsit jobban megismerkedik a példákkal.   Összegezve; a Taming Text az általunk ismert könyvek közül a legátfogóbb és leggyakorlatiasabb. Nem váltja meg a világot, hiszen kb. az industry standard megoldásokat tárgyalja, de azokat alaposan.


2014. március 11. 21:14

Precognox @ CeBIT

A héten cégünk a CeBIT-en állít ki, több magyar céggel az ötös hallban, a HITA támogatásának köszönhetően.  


2014. március 4. 9:00

De mihez kezdjünk a big data-val?

A technikának hála ma már szinte korlátlan mennyiségben tudunk adatokat gyűjteni, tárolni és elemezni. Azonban a big data kapcsán kevesen veszik maguknak a fáradtságot arra, hogy metodológiai kérdéseken mélázzanak el,  a kevés kivétel is általában Anderson The End of Theory: The Data Deluge Makes the Scientific Method Obsolate című írásához hasonló álláspontra jutva amellett érvel, hogy a hatalmas adatmennyiség feleslegessé teszi az elméleteket. A helyzet ennél sokkal bonyolultabb, mivel a big data általában a viselkedés- és társadalomtudományok területére téved, hiszen emberekről (felhasználókról, fogyasztókról) próbál megtudni minél többet. Abban mindenki egyet szokott érteni, hogy a big data minőségi változást hozott a tudományba, a Hey és tsai által szerkesztett The Fourth Paradigm: Data-Intensive Scientific Discovery című kötet kapcsán egyenesen egy új paradigmáról beszélnek egyesek. Hal R. Varian Big Data: New Tricks for Econometrics című összegző tanulmánya ellenben rávilágít arra, hogy a big data alkalmazása nem ér fel egy tudományos forradalommal. Miképp az írásból is kitűnik, a számítógépek alkalmazása az ökonometriától sem áll távol s a big data eszköztárát a szerző "hagyományos" szoftverekkel veti össze. További érdekesség, hogy a nagy adathalmazok elemzéséhez a bevett regressziós modellekhez hasonlókat ajánl (regression like methods). Úgy tűnik, a gyakorló társadalomtudós az új adatgyűjtési és -elemzési módszereket a már meglévő eljárások kiterjesztésének tekinti, s a minőségi ugrást nem a technológiától, hanem annak használatától várja. De akkor mégis, milyen hatása van a big data megjelenésének a tudományos módszerre? A kérdésre Wolfgang Pietsch Big Data - A New Science of Complexity című tanulmányában próbált válaszokat találni. A 19. században kialakult és máig bevett ún. tudományos módszertől Pietsch szerint a big data négy alapvető kérdésben tér el: a gyűjtött adatok sok paraméterét vizsgálja egyszerű funkcionális összefüggéseket keres alkalmazása minden esetben behatárolt nem alkot összefüggő, univerzális elméleteket Behatároltsága ellenére ugyanakkor sokkal sikeresebb lehet, mint egyes szofisztikált elméletek. A beszédfelismerésben Jelinek mondása, "Every time I fire a linguist, the performance of the speech recognizer goes up", példázza legjobban ezt. A nyelvészetben gyönyörű elméleteket lehet alkotni, akár csak egy karosszékben ülve, vagy egy beszédlabort használva. Ezek az elméletek nagyon hasznosak, csak sajnos a beszédfelismerésben nem használhatóak. Ellenben viszonylag primitív matematikai módszerek kellően nagy adatmennyiségen alkalmazva sokkal eredményesebbnek bizonyultak a nyelv feldolgozásának különféle területein. (Peter Norvig és tsai The Unreasonable Effectiveness of Data című írásukban több olyan területről is hoznak példát, ahol az adat intenzív megközelítés az elméletépítésnél sokkal gyümölcsözőbbnek bizonyult) Kicsit úgy tűnik, a big data meghozta az igazi posztmodern tudomány korát! Vége a nagy elméleteknek, és Feyerabend anything goes megközelítése győzedelmeskedik - akinek ez az értelmezés nem tetszik, az fogadja el, hogy a big data nem hozott új paradigmát, lokális területeken győzött, de még várnunk kell az áttörésre (ha egyáltalán lesz). Érdemes még a társadalomtudományok felé fordulni, akik rég letetettek a mindent megmagyarázó egységes elmélet megtalálásáról és a statisztika mellett olyan szavakkal operálnak mint verstehen, azaz a vizsgált alanyok (emberek, fogyasztók, felhasználók) megértése.


2014. február 27. 8:00

Fogalmi metaforák

Falyuna Nóra írása Lévén, hogy a nyelvhasználat nemcsak grammatikai kategóriákból tevődik össze, ezért a nyelvtechnológiai fejlesztésekhez szükséges további, a nyelvhasználatot lehetővé tevő mentális és egyéb tényezők vizsgálata. Ilyenek többek között a kognitív nyelvészet eredményei, például az ontológiakészítés, a szentimentelemzés, illetve a tartalomelemzés érdekét is szolgáló fogalmi metaforák témaköre. A metafora szó az emberek többségének az irodalmi szövegekben a szemléletesség, valamiféle hatás kiváltásának eszközeként használt költői képet jelenti. Ám a metaforák használata koránt sem korlátozódik csupán az esztétikai szövegekre. A mindennapi nyelvhasználat során is számos metaforikus kifejezést hívunk segítségül gondolataink, érzéseink megjelenítésére úgy, hogy gyakran nem is vagyunk tudatában annak, hogy metaforát használunk. Sőt, nem csak a köznyelvben, még a szaknyelvek esetében is élünk metaforák használatával. A kognitív nyelvészeti irányzat hívta föl a figyelmet arra, hogy a metaforikus nyelvi kifejezések áthatják életünk minden területét, és hogy a metaforák nem pusztán nyelvi szinten jelennek meg, annál jóval többek: gondolkodásunk részét képezik. Ilyen értelemben a metaforák fogalmi jellegűek, tapasztalati eredetűek, következésképp fogalmi metaforákkal van dolgunk, amelyek a beszéd során metaforikus nyelvi kifejezések formájában öltenek testet. Fogalmainkat a minket körülvevő (fizikai és szociális) valóság megtapasztalása során, mentális reprezentációkként konstruáljuk. A kognitív feldolgozás folyamatában a környezeti ingereket szelektáljuk figyelmünk irányításával, majd a vett ingereket kódoljuk, illetve az információkat értelmezzük. Ezekből következtetéseket vonunk le, és értékeljük is őket (így a mentális és a nyelvi reprezentációk is magukban hordoznak bizonyos ítéleteket). A megszerzett, és értékelt információink leképeződnek emlékezetünkben, absztraháljuk őket, valamilyen általánosabb jelentést, fogalmat hozunk belőlük létre, majd absztrakt struktúrába rendezve fogalmi sémákat alkotunk, amelyek egy adott prototípus köré szerveződnek. Ez a prototípus alapú megközelítés a kognitív nyelvészet értelmezése a kategorizáció folyamatának leírására. A prototípus-elmélet lényege röviden összefoglalva abban áll, hogy a kategorizáció tipikalitási feltételekkel (a kategóriára jellemző tulajdonságokkal) kijelölt prototípusok segítségével történik. A prototípus az összes tipikalitási feltétellel rendelkezik, ám nem szükséges, hogy minden kategóriába tartozó tag minden tulajdonsággal bírjon, lényeg, hogy a tulajdonságok a tagok között megosztva jelen legyenek. A tagok között legyenek hasonlóságok, ám nem szükséges, hogy minden tag minden másik taggal megegyező tulajdonsággal bírjon. Ez az elgondolás a családihasonlóság-elve, amelyre épül a prototípus-elmélet. (Röviden összefoglalva: a meglévő tulajdonságok különböző kombinációkban jelennek meg a tagok között, és így a "család" nem definiálható egyetlen közös tulajdonsággal, hanem az köti össze a tagokat, hogy bizonyos tulajdonságok megegyeznek köztük.) A kategorizáció tevékenysége egy velünk született, mindennapos, jellemzően nem tudatos képességünk, melynek során a világban tapasztaltakat kategóriákba, fogalmi sémákba rendezzük. A kognitív irányzat szerint ezek a kategóriák nem merevek, hanem a környezeti ingerek hatásra módosulhatnak, így a minket körülvevő és általunk befogadott (fogalmilag megkonstruált) világ nemcsak közegét képezi gondolatainknak, hanem teremtője is annak. Mivel nyelvi kifejezéseink fogalmi jellegűek, ha a külső ingerek hatására fogalmainkban változás történik, az megjelenik azok nyelvi reprezentációiban is, következésképpen a szójelentés is módosulhat. Az efféle jelentésváltozások a kognitív megközelítés alapján (gyakorta) metaforikus, illetve metonimikus eredetűek. Egy fogalmi metafora két tartományból tevődik össze: forrástartományból és céltartományból. A két tartomány összekapcsolása során egy a forrástartományból származó fogalmat társítunk egy a céltartományhoz tartozó fogalomhoz, így előbbi segítségével konceptualizáljuk utóbbit. Ez az összekapcsolás jelentkezik metaforikus nyelvi kifejezéseinkben. Ezt az összekapcsolódást bizonyos megfelelések teszik lehetővé. A megfelelések részlegesek, mert a két tartománynak nem minden kognitív eleme kapcsolódik össze. Némely forrástartománybeli elem kapcsolódik egyes céltartománybeli elemhez. Az, hogy nem minden elem képeződik le valamilyen másik elemre, illetve nem minden elemre képeződik le egy másik elem, teszi lehetővé, hogy a későbbiekben új fogalmi metaforák létesülhessenek, illetve új metaforikus nyelvi kifejezéseket alkalmazzunk. Mivel a fogalmak közti megfelelések részlegesek, egy forrástartomány több céltartomány konceptualizálásában részt vesz, és vice versa: egy céltartomány több forrástartomány segítségével értelmezhető. Ennek oka a forrástartományból használt elem jelentésfókusza, amely a fogalmi metafora fő témájává válik. Konkrét példán szemléltetve:Vegyük azt a kifejezést, hogy "ég a szerelemtől". Ebben a SZERELEM TŰZ fogalmi metaforát fedezhetjük föl, melyben a SZERELEM a céltartomány, amelyet az TŰZ mint forrástartomány segítségével értünk meg. A fogalmi metafora fő fókusza a TŰZ fő témája, amelyet leképezünk a SZERELEMre, jelen esetben a TŰZ intenzitása (ég a szerelemtől, lángra lobbantotta szívét, kihűltek érzéseik). Ám mivel nem vesz részt a metafora létrejöttében sem a TŰZ, sem a SZERELEM fogalmát alkotó összes kognitív elem, a megfelelések részlegesek: Forrás: TŰZ => Cél: SZERELEM           égő dolgok => szerelmesek           tűz intenzitása => az érzelem intenzitása           tűz lángra lobbanása => szerelem kialakulása Ahogy korábban írtam, a környezeti ingerek hatására fogalmainkban módosulások mehetnek végbe, tehát a kognitív feldolgozás során kialakított kategóriánk nem merevek, változhatnak. Ez teszi lehetővé, hogy a világ változásával új fogalmakat, ezáltal új fogalmi metaforákat konstruáljunk. Például a technológia és a tudományok fejlődése következtében megjelent a SZERELEM GÉP fogalmi metafora (nyelvi reprezentációja például a "szerelmük igen jól működik", ennek jelentésfókuszában a GÉP, és így a SZERELMI KAPCSOLAT működése lesz). Ennél a példánál láthatjuk, hogy itt már nem pusztán a SZERELEM, hanem a SZERELMI KAPCSOLAT alkot metaforát a GÉP fogalmával, ám a nyelvi reprezentáció során a szerelem szót használjuk. Ennek oka az, hogy fogalmaink konceptualizálásában, és szavaink jelentésváltozásában nem csak metaforák játszanak fontos szerepet, hanem metonimikus kapcsolatok is. A metonímia és a metafora között egyezik, hogy mind a kettő esetében egy fogalom egy másik fogalom megértésében játszik szerepet, tehát egy entitás egy másik entitást "helyettesít", és így az egyik megjelenítésére szolgáló nyelvi kifejezések használhatók a másik reprezentálására is. Különbség, hogy míg metafora esetében a két fogalom két külön tartományból kerül ki, addig a metonímia esetében a két entitás (közvetítő-és célentitás) ugyanabba a fogalmi tartományba tartozik, tehát tapasztalatainkban együtt jelentkeznek. Előző példánkra visszatérve, a szerelem szó jelentései, és használati lehetőségei metonimikus összefüggések eredményei. A SZERELEM idealizált kognitív modelljében, fogalmi keretében megjelennek a szerelmes felek, az általuk érzett érzelem, a köztük lévő kapcsolat, az ezzel jelentkező viselkedések, attitűdök, stb. Példánkban a SZERELMI KAPCSOLAT jelent meg, ám a metaforikus kapcsolat a SZERELEM és a GÉP között létesült, a nyelvi kifejezés ezt a kapcsolatot reprezentálta. Miként lehetséges ez? Úgy, hogy metonimikus viszonyok eredményezhetnek további metaforikus kapcsolódásokat. Első lépésben tehát a SZERELEM A SZERELMI KAPCSOLAT HELYETT metonímiát megalkotjuk (például: szerelmük igen erős kifejezésben nem a SZERELEM, hanem a SZERELMI KAPCSOLAT az erős). A következő lépésben metaforikusan összekapcsoljuk egy más tartománybeli elemmel, jelen esetben az ERŐvel. A kognitív nyelvészet e vizsgálatai lehetővé teszik többek között a poliszémiák másfajta megközelítési módját. Poliszémia alatt a többjelentésű szavakat értjük, melyek esetében a több jelentések között van valamiféle kapcsolat, nemcsak véletlenszerűek. Ez a kapcsolat nem csupán a közös etimológiában állhat, hanem a fentebb részletezett metaforikus és metonimikus összefüggésekre vezethető vissza. Továbbá fontos szerepet kap a neológ kifejezések, a neologizmusok vizsgálatában is. A neologizmusokban megjelenő metaforák és metonímiák vizsgálatáról, neologizmusok elemzéséről olvashatunk például Sólyom Réka írásaiban: Neologizmusok a mai magyar szókészletben; Neologizmusok kognitív szemantikai megközelítése; Szóösszetétellel keletkezett neologizmusok szemantikai szerkezetének vizsgálata. Ezen túlmenően a fogalmi metaforák vizsgálata lehetővé teszi, hogy fogalmaink hálóba rendeződését is vizsgáljuk, amely minden olyan területen hasznos lehet, ahol az asszociáció szerephez jut. Például különféle pszichológiai kísérletek során, gondoljunk a pszichoanalízis szabad asszociációs módszerére, melynek esetében azáltal, hogy fogalmaink kapcsolatban állnak egymással elménkben, egyikről a másikra asszociálunk, és ezt nyelvileg reprezentáljuk. Ennek feltárása során az elsőre szabadnak, és érthetetlennek tűnő asszociációk megmutatják, hogy a páciens elméjében milyen fogalom milyen más fogalmakkal áll kapcsolatban, és így következtetni lehet azok tapasztalati eredetére. Vagy mivel a fogalmi metaforák egyik leggyakoribb céltartománya az érzések és az érzelmek, a metaforák vizsgálata az érzelmi reakciók, érzelem megnyilvánítások, érzelemterminusok kutatásában is részt vállalhat. Asszociatív kapcsolatokat kihasználhatnak olyan esetekben is, ahol szükséges az érzelmekre hatás, a szemléltetés, esetleg a manipuláció is, vagy a ferdítés, homályosság, olyan tartalmak megjelenítése, amelyeket nehéz nyelvileg explicitté tenni. Ennek tipikus területei a reklámok, illetve a politikai beszédek, kampányok. George Lakoff politikai nyelvben megjelenő metaforákkal kapcsolatos kutatását mutatja be a szerző Moral politics c. művében, valamint a Kereső Világon találhatunk egy rövid összefoglalást róla. A marketingben és a reklámokban előszeretettel kihasznált metaforikus és metonimikus viszonyok vizsgálatáról olvashatunk például Horváth Dóra és Mitev Ariel Zoltán írásában. Ahogy már korábban írtam, metaforák a szaknyelvekben is használatosak. A szaknyelvi metaforákat egyfelől az motiválja, hogy a gyorsan lezajló változások következtében nincs idő fokozatosan megszokni és megismerni az új jelenségeket, és azok bonyolult megnevezéseit, ezért "egyszerűbb" metaforikus kifejezéseket használnak rájuk, hogy így közelebb hozzák a megnevezés tárgyát, sőt gyakran a szaknyelv és a köznyelv közti átjárást is metaforák biztosítják. Szaknyelvi metaforákkal kapcsolatban gondoljunk például az anatómiai szakterminológiára: ádámcsutka, dobhártya, fülkagyló, mellkas; vagy a számítástechnika egér, vírus, kukac szavaira. A szaknyelvi metaforák témakörét tárgyalja többek között Tolcsvai Nagy Gábor Kemény és puha, avagy metafora a szaknyelvben c. írása. (1989, In: Bíró Ágnes (szerk.): Szaknyelvi divatok. Gondolat Kiadó, Budapest.). A metafora és a metonímia vizsgálata fontos fogódzó lehet a pragmatikai kutatásokban is. Erről olvashatunk például Bencze M. Ildikó A metonímia a kognitív pragmatikaelméletek tükrében c. cikkében, vagy Nemesi Attila László Az alakzatok kérdése a pragmatikában c. könyvében, illetve a pragmatika funkcionális kognitív megközelítésére ajánlom Tátrai Szilárd: Bevezetés a pragmatikába c. könyvét.   Falyuna Nóra a Károli Gáspár Református Egyetem MA hallgatója Terminológia mesterszakon. Emellett főbb irányultsága a kognitív nyelvészet, azon belül is különösen a fogalmi metaforák világa. Érdeklődési körében kiemelten fontos szerephez jut továbbá a nyelvfilozófia, illetve a pragmatika területe.


2014. február 26. 8:42

Így cenzúrázd az internetet

Mikal Hem Kezdő diktátorok kézikönyve című művéből megtudhatjuk, miképp nyerhetünk 99.9%-al a választásokon, hogyan építsünk ki személyi kultuszt, vagy éppen teremtsünk saját építészeti irányzatot. De egy igazi diktátor ellenőrzi azt is, hogy milyen információhoz jut hozzá népe, amiről sajnálatos módon a kötet hallgat. Jó hírünk van a kedves olvasóknak, a dekadens nyugati világ kutatói a legszofisztikáltabb internetes cenzúrát tanulmányozva megírták a receptet! Abdelberi Chaabane és tsai az Inria kutatóintézetben a szír Telecomix hacker csapat által nyilvánosságra hozott adathalmazt elemezve mutatják be a Censorship in the Wild: Analyzing Web Filtering in Syria című tanulmányukban. A Technology Review-nak nyilatkozva Chaabane felhívja a figyelmet arra, hogy csupán a webforgalom 1%-át korlátozzák a hatóságok - ez arra utal, hogy ma már nem comme il faut csak úgy en block letiltani a netet, egy rendes elnyomó rendszer a kritikus pontokra összpontosít! Their analysis of this data reveals some surprising facts. It turns out the Syrians were censoring only a small fraction of the traffic, less than 1 per cent. “The vast majority of requests is either allowed (93.28%) or denied due to network errors (5.37%)," say Chaabane and co. But this 1 per cent shows exactly how Syrian authorities conducted censorship at that time. “We found that censorship is based on four main criteria: URL-based filtering, keyword-based filtering, destination IP address, and a custom category-based censorship," say Chaabane and co. The Syrians concentrated their URL-based filtering on instant messaging software such as Skype, which is heavily edited. And much of the blocked keywords and domains relate to political news content as well as video sharing and censorship-circumvention technologies. Gary King és tsai időt, pénzt és energiát nem spórolva a legjobbakhoz fordultak, hogy elkészítsék Reverse Engineering Chinese Censorship through Randomized Experimentation and Participant Observation című tanulmányukat. A közösségi média ma már a mindennapok része, még a diktatúrákban is. Jászberényi Sándor a Budapest-Kairóban egy angol újságíróval beszélgetve döbben rá, hogy bizony a social media kikapcsolása csak ront a diktátorok helyzetén, különösen zavargások idején, hiszen feláll a gép elől a fiatalság és más, sokkal nehezebben követhető applikációk után néz: "Ki csinálta a forradalmat?", kérdezem Davidet. "A kormányközeli média azt mondja, hogy az iszlamisták." "Hazudnak. Nem az iszlamisták." "Az ellenzék?" "Az ellenzék tüntetést szervezett, nem forradalmat." "Akkor ki?" "A Twitter meg a Facebook", mondja David. És nem viccel. [...] Az internet leállítása sosem látott tömegeket vitt ki az utcára, olyanokat, akik egyébként nem mentek volna ki. A rezsim lebecsülte az emberek információ iránti igényét. [...] El lehet venni egy embertől a szabad választásokat, a demokráciát, el lehet venni a szabadságjogainak nagy részét, de nem vehetik el a kommunikációs eszközeit, melyeket használ és ismer. Senki sem fog önként sötétségben maradni, elvágva mindentől és mindenkitől.   [...] Egy másik feltevés szerint a rendőrség a posztok és tweetek GPS adatait követve, valamint a közösségi médiát monitorozva csapott le csoportokra. Ezután a kormányellenes tüntetők a különböző oldalakon zárt csoportokat hoztak létre, melyekben nem tudják lenyomozni őket, illetve megugrott az olyan mobilappok népszerűsége is, melyek elrejtik a felhasználó aktuális pozícióját. A Hotspot Shield nevű alkalmazás törökországi letöltéseinek száma pl. 120.000-rel nőtt az elmúlt egy hétben.     Az egyiptomi helyzethez hasonló bonyodalmakat senki sem akar! King és tsai nem csupán a kínai közösségi médiát monitrozták, a felhasználókat bevonva végeztek vizsgálatokat és egy saját közösségi oldal felállításába is belevágtak, csak azért, hogy testközelből kapjanak információt a kínai hatóságok működéséről. Már maga a tanulmány absztraktja is impresszív! Chinese government censorship of social media constitutes the largest coordinated selective suppression of human communication in recorded history. Although existing research on the subject has revealed a great deal, it is based on passive, observational methods, with well known inferential limitations. For example, these methods can reveal nothing about censorship that occurs before submissions are posted, such as via automated review which we show is used at two-thirds of all social media sites. We offer two approaches to overcome these limitations. For causal inferences, we conduct the first large scale experimental study of censorship by creating accounts on numerous social media sites spread throughout the country, submitting different randomly assigned types of social media texts, and detecting from a network of computers all over the world which types are censored. Then, for descriptive inferences, we supplement the current uncertain practice of conducting anonymous interviews with secret informants, by participant observation: we set up our own social media site in China, contract with Chinese firms to install the same censoring technologies as their existing sites, and -- with direct access to their software, documentation, and even customer service help desk support -- reverse engineer how it all works. Our results offer the first rigorous experimental support for the recent hypothesis that criticism of the state, its leaders, and their policies are routinely published, whereas posts about real world events with collective action potential are censored. We also extend the hypothesis by showing that it applies even to accusations of corruption by high-level officials and massive online-only protests, neither of which are censored. We also reveal for the first time the inner workings of the process of automated review, and as a result are able to reconcile conflicting accounts of keyword-based content filtering in the academic literature. We show that the Chinese government tolerates surprising levels of diversity in automated review technology, but still ensures a uniform outcome by post hoc censorship using huge numbers of human coders. Jó tudni, hogy az ismertetett tanulmányok szabad hozzáférésűek, ezért nem csak saját cenzúránk felállításához, de akár annak kijátszásához is felhasználhatóak - jobb ha rögtön blokkoljuk a tudományos oldalakt hatalomra kerülésünk után!


2014. február 25. 8:00

A jövő ott van az interneten

Megjósolhatóak-e a forradalmak? Előre tudjuk-e jelezni, hogy egy ellátási láncban hol számíthatunk nem várt fennakadásokra politikai okokból? Az internetes adatok közeljövő megjóslására való használata Hal Varian nowcasting tanulmánya óta izgatja a szakmát. Ahogyan arról korábban már beszámoltunk, több startupot is alapítottak a területen, ezek közül a Palantir és a Quid lett igazán sikeres nagyvállalati és kormányzati körökben. A Recorded Future speciális területre fókuszálva emelkedett ki versenytársai sorából, ami a temporális és lokális trendek előrejelzése. Szerencsére a cég nem tartja teljes titokban rendszerének működését s nem rég Nathan Kallus egy tanulmányban összefoglalta miképp tudja a Recorded Future előrejelezni a társadalmi elégedetlenség kifejezését. Kallus Predicting Crowd Behavior with Big Public Data című tanulmányában nagyon nagyvonalakban felvázolja a Recorded Future rendszerét, majd a libanoni zavargások kapcsán a temporális előrejelzés kérdésével, az arab tavasz egyiptomi fejleményei és a 2013-as államcsíny kapcsán pedig a konkrét események predikcióival foglalkozik, a függelékben pedig részletezi elemzési módszerét. Sajnos a számunkra legérdekesebb nyelvtechnológiai háttérről csupán annyi derül ki, hogy a temporális viszonyokat és a named entity-ket több nyelven is képes kezelni a Recorded Future rendszere. Fogadjuk el ez alapján, hogy a szoftver képes azonosítani eseményeket, melyeket nevek (hely, résztvevők, stb.) és időpont (relatív, mint holnap, vagy egzakt mint 2014. november 18.) tartozik, valahogy úgy, ahogy a (szerencsére) nyílt hozzáférésű GDELT adatbázis épül fel.   2013-ban minden elemző azt fürkészte, hogyan gyűrűzik be a szír polgárháború Libanonba. Nem az volt a kérdés, hogy lesznek-e zavargások, hanem hogy hol és milyen intenzitásúak lesznek a társadalmi elégedetlenséget kifejező megmozdulások. A sajtó általában jó forrás arra, hogy a világ eseményeiről értesüljünk, csak éppen működésénél fogva lassú és sajnos gyakran korlátozott. Ennél fogva a társadalmi mozgalmak hirtelen változásainak előrejelzésére a hírek csak korlátozottan alkalmasak. Kallus a libanoni események kapcsán a híreket és a közösségi médiát vizsgálva arra a megállapításra jutott, hogy a webkettes tartalmak nagyon jól előrejelzik a zavargásokat. Ahogyan az alábbi ábra is mutatja, a közösségi médiában hamarabb megjelenik egy-egy beazonosított esemény említésgyakoriságának emelkedése, majd az esemény bekövetkezésekor a mainstream médiában is megtörténik ez. Az események időbeli beazonosítása mellett legalább annyira fontos a helyszín behatárolása és az esemény jelentőségének, potenciális hatásainak megállapítása is. Kallus a mainstream média figyelmének fokozódásának elemzésével kísérli meg előrejelezni ezt. Az öböl-háború óta megszokhattuk, hogy a média szinte valós időben közvetíti a rendkívüli eseményeket, s ez az internet elterjedésével csak fokozódik. Az egyiptomi forradalom és államcsíny kapcsán is megfigyelhető, hogy a zavargások hihetetlen mértékben megnövelik a hírbeszámolók számát. Az egyiptomi fejlemények kapcsán azt találta Kallus, hogy az azonosított események nagyon jól használhatóak a zavargások előrejelzésére - különösen az esemény beazonosítását követő három napon belül. Habár nagyon izgalmas Kallus és a Recorded Future megközelítése, érdemes megemlíteni, hogy Lagi és tsai The Food Crises and Political Instability in North Africa and the Middle East c. tanulmányukban (amiről már korábban beszámoltunk) sokkal egyszerűbben. Ennek ellenére, a Recorded Future megközelítése nagyon izgalmas! Az, hogy rendelkeznek ügyfelekkel pedig bizonyíték arra, hogy működőképes megközelítést alkalmaznak - külön öröm, hogy a cég európai, konkrétan svéd, gyökerekkel rendelkezik. Bővebben a témáról Twitter forradalmak Twitter forradalom? The Revolution Will Not Be Televised Társadalmi kísérletek és big data Megjósolhatóak a forradalmak? A szíriai polgárháború a GDELT adatbázison keresztül


2014. február 20. 8:00

Könyajánló: The Theory That Would Not Die

A bayesiánus statisztika ma valahogy ott van a levegőben, a big data, data science és machine learning buzzwordök mellett egyre gyakrabban halljuk, hogy bayesian data analysis. Ennek tükrében érthető, hogy a szűk szakmán kívül is sokakat érdekel mit is fed ez a fogalom. Sharon Bertsch McGrayne nagyon deskriptív, de a Twitter korában túl hosszú című könyve a The Theory That Would Not Die: How Bayes' Rule Cracked the Enigma Code, Hunted Down Russian Submarines, and Emerged Triumphant from Two Centuries of Controversy betekintést nyújt a Bayes-tétel születésének körülményeibe és leírja a hihetetlen népszerűségéhez és sokoldalú alkalmazhatóságához vezető útját. A kötettel foglalkozó kritikák szeretik a szerző szemére vetni, hogy nem nagyon időzik el az elmélet matematikai hátterével, de szerintünk ez nem is baj, ui. erre ott van sok-sok remek szakkönyv. Azzal viszont egyet kell értenünk, hogy nem az átlagos olvasó a célközönség, hanem a motivált emberek. Ez alatt nem csak a statisztikusokat értjük, hanem azokat, akik pl. érdeklődtek már a spam-szűrők működése, vagy a szerzőség megállapításának kérdése iránt.   A könyvvel kapcsolatban egyedüli problémánk az, hogy színvonala nem egyenletes, s ez nem csak az egyes fejezetekre, hanem azok alrészeire is vonatkozik. Cserébe viszont tisztes iparos munka, kevesebb mint 300 oldalon átrágva magunkat átfogó képek kaphatunk a Bayes-tétel világáról és biztosak vagyunk abban, hogy lesznek akik mélyebben is meg akarnak majd ismerkedni a témával miután letették a könyvet - ennél többet egy ismeretterjesztő műtől nem is kell elvárni.


2014. február 20. 8:00

Könyvajánló: The Theory That Would Not Die

A bayesiánus statisztika ma valahogy ott van a levegőben, a big data, data science és machine learning buzzwordök mellett egyre gyakrabban halljuk, hogy bayesian data analysis. Ennek tükrében érthető, hogy a szűk szakmán kívül is sokakat érdekel mit is fed ez a fogalom. Sharon Bertsch McGrayne nagyon deskriptív, de a Twitter korában túl hosszú című könyve a The Theory That Would Not Die: How Bayes' Rule Cracked the Enigma Code, Hunted Down Russian Submarines, and Emerged Triumphant from Two Centuries of Controversy betekintést nyújt a Bayes-tétel születésének körülményeibe és leírja a hihetetlen népszerűségéhez és sokoldalú alkalmazhatóságához vezető útját. A kötettel foglalkozó kritikák szeretik a szerző szemére vetni, hogy nem nagyon időzik el az elmélet matematikai hátterével, de szerintünk ez nem is baj, ui. erre ott van sok-sok remek szakkönyv. Azzal viszont egyet kell értenünk, hogy nem az átlagos olvasó a célközönség, hanem a motivált emberek. Ez alatt nem csak a statisztikusokat értjük, hanem azokat, akik pl. érdeklődtek már a spam-szűrők működése, vagy a szerzőség megállapításának kérdése iránt.   A könyvvel kapcsolatban egyedüli problémánk az, hogy színvonala nem egyenletes, s ez nem csak az egyes fejezetekre, hanem azok alrészeire is vonatkozik. Cserébe viszont tisztes iparos munka, kevesebb mint 300 oldalon átrágva magunkat átfogó képek kaphatunk a Bayes-tétel világáról és biztosak vagyunk abban, hogy lesznek akik mélyebben is meg akarnak majd ismerkedni a témával miután letették a könyvet - ennél többet egy ismeretterjesztő műtől nem is kell elvárni.


2014. február 19. 8:00

Könyajánló: The Information: A History, A Theory, A Flood

Hogyan kapcsolódik össze az Oxford Dictionary, a telekommunikáció története és a Boole algebra az Enigma feltörésével, génjeinkkel és a kvantumfizikával? James Gleick The Information: A History, A Theory, A Flood című könyve megkísérli megválaszolni ezen kérdéseket. Az információelmélet valahogy sosem lett szexi, annak ellenére hogy átszövi életünket, a nyelvészettől a fizikán át a biológiáig használják. Ennek legfőbb oka, hogy túl sok mindennel függ össze és talán túl sokan értik is félre. Gleick roppant szórakoztató könyvben meséli el, hogyan is alakult ki a modern információelmélet és került kapcsolatba a legkülönbözőbb tudományterületekkel.     Habár a könyv nagyon alapos, de szórakoztató is, ezért a maga 544 oldalával nem megterhelő. Megfelelő nyelvtudással akár 10-12 éves gyerek számára is érthető. Érezhető, hogy Gleick nagyon igyekezett emészthetővé tenni ezt a mellőzött területet, ezért Shannon mellett nem csak Babbage, Schrödinger, Watson és Crick neve tűnik fel, hanem pl.  McLuhan és Ong is. Mint a legtöbb ismeretterjesztő kötet, ez is inkább elgondolkodtat és segít meglátni az összefüggéseket a látszatra nagyon eltérő területek között - ugyanakkor semmi konkrétat nem tudunk meg elolvasása után az információelméletről! Aki nem riad vissza egy kis matematikától (kb. elemi algebra és a logaritmus fogalmának ismerete) az a The Information elolvasása után, vagy inkább helyett, John R. Pierce An Introduction to Information Theory című rövid könyvecskéjéből sokkal többet tudhat meg a területről. 


2014. február 19. 8:00

Könyvajánló: The Information: A History, A Theory, A Flood

Hogyan kapcsolódik össze az Oxford Dictionary, a telekommunikáció története és a Boole algebra az Enigma feltörésével, génjeinkkel és a kvantumfizikával? James Gleick The Information: A History, A Theory, A Flood című könyve megkísérli megválaszolni ezen kérdéseket. Az információelmélet valahogy sosem lett szexi, annak ellenére hogy átszövi életünket, a nyelvészettől a fizikán át a biológiáig használják. Ennek legfőbb oka, hogy túl sok mindennel függ össze és talán túl sokan értik is félre. Gleick roppant szórakoztató könyvben meséli el, hogyan is alakult ki a modern információelmélet és került kapcsolatba a legkülönbözőbb tudományterületekkel.     Habár a könyv nagyon alapos, de szórakoztató is, ezért a maga 544 oldalával nem megterhelő. Megfelelő nyelvtudással akár 10-12 éves gyerek számára is érthető. Érezhető, hogy Gleick nagyon igyekezett emészthetővé tenni ezt a mellőzött területet, ezért Shannon mellett nem csak Babbage, Schrödinger, Watson és Crick neve tűnik fel, hanem pl.  McLuhan és Ong is. Mint a legtöbb ismeretterjesztő kötet, ez is inkább elgondolkodtat és segít meglátni az összefüggéseket a látszatra nagyon eltérő területek között - ugyanakkor semmi konkrétat nem tudunk meg elolvasása után az információelméletről! Aki nem riad vissza egy kis matematikától (kb. elemi algebra és a logaritmus fogalmának ismerete) az a The Information elolvasása után, vagy inkább helyett, John R. Pierce An Introduction to Information Theory című rövid könyvecskéjéből sokkal többet tudhat meg a területről. 


2014. február 18. 8:00

Évadnyitó NLP meetup 2014. február 20-án

Évadnyitó meetupunkat február 20-án az új  Colabs-ben (1016 Budapest, Krisztina krt. 99.) tartjuk 18:00-tól. A részvétel ingyenes, de előzetes regisztrációhoz kötött. Két izgalmas előadással várjuk a nyelvtechnológia iránt érdeklődőket! Görög György a Montana tanácsadója egy az entitáskinyerésen alapuló leletértelmezés és tanácsadás témájában hamarosan záruló projekttel kapcsolatos tapasztalataikról beszél majd. Akik keresnek jó Java alapú nyelvi eszközöket a magyar nyelvhez, azok feltétlenül nézzenek be hozzánk, hiszen a magyarlancról Vincze Veronika és Zsibrita János egy átfogó bemutatót fog tartani.


2014. február 17. 8:00

Big Data Meetup prezentáció

Kása Károly fejlesztési vezetőnk Big Data Meetupon tartott Hadoop based ETL and Solr based semantic search behind Jobmonitor.hu című előadásának prezentációja megtekinthető alább, ill. elérhető a slideshare-en. Hadoop based etl and solr based semantic search


2014. február 15. 10:15

Miért vagy olyan negatív? - Budapest Science Meetup előadás a YouTube-on

A Budapest Science Meetupon tartott előadásom elérhető a csoport YouTube csatornáján, sok más érdekes prezentáció mellett. A kapcsolódó anyagok és slideok elérhetők korábbi posztunkból.


2014. február 14. 8:00

Egy igazán big data projekt a Precognox Labs-ben!

A Big Data meetupon a héten mutatta be fejlesztési vezetőnk a Jobmonitor mögött dübörgő Hadoop alapú ETL és Solr-es szemantikus kereső megoldásunkat. A technikának hála rendelkezésünkre áll egy olyan átfogó adatbázis, amely a hazánkban megjelent online álláshirdetések jelentős részét tartalmazza - a Precognox Labs a következő hónapokban megnézi mit is deríthetünk ki ezen adatokból! A legkézenfekvőbb kérdés, hogy az álláshirdetések száma összefügg-e a foglalkoztatottsággal, előre tudjuk-e jelezni azt a rendelkezésünkre álló adatokból? Van-e összefüggés más adatokkal, pl. a fogyasztói bizalmi index alakulásával? Hol, milyen állásokat kínálnak a munkáltatók? Mely állásokra keresnek rá a legtöbben? Ezernyi kérdésünk van még, a következő hónapokban meglátjuk tudnak-e erre válaszolni az adataink - olvasóinknak természetesen be fogunk számolni eredményeinkről!


2014. február 13. 19:00

Miért vagy olyan negatív? - Budapest Science Meetup slide-ok

A Budapest Science Meetupon tartott Miért vagy olyan negatív? Tartalomelemzés és kognitív torzulás a nyelvben című előadásom diáit és a kapcsolódó anyagokat láthatod alább. Kognitív torzulások from Zoltan Varju A témával régóta foglalkozok a blogon is, ezért korábbi kapcsolódó írásaimat ajánlom (nem azért mert olyan jók, de sok tanulmányt linkelek bennük). Több csirip, több szavazat? - Bollen és Jungherr eredményeinek összevetése Pollyanna és szentiment a magyar nyelvben - az egész kutakodás Kádár Ákos barátom projektjével kezdődött, aki észrevette, hogy a More Tweets, More Votes elv nem tartható a magyar adatok tükrében Politikai véleményárfolyam - érdemes megismerkedni a Neticle és a Méltányosság rendszeres jelentésével, amin szépen látszik, hogy a Pollyanna nem jellemzi a politikáról való közbeszédet Miért nem kérdez pozitívan a média és mi köze van ennek a nyelvhez? - Hart és tsai válaszát itt foglaltam össze, ill. itt találhatók példák arra, hogy milyen rosszak vagyunk a nyelvi információ megítélésében. Továbbá kitérek a pénzügyi hírek elemzése kapcsán a kognitív torzulásokra is. Politikai tartalomelemzés - Hart és tsai egy kicsit bővebben A fenti ábrán az R-index és a cikkek szentimentértékeinek (itt abszolút értéket vettünk) százalékos változása látható. Ahogy azt több kutatás is megelőlegezte, ha nem is fedi egymást a két görbe, de jól látható, hogy nagyon hasonlítanak, csak egy kicsit el vannak tolva egymástól. Mivel az R-index közvetlenül kapcsolatban áll a szentimentértékekkel (ugyanazon cikkeken alapul) és közvetve kimutatható kapcsolata más indexekkel (pl. fogyasztói bizalmi index). Látható, a szentiment emelkedését követi a válságot említő cikkek számának emelkedése. Ugyanakkor a recessziót emlegető írások számának csökkenése megelőzi a negatív szentiment mérséklődését. Megkockáztatjuk azt a spekulációt, hogy a javuló gazdasági környezettel szemben szkeptikus marad a sajtó, ami rányomja bélyegét egy darabig a közhangulatra. Korábbi vizsgálódásainkról az alábbi posztokban talál bővebb információt a kedves olvasó: Válság index magyar adatokkal - bővebben az R-indexről és annak kapcsolatáról más adatokkal Pártok a neten és Politikusok ismertsége, népszerűsége és a netes adatok - a posztokban azon spekulálok, hogy a puszta említésgyakoriság kapcsolatba hozható a mere exposure effect-tel.


2014. február 11. 8:00

CommonCrawl - ha unod a kis adathalmazokat, akkor 148TB-ot elemezhetsz a segítségével

A CommonCrawl Foundation célja, hogy mindenki számára nyilvánossá és elemezhetővé tegye az Internetet. Ezért rendszeres időközönként készítenek "pillanatfelvételt" keresőrobotjaik az egész netről, a legutóbbi adathalmazuk 148 terabájt(!!) lett, ami letölthető, vagy az Amazon AWS-en rögtön elemzhető! Az Amazon AWS-en nem csak az adat érhető el, hanem a feldolgozásához szükséges eszközök is - ami különösen a kezdők dolgát könnyíti meg. Sebastian Spiegler, a SwitfKey vezető adattudósa Statistics of the Common Crawl 2012 Corpus című jelentésében összegezte a korpusz főbb jellemzőit, melyből kiderül, hogy többé-kevésbé reprezentatív a minta. Az ún. top-level domain (azaz az internetes címek végződései, pl. .hu, .hr, .sk, stb) tekintetében és a nyelvek esetében is kiegyensúlyozott a CommonCrawl korpusza.  Érdekes, hogy az utf-8 karakterkódolás annak ellenére hogy a legelterjedtebb, még nem szorította ki az egzotikus megoldásokat. Az internetes tartalmak döntő többsége továbbra is szöveges, érdekes módon a mintából hiányoznak a videó tartalmak, a képek arány pedig igen alacsony. A CommonCrawl ígérete szerint (és a blekko nagylelkűségének hála) 2014-től havi rendszerességgel fogja kiadni friss korpuszait. Az adatok pedig bárki számára hozzáférhetőek - ami remek lehetőség a big data iránt érdeklődők számára, hiszen a hasonló adatbázisok a nagy cégek féltett kincsei általában. Kutatók, aktivisták, startupok és wannabe data scientist-ek ingyen juthatnak immár igazi big data-hoz - tessék élni vele!


2014. február 10. 8:00

Hírelemző - új projekt a Precognox Labs-ben

Olvasóink már tudják, minket nagyon izgat miképp is lehet a hírelemzésből következtetni a közeljövő eseményeire. A Precognox Labs új projektje, a Hírelemző eddigi ad hoc vizsgálataink tapasztalataira építve egy tartalomelemző alkalmazás elkészítését tűzte ki célul - s egyben Kulcsár Ádám gyakornokunk diplomamunkája is egyben. Célunk az, hogy könnyen áttekinthetővé tegyük a ránk zúduló híreket. A keresés, a tartalomelemzés és a korpusznyelvészet lesz segítségünkre a projekt során. Szeretnénk túllépni a puszta tartalomelemzés keretein és - hacsak korlátozottan is - a feltárható trendek előrejelzésével, más statisztikákkal való összevetésével is foglalkozunk majd. Az olvasók számára a projekt leglényegesebb eleme az, hogy tartalomelemzéssel foglalkozó írásainkban a bevett eszközeinket egyre inkább fel fogja váltani a Hírelemző.


2014. február 6. 11:50

Watson a lelkedet elemzi és a pénzedet akarja!

Korábban már beszámoltunk Eben Haber IBM-nél végzett, a közösségi médiában fellelhető szöveges tartalmakra alapozott pszichológiai profilozást lehetővé tevő kutatásáról. A Business Insider cikkéből kiderült, hogy ez immár nem csak egy kutatási program, hanem működő termék! Watson a közösségi médiában leírt hozzászólásaink alapján elemzi személyiségünket, ezt felhasználva a marketingesek személyre szabott üzenetekkel bombázhatnak minket. A fenti videó nagyon szépen összefoglalja hogyan is működik Watson az emócióelemzés területén. Sajnos azonban kevés szó esik azon pszicholingvisztikai kutatásokról, melyekre ezt az egész rendszert alapozták, ezért korábbi posztjainkat ajánljuk olvasóinknak: Nekünk elmélet kell Emócióelemzés, avagy Darwin és a nyelvtechnológia különös találkozása Szintén félrevezető információ (valószínűleg az IBM marketingeseinek ötlete), hogy ez az alkalmazás egyedülálló. Rendes kutató nem mond ilyet, elég csak a Sentiment Symposium korábbi előadóin átfutni és a videó archívumukat megtekinteni hogy lássuk, ez a téma bizony napjainkban ott van  a levegőben! Mi két, nagyon hasonló startupot szeretnénk kiemelni a sok közül, a SmogFarm-ot és a Mattr-t. Big Data, Linguistics, and the Science of Crowd Psychology (Erin Olivo, SmogFarm) from Seth Grimes on Vimeo. A SmogFarm egyik alapítója maga James W. Pennebaker, a nyelvi viselkedésen alapuló pszichológiai profilozás egyik atyja. A cég a szegmentáláson kívül más dolgokkal is foglalkozik, a fenti videóból pl. megtudhatjuk hogyan sikerült megtippelniük a Gallup Daily Mood Indexet! A Mappr (korábbi nevén Whit.li) pedig kifejezetten azt a munkát végzi már két éve, amire most Watson is bevetésre került!   A marketing buzz ellenére is nagyon örülünk annak, hogy az IBM az emócióelemzés területén is beveti Watson, hiszen jobb reklám ennél nem is kell egy eddig gyanúsan kezelt elméleti megközelítésnek.


2014. február 6. 8:00

A Google mint adatkereső

A Google már régóta bevezette az ún. faktuális keresések (pl. időjárás, részvényárfolyam stb.) a kis infódobozokat, melyek a találatok felett helyezkednek el, ill. azoktól jobbra a Knowledge Graph-ból kinyert adatok kaptak helyet a közelmúltban. Az elmúlt hónapokban ez így elénk tárt adatok köre tovább bővült a Google Ngram lexikai és a Google Public Data Explorer nyílt adataival. Ha pl. a magyar GDP adatokat keressük, a találatok felett megjelenik egy szép grafikon, ennek alján az "Explore more" linkkel. Az infódoboz mellett pedig ott a már megszokott Knowledge Graph-ból kinyert adat, ami szintén nagyon hasznos (ha pl. a magyar GDP helyett Tuvalura vagy egyéb egzotikus országra keresünk). Az "Explore more" gombra kattintva a Google Public Data Explorer oldalán találjuk magunkat, ahol több kapcsolódó adatot is találhatunk és alapvető vizualizációs eszközök is a rendelkezésünkre állnak. Az Ngram projekt adatai nem jelennek meg minden keresésnél, csak akkor ha a Google feltételezi hogy a szó jelentése érdekelheti a felhasználót (valószínűleg ezt a szavak gyakorisága és a keresők kattintási statisztikái határozzák meg). Az infódobozban a szó elsődleges jelentése jelenik meg, a lefele nyílra kattintva kapunk további információkat. A további információk között a szó eredetét találjuk és megtekinthetjük Ngram korpuszon mért gyakoriságát egy idősoron, továbbá a Google Translate segítségével lekérhetjük egyes nyelveken az adott szó megfelelőjét. (Minden rendes korpusznyelvész álma válik ezzel valóra, hiszen úgy tűnik a Google szerint ezen adatok érdeklik az embereket!) A faktuális válaszok megjelenésével egyre inkább úgy tűnik, hogy a keresők hagyományos szerepük mellé igyekeznek amolyan információfelfedező platformmá válni. Mi ennek csak örülni tudunk!


2014. február 5. 8:00

Senior Java fejlesztőt keresünk kaposvári irodánkba

Szeretnél egy vidéki városban, nyugodtabb életkörülmények között, mégis színvonalas környezetben és komoly projekteken dolgozni? Olyan helyen ahol 15 perc alatt a város bármely pontjáról beérsz a munkahelyedre? Senior Java fejlesztőt keresünk kaposvári irodánkba, aki mentor tud lenni mások mellett, tanítva őket a J2EE fejlesztés finomságaira. Cégünk világszínvonalú projekteken dolgozik, amit bizonyára érdekesnek fogsz találni. A Precognox-nál szakmailag a legjobb helyen van az, akit érdekel a keresés, a big data és a szövegbányászat - ezek mellett emberileg is megtalálhatod a számításodat, mert jó arcok között lehetsz minden nap, folyamatosan fejlődhetsz a céggel együtt és nem fogsz unatkozni. Ha szeretnél velünk dolgozni, kattints ide a részletekért!


2014. február 4. 8:00

Politikai tartalomelemzés

Hazánkban egy-egy politikai beszéd, vagy közéleti írás kapcsán elemzők hada kezd el beszélni az elhangzottak vagy leírtak tartalmáról, ám igen gyakran az értelmezői szemszög mögött nincs semmi empirikus (persze azon túl, hogy olvasta, hallotta, látta a szóban forgó megnyilatkozást). Az empirikus tartalomelemzés azonban a politikatudományt sem kerülte el, csak itthon még nem sokan hallottak erről! A tartalomelemezés kapcsán általában mindenkinek James W. Pennebaker neve ugrik be, pedig a vele egy egyetemen tanító Roderick P. Hart nevéhez is külön szöveganalitikai iskola kötődik, ami a LIWC-hoz hasonló DICTION programot fejlesztette ki az évek során. Két iskola közötti különbség elemzési témáikban és módszereikben ragadható meg leginkább, Pennebaker mint szociálpszichológus általában az emberi viselkedés iránt érdeklődik és híres módszere a funkciószavak (pl: és, vagy, de, stb.) gyakoriságának vizsgálata. Hart politológus és alapvetően a politikai retorika érdekli, azon belül is a tónus. A politikai szövegek tónusát pedig speciális szótárak alapján végzett gyakorisági vizsgálatokra alapozzák. Maga a DICTION programi ezen szótárak kezelésére és a rájuk alapozott frekvencia statisztikák elvégzésére lett kifejlesztve. Ma már a DICTION felhasználása túllépett a politikai szövegek elemzésén, olyan "egzotikus" tanulmányok is születtek felhasználásával melyek pl. a bankok jelentéseinek kockázatelemzéssel foglalkozó részeinek elemzése, vagy a hírpiac vizsgálata. Aki szeretne jobban elmélyülni a politikai tartalomelemzésben, feltétlenül olvassa el Hart és két tanítványának (Childers és Lind) közös kötetét, a Political Tone, How Leasers Talk and Why-t. A komoly cím egy inkább olvasmányos művet takar, habár a magyar olvasó számára megterhelő eligazodni az amerikai politikából vett példák között olvasása közben. A legérdekesebb részei a könyvnek azok, melyekben fény derül arra, mennyire rossz elemzők azok, akik nem számolják a szavakat, hanem csak benyomásaikra támaszkodnak. Pl. a fiatalabb Bush-t elemezve, sokan arra jutottak, előszeretettel használta az emelkedett, lelkesítő (hortatory) tónust, de beszédeit vizsgálva Hart és tsai arra jutottak, ez egyáltalán nem állja meg a helyét. Sarah Palin-re mint a radikális Teadélután mozgalom együgyű sztárjára szokás hivatkozni. Azonban Hart elemzése arra mutat rá, hogy a Palin nagyon ügyesen használja ki azt, hogy retorikájában igen hasonló az átlagos szavazóhoz (bővebben l. az alábbi videót). Roderick P. Hart - Lipscomb's Pizza & Politics from lumination Network on Vimeo. A politika az a terep ahol gyakran jobban számít hogyan mondanak valamit, annál hogy mit is mondtak valójában, ezért a politikai szövegek tónusának vizsgálata nem csak roppant szórakoztató, de hasznos is. Habár predikcióra csak nagyon korlátozottan használhatóak az ilyen vizsgálatok, sok előítéletet feltárhatnak és empirikus mederbe terelhetik  a közélei diskurzusról folyó kutatásokat. Reméljük hazánkban is hamarosan követőkre talál a módszer! (Amennyiben kedves olvasónk tud olyan szakember(ek)ről, akik hasonló kutatásokat végeznek, kérjük írja meg nekünk kik, mit és hol vizsgálnak így!)


2014. február 3. 8:31

A legjobb tudományos blogokat Debrecenben írják!

Sajnos hazánkban a tudományos blogolás valamiért nem annyira elterjedt, nyelvészeti és nyelvtechnológiai blogból pedig nagyon kevés van. Szerencsére a debreceni nyelvészek igyekeznek ezen változtatni, egyből három blogot ajánlunk tőlük! Fehér Kriszti Babák, gyerekek és nyelv Kriszti a Társas-Kognitív Nyelvészet Kutatócsoport munkatársa és blogján emészthető formában nyújt betekintést kutatásaiba.  Tóth Ágoston: Utazások a vektortérben A disztribúciós szemantika ma nagyon menő és Tóth Ágoston igazi szakértője a témának. Rákosi György: Névmás blog Azt hisszük, általános iskola óta tudjuk mi az a névmás - ennek ellenére pl. automatikusan még ma sem tudjuk igazán jól feloldani egy szövegben őket. Rákosi György blogja kicsit jobban elbizonytalanít minket, kicsit tisztázza is a dolgokat - ahogy a tudomány esetében ez lenni szokott!


2014. január 30. 8:00

A radikális jobboldal a hálózatelemzők kedvence

Hogyan lett a Jobbikból parlamenti párt és van-e kapcsolat szélsőségesek és a radikális jobboldal között? Az utóbbi években ezek a kérdések sokakat foglalkoztattak és két olyan politikatudományi tanulmány is született, ami a radikális jobboldal honlapjainak kapcsolatait feltérképezve és elemezve próbálta ezeket megválaszolni. A tanulmányok szerencsére szabadon hozzáférhetőek, ezért itt csak kedvcsináló gyanánt szemezgetünk belőlük. Malkovics Tibor: A magyar jobboldali (nemzeti) radikálisok és a hazai "gárdák" az internetes kapcsolathálózati elemzések tükrében  Malkovics kb 120 szervezet (párt, egyesület, félig legális és illegális csoportok) honlapját vizsgálta meg, amihez az adatokat kézzel gyűjtötte, szintén humán módon történt az oldalak közötti kapcsolatok (linkelés) feltérképezése.  A hálózat centrumában szélsőjobbos szervezetek foglalnak helyet. Érdekes, hogy megjelennek a networkben a mérsékeltek is, egyfajta híd szerepet töltve be jobboldal különböző formáció között. (Ez nem jelenti azt, hogy bármiféle közösséget vállalnának velük, csak a honlapok közötti linkelésről van szó!) A klasszikus hálózatelemzés nagykönyve szerint a szerző megvizsgálta mely oldalak be- ill. kifoka a legmagasabb. A befok, vagy in-degree tekinthető egyfajta presztízsnek, hiszen azt jelenti, sokan linkelnek az oldalra. A kifok, vagy out-degree azt méri hány link indul az adott oldalról, ez befolyásosságnak tekinthetjük. Ahogy az alábbi ábra is mutatja, a nagy kifokkal rendelkezők között elkülönül a mérsékelt és a szélsőségesebb irányzat. A nagy befokkal rendelkező oldalak esetében pedig egyértelműen kirajzolódik hogy kiknek van a legnagyobb presztízse a hálózatban. A tanulmány érdekes megállapítása, hogy a mérsékeltek sokkal kevésbé linkelik a radikálisabb oldalakat, még fordított kapcsolat sokkal gyakoribb. A hálózatban vannak olyan ún. facilitátorok, akik sok oldalt linkelnek (ilyen pl. a Magyar Gárda) és ún. információsüllyesztők, ahonnét kevés link mutat kifelé (pl. a Jobbik honlapja). Egy hálózat sűrűsége azt mutatja, hogy az elvileg lehetséges kapcsolatokhoz képest mekkora a ténylegesen meg is lévők aránya. Az elemzett hálózaton ez 1.6%, ami meglehetősen alacsony érték, de a szórás magas, tehát a linkek egyenlőtlenül oszlanak meg. Pl. a facilitátor, azaz sokat hivatkozó Magyar Gárdától két lépésben el lehet jutni az összes "rokon" szervezethez. A tanulmány további érdekessége, hogy az automatikus klaszterezés nagyon szépen kihozza az egyes szervezetek közötti különbségeket.  Jeskó-Bakó-Tóth A radikális jobboldal webes hálózatai (Jobbik: Egy network-párt természetrajza) A Méltányosság elemzői és a Prezi egyik munkatársa által jegyzett tanulmány nem csupán szervezeteket, hanem egyéb, a radikális jobboldalhoz kapcsolódó oldalakat, pl. zenekarokkal, e-kereskedelmi portálokkal és "életmód oldalakkal" is foglalkozik, mivel arra keresi a választ, milyen internetes hátországot sikerült kiépíteni a nemzeti radikálisoknak. A mintavételezést szintén kézzel végezték és tiszteletre méltó hogy 300 oldalt sikerült így megvizsgálniuk. A minta nagysága lehetővé tette, hogy a jobboldali szubkultúra egyes szektorait, pl. nemzeti rock, híroldalak, szolgáltatói szektor, külön-külön is vizsgálhassák. A híroldalak kapcsolatait bemutató ábrán látható, hogy itt is megjelennek a mérsékelt jobboldalhoz köthető szereplők (pl. Hír TV, Magyar Nemzet), ami Malkovics hipotézisét támogatja. Érdemes vetni egy pillantást a radikális honlapok és a közöttük lévő kapcsolatok számának növekedését bemutató ábrára. Az oldalak száma kb. a háromszorosára nőtt lassan, a kapcsolatok viszont 2004-ben és 2006-ban ugrásszerűen növekedett. Még szemléletesebb az ábra, ha gráfon jelenik meg. Örvendetes, hogy a hazai politikatudományban is megjelentek az internetes tartalmak formális elemzései és hogy a tanulmányokon kívül a Maven7 és a Political Capital Online Politikai Elemzések projektje pedig a pártok közösségi oldalait elemzi a hálózatkutatás módszereivel. Szerencsére már arra is látunk jeleket, hogy az internetes tartalmak tartalomelemzésével is segítik az elemzést (gondoljunk pl. a blogunkon is már többször bemutatott Méltányosság-Neticle Politikai véleményárfolyamára). Reméljük, hamarosan a mélyebb tartalomelemzés is bekerül az elemzők eszköztárába, hiszen az említett módszerekkel nem lehet vizsgálni pl. a Jobbik hangnemének konszolidálódását, de érdekes lenne megvizsgálni azt is, hogy a linkelést mellőzvégre miről és kikről (named entity recognition) írnak az egyes oldalakon.


2014. január 28. 8:00

Jarvis már (majdnem) itt van köztünk

Tony Stark szerencsés ember, hiszen ott van neki Jarvis, akivel beszélhet, no meg az a sok interfész, amit nem kell nyomogatnia vagy tapogatnia, a gesztusaival végezhet műveleteket rajtuk. Milyen jó lenne, ha kettőt mi is összeköthetnénk! Külön-külön eddig megtehettük ezt, pl. az Intel RealSense eszközökkel, vagy a Nuance Dragon Assistant szoftverrel - azonban a Nuance bejelentése szerint, az Intel technológiáját használó hardverek saját kis Javris módjára fognak kiszolgálni minket!  Az Intel RealSense technológiája az ember-gép interakció terén szeretné elérhetővé tenni a gesztus alapú vezérlést. A CES-en bemutatott megoldás sokak fantáziáját megmozgatta. A Dragon Assistant, a Sirihez hasonló (ami mögött szintén a Nuance technológiája áll) hangvezérléses személyes asszisztens. Ha a két technológia találkozik, megkapjuk Jarvist - ha egy kicsit fapados formában is. A különbség az eddigiekhez képest az, hogy az Intel RealSense technológiával felvértezett Windows-os gépekre előre telepítik a Dragon Assistant programot, ami bizonyos feladatokat offline módon is képes kezelni így. A megoldás már elérhető az új Acer, Dell, HP és Lenovo 2 in 1 gépekre, tabletekre, ultra- és notebookokra, továbbá AIO készülékekre és még az év során kijön a Toshiba és és az Asus is hasonló hardverrel. Ha áttörést nem is hoz ez még az ember-gép interakció területén, sokat tanulhatunk mind a gyártók, mind a felhasználók tapasztalataiból.


2014. január 27. 13:20

A Neticle Technologies gyakornokokat keres!

A nyelvtechnológia ipar megmozdult, most a Neticle Technologies keres Online evangelist és Online media analyst trainee-t keres! A Neticle-t blogunk olvasóinak reméljük nem kell bemutatni. A pozícióról az alábbiakat írták nekünk: Ha az automatikus véleményelemzés illetve az online médiaelemzés kifejezések értelmezéséhez nem kell Google, és szívesen elemeznéd, hogy mit gondol a web, akkor Te lehetsz az, akire várunk. Online evangelist trainee és Online media analyst trainee pozíciókra keresünk csapatunkba új embereket, bővebb információk itt.


2014. január 24. 8:00

A Clementine Consulting szöveganalitikai elemzőt keres

A Clementine Consulting szöveganalitikai elemzőt keres, bővebben a pozícióról itt. Nyelvtechnológiában jártas nyelvészek, infósok, közgázosok, társadalomtudományi és természettudományos szakemberek számára ideális pozíció! A Clementine Consulting (korábbi nevén SPSS Hungary) az IBM premier szintű üzleti és support partnere. Az ismert statisztikai programcsomag mellé olyan innovatív megoldásokat fejlesztett mint pl. a CLEMTEXT magyar nyelvű kivonatoló eszköz és  a hang-, szöveg- és adatbányászati eszközöket integráló CLEMVOICE rendszer. Új munkatársuk minden bizonnyal izgalmas szakmai feladatok elé néz!


2014. január 23. 8:00

Hogy működnek a keresők? 2. rész: tároljuk és elemezzük az egész Internetet!

2013-ban a weboldalak száma elérte az egymilliárdot! Egy magára valamit is adó általános webkeresőnek ezeket az oldalakat be kell indexelnie, ahogy azt előző posztunkban láttuk. A hagyományos IT technológiákkal egyre több baja volt a Google-nek már a kétezres évek elején, ezért saját megoldásokat fejlesztett ki a hatalmas adatmennyiség feldolgozására és az ennek során keletkezett indexek tárolására. A keresőóriás 2004-től kezdve publikálta is újításai elméleti hátterét, ennek köszönhetően elkészültek azok nyílt forráskódú változatai is. Ez pedig lehetővé tette, hogy ezen eszközöket mindenki használhassa és ne csak webes indexeket és nyelvi modelleket készítsenek velük; megszületett a data science vagy adattudomány és a statisztikus vált a legszexibb foglalkozássá!   Adatrobbanás Ahogy a bevezetőben említettük, az internetes tartalmak száma hihetetlen mértékben megszaporodott. Az előző posztban láttuk, minden oldalról egy ún. indexet kell készíteni a keresőnek. Ehhez egy keresőrobot (crawler) beolvassa az adott oldal html kódját, majd elkészíti az indexet. Ez meglehetősen lassú folyamat, különösen akkor, ha sok oldalt kell felkeresnie a crawlernek és elemezni az indexelőnek. Amikor begépelünk egy keresőkifejezést kedvenc keresőmotorunkba, akkor nagyon gyors eredményt várunk el, ez pedig úgy lehetséges, hogy az indexek külön el vannak tárolva, az oldalak indexelése pedig külön folyik meghatározott időközönként a háttérben.  A Google nagyon hamar találkozott azzal a problémával, hogy az informatika eszköztára lemaradt az adatok mennyiségének drámai növekedése mögött. Két megoldás van ilyenkor; speciális hardvert veszünk, ami képes tárolni és feldolgozni ilyen irdatlan adattömeget, vagy a hagyományos eszközökből szerzünk be többet és valahogy hatékony együttműködésre bírjuk azokat. Az első úttal az a probléma, hogy a feldolgozási kapacitás növekedése nem egyenesen arányos az árral, magyarán egy kétszer nagyobb és gyorsabb szerver ára nem a hagyományos kétszerese, hanem többszöröse. Maradt tehát  a második változat, a hagyományos hardvereken alapuló új szoftveres megoldások keresése. Ennek elméleti alapjait a Google kutatói több tanulmányban is közzétették, ezek közül a leghíresebbeket MapReduce ill. BigTable paper néven szokták emlegetni. A MapReduce programozási modell lehetővé teszi a hatalmas adatmennyiség feldolgozását, azaz esetünkben az indexek elkészítését, a BigTable pedig azok tárolását és gyors előhívását. MapReduce A MapReduce egy programozási modell, nagy adathalmazokon végzett, elosztott számítási feladatokra és egyben egy végrehajtási keretrendszer is. Komolyan hangzik, az is, de nem kell félni tőle. Először nézzük meg, hogyan, miért végrehajtási keretrendszer. Több, olcsó szerverből álló ún. klaszteren fut egy MapReduce keretrendszer. Mivel a klaszter minden tagjának igen behatárolt a számítási és tárolási kapacitása, a rendszer elve az, hogy az adatokat felosztja blokkokra az egyes gépeken és a számítási feladatokból amit csak lehet szintén kiszervez az adatok közelébe. Ez nagyon nagy mérnöki feladat, hiszen nem csak az adatok elosztásával kell foglalkozni, hanem eközben azzal is, hogy a hardver rendszeresen meghibásodik, továbbá optimalizálni kell a klaszter tagjai közötti együttműködést is. Itt csak jelezni tudjuk ez mekkora és milyen nehéz feladat, a továbbiakban adottnak vesszük, hogy ezt megoldották az okos mérnökök. Nézzük miért is programozási modell a MapReduce! Az adatok manipulálását a funkcionális programozási paradigma map és fold függvényei ihlették. Vegyünk egy egyszerű példát a Haskell nyelvet segítségül hívva: Legyen ez az inputunk > map reverse ["ab", "cd", "ef"] Ekkor ezt az outputot kapjuk: > ["ba", "dc", "fe"] A map függvény első argumentuma a 'reverse' függvény, második argumentuma pedig egy karaktersorokból álló lista. A 'reverse' függvény egyargumentumú és karaktersorokat fogad el, kimenete pedig a bemenet 'tükörképe'.  A fold függvény három argumentumot "vár", egy függvényt, egy objektumot és egy listát. Hogy megértsük miképp működik, vessünk egy pillantást a következő Haskell példára: Legyen az input > foldr (++) "" ["ba", "dc", "fe"] Eredményül pedig ezt kapjuk > "badcfe" A foldr függvény jobbról kezd el dolgozni. Először az utolsó elemre és input objektumára alkalmazza a bemeneti függvényt, majd a kapott eredményre és a lista utolsó előtti elemére alkalmazza a bemeneti függvényt és így tovább. Tehát tulajdonképpen a foldr egy aggregált eredményt ad. A MapReduce-t ezek a függvények ihlették. A feldolgozás map fázisa elvégezhető lokálisan, a klaszter gépein, ennek eredményeit pedig a reduce fázis aggregálja! Persze az élet ennél sokkal bonyolultabb, a Hadoop-ban például még ún. partitioners és combiners boszorkánysággal kell optimalizálni a reduce működését, amiről itt nem beszélünk, de reméljük hogy maga az elv érthető immár.   BigTable Említettük, hogy az indexek készítése viszonylag időigényes folyamat, de ha elkészültek gyorsan hozzáférhetőnek kell lenniük. Maga az index általában egy MapReduce munka eredménye, ami mint láttuk lassú és ún. kötegelt feldolgozás (batch processing). A kapott indexet érdemes eltárolni, hiszen nem akarjuk minden lekérdezéshez újra legyártani. Viszont maga az index is hatalmas adatmennyiség, hiszen egymilliárd weboldal összes szava, a benne előforduló tagek, linkek és gyakran az oldal teljes tartalma is benne van! A Google célja a BigTable megalkotásával az volt, hogy a MapReduce-hoz hasonlóan átlagos, kereskedelmi forgalomban kapható hardveren tudja tárolni az indexeket. Láttuk, hogy az index tulajdonképpen egy táblázat, vagy csúnyább néven mátrix. A táblázat struktúrája az adatbázisok világában a séma nevet kapta. Mivel a hatalmas indexünk egyszerűen nem fér bele egy gépbe, szét kell valahogy darabolnunk a sémát. Vagy a sorok, vagy az oszlopok mentén oszthatjuk fel az adatbázisunkat (s ennek megfelelően row- vagy column-oriented database-ről beszél a szakirodalom). BigTable tervezői az oszlopok mentén történő darabolást választották, ami itt nem részletezett okok miatt jelentősen megkönnyíti a táblázat részeinek több gépen történő tárolását és a lekérdezések gyors kiszolgálását. Hadoop - a nyílt forráskódú MapReduce implementáció A Yahoo! jelentős piaci szereplőnek mondható még ma is, de 2005-ben még szebben muzsikált, amikor két fejlesztőjük (Cutting és Cafarella) rögtön felismerte a MapReduce paper jelentőségét és elkészítették annak egy implementációját, ami a Hadoop nevet kapta tőlük. A Hadoop ma az Apache Foundation projektje és a big data terület legelterjedtebb eszköze. Nagy előnye, hogy nyílt forráskódú, így szabadon tanulmányozható, ellenben a Google MapReduce-szel. HBase - nyílt forráskódú BigTable implementáció 2005-ben alapították lelkes nyelvtechnológusok és keresőkkel foglalkozó szakemberek a Powerset startupot, amit 2008-ban vásárolt fel a Microsoft. A cég a mai napig fogalom a szakmában, mivel rendkívül kifinomult eljárásokat alkottak meg dolgozói, amíg működött saját természetes nyelvi szemantikus keresőjük. Mivel a Powerset is általános kereső volt, szembesülnie kellett az egész web indexelésével járó technikai nehézségekkel. Szerencsére ekkor már megjelent a BigTable paper s ennek alapján elkezdték kifejleszteni saját nyílt forráskódú adatbázisukat, ez lett a HBase, ami ma már szintén az Apache Foundation projektje. Nem csak keresésre jók! Az internet és a mobiltechnológia lehetővé tette, hogy akár a legegzotikusabbnak tűnő dologról is hihetetlen mennyiségű adatot gyűjtsünk össze, az adattárolók árának folyamatos esése és a felhőszolgáltatások megjelenése pedig lehetővé tette ezek olcsó tárolását is. Habár a keresés hívta életre a Hadoop-ot és az HBase-t, ez nem jelenti azt, hogy más adatok nem elemezhetőek, tárolhatóak velük! A Google vezető kutatói (Halevy, Norvig és Pereira) The Unreasonable Effectiveness of Data című cikkükben részletesen bemutatják, több tanulmány eredményeire hivatkozva, hogy a legtöbb területen pusztán az elérhető adatok mennyiségének növelése jelentősen javítja a statisztikai/gépi tanulási módszerek hatékonyságát. Nem csoda, hogy az adattudósok egyik legfőbb készségének sokan a Hadoop és társainak kezelését tartják.


2014. január 22. 8:00

Miért vagy olyan negatív? - Budapest Science Meetup 2014. február 13.

Miért vagy olyan negatív? - tartalomelemzés és kognitív torzulás a nyelvben címmel a Budapest Science Meetupon adok elő február 13-án. Ahogy a legtöbb meetup, ez a rendezvény is ingyenes, de előzetes regisztrációhoz kötött a részvétel. A program két héttel az esemény előtt lesz végleges. Miért vagy olyan negatív? - tartalomelemzés és kognitív torzulás a nyelvben Miért nem kérdez pozitívan a média? Miért nem hír, hogy kinyílott a pitypang? Tényleg negatív és szomorkodó a magyar? Miért érnek el extra hozamot a negatív szentimentre alapozott hírelemzéses kereskedési stratégiák? Az internetes tartalomelemzés segítségével példákon keresztül igyekszünk megválaszolni a fenti kérdéseket és bemutatni hogy ezek jelentős részét a nyelv működésében rejlő szisztematikus "hiba", ún. kognitív torzulás okozza.


2014. január 21. 8:00

Hogy működnek a keresők? 1. rész: matching

Sorozatunkban egyszerű választ próbálunk adni arra a kérdésre, hogyan is működnek a keresők. Előre szólunk, a poszt után senki sem fogja megdönteni a Google piacvezető szerepét, de még a Precognox enterprise search terén szerzett piaci részesedését sem fogja fenyegetni, de talán jobban megérti az olvasó mi zajlik a háttérben, amikor rákeres valamire az interneten.  Matching és ranking Érdemes megkülönböztetni a keresés matching (illesztés) és ranking (rangsorolási) fázisait, habár látni fogjuk, nem húzható a két lépés között éles határ. Tovább bonyolítja a helyzetet, hogy a modern keresők igyekeznek a két lépést köz egyszerre elvégezni.  Elmélet helyett inkább vegyünk egy példát. Az egész internet helyett három dokumentumból áll a mi kis univerzumunk: 1) A kutya a szobában áll. 2) A macska a heverőn fekszik 3) A macska áll, a kutya pedig fekszik Hogyan találja meg a kereső azon dokumentumokat, melyekben a "kutya" szó előfordul? Ez a matching! Melyek ezek közül a relevánsak? Ez a ranking! Indexelés A könyvekből jól ismert indexelés segít abban, hogy ne kelljen minden keresés során végignézni minden honlapot egy-egy szó után kutatva. Ún. keresőrobotok vagy crawlerek segítségével bizonyos időközönként a keresők üzemeltetői felkeresik az általuk monitorozni kívánt oldalakat (ez pl. a Google esetében az összes elérhető és nyilvános honlapot jelenti!) és beillesztik az indexükbe az elemzésüket. A mi esetünkben az index valahogy így néz ki: Szó Dokumentum 1) Dokumentum 2) Dokumentum 3) a + + + kutya + + macska + + szoba + heverő + áll + + fekszik + + pedig + A nyers szövegeket természetesen feldolgozzák, mielőtt az index elkészül. Mi pl. eltávolítottunk minden írásjelet, csupa kisbetűsre alakítottunk minden szót és szótövezést is végeztünk. Erre főleg azért van szükség, mert a táblázatunk nagyon nagyra nőhet viszonylag kevés (pár ezer) dokumentum indexelése után ha mindent nyers formában hagyunk. Azt is figyelembe kell venni, hogy általában a tövezett változat segít megtalálni a releváns dokumentumokat. Pl. "magyar vizsla" a keresésre releváns találatok lehetnek a "magyar vizslák", vagy "így tanítsd a magyar vizsládat" kifejezéseket tartalmazó oldalak. A fenti idexet használva könnyen megtalálható mely dokumentumok relevánsak a "kutya" keresésre; 1) és 3). A közelség számít! Mi a helyzet a többszavas kereséssel? Ha dokumentumaink között a "macska áll" és "kutya áll" keresést végezzük, intuitívan 3) "A macska áll, a kutya pedig fekszik" ill. a 1) "A kutya a szobában áll" találatokat várjuk elsőnek. Jelenlegi indexünk alapján azonban csak egy-egy szóra kereshetünk és az így kapott eredményekkel bűvészkedhetünk hogy a lehető legjobb találatokat szolgáljuk fel a felhasználónak. A keresési példákhoz képzeljünk el egy egyszerű konzolt, ami keresési bemenetet vár a ? jel után. A választ a >> jel után adja meg, ha több válasz lehetséges, akkor azokat vesszővel választja el. Az ÉS operátor mint bemenet lehetővé teszi két keresés elvégzését, majd a találatok közül megadja azt, amelyek első indexe egyezik. A továbbiakban minden keresési példát így adunk meg. Valahogy így néz ki a keresésünk a "macska áll esetében": ? "macska" >> 2), 3) ? "áll" > > 1), 3) ? "macska" ÉS "áll" >> 3) A szimpla indexet alkalmazva is meg tudjuk találni azon dokumentumokat, melyekben a két szó előfordul! Mi a helyzet a "kutya áll" kereséssel? ? "kutya" >> 1), 3) ? "áll" >> 1), 3) ? "kutya" ÉS "áll" >> 1), 3) Itt 3)-nak nem annyira örülünk, ugyanis a mondat szerint a kutya fekszik... Módosítsuk indexünket úgy, hogy a szavak pozícióját is jegyezzük le benne! Szó Dokumentum-pozíció a 1-1, 1-3, 2-1, 2-3, 2-3, 3-1, 3-4 kutya 1-2, 3-5 macska 2-2, 3-2 szoba 1-4 heverő 2-4 áll 1-5, 3-3 felszik 2-5, 3-7 pedig 3-6 Nézzük ismét a két keresést! ? "macska" >> 2-2, 3-2 ? "áll" >> 1-5, 3-3 Láthatjuk, hogy a harmadik dokumentumban egymás után helyezkedik el a "macska" és az "áll" szó, mivel indexeik 3-2 és 3-3 egymást követik! De mi a helyzet a "kutya áll" kereséssel? ? "kutya" >> 1-2, 3-5 ? "áll" >> 1-5, 3-3 Az 1-2, 1-5 és 3-5, 3-3 találatok egyaránt arra utalnak, hogy a két szó nem követi egymást. Az 1) dokumentum mellett szól az, hogy a "kutya" megelőzi az "áll"-t, viszont a 3-5, 3-3 indexek közötti távolság kisebb.  Legyünk szemantikusak - de csak egy kicsit! A pozíciót is rögzítő indexelésnek köszönhetően információval rendelkezhetünk az összetett kifejezések tagjainak egymáshoz való távolságáról. Egy kis trükkel kihasználhatjuk a honlapok szerkezetét is, s azt hogy a készítők egy kis szemantikát csempésznek webes szövegeikbe. Minden weboldal ún. HTML kódban van megírva, ez tkp. azt jelenti, hogy a szövegben ún. tagek azaz kacsacsőrök közé ékelt kulcsszavak (pl. , , stb.) vannak, melyek a böngésző számára fontosak, mivel az oldal megjelenítésével kapcsolatos információt hordoznak. Három oldalból álló hálózatunk dokumentumait mi is ellátjuk most ilyen tagekkel, minden dokumentum kap egy címet, amit a nyitó és tagak fognak közre, a tartalom pedig a nyitó és zűró tagek közé kerül. 1) A kutyám A kutya a szobában áll. 2)Macskámról A macska a heverőn fekszik 3)Háziállatok A macska áll, a kutya pedig fekszik Az indexelés során a tageket is felvesszük a vizsgált szavak közé, s ezt a táblázatot kapjuk: Szó/tag Dokumentum-pozíció 1-1, 2-1, 3-1 1-4, 2-3, 3-3 1-5, 2-4, 3-4 1-11, 2-10, 3-11 a 1-2, 2-5, 2-7, 3-4, 3-7 kutya 1-3, 1-7, 3-8 macska 2-2, 2-6, 3-5 szoba 1-9 heverő 2-8 áll 1-10, 3-6 fekszik 2-9, 3-10 pedig 3-9 háziállat 3-2 Keresési nyelvünket bővítsük egy INTITLE: operátorral, ami megadja, hogy a keresési kifejezés a és tagek között van-e. Ehhez a háttérben képzeletbeli keresőmotorunk megnézi a két tag indexét, és megvizsgálja, hogy a szó indexe a tagek indexei közé esik-e. A konzolra a >> n ahol n a dokumentum azonosítója vagy >> 0 ha a keresett szó nem szerepel a címben választ kapjuk eredményül. Lássuk meg tudunk-e birkózni a "kutya áll" kereséssel most! Ehhez elvégezzük a keresést külön-külön mindkét szóra: ? "kutya" >> 1-3, 1-7, 3-8 ? "áll" >> 1-10, 3-10 ? "kutya" ÉS "áll" >> 1, 3 Ezzel nem lettünk okosabbak. Azonban az INTITLE operátorral megnézhetjük melyik kifejezés szerepel címben! ? INTITLE:"kutya" >> 1 ? INTITLE:"áll" >> 0 Ha egy dokumentum címében is szerepel a kereső kifejezés egyik vagy több eleme is, akkor azt az eredmények között előrébb rangsorolhatjuk - s ezzel át is csúsztunk a ranking területére. Annyi a dolgunk csupán, hogy a keresés során a háttérben elvégezzük az INTITLE: tesztet, és a kapott dokumentumokat előrébb rangsoroljuk (ha nem 0-t kaptunk persze). Szemantikus web és SEO A keresőoptimalizálás, vagy SEO technikái általában a dokumentum olyan turbózását jelenti, ami a tagek megfelelő használatával segíti a keresőt az indexelés és a matching során. A nagy keresők rendszeresen kiadják ajánlásaikat, amiket követni nagyon is ajánlatos! A szemantikus web célja, hogy a webes tartalmak tagelése során szemantikus információt is közöljenek a szerzők. Pl. Dr. Kiss László sebész honlapján Dr. Kiss László sebész tagek segítik felismerni ki kínálja szolgáltatásait és mik lehetnek azok. Szemantikus adatbázisok segítségével rá lehet keresni például minden Miskolcon rendelő orvosra. Ha Dr. Kiss László honlapján szemantikusan feltüntette hogy sebész, akkor a kereső minden orvosra keresve az adatbázisból kikövetkezteti, hogy azok sebészek, háziorvosok, szemészek, stb. lehetnek és megtalálja doktorunkat. Amennyiben a rendelő címe is szemantikusan van megadva Miskolc, Példa útca 23 Dr. Kiss ott lesz a találati listán. Ha naptára is elérhető a honlapon és rendelési időpontja is szemantikusan meg vannak adva 2014-jan-22, 8:30-12:30 akkor akár a nekünk megfelelő időpontban rendelő sebészekre keresve is megtalálhatjuk sebészünket! Ehhez a technológia már adott, és láthattuk mennyire megkönnyíteni az indexelést és a keresést, de sajnos az emberek nagyon lusták és kevesen dúsítják fel ilyen információval oldalaikat... Enterprise search A webes keresés mellett létezik a jobb magyar kifejezés hiányában magyarul is enterprise search-nek nevezett iparág, ami a vállalati, intranetes és nem csak webes tartalmak kereshetővé tételével foglalkozik. Ez az irányzat főleg a matchingre fókuszál, hiszen a nem webes dokumentumok (Word, pdf fájlok stb.) között nincsenek linkek és egyéb jól definiált kapcsolatok. Így ezen a területen az indexelési táblázatok (tudományosabb nevükön document-term matrix) játszanak komoly szerepet. A keresés problémája pedig gyakran jelenik meg dokumentumok szintjén (keress nekem ezen dokumentumhoz hasonló további dokumentumokat). A rankink helyett pedig sokszor a dokumentumok és a találatok csoportosítása jelenti a megoldást. Természetesen a web és az enterprise search között sincs éles határvonal, a két irányzat hat egymásra és együtt fejlődik. Folyt.köv. A sorozat további részeiben először a keresés által életre hívott, manapság divatos adattudományi eszközöket mutatjuk be, majd a ranking problémáját járjuk körül és megnézzük hogyan is működik a híres PageRank algoritmus.


2014. január 20. 10:00

Big Data + Search - Big Data Meetup 2014. február 12.

A Big Data Meetupot Arató Bence indította útjára még 2013-ban. A Bencétől megszokott magas színvonalon (pl. Budapest BI Forum) a Big Data metupon neves külföldi és hazai szakemberektől értesülhetnek a terület aktualitásairól az érdeklődök minden hónapban. Az idei első találkozó február 12-én kerül megrendezésre, témája pedig a keresés, amiről Wolfgang Hoschek a Cloudera Search Team tagja, Szász Barnabás, Borbély Tibor a National Instruments-től és Kása Károly a Precognox fejlesztési vezetője fog tartani egy-egy előadást. A meetup ingyenes, de a részvétel előzetes regisztrációhoz kötött (a helyek száma korlátozott, de érdemes a várólistára feliratkozni). Finding a needle in a stack of needles - adding Search to the Hadoop Ecosystem Apache Hadoop is enabling organizations to collect larger, more varied data - but after it's collected how will it be found? Your users expect to be able to search for information using simple text based queries -- regardless of data location, size, and complexity.How do they quickly find information that's just been created, or been stored for months or even years?  Cloudera Search Engineer Wolfgang Hoschek will present their solution to this problem; what architecture is necessary to search HDFS and HBase? How was Apache Solr, Lucene, Flume, MapReduce, HBase and Morphlines integrated to allow for Near Real Time and Batch indexing of documents? What are the solved problems and what's still to come? Join us for an exciting discussion on this new technology. Speaker: Wolfgang Hoschek, Cloudera Wolfgang is a Software Engineer on the Platform and Cloudera Search team. He is a committer on the Apache Flume and Apache Lucene/Solr projects, a committer on the Kite project and the lead developer on Morphlines. He is a former CERN fellow and former Computer Scientist at Lawrence Berkeley Lab. He has 15+ years of experience in large-scale distributed systems, data intensive computing and real time analytics. He received his Ph.D from the Technical University of Vienna, Austria. Hadoop based ETL and Solr based semantic search behind Jobmonitor.hu This talk will discuss how Hadoop and Solr is used to power the Hungarian job search site Jobmonitor.hu Speaker: Károly Kása, Precognox Károly is the development manager at Precognox, the semantic search and text mining specialist company. Search based user experience Quick introduction to how National Instruments powers it’s web presence with Attivio (AIE) search engine based user experience. The talk will present how content is being pushed to the search index with a custom document enrichment process and what are the challenges. Speakers: Barnabas Szasz, IT Manager for Search, CMS, eCRM at National Instruments and Tibor Borbely, Senior Programmer Analyst, Enterprise Search at National Instruments 


2014. január 17. 8:00

Context is King : A kontextus mindent visz

A kontextus már ma is sokszor elérhető és pontosítható, használatával pedig minőségibb mobilos szolgáltatásokat lehet építeni. Léteznek eszközök, kezdjétek el használni őket, még ha pontosan nem is látszik először, hogyan lehetne őket hasznosítani! Ahogy Tony Stark mondta, Sometimes you gotta run before you can walk! Nézzük pár példát a kontextus használatára!   Az élet telis-tele van kétértelműséggel 1213 őszén magyar főurakból álló csoport merényletet hajtott végre II. András felesége, Gertrúd ellen. A felkelés oka, hogy öccsét, Ottót kalocsai érsekké akarta kinevezni. Petur bán és az ország nádora, Bánk bán a merénylet előtt kikérték az esztergomi érsek, Merániai János tanácsát. A főpap két tűz közé került. Egyrészt Ottó kinevezése veszélyeztette a főpapi rangját és minden más kiváltságát. Előnyös lett volna a felkelők közé állnia. Másrészt a gyilkosságban való részvételért nemcsak magas rangját, de életét is elvesztette volna. Így hát azt tette, ami miatt a politikusok védőszentté is avathatnák: megalkotta híressé vált kétértelmű válaszát: Reginam occidere nolite timere bonum est si omnes consentiunt ego non contradico Melynek két olvasata is lehetséges: A királynét megölni nem kell, félnetek jó lesz, ha mindenki egyetért, én nem, ellenzem A királynét megölni nem kell félnetek, jó lesz, ha mindenki egyetért, én nem ellenzem. Persze a szituációnak megfelelő olvasatot választotta később János, azaz az ellenzőt, s ezzel tisztázta is magát (bővebben l. a Wikipedia vonatkozó szócikkét). Számunkra a lényeg az, hogy jelentést nem olyan könnyű csak a szavak egymás utániságából megállapítani. Ez régen volt, de ma is találkozunk hasonló esetekkel, akár a mindennapokban. Egy családban gyakran szegezi a feleség férjének a kérdést: "Nem szeretnél felporszívózni?" A naív férj azt gondolná az a mondat kérdő, esetleg óhajtó. Rossz válasz… Ez általában annyit tesz; porszívózz fel! Legalábbis, ha az embert a párja kérdezi otthon. De jelentheti azt is, hogy "Én mosogatok, te pedig porszívózhatsz." A legritkább esetben jelenti azt, hogy "Ha éppen van kedved és szeretnél, akkor porszívózhatsz". De legyünk tudományosak: a fenti mondat alapvetően nem eldöntendő kérdés, az elsődleges nyelvtani jelentés ellenére. Mondhatjuk úgy is, hogy a szemantikát a kontextus határozza meg. A jelentést a szövegkörnyezet nagyban befolyásolja. Hogy mikor mit jelent egy mondat, egy cselekvés, egy keresőkérdés, azt a kontextus pontosítja - ki, mikor, hol, hogyan és milyen körülmények között mondja. Context is King - a kontextus minden A fenti példákkal arra szerettünk volna rávilágítani, hogy mikor mit jelent egy mondat, egy cselekvés, egy keresőkérdés, azt a kontextus pontosítja - ki, mikor, hol, hogyan és milyen körülmények között mondja. Ha kereséssel foglalkozol, ezt semmiképpen nem hagyhatod figyelmen kívül. Van azonban két nagyszerű hírünk: 1) a kontextus nem csak a keresésnél fontos, hanem sok más mobilalkalmazás fejlesztésénél, 2) soha ennyit nem tudtunk arról, aki a szoftverünket használja, mint a mobilok korában. A telefon szenzorai segítenek nekünk megtalálni a kontextust ami ezért minden mobilalkalmazás esetében felmérhető. Tudom, mit teszel jövő nyáron Barabási Albert László kutatásai óta mást is tudunk. Leírta, hogy egy mobil mozgását az időben kellő ideig figyelve 90% feletti valószínűséggel megmondható, hogy hol lesz az adott mobilkészülék a közeljövő egy időpontjában - persze a tulajdonosával együtt. Mondhatnánk, hogy a telefon adott esetben nem csak azt tudja, hol vagyok, de azt is, hová akarok menni…. Nagyon nagy előrelépés mindez. A keresés alapvető problémája és legrégibb kérdéseink egyikére ad legalább részleges választ. A keresők azért nem tudnak jobb választ adni a kérdéseinkre, mert nem ismerik a szándékunkat abban a pillanatban, amikor a kérdésünket megfogalmazzuk. Egy zárt rendszer agyunk a keresőrendszer számára ilyen szempontból. Ugyanazon keresési kifejezés más és más jelentést hordozhat a fejünkben, ahová egyelőre a számítógép nem igazán lát be. Vagy nem látott be eddig. A mobilunk annyi mindent tudhat rólunk, hogy kinyitja ezt a kaput. Az ember és gép közötti kommunikációval foglalkozók válasza erre a problémára a kontextus! A mobileszközök és egyébként a közösségi oldalak is óriási előrehaladást jelentenek. A Facebook új keresőjét a Graph Search-öt talán már a legtöbben használatba vettük. Elsőre nem tűnik nagy újdonságnak, de természetes nyelven tehetünk fel kérdéseket neki - és a kontextust is igyekszik megtalálni! Ha arra vagyok kíváncsi, mely miskolci éttermeket kedvelték ismerőseim, akkor kilistázza azokat, melyeket barátaim lájkoltak. Ha nincs az adott térségben ismerősöm, vagy nincs Facebook oldallal rendelkező étterem, akkor a Bing kereső találatait listázza a rendszer. Azaz a kontextus itt a helyzetem és az ismerősi köröm. Természetesen a közösségi kapcsolatok kontextus pontosító ereje, nem csak a felhasználóknak, de a hirdetőknek is nagyon fontos. Nem véletlen tehát a Google+ pluszt életben tartó buzgalom. Még akkor is, ha a Google+ ma még mindig leginkább olyan, mint az otthoni fitneszgépek: Mindenkinek van, de senki sem használja. A Google kereső legújabb Hummingbird updateje is ezt célozza. Minden hipochonder álma egy orvos ismerős. De ha jogi gondunk akad, szeretnénk gyorsan találni egy ismerős ügyvédet, aki válaszolna a kérdésünkre. Kedvenc hentesünk véleményét kérjük ki, hogy jó steaknek való húst szerezzünk be. A szakértők sajátos szótárat használnak és ismerik a szakszavak közötti hierarchiát. A keresőtől egyre inkább azt várjuk el, hogy ilyen szakértő tanácsadó legyen;lefordítsa a mi naiv szótárunkat az általa ismert hierarchiába és releváns választ adjon "civil" kérdésünkre. A Google frissítés nem csak megtalálja egy tartalom témáit, de ismeri az azok közötti hierarchiát is a Knowledge Graph-nak köszönhetően. Ha a keresőben keresünk, és kapunk mondjuk 1 millió találatot, felmerülhet a kérdés. Most akkor a keresés után vagyok tényleg? Vagy még előtte? A Google újításai pontosan arra utalnak, hogy egyre inkább válaszokat akar adni. Mobilon mindenképpen ez a cél. A kereső itt szinte biztos, hogy nem kutatni akar, hanem megoldást keres az aktuális problémájára. a Google Now-hoz hasonlóan ki akarja szolgálni a felhasználót, a lehető legkevesebb, de legfontosabb információval. A kontextus jó használata pontosan ezt segíti. A cél az, hogy minél kevesebb, de aktuális információt mutassunk. Legyünk minél fókuszáltabbak! Arra is van már példa, hogyan keressünk lokációs alapon a közösségi médiában, a Geofeedia erre tesz kísérletet. Az alkalmazás segítségével gyorsan lehet, területi alapú szűrést végezi több közösségi oldalon. Különösen hasznos, ha egy adott terület történéseit követjük, gondoljunk itt például a Twitter-forradalmakra. Mi is készítettünk egy teszt kereső alkalmazást Android tabletre, amit beszéddel lehet vezérelni a Nuance eszközeit használva, és a Cylex cégadatbázisában keres. Az app megismeri a lokációs rövidítéseket, tehát segít eldönteni, hogy pl. Újlak Abaújlak vagy Alsóújlak akar-e lenni. Egyszerűen a közelebbi. Természetes nyelven lehet feltenni a kérdéseket neki, pl: hol van jó pizza Kaposváron? De mondhatom nek azt is, hogy "szállásra van szükségem a környéken" és megadja a szükséges információkat. Lokáció alapú keresőt készít a magyarországi ESRI GiSearch, amely a weboldalakat járva helyinformációkat próbál összegyűjteni az adott oldalhoz kapcsolódóan és aztán azt használja fel a keresésnél. A jövő Bár az előrejelzés nehéz dolog, különösen, ha a jövőről van szó. Mégis néhány gondolat a végén arról, mit hozhat a közeljövő: A felismert kontextus részévé válthat az érzelem. Az arckifejezésre, vagy a nyelvhasználatra alapozva. Felmerülhet a környezet monitorozása a háttérzajra alapozva főleg, mivel a képi információ felhasználása a személyiségi jogok miatt problematikus. Nem elég tudni például, hogy valaki a VAM Design Centerben van! Más a kontextus, ha valaki éppen egy előadást hallgat, s más, ha annak szünetében használja a telefonját. De monitorozható lenne az asztmásoknál a légzés, vagy éppen egy súlyosan depressziós ember hanghordozása. Jelezve ezzel, ha a probléma azonnali beavatkozást igényel. A beépíthető szenzorok száma szinte végtelennek látszik. Az iphone 5s-be ujjlenyomat szenzor került, de van már vérnyomás, vagy éppen EKG mérős szenzor is telefonhoz. De fontos szempont lehet, a felhasználó mozgása is - állunk vagy mozgunk éppen? Milyen gyorsan mozog a felhasználó? Vonaton, buszon több információt adhatunk neki, de aki éppen gyalog keresi a legközelebbi postát, annak csak azt kell tudni, hogy balra vagy jobbra kell kanyarodnia éppen… Az eszközök már adottak ahhoz, hogy a kontextust is megszerezzük. Azonban még nem igazán tudjuk ezeket használni, ezért kell sokat próbálkozni.


2014. január 15. 8:00

Miért nem kérdez pozitívan a média és mi köze van ennek a nyelvhez?

A kedves olvasó szerint is negatívak a hírek, a sajtó nem kérdez rá a pozitív dolgokra, mert csak a negatívumok érdeklik? A pénzügyi szféra fondorlatának tartja, hogy a negatív hírekre alapozott kereskedési stratégiák extrahozamot eredményeznek? Mielőtt egy szépen kidolgozott konteót keresne magának a kedves olvasó, szeretnénk felhívni a figyelmét arra, hogy lehet egyszerűen így működik az ember és nincs semmi mögöttes tartalom a sajtó negativitása mögött. Mindebben pedig a politikai tartalomelemzés és pénzügyi hírelemzés lesz segítségünkre. “Language is conceived in sin and science is its redemption" (W.v. Quine) Miért negatív a média? Hart és tsai legújabb könyvükben foglalkoznak a politikai beszédek és a róluk szóló beszámolók tónusával. Azt találták, hogy a sajtó sokkal pesszimistább képet szeret közölni, mint amit a politikus szeretett volna felvázolni szavaival. Ennek okát abban látják, hogy sajtó szeretné megőrizni státuszát mint a negyedik hatalmi ág. Previous research (Lichter & Smith, 1996; Hart, 2000) has shown that media reportage is much more pessimistic than political discourse, and reliably so. Reporters take their roles as guardians of the Fourth Estate seriously and, according to Luke (1978), they sometimes deploy an “artificial negativity" to make bad news out of nothingness so that their role of guard dog is preserved. Hart, Roderick P.; Childers, Jay P.; Lind, Colene J.: Political Tone: How Leaders Talk and Why A dolog már csak azért is érdekes, mert a pollyanna jelenség, azaz a pozitív érzelmi töltetű szavak magasabb gyakorisága, nyelvi univerzálénak tűnik (l. bővebben korábbi posztunkat erről, ill a pollyanna jelenséggel foglalkozó írásainkat), aminek egyenes következménye a negatív töltetű szavak magasabb információtartalma. Érdemes megvizsgálni két példán keresztül mennyire furcsán láthatják a sajtó munkatársai, az elemzők és úgy általában az emberek a nyelvi viselkedést, mielőtt visszakanyarodunk az információtartalomhoz. Csalóka képek; Bush és Obama A fiatalabb Bush elnökről az az általános kép alakult ki, hogy nagyon ideologikus, lelkesítő hangnemben beszélt és fő témái a belbiztonság és a terrorizmus voltak. Hart és tsai a volt elnök beszédeinek, interjúinak és egyéb nyilvános megnyilatkozásainak több mint 80%-át elemezve arra jutottak, hogy ez a kép egyáltalán nem fedi a valóságot!  Ahogy a fenti ábra is mutatja, Bush a lelkes tónus terén kifejezetten visszafogott volt. Overall, the Bush data on the Hortatory Tone generated an almost perfectly normal curve (even a left-skewed curve), suggesting that while he was not averse to  using strong language, he did not deploy it excessively. Hart, Roderick P.; Childers, Jay P.; Lind, Colene J.: Political Tone: How Leaders Talk and Why Valamiért mégis két külön Bush kelt életre, egy aki beszélt és egy akit idéztek: While the Hortatory mean for Original Bush was- 1.10, the mean for Excerpted Bush was 8.44— more than three standard deviations higher. Moreover, the scholars’ quotations consistently omitted the upbeat, communal flavor of Bush’s rhetoric, features which he used to keep his countrymen buoyed up during a long and frustrating war. [...] Indeed, even Bush’s best remembered speech— that given on the evening of September 11, 2001— registered a 1.69 on our Hortatory scale but a 9.23 when the scholarly excerpts from that speech were analyzed by the program. [...] although Mr. Bush discussed economic issues five times more often than terrorism, that fact is not well known. Hart, Roderick P.; Childers, Jay P.; Lind, Colene J.: Political Tone: How Leaders Talk and Why Obama kapcsán sokszor jegyzik meg, hogy "hideg profizmussal" és rengeteg önreferenciával szeret megnyilatkozni. Pennebaker elemzése szerint azonban, habár szociális-emócionális nyelvhasználat terén visszafogottabb elődeinél a jelenlegi elnök, de nem extrém módon. Az önreferencia terén is nagyon nagy tévedésben van a közvélemény: Obama is a perfect case study. Within days of his election in 2008, pundits—especially those who didn’t support him—started noting that he used the word I all the time. Various media outlets reported that Obama’s press conferences, speeches, and informal interviews were teeming with I-words. A long list of noteworthy news analysts such as George Will, English scholars including Stanley Fish, and even occasional presidential speechwriters such as Peggy Noonan pointed out Obama’s incessant use of I-words. Some of their articles on the topic were published in highly respected outlets that usually have diligent fact-checkers—the Washington Post, the New York Times.The only problem is that no one bothered to count Obama’s use of I-words or compare them with anyone else’s. As you can see in the graph on the next page, Obama has distinguished himself as the lowest I-word user of any of the modern presidents. Analyses of his speeches reveal the same pattern. When Obama talks, he tends to avoid pronouns in general and I-words in particular. James W. Pennebaker: The Secret Life of Pronouns A fenti két példa ha másra nem, hát arra mindenképpen jó bizonyíték, hogy még a tanult emberek is pocsék nyelvi elemzők! Még azok is tévednek, akik elvileg nagyon odafigyelnek a nyelvi viselkedésre, de hát ki szeretne névmásokat számolni, vagy szentiment- és emócióindexeket készíteni fejben? Pénzügyi hírek Veronesi klasszikus Stock market overreactions to bad news in good times: a rational expectations equilibrium model című tanulmánya hívta fel a figyelmet arra, hogy a pénzügyi világban a negatív hírek hatása nagyobb mint a pozitívaké. Az utóbbi években ezek az eredmények sok szentimentelemzésre alapozott vizsgálatot inspiráltak, melyek közül az egyik legjelentősebb Schumaker és tsai Sentiment Analysis of Financial News Articles tanulmánya, ami pénzügyi hírek elemzésére alapozott kereskedelmi szimulációk eredményeit veti össze. Az alábbi táblázat mutatja, hogy önmagában a pozitív és a semleges szentiment nem ér sokat, az összes polaritás már jobb (de nem haladja meg a szentiment nélküli stratégia hozamát). A negatív szentimentre alapozott szimuláció viszont messze felülmúlta az összes többit! Árnyalja a képet, ha megnézzük az árfolyamváltozás irányát melyik szentiment jelzi jobban előre. Az intuíció itt azt mondaná, a pozitív hír fel-, a negatív pedig lefele mozdítja az árfolyamot - de az alábbi táblázat szerint ez nem így van! Cognitive bias, avagy kognitív torzulás - a napi buzzword! Az adatok arra utalnak, hogy minden ártó szellem közreműködése nélkül szisztematikusan félreértelmezzük a nyelvi viselkedést. Ez alól a szakemberek sem kivételek, hiszen a politikai retorika szakértői is súlyos hibákat követnek el mint láttuk. Akbas és tsai Mispricing Following Public News: Overreaction for Losers, Underreaction for Winners tanulmányukban elsők közt vetették fel, hogy ez is egy ún. kognitív torzítás (cognitive bias) lehet, azaz elménk működésének eredménye a szisztematikus hiba, egyszerűen így látjuk a világot. A politikus számára rossz hír, hogy a kognitív torzulásból nem lehet kigyógyulni! Hiába ismerjük a logika szabályait, általában nem alkalmazzuk azokat egy következtetés levezetéséhez, vagy ha igen, akkor valahogy úgy mint Tweedledee: "Contrariwise," continued Tweedledee, "if it was so, it might be; and if it were so, it would be; but as it isn't, it ain't. That's logic." Lewis Caroll: Through the Looking-Glass A pénzügyi technológiában, a marketingben és ügyfélkapcsolatokban azonban fel lehet térképezni s ki lehet aknázni a szentiment- és emócióelemzés segítségével ezen szisztematikus torzulásokat.


2014. január 13. 8:00

Bitcoin - a prediktív analitika kísérleti terepe

A 2013-as év egyik nagy slágere volt a Bitcoin, egyesek a technológia miatt, mások pedig pusztán spekulatív céllal váltak hívévé és egy libertartiánus kommuna fő fizetőeszközévé is vált. A kutatókat mindez azonban nem érdekli, ők nagyon örülnek annak, hogy a Bitcoin-nal kapcsolatos adatok könnyen elérhetőek és szabadon vizsgálódhatnak. (Nem mellesleg, a pártok és politikusok ismertségét, népszerűségét vizsgáló korábbi posztjainkat is ezen kutatások inspirálták) Hogy mi is a Bitcoin, azt a Wikipedia sokkal jobban tudja mint mi: A Bitcoin egy nyilt forráskodú digitális fizetőeszköz, amelyet 2009. január 3-án egy ismeretlen (fórum nevén Satoshi Nakamoto) bocsátott ki, közvetlenül a 2008-as amerikai bank válság kirobbanása után. Az elnevezés vonatkozik továbbá a fizetőeszközt kezelő nyílt forráskódú szoftverre, és az azzal létrehozott elosztott hálózatra is.A többi elektronikus fizetőeszköztől eltérően a Bitcoin nem függ központi kibocsátóktól és hatóságoktól. A Bitcoin a peer-to-peer hálózat csomópontjai által tárolt elosztott adatbázisra támaszkodik. Az adatbázis tartalmazza a fizetések adatait, garantálva az elektronikus fizetőeszközökkel szembeni alapvető követelményeket. A biztonságot digitális aláírások és proof-of-work rendszer adja.  A Bitcoin így ideális vizsgálati alanya a közösségi média és egyéb online adatok elemzésére alapozott kutatásoknak, ahogy azt a Freshminds blogja is összefoglalta: Bitcoin however has several characteristics which make it an ideal market for social data prediction: The value of Bitcoins is determined almost solely on market demand, because the number of coins on the market is predictable and are not tied to any physical goods Bitcoin traders tend to be in the same demographic as social media users, and so their attitudes, opinions and sentiment towards Bitcoin are well documented Bitcoin is predominately traded by individuals rather than large institutions Events that affect Bitcoin value are disseminated first and foremost on social media Ladislav Kristoufek Bitcoin meets GoogleTrends and Wikipedia: Quantifying the relationship between phenomena of the Internet Era című tanulmányában nem meglepő módon a GoogleTrends és a Wikipedia keresési adatait vetette össze a Bitcoin árának alakulásával. Már maga a két plot sejteti, hogy valamilyen kapcsolat áll fent. A mélyebb elemzés megmutatja, hogy a kapcsolat oda-vissza megtalálható. A Forbes összefoglalója szerint: Furthermore, Dr. Krištoufek found that the variables were linked by a bidirectional causation; that is, Bitcoin’s price influenced search queries and search queries, in turn, influenced Bitcoin’s price. This leads to both “virtuous circles" (in which good news drives Bitcoin’s price even higher) and “vicious circles" (in which bad news drives Bitcoin’s price even lower). A fentiek tükrében nem meglepő, hogy a Bitcoin kereskedésben nagyon szeretik a szentimentelemzést. A két leginkább használt index a The Bitcoin Sentikator Index és a Sentdex Crypto-Currency prices and analysis. A szentimentelemzés használata a pénzügyi technológia világában nem új dolog, a blogunkon többször is foglalkoztunk már ennek egyik úttörőjével, a Cayman Atlantic-kel. Azonban ma még egyáltalán nem tekinthető triviális problémának a szentimentre alapozott kereskedési stratégia kialakítása. A Bitcoin vizsgálata viszont sokat segíthet, még akkor is ha sokan kételkednek abban hogy hosszútávon sikeres lehet az "emberek pénze".


2014. január 10. 8:00

Politikusok ismertsége, népszerűsége és a netes adatok

Előző posztunkban a pártok netes jelenlétét vizsgáltuk a GoogleTrends, a Wikipedia oldallátogatások és a Google keresési találatok számának tükrében. Ennek analógiájára most a pártok elnökeit (és Bajnai Gordont) vettük górcső alá. Látni fogjuk, az ismertség alakulása a Wikipedia statisztikákkal jár együtt, de a népszerűség sokkal keményebb dió.   Google találatok, Wikipedia oldallátogatások, ismertség Első blikkre nem mond el sokat a fenti táblázat, azon túl, hogy a nagyobb Google találati szám, nagyobb ismertséggel is jár. Azonban bármilyen okságra nehéz lenne itt gyanakodni első látásra. Közelebbről megvizsgálva az láthatjuk hogy a 30 népszerűségi pont feletti tartományhoz 600.000 feletti találati szám szükséges, a huszas tartományhoz pedig 200.000 körüli (Vona Gábor itt kilóg a sorból). Ha nem is beszélhetünk lineáris kapcsolatról, a Mere-exposure effect-hez hasonló jelenséget láthatunk (azaz a magasabb találati szám több tartalmat jelent, s így az egyszerű netező gyakrabban találkozik az adott politikus nevével, a megszokottat pedig megszeretjük). Érdekes módon, attól hogy valakit ismerünk, még nem keressük fel ritkábban a róla szóló Wikipedia szócikket. Miniszterelnök-aspiránsok a GoogleTrends-en Az LMP esetében gondban voltunk, hiszen két társelnök vezeti és mivel nem vagyunk politológusok, tippelni sem tudtunk ki lehet közülük a miniszterelnök-jelölt. Nem szexizmus miatt, hanem a nagyobb Google találati szám alapján döntöttünk Schiffer András mellett Szél Bernadettel szemben. Az ismertség változása és a Wikipedia  A Medián felmérése szerint 2013. áprilisa és májusa között Karácsony Gergely, Schiffer András és Semjén Zsolt ismertsége négy százalékkal (60-64, 75-79, 74-78) emelkedett, ugyanakkor ezen politikusok népszerűsége csökkent vagy nem változott. Ahogy a fenti ábrán is látható, a változást a politikusok Wikipedia oldalainak látogatása is követte Karácsony esetében igazi ugrás történt, még Semjén és Schiffer görbéje inkább kiegyenlítettebb lett. Vizsgáljuk meg a hosszabb trendet, a Medián 2013. október-november hónapokra vonatkozó felmérése során a vizsgált politikusok ismertsége a következő képet mutatja: Karácsony Gergely 68-66, Schiffer András 84-81, Semjén Zsolt 81-80. Az alábbi grafikonon a Wikipedia oldallátogatottságokat láthatjuk 2013 március 1. és december 1. között. Látható, az nem csak az ismertség emelkedése, de csökkenése is megjelenik a Wikipedia szócikkek látogatásában. Ugyanakkor a GoogleTrends más képet mutat. Érdekes, hogy Karácsony nevére a Google lényegesen kevesebb találatot ad (120.000), de ennek ellenére harminc-harmincegy népszerűségi pontja van stabilan. Spekuláció Mivel a Méltányosság és a Neticle Politikai véleményárfolyama folyamatosan eső trendeket mutat, úgy tűnik  a szentiment nem játszik sok szerepet a népszerűség és az ismertség alakulásában. Megkockáztathatjuk érdemes növelni az internetes jelenlétet és bizakodni a mere-exposure effect működésében, ergo a "nincs rossz reklám" közhelyben.


2014. január 9. 8:00

A Precognox nyelvész gyakornokokat keres!

A Precognox budapesti vagy kaposvári irodájába keresünk nyelvész gyakornokokat, távmunka is lehetséges. Elsősorban elméleti nyelvészet szakos hallgatókat (BA, MA, PhD szinten) keresünk, de a határterületek hallgatóit (informatika, matematika, fizika, kognitív tudományok, nyelvszakok stb.) is szívesen látjuk (nyelvészet, nyelvtechnológia, informatika minor náluk előnyt jelent). Jelentkezz ha szereted a kihívásokat, nem félsz a statisztikától, az R és/vagy a Python nem áll távol tőled - nem programozókat keresünk, nyugi!   Informatikus gyakornokainkkal készítettünk beszédfelismerős cégkeresőt, több más projekt mellett. Korábbi nyelvész gyakornokunk munkájáról pedig itt olvashatsz. Ha szeretnél te is hasonló projekteken velünk dolgozni, akkor töltsd ki ezt a jelentkezési lapot!


2014. január 8. 8:00

Pártok a neten

Manapság egyre elterjedtebbek a említési arányokra (mention share) és keresési trendekre alapozott vizsgálatok. Ezen felbuzdulva megnéztük mit tudhatunk meg a magyar pártokról.   Google találatok, Wikipedia oldalmegtekintés és közvélemény kutatási eredmények  A TÁRKI 2013-as trendek a pártpreferenciák terén jelentését vetettük össze a google.hu találatok számával (ez lenne a metion share közelítése) és a Wikipedia oldallátogatások számával (a http://stats.grok.se/ adatai) az elmúlt 90 napban (a teljes táblázat elérhető itt). A táblázatból kitűnik, hogy a Wikipedia oldal látogatottsága jelentősen eltér a TÁRKI eredményeitől. Ha jobban szemügyre vesszük, azt láthatjuk az új pártok (DK, LMP, Együtt) iránt érdeklődnek a Wikipedia olvasói. A Google találatok számában az LMP és a Jobbik lóg ki a sorból. Ennek oka egyrészt a Jobbik köré szerveződött netes hálózat lehet, másrészt a LMP aktívabb netes jelenléte. Google Trends adatok A GoogleTrends használatával megnéztük 2010. január 1. és 2013. december 30. között a magyar pártokra vonatkozó keresési trendeket. Mivel egyszerre maximum öt kifejezést jelenít meg a rendszer, két ábrát generáltattunk le.  Fidesz, MSZP, Demokratikus Koalíció, Lehet Más a Politika, Jobbik KDNP, Együtt 2014 Látható, a 2010 előtt már létező pártokra megugrott a keresések száma a választások körüli időszakban. Wikipedia oldallátogatások  A http://stats.grok.se/ oldalról lekérdeztük a keresési statisztikákat 2008 január 1. és 2013. december 30. között. Ekkor még nem létezett az összes vizsgált párt, továbbá nem rendelkezett mindegyik azonnal Wikipedia szócikkel sem, ezért csak az oldal létrejöttének időpontjától vannak adataink. Fidesz KDNP MSZP Jobbik Demokratikus Koalíció Lehet Más a Politika Együtt 2014 Láthatjuk, a Wikipedia esetében is a választások előtt ugrik meg az oldallátogatások száma, illetve néhány esetben történik emelkedés (érdemes megfigyelni a DK, Együtt grafikonját a bajai videó megjelenésének idején!). Érdemes összevetni a Wikipedia oldalak látogatottságát az elmúlt félévben egy ploton is. Lassan elindul a választási kampány, ezért érdemes odafigyelni a keresési trendekre a Google és a Wikipedia esetében is! A Google találatok száma informatív, de úgy tűnik nem alkalmas mélyebb elemzésre.


2014. január 6. 8:00

Válság index magyar adatokkal 2.

A különféle fogyasztói hangulat indexeket előszeretettel használják gazdasági elemzésekben és előrejelzésekhez (érdemes vetni egy pillantást erre a rövid írásra). Nem meglepő, hogy sokan próbálnak meg online adatokra alapozva előállítani egy hasonló indexet (l. korábbi posztunkat erről). Most magyar adatokat használva megnézzük mennyire alkalmasak a Nielsen fogyasztói bizalmi index (Nielsen CCI) kiváltására. Az Economist R-indexe az egyik legegyszerűbb és egyben legnépszerűbb szógyakoriságon alapuló mutató. Egyszerűsége ellenére az utóbbi harminc évben csupán az 1990-es recessziót jelezte rosszul előre.  Az Index.hu-n megnéztük hány találatot kapunk a válság szóra egy-egy adott negyedévben, a Nielsen fogyasztói bizalmi indexet bemutató Chart Géza posztból átvettük az adatokat és  egy KSH GDP jelentésből vettük a negatív GDP bővülést produkáló negyedéveket (korábban már közöltük ezt az ábrát kicsit más formában). Az index.hu-ra alapozott válság index nagyon leegyszerűsítőnek tűnhet, de Iselin és Siliverstovs The R-Word Index for Switzerland című tanulmánya arra bátorít minket, hogy egy híroldalra is lehet alapozni egy ilyen indikátort. A válság szót tartalmazó cikkek száma és a Nielsen CCI között korreláció értéke - 0.3865248, ami ha nem is magas érték, egész jónak mondható. A válság szó mellé felvettük a recessziót is, mivel a válságnak nincs önálló Wikipedia szócikke. A Google keresési statisztikáit előszeretettel használják ún. nowcasting céllal (pl. Hal Varian a Google közgazdászának Predicting the Present with GoogleTrends c. tanulmányát). Habár az egyes szavakra vonatkozó statisztikák letölthetőek, kicsit körülményes több kifejezést is vizsgálni, továbbá nem lehet tudni mikor zár be egy szolgáltatást a Google. Ezért mi, a gyakorlattal ellentétben, csak egy kifejezés statisztikáit vizsgáltunk meg. A fentiek tükrében nem meglepő, hogy nem igazán található összefüggés (-0.185624 a korreláció) a Nielsen CCI és a keresési statisztikák között. A Wikipedia Recesszió szócikkének oldallátogatási statisztikáit is megvizsgáltuk. Meg kell jegyezni, hogy csak 2008. januártól érhetőek el ezek az adatok. Itt találtuk a legmagasabb korrelációt is, 0.09634374 értékkel. Végül lássuk egy ábrán a vizsgált statisztikákat. A felhasznált adatok elérhetőek ebben a Google táblázatban. Az index.hu keresőjét használva vizsgáltuk meg hány találatot kapunk egy negyedévben a "válság" ill. a "recesszió" szavakra, a GoogleTrends-et használva a "válság" szóra beérkezett magyar nyelvű keresések 2006 január és 2013 december közötti adatait használtuk. A Wikipedia oldallátogatottsági statisztikákat a http://stats.grok.se/ oldalon kérdeztük le. Az ábrákon az adatokat normalizáltuk, azaz százas skálára hoztuk, hogy összevethetőek legyenek (bővebben l. itt). Szerettük volna  Iselin és Siliverstovs tanulmányához hasonlóan a magyar GDP adatokkal összefüggésben vizsgálni a netes statisztikákat, de sajnos nagyon gyenge összefüggést találtunk csupán, ezért döntöttünk a Nielsen index mellett. A GoogleTrends adatait vizsgálva érdekes módon nem találtunk korrelációt, de ennek oka sokkal inkább a nyelvben keresendő. A legtöbb nyelvben a válságra keresve az adott Wikipedia szócikk az első találatok között jelenik meg, a magyarban viszont a kevésbé használatos recessziót kell ehhez használni.


2013. december 18. 8:00

Politikai véleményárfolyam - avagy miről beszél az internet népe?

Lassan egy éve indult útjára a Neticle Technologies és a Méltányosság Politikaelemző Központ Politikai Véleményárfolyam elemzése, ami világviszonylatban is egyedülálló. Legjobb tudomásunk szerint nincs más hasonló, rendszeresen megjelenő, internetes tartalmakra alapozott, mindenki számára hozzáférhető elemzés. Ahogyan arról többször beszámoltunk blogunkon, a közösségi tartalmakra alapozott elemzések és előrejelzések egyre népszerűbbek, de ezek többsége egy-egy eseményhez kötődik (pl. Bollen és tsai az Egyesült Államok 2008-as elnökválasztását, Jungherr pedig a 2009-es németországi választásokat vizsgálta), ezért úgy gondoltuk, a Szekeres Péter a Neticle vezető kutatójához és Szakács Andráshoz a Méltányosság elemzőjéhez fordulunk, hogy egyedülálló tapasztalataik alapján egy kicsit jobban el tudjunk igazodni a területen. Ritka, amikor egy technológiai cég és egy hagyományos elemzőközpont működik együtt. Röviden bemutatnátok magatokat és mesélnétek a nagy találkozásról, ami után elindult a Politikai Véleményárfolyam?   Sz.P.: A Neticle Technologies egy magyar startup, amit azzal a céllal hoztunk létre 2 évvel ezelőtt, hogy webes szövegek automatikus elemzésével csináljunk izgalmas dolgokat. A Neticle nevú szoftverünkkel össze tudjuk gyűjteni közel valós időben a publikus magyar nyelvű szövegeket  a webről (cikkeket, blogokat, fórum és közösségi oldal bejegyzéseket), és ezeket automatikusan véleményelemezzük is. Így jön létre a véleményárfolyam nevű saját mutatónk, ami tulajdonképpen megmutatja a webes hangulat alakulását amire csak szeretnénk: márkákra, cégekre, személyekre, stb.   A Neticle véleményárfolyam azt mutatja meg, hogy egy adott időszakban hogyan alakul adott kulcsszó (vagy kulcsszavak) megítélése a magyar weben. A rendszer úgy kalkulálja a véleményárfolyamot, hogy összeadja folyamatosan az említések véleményindexét. A véleményárfolyam hasonlóan értelmezhető, mint a részvényárfolyam: az emelkedése az internetezők pozitív hangulatát, míg csökkenése az internetezők negatív hangulatát fejezi ki a kulcsszóval kapcsolatban.   A Méltányosságos srácokkal való megismerkedést a blog egyik szerzőjének, Varjú Zolinak köszönhetjük, remek kapcsolat alakult ki a politikai szakértői csapattal. Nagyon fontos volt, hogy már az elején láttuk, hogy nyitottak az újdonságokra, és hamar átlátták, hogy mit tud és mit nem tud a rendszerünk, és hogyan lehetne ezt elemzési és politikai tudással egy új és érdekes elemzési sorozattá alakítani.  Az eltelt idő alatt pedig  több olyan visszajelzés is érkezett a csapattól, amiknek köszönhetően sokat fejlődött a Neticle.   Sz.A.: A Méltányosság Politikaelemző Központ egy olyan professzionális politikaelemző intézet, mely a nagy múltú, nyugati agytrösztök nyomdokain kíván haladni. Politikakutatásokat, gyorselemzéseket, felméréseket, prognózisokat és átfogó szakpolitikai elemzéseket végez.  Központi témánknak a hazai kohézió kutatást választottuk, amelyről fájóan kevés szakmai anyag és tudományos kutatás született a rendszerváltás óta, pedig - ahogy azt már Európában felismerték -, ennek a kérdése az, ami választ adhat egy-egy nemzet, vagy közösség sikereire, vagy sorozatos kudarcaira. Évek óta az érdekel bennünket, hogy hogyan lehetne a politikáról való gondolkodást egy kicsit kimozdítani a megszokott dagonyázás keretei közül. A Neticle volt az a cég, ami létrehozta azt az eszközt - a Véleményárfolyam formájában -, amivel közösen képesek vagyunk erre. Jelenleg napi kapcsolatban állunk és zökkenőmentes az együttműködés, hiszen bármilyen új ötlet, vagy hibajavítás nem csak meghallgatásra talál, de meg is valósul rövid időn belül. Számunkra is fontos tanulság, hogy mennyire jól össze tud dolgozni két olyan cég, amely között hagyományos értelemben - de legfőképp a hazai viszonyok között -, csak minimális mennyiségű közös pont található. Úgy gondolom az elmúlt egy évben sikerült összecsiszolódnunk és jól kiegészítjük egymást a közös projektben.   Hogyan képzeljük el az egyes jelentések elkészítését? Sz.P.: A mi munkánk akkor volt jelentősebb, amikor beállítottuk a figyelt kulcsszavakat, tehát a pártok és elemzett személyek neveit. Itt feltártuk az írásmódokat, szinonimákat és ami ezen a területen különöesen a releváns lehet, a nezetők által használt gúnyneveket (pl.: cucialisták, jaffások).  Persze ebben is sok segítséget kaptunk a Méltányosságtól. Itt hasznos volt nagyon például a Jobbik kulcsszónál, hogy megkülönböztetünk kisbetűt és nagybetűt a kulcsszó szinonimáknál, és csak az lesz találat, amely szövegben pontos egyezés van valamelyik kulcsszó szinonimával. Emiatt például kicsit komplexebb nálunk egy kulcsszó létrehozása mint egy Google keresés, de cserébe nagyon pontos találatokat kapunk. Ezt követően a Neticle csapat elsősorban a véleményelemzési algoritmusunk szótárait finomítja saját tesztelés vagy éppen a Méltányosság visszajelzései alapján. A rendszerünk egy úgynevezett saját szemantikus mátrix szerint próbál felismerni akár sok szavas kifejezéseket, ezek elemeit folyamatosan finomhangoljuk, hogy minél pontosabb legyen a dolog. A rendszeres elemzések oroszlánrészét innentől az MPK csapata csinálja, ők értelmezik a Neticle mutatóit és egészítik azokat ki. Sz.A.: Ahogy eddig tapasztaltam a Véleményárfolyam egy soha véget nem érő projekt. Nem csak azért, mert újabb és újabb témák jönnek fel a politikai aktoroknak köszönhetően a kampány és a választások közeledtével, hanem mert a közös munka során folyamatosan finomhangoljuk a rendszer beállításait, hogy még pontosabb eredményeket kapjunk. De visszatérve a konkrét folyamatra, miután kitaláltuk a következő témát, amit kutatni szeretnénk, majd elkészült a szószedet és a srácok is beállították a rendszert, kezdődik a mi munkánk. Hónapról hónapra megnézzük az adatokat a politikai Véleményárfolyam esetében. A rendszer által vizualizált statisztikákat lementjük, majd megnézzük, hogy az adott hónapban mik voltak a leggyakoribb témák, vagy volt-e az átlagos folyamatoktól eltérő esemény. A havi értékekből készítünk egy PPT-t, amiben bemutatjuk, hogy minek köszönhető egy-egy politikai szereplő megítélésének kiemelkedő mértékű romlása, vagy javulása, mi lehet az oka annak, ha egy párt a korábbi alacsony említésgyakorisága egyik hónapról a másikra megugrik.   Manapság a legtöbb vitát Bollen és társai "More Tweets, More Vote" tanulmánya váltja ki, mely szerint a puszta említésgyakoriság szavazatokra váltható. Mi a helyzet a magyar politikával ezen a téren? Sz.P.: Én ezen a téren azt látom, hogy a webes említésszáma a pártoknak összhangban van a közvéleménykutató cégek felméréseivel, persze pontosabb dolgot a választások után lehet és érdemes számolni. Látni kell, hogy az adataink egyértelműen mutatják, hogy a magyar weben vannak bizonyos véleménytrendek szakterületenként. Tehát például közéleti dolgokban elsősorban negatív vélemények jelennek többségében. De igaz ez a pénzügyi és más szolgáltató szektorokra is: a netezők inkább a kritikáikat, panaszaikat írják le. Ez azt is jelenti, hogy a Neticle véleményárfolyam változása, trendtörése az érdekes ezeken a területeken szakmai/üzleti szempontból, de például az alancsonyabb véleményárfolyam nem jelent feltétlenül kevesebb szavazatot vagy akár kevesebb eladást. Az említésgyakoriság természetesen jól mutatja egy brand erősségét, így egészen addig, amíg nem lesz Magyarországon is egy igazi netes kalóz vagy geek párt, addig igaz lesz véleményem szerint.   Sz.A.: A Véleményárfolyam eddig alapvetően nem cáfolta meg a közvélemény-kutatások eredményeit sőt, volt alkalom, hogy mi már előbb képesek voltunk jelezni egy párt népszerűségének emelkedését, mint a hagyományos közvélemény-kutatók. Ugyanakkor a Véleményárfolyam eredményiéből nem lehet és nem is szabad mandátumokat, vagy szavazatszámokat generálni, mert egész egyszerűen a rendszer nem erre lett kifejlesztve. Talán úgy jobban megfogható a kutatás lényege, ha egy fajta internetes vélemény-klíma kutatásként jellemezzük. Mi nem arra koncentrálunk, hogy ki fog nyerni, hanem arra, hogy bemutassuk mik voltak azok a témák, amiről a hazai internetes közösség beszélt, illetve, hogy ezeknek a témáknak a megítélése pozitív, vagy negatív irányba változtatta a pártokkal és politikusokkal kapcsolatos véleményeket.   Minden jelentésben szinte folyamatosan negatív trendet mutat a véleményindex alakulása, ami ellentmond az említésgyakoriság híveinek, akik szerint nem érdemes szentimentet mérni, mivel a pollyanna miatt a magasabb említésszám valószínűleg pozitívabb véleményt is tükröz. A ti adataitok alapján lehet egyáltalán bármilyen kapcsolatot találni az említésgyakoriság és a WOI értékek között? Sz.P.: Igen sokszor lehet látni, hogy egyes piacok elemeiről inkábbb negatívakat írnak a netezők (politika, internetszolgáltatás) míg másokról főleg pozitívat (autószektor, kozmetikumok). Az adataink alapján azt mondhatjuk, hogy piaci sajátosság és nem nyelvi sajátosság, hogy a magyar weben az említések száma és a véleményárfolyam hogyan korrelál.   Sz.A.: Az elmúlt nyolc hónap egyik egyértelmű eredménye, a már említett negatív trend a közélet és politika terén. Azonban véleményem szerint ettől nem kell kétségbe esniük sem a választóknak, sem pedig a politikusoknak. Nem szabad elfelejtenünk, hogy egy politikus és párt igazi halál akkor következik be, ha már nem is beszélnek róla. Az elsődleges cél tehát az interneten is az elsősorban az, hogy minél több említést generáljon az adott politikai szereplő, és csak ezt követi annak a fontossága, hogy ezek az említések lehetőség szerint pozitívak legyenek. Tapasztalataink alapján valóban szektora válogatja, hogy milyen jellegű a kapcsolat az említésgyakoriság és a WOI értékek között. A hazai internetezők közéletről alkotott megítélése azonban mindenesetre jelenleg negatív trendet mutat, ezt tudomásul kell venni és ebből az alapvetésből kell kiindulni a számok és folyamatok értékelése során. A netes tartalmak elemzése alkalmas lehet (valamikor rövid- vagy középtávon) egy közvélemény-kutatás kiváltására és előrejelzésre?   Sz.P.: Szerintem itt nem beszélhetünk kiváltásról. A két dolog egyszerűen másra jó. A mi elemzéseink előnye, hogy nagyon gyors, és jóval olcsóbb megoldás egy klasszikus közvéleménykutatásnál. Tehát gyorsan lehet "durvább" adatokra szert tenni, kulcspontokat és trendeket feltárni. Például ahhoz, hogy megalapozzunk egy részletes és átfogó kutatást. Tisztában kell lenni a limitációkkal, módszertanilag nem tudja jelenleg a netes tartalmak elemzése helyettesíteni egy közvéleménykutatás mintavételét és alaposságát, hiszen elég csak arra gondolni, hogy a Facebook posztok milyen kis százaléka publikus. Illetve nagyon fontos, hogy egy kutatás célcsoportjának mekkora részéről mondható el, hogy megosztja vagy legalább megoszthatná a véleményét online. Sz.A.: Igen, azt mindképpen tisztáznunk kell, hogy a projekt nem a közvélemény-kutatások alternatívája, azok felváltója akar lenni, hanem egy fontos kiegészítő kutatás. Ha fel akarjuk tárni egy politikai botrány internetes dinamikáját, akkor a Véleményárfolyam alkalmas eszköz ennek elvégzésére. Az elmúlt hónapokban például kitűnően tudtuk szemléltetni azt, hogy napi szinten hogyan változott meg adott párt megítélése az adott üggyel kapcsolatban, vagy például hogyan rázott le magáról egy politikai közösség egy botrányt, hogy az szépen ráégjen egy másikra.  A projekt legnagyobb erénye pedig, és ezzel viszont egyértelműen felveszi a versenyt a hagyományos közvélemény-kutatásokkal, hogy míg egy telefonos lekérdezés esetében csak az aktuális preferenciákat, véleményeket lehet lemérni, addig mi a letárolt adatok alapján torzítatlanul vissza tudjuk utólag keresni akár decemberben is, hogy például márciusban milyen is volt egy adott ügy, vagy közéleti szereplő megítélése. Ez a klasszikus közvélemény-kutatások során lehetetlen, hiszen módszertanilag erősen megkérdőjelezhető lenne egy olyan kérdés decemberben, hogy "mondja kérem mit gondolt XY-ról márciusban, de kérem hagyja figyelmen kívül az azóta lezajlott eseményeket." Jönnek a választások, gondolom, egyre többen találják meg elemzéseiteket a neten. Milyen visszajelzéseket kaptok a "fogyasztóktól"?   Sz.P.: Mi elsősorban az oldallátogatások, megosztások és like-ok számának növekedésében látjuk ezeket a visszajelzéseket. Illetve több ismerősünk is jelezte, hogy mennyire jó, hogy készítünk ilyen vizsgálatokat, hiszen sokak szerint a jövőben a politikai kommunikáció is sokkal inkább web fókuszú lesz.Sz.A.: Nagyon lassan kezdett el beszivárogni a közbeszédbe. Azonban most már elmondható a mi tapasztalataink alapján, hogy az elmúlt másfél-két hónapban robbanás szerű volt az érdeklődés. Mi elsősorban nem lájkok és megosztások alapján határoztuk meg a projekt sikerességét, hanem sokkal inkább a média megjelenéseket és hivatkozás számokat vesszük alapul. Ez alapján ahogy már említettem egyértelműen sikert értünk el az elmúlt időszakban, és ma már nem csak úgy jelenik meg a Véleményárfolyam, hogy mi belefűzzük egy-egy attól független témába, hanem több esetben is ennek a projektnek az okán hívtak el minket rádióba, tv-be. Készültök-e jövőre valami extrával a választásokra?   Sz.P.: Mivel több mint 1 évnyi elemzett adatunk lesz a területről akkorra, mindenképp érdemes lesz korrelációs és predikciós statisztikai vizsgálatokat csinálni, de itt az izgalmas az a tudás lesz, amivel a Méltányosság tudja majd interpetálni adatokat, ahogy közelítünk a májushoz. Persze el tudok képzelni egy heti rendszerességű predikciós riportot , de erről még egyeztetnünk kell. Sz.A.: Szerencsés a helyzetünk, hiszen 2013 februárjában tettük közzé a meltanyossag.hu-n az első politikai Véleményárfolyamot, így közvetlenül a választások előtt már egy évnyi adattal fogunk rendelkezni, amiből már sokall komplexebb és mélyebb elemzéseket fogunk tudni készíteni arról, hogy mi hogyan mozgatja meg a hazai internetet, ha közéleti témákról van szó.   Köszönjük Péternek és Andrásnak, hogy válaszoltak kérdéseinkre! Sok sikert kívánunk a Neticle és a Méltányosság egyedülálló együttműködésének!


2013. december 17. 8:00

Válság index magyar adatokkal

Tegnap megosztottam egy kézzel készített plot vázlatot (amiből végül nem lett plot) és meglepetésemre páran kérték, hogy nagyobb méretben is tegyem elérhetővé a képet. Íme a művem: Az ábra valahol Miskolc és Budapest között félúton született az IC-n és részben azért papíron, mert én szeretek előbb vázlatot készíteni s csak azután szoftveresen dolgozni (a másik prózai oka a dolognak az, hogy nem volt nálam laptop). Az adatokat a Nielsen fogyasztói bizalmi indexet bemutató Chart Géza poszt adta, mivel az R-indexet a kutatók szeretik a consumer sentiment-tel összefüggésbe hozni (l. Fogyasztói hangulat mérése online szövegekre alapozva c. posztunkat), gondoltam egy ábrán gyorsan megnézem mit is láthatunk. Az index.hu keresőjét használva megnéztem hány találatot kapok a "válság" szóra keresve egy adott negyedévben és egy KSH GDP jelentésből kipuskáztam a negatív GDP bővülést produkáló negyedéveket (ezek jelennek meg beszínezve az ábrán). Az eredmény nagyon klasszikus lett, el is tettem magamnak, hogy majd egyszer jó posztot fogok írni, amikor Szekeres Péter barátommal vadul elkezdtünk az R-indexről levelezgetni és gondoltam előveszem ezt a firkát. Érdemes megjegyezni, hogy egy korábbi posztunkban már bemutattuk, hogy az R-index működik a Google Ngram korpusz adatait használva is. (A beszínezett periódusok itt is válságnak számítanak) Nem véletlen, hogy az R-index és társai manapság a hírelemzés bevett eszközei és megtalálhatóak a tréderek eszköztárában is a Bloomberg terminálon vagy a Thomson-Reuters Eikon platformban is. A szünet után a kézi grafikonnál szebb ábrával és adatokkal igyekszem jelentkezni a témában!


2013. december 16. 8:00

grannatik. - a tudomány csajos dolog!

Miközben az EU A tudomány csajos dolog! kampánya küzd azért, hogy a lányok körében népszerűsítse a tudományt, mi ráakadtunk a grannatik. blogra - amit ajánlunk minden hasonló kezdeményezés figyelmébe, hiszen egy okos, a tudomány iránt elkötelezett 19 éves egyetemista lány írja, nem is akárhogyan! Mégis csak csajosabb egy divatblogot vezetni, nem? Mi sarkallt egy 19 éves lányt arra, hogy sminktippek és divatszínek helyett a mesterséges intelligencia vagy a programozási nyelvek történetéről írjon? Hogy miért vágott bele és szükség van-e manapság ilyenre, arról meséljen ő maga.   A grannatik. blogot 2013 októberében indítottam el, hogy arról írhassak, amit a legjobban szeretek és ami szerencsés módon a munkám is. Azért is éreztem fontosnak az elindítását, illetve a rendszeres vezetését, mivel szükségem volt egy felületre, ahol megkötések nélkül írhatok bármikor és bármiről sajátos hangnemben. Az önkifejezés ezen részére valahol mindig is szükségem volt, ráadásul központi szerepe van a közösségi médiumok használatának a mindennapjaimban, így létfontosságú volt egy saját oldal létrehozása. Mindezek mellett, hogy nagyszerűen vagyok attól, hogy kommunikálhatok kifelé, szakmai miértje is volt a kis projektemnek: a célom az, hogy érdekes, tudományos témákról írjak, de nem szaknyelven. Azt hiszem ez volt a legfontosabb célkitűzés, hogy közérthető legyen, mégis hordozzon kellő mennyiségű információt ahhoz, hogy tudományos értékkel is bírjanak a bejegyzéseim. A fő téma a számítógépes nyelvészet, illetve a nyelvészet. Legtöbbször a saját kedvenceimmel vegyítem a posztokat, ilyen volt a star trekes klingon nyelvről való beszámolóm vagy éppen az első videójátékról szóló cikkem. Nagy meglepetésemre kezdettől fogva érdekelte az embereket az, amit csinálok, ezt a látogatók száma is jól tükrözte. Ehhez persze kellett olyan lökés, mint a HVG Tech vagy a Kereső Világ ajánlása. Úgy gondolom, szerencsésnek mondhatom magam, hogy kezdettől fogva ilyen támogatást kaptam és kapok is a mai napig. Nyelvészeti témájú blog megfigyeléseim szerint elég kevés van; a Kereső Világ vagy a Számítógépes Nyelvészet, a nyest.hu pedig tudományos és nyelvészeti profi lap. Azután vannak helyesírás tanácsadó honlapok vagy a Nyelvtudományi Intézet gondozásában lévő oldalak. Egyéni felhasználók szintjén viszont nagyon kevés blog működik csak. A jövőben természetesen szeretném tovább folytatni a blogírást, illetve a kutatást a szegedi egyetem számára. Nagy álmom az, hogy közelebb hozzam az embereket a nyelvészethez, de nem nyelvvédő (elnézést, nyelvművelő) szempontból. Sokkal inkább a programok szervezése és a cikkírás az, ami érdekel és aminek úgy gondolom, lenne célközönsége.   Papp Petra Anna (@broadmajestic) vagyok és a Szegedi Tudományegyetemen tanulok nyelvtechnológiát. Középiskolában még nem volt a szívem csücske a nyelvtan, de az egyetemen nagyon megszerettem, mivel ez már nyelvészet volt. Jelenleg az MTA-SZTE Mesterséges Intelligencia Kutatócsoportjában veszek részt egy projektben, ahol alzheimeres betegek és egészséges emberek beszédkivonataival foglalkozom. A kutatás célja a két csoport összehasonlításából kapott eredmények felhasználása egy otthon is használható szűrőprogram készítéséhez.


2013. december 13. 8:00

Évértékelő

Lassan vége az évnek, egy kicsit belassul a Kereső Világ és az ünnepek előtt barátainknak adjuk át a klaviatúrát, majd pedig egy kis szünetre megyünk. Ilyenkor az ember szeret visszatekinteni az eltelt évre s magát vállon veregetni a kisebb-nagyobb sikerekért, mosolyogni a bakikon és elmélázni azon, mi vár rá jövőre. Külön plusz, hogy ezzel egy esedékes posztot is meg lehet spórolni :D  Nevet váltottunk - Apróságnak tűnik, hogy elhagytuk a Weblib nevet, de mint Precognox szeretnénk jelezni, hogy a keresés mellett egyre hangsúlyosabb a szövegfeldolgozás és a nyelvtechnológia a cég életében. Megjelentünk az USA piacán - Mint Weblib eddig is jelen voltunk az IT legjelentősebb piacán, de immár önállóan, mint Precognox is ott vagyunk. Büszkék vagyunk ügyfeleink sikereire - A Kilgray MemoQ fordításmemóriája a világ egyik legfejlettebb fordítástámogató eszköze. Cégünk fejleszti a Language Terminal oldalt, ami a szoftvert használó fordítók számára nyújt szolgáltatásokat. Elindult gyakornoki programunk - a nyáron több fiatal is csatlakozott csapatunkhoz és ketten velünk is maradtak. Olyan izgalmas projekten dolgoztak a srácok mint a beszédfelismerős cégkereső vagy a Pollyanna jelenség a magyar weben. A többi projektről is beszámoltunk blogunkon. inkLink 2013 - adatújságírás-nap - A Nyelv és Tudománnyal közösen szerveztük meg az első adatújságírás-napot, amin hazai és nemzetközi szakértőktől tudhatott meg a hallgatóság többet az adatújságírásról. A helyszínen többen is a nyílt adatok szerelmesei lettünk. Goldenblog - 2011-ben és 2012-ben harmadik lett a Kereső Világ a Goldenblogon IT kategóriában. 2013-ban a versenyben megszűnt az IT kategória, ezért a biznisz blogok között indultunk és hetedik helyezést értünk el. Elindult az opendata.hu - Az inkLink remek alkalom volt világmegváltásról beszélni és tervezgetni, de idővel a sok beszélgetést a tettek követték és elindítottuk az opendata.hu oldalt. Köszönjük Samu Imre és a K-Monitor segítségét ebben! NLP meetup - Idén a tavaszi szezonban hét meetupot tartottunk, sajnos ősszel a helyszínnel kapcsolatos problémák miatt nem tudtunk találkozót tartani, de jövőre kipihenten és újult erővel folytatjuk. Konferenciák - Részt vettünk több konferencián is. A teljesség igénye nélkül: smartmobil, Big Data Meetup,  BarCamp, az EU ePSI platformjának budapesti rendezvénye, Open Source Intelligence Konferencia, Budapest BI Forum, PhiLang 2013, CILC 2013, Telenor Okostelefon Akadémia, conTEXT - szöveganalitika magyarul, BURN Meetup Írtak rólunk, írtunk náluk - A Nyelv és Tudománnyal régi barátság köt minket össze, rendszeresen jelennek meg írásaink náluk is és ad hoc elemzést is végeztünk már velük a helyesírás népszerűsége kapcsán. Egyes posztjainkat a HVG Tech rovata is említésre méltatta, keresés és big data ügyben pedig nem először hivatkoztak ránk. Most egy kicsit pihen a blog, de jövőre folytatunk mindent és igyekszünk fejlődni is az off- és online tevékenységünkben. A következő napokban barátaink írásait fogjuk közölni, akiknek ezúton is köszönjük, hogy elfogadták felkérésünket. Legközelebb januárban jelentkezünk friss, saját tartalommal!


2013. december 12. 8:00

Szöveges tartalom feltárása - MIBE-klub 2013. dec. 18.

A MIBE rendezvénye nagyon jónak ígérkezik: A MIBE 2013. dec. 18-án, szerdán (17.00-től; Budapest, Stex étterem) klubot szervez szöveges tartalom feltárása témakörben. Vendégek lesznek Síklaki István szociálpszichológus és Varjú Zoltán (gondolatai pl.: Kereső Világ). A vendéglátó: Mikulás Gábor kultúrakutató, a MIBE elnöke. A térítésmentes, kötetlen beszélgetésre a MIBE örömmel várja a téma és az egyesület iránt érdeklődőket.


2013. december 11. 8:00

Példakép alapítvány közönségszavazás

December 9-én elindult az Év Példaképe online közönségszavazás . A Példakép Alapítvány által életre hívott Év Példaképe címért 50 sikeres fiatal vállalkozó versenyez, akikre a www.peldakep.hu weboldalon lehet szavazni. A Kereső Világ olvasóinak figyelmébe ajánljuk blogunk alapítóját és a Precognox ügyvezetőjét, Jóföldi Endrét, akivel a szavazás kapcsán készített interjú itt olvasható. Nagyon büszkék vagyunk rád Endre! A 417 pályázó közül 12 tagú szakmai zsűri választotta ki azt az 50 fiatal vállalkozót, akikre január közepéig szavazni lehet. A legtöbb szavazatot kapott vállalkozó viheti haza az Év Példaképe Díjat, amelyet a januárban megrendezésre kerülő gálaesten adnak át a szervezők. Az alapítvány programjainak fő támogatója a Magyar Nemzeti Bank, az AUDI HUNGARIA MOTOR Kft., a TESCO-GLOBAL Áruházak Zrt. és az Eximbank, kiemelt médiapartnere a Világgazdaság és a Blog.hu. A közönségszavazás technikai hátterét az Inda biztosítja.


2013. december 10. 16:19

Elindult az Online Politikai Elemzések

A Maven7 és a Political Capital elindította az onlinepolitikaielemzes.hu oldalt, ahol a magyar pártok Facebook jelenlétéről tudhatunk meg többet. A kezdeményezés a network blog idei posztjainak tükrében nem tűnik a véletlen művének, ezért az oldal indulása nagyon izgatottá tett minket. Szemügyre vettük az oldalt, amiben Vásárhelyi Orsolya, a Maven7 elemzője volt segítségünkre.   Az oldal "Interaktív táblák" menüpont alatt teszi elérhetővé az egyes pártok aktív lájkolóinak (hogy ez mit is fed, arra hamarosan kitérünk!) elemzését, továbbá az "Elemzéseink" fül alatt elérhetjük a network blogon megjelent politikai elemzéseket is. Ezen kívül - előzetes regisztráció után - letölthető egy kivonatos tanulmány, mely hosszabb változatát is meg lehet vásárolni. Nagyon egyszerű, de mi mégis sokáig csodálattal nézegettük, majd Vásárhelyi Orsolyához fordultunk kérdéseinkkel, aki segített nekünk jobban megérteni mit is takar az oldal. Levelezésünk szerkesztett változatából reméljük olvasóink számára még nagyobb élmény lesz az Online Politikai Elemzések felfedezése. Mit is vizsgáltok pontosan? A felhasználói viselkedés azon formáit vizsgáltuk csak, ami nyomot hagy a publikus rajongói oldalakon - komment, like, poszt. Az nagyon fontos, hogy csak publikus adatokat használunk az elemzéseinkhez. Az oldalon elérhető interaktív táblákon csak az aktív lájkolók, azaz a kommentelők, posztokat lájkoló felhasználókra vonatkozó adatokat érhetünk el. A fizetős szolgáltatás gondolom ennél többet nyújt? Igen a like-oknál többet nyújt a fizetős elemzés, az inkább egy politikai elemzés. Kitérünk külön a miniszterelnökökre, a kommentekre illetve idődinamikai elemzés is van benne. A piacon már elérhető egy másik online elemzés, a Méltányosság-Neticle Politikai véleményárfolyama. Miben különbözik az Online Politikai Elemzések ettől? Tudtommal a Neticle-ös véleményelemzés alapvetően kulcsszavakra épül, és más adatforrásokat használnak mint mi. Ezzel szemben mi csak a Facebook-ot használjuk, aminek nagy előnye, hogy az anonimizált felhasználók alapján összeköthetőek az egyes rajongói oldalak, ezáltal a pártok is egymással, így elemezhetőek a pártok közötti kapcsolatok, az átfedő táborok. Természetesen hátránya, hogy csak a Facebookot vesszük alapul, ami nem fedi le még a teljes magyar online teret sem, noha több, mint 255 ezer aktív felhasználóról beszélünk. A lájkhálózatok elemzése kicsit olyan, mint a "More Tweets, More Votes" elv, amit mostanában nagyon sokan megkérdőjeleznek Jungherr vizsgálatai alapján - nem lehet, hogy néha az online viselkedés anomáliákat generál, a pozitív/aktív online jelenlét tényleg lefordítható az offline világra? Nem vagyok politológus, sem online marketinges, de azt mint statisztikus merem állítani, hogy a felhasználók reagálnak a Facebookon a napi politikai eseményekre. A Jobbik például hagyományosan erős az online és az offline mozgosításban is, és ez a Facebook aktivitásukon is jól látszik, hiszen nekik van a legtöbb proaktív felhasználójuk. Ahhoz, hogy erre a  kérdésre pontos választ tudjak adni érdemes lesz végigkísérni az idei kampányt, illetve összefüggéseket vizsgálni a közvéleménykutatók, valamint a végső választások eredményei és a facebook adatok között. Egyébként pont az ilyen kérdések miatt vonunk be a kutatásba politikai elemző cégeket, mint a Political Capital, illetve tervezzük a szemantikai elemzést is. Nagyon örülünk minden hasonló kezdeményezésnek és sok sikert kívánunk a Maven7 és a Political Capital kezdeményezésének!  


2013. december 10. 8:00

Milyen legyen jövőre a Kereső Világ?

Szeretünk elmélázni a bloggal kapcsolatos statisztikák felett és következtetéseket levonni arra nézve, milyen tartalommal lenne a legjobb megörvendeztetni olvasóinkat. A legjobb visszajelzés viszont az, amikor ténylegesen is találkozunk a Kereső Világ olvasóival és elmondják nekünk mit szeretnek és mit nem szeretnek a blogon. Szeretnénk azonban több olvasót elérni és bevonni a blog témáinak alakításába, ezért kérjük olvasóinkat az alábbi rövid kérdőív kitöltésére - a pár perces kitöltés jutalma, reményeink szerint, az olvasók számára tartalmasabb posztok lesznek. Loading...


2013. december 5. 8:00

Context is King : A kontextus mindent visz - Telenor Okostelefon Akadémia

November 27-én a Telenor Okostelefon Akadémián adtam elő Context is King: A kontextus mindent visz címmel. Alább megtalálhatjátok a kapcsolódó prezentációt és az előadás főbb pontjaihoz kapcsolódó korábbi posztokat. A fenti videóban az esemény előadói röviden összefoglalják előadásaikat. Az előadás gondolatmenetét pontokba szedtem és az egyes részekhez a blog kapcsolódó írásait linkeltem: A kontextus óriási ereje A mobil nyújtotta kontextus értelmezési keretet nyújt, pl. a lokációs keresők jelentősen megkönnyítik a keresést - Azt beszéli már az egész város, Google Now - a gondolatolvasó A közösségi média további kontextusokat nyit meg, hiszen alapvetően társas lények vagyunk - Yandex Wonder - ami a Facebook Graph Search szeretne lenni A Google új keresőmotorja, a Hummingbird is igyekszik összekapcsolni a faktuális tudást a kontextus nyújtotta értelmezési kerettel - Google Hummingbird A mobiltelefonok szenzorai által nyújtott lehetőségeknek még csupán igen kis szeletét használjuk ki. A cél, hogy jobban integráljuk ezeket - pl. Beszédfelismerős cégkereső Próbálkozzunk, hiszen Tony Stark is megmondta: Sometimes you gotta run, before you can walk! Ezúton is köszönöm a szervezőknek a meghívást és a jó hangulatú rendezvényt. Az előadás anyagára alapozott, de jelentősen kibővített poszttal jelentkezünk hamarosan a blogon!


2013. december 4. 8:00

Emócióelemzés, avagy Darwin és a nyelvtechnológia különös találkozása

"Úgy szeress, ahogy a vadállatok" énekli Lukács Laci, s ezzel remekül vissza is adja azt a közkeletű elképzelést, hogy érzelmeinknek van valami köze az ősi ösztönös viselkedéshez. Napjainkban a nyelvtechnológia, a gépi tanulás és pszichológia megpróbálja hasznosítani az érzelmekről szóló elméleteket olyan gyakorlatias területeken mint a marketing vagy éppen a pénzügyek.  Charles Darwin 1872-es The Expression of Emotions in Man and Animals című könyve fektette le az evolúciós pszichológia alapjait. Az evolúciós elmélet atyja az emberi érzelmek kifejezését az állati viselkedésben is megtalálható jegyekre vezeti vissza könyvében. Darwin azonosít bizonyos alapvető érzelmeket s ezek fiziológiai megnyilvánulásait elemzi az ember és más állatfajok esetében - nem mellesleg módszere a könyvillusztráció történetének egyik mérföldkövét is produkálta.  Darwin elméletét Paul Ekman fejlesztette tovább, akit különösen az érzelmek arckifejezésre gyakorolt hatásai izgattak. A sorozatfüggők számára biztosan ismerős a Lie to me sorozat, melyet Ekman tudománynépszerűsítő írásai ihlettek. Számunkra sokkal izgalmasabb, hogy Ekman és a nyomdokain elinduló pszichológusok empirikusan bizonyították, hogy az alapvető emóciók minden kultúrában megtalálhatóak, kifejeződnek az arcon (ezek az ún. szemmel alig-alig észrevehető mikro-kifejeződések), ergo az emberi faj univerzális tulajdonságai és evolúciósan stabil viselkedési formákat jeleznek. Az MIT Media Lab kutatója Rosalind W. Picard sikeresen alkalmazta a gépi tanulást az emberi érzelmek detektálására, amit az Affectiva startup keretein belül próbálnak hasznosítani tanítványai. Habár Ekman fektette le a modern emóciókutatás alapjait és annak ellenére hogy az arckifejezésekre összpontosít munkássága foglalkozott a nyelvi viselkedéssel is, Robert Plutchik emócióosztályozása a legelterjedtebb a nyelvtechnológiai alkalmazások terén. Plutchik eredetileg nyolc érzelemkategóriát különböztetett meg; düh, félelem, szomorúság, undor, meglepettség, várakozás, bizakodás, élvezet. A nyolc kategóriát sokszor lecsökkentik ötre, de az alapelv ugyanaz marad; szótárakat készítenek, melyek szavakat, kifejezéseket társítanak egy-egy érzelemhez. A szentimentelemzéshez hasonlóan az emócióelemzés során is tkp. automatikusan megszámolja a szoftver az egyes kategóriákhoz tartozó szavak arányát és általában a legmagasabb értéket elérő emócióba sorolódik a vizsgált adat, vagy az emóciókör alapján az egyes alapérzelmek aránya alapján finomabb érzelmek is azonosíthatóak. James W. Pennebaker szociálpszichológus The Secret Life of Pronouns című könyve ma az egyik legnépszerűbb mű a szentimentelemzéssel foglalkozók körében. Pennebaker kutatásainak középpontjában az ún. funkciószavak állnak, melyek a nyelvtani, szerkezeti viszonyok jelölésére szolgálnak (pl. névmások, névelők, kötőszavak stb.) szemben a tartalomszavakkal (pl. főnevek, igék stb.) A nyelvtechnológiában alkalmazott szózsák modellben a funkciószavakat szeretjük stopszó listára tenni és kiszűrni, mivel túl sok "zajt" keltenek. Ellenben ezek használata sokat elárul a beszélő személyiségéről, vagy éppen arról, hogy igazat mond-e. Pennebaker elméletét sokan próbálják átültetni a gyakorlatba. Randioldalakon a profilok őszinteségét rangsorolják vele, egészségügyben a diagnosztikát segítik és terápiás céllal is bevetik. A SmogFarm startup pedig általános szentiment- és emócióelemzésre és felhasználói bázis szegmentálására (a demográfiai adatok személyiségjegyekkel történő kiegészítésére) használja Pennebaker elméletét, aki nem mellesleg a cég tanácsadója is.  Geoffrey Miller evolúciós pszichológus szakterületét a manapság divatos viselkedés közgazdaságtanraalkalmazta. Spent: Sex, Evolution, and Consumer Behavior című könyve a konzumerizmus és a kapitalizmus ötletes bírálatát adja egy pszichológus szemszögéből. Miller szerint habár a marketing pszichológiai tankönyvek elavult elméletekre hivatkoznak (pl.Maslow piramisára) a gyakorlat azt mutatja, a reklámok az evolúció során kialakult öt nagy személyiségvonást (Big Five) veszik célba. Ennek oka egyszerűen az, hogy a szakemberek ösztönösen érzik ezen személyiségvonásokat, hiszen az evolúció során agyunk arra rendezkedett be, hogy nagy pontossággal azonosítsuk ezeket. Viszonylag egyszerű és olcsó pszichológiai teszttel bárkit be lehet sorolni az egyik személyiségvonásba. Az egyes kategóriák - emocionalitás/neurocitás, extraverzió, nyitottság/intellektus, barátságosság/együttműködés és lelkiismeretesség - sokkal jobban korrelálnak a fogyasztási szokásokkal, mint a demográfiai jellemzők (kor, nem, lakóhely, státusz) s ezért jó kiegészítő adatai lehetnek egy marketingkampánynak. Persze előbb azért meg kell találni a módját annak, hogy az online viselkedéssel (ami általában ún. írott beszélt nyelv egyik formája a közösségi médiában) valahogy párhuzamba állítsuk a valós pszichológiai profilt.   A Cayman Atlantic a közösségi médiát elemezve alakítja ki befektetési stratégiáját, amihez az ötletet Johan Bollen, Huina Mao és Xiao-Jun Zeng Twitter mood predicts the stock market című tanulmánya adta. Bollen és társai nem egy szokásos szentimentelemzést végeztek, hanem a Profile of Mood States teszt alapján állítottak össze szólistákat, melyek egy-egy adott "kedvre" - nyugalom, óvatosság, bizonyosság, vitalitás, kedvesség, boldogság (Calm, Alert, Sure, Vital, Kind, Happy) - jellemző szavakat tartalmaznak. Ezt a Google Sets alkalmazás használatával kiegészítették további, statisztikai előfordulás alapján kapcsolódó szavakkal. Úgy találták, hogy a nyugalom kategória a legjobb prediktor a DJIA esetében. Reméljük sikerült érzékelteti, hogy mi is az az emócióelemzés. Szeretnénk hangsúlyozni, hogy a gyakorlatban egyáltalán nem a szentimentelemzés konkurense, hanem egy teljesen más felhasználásra szánt eszköz! Habár a két eljárás technológiailag nagyon hasonló (szavakat számolunk, szövegeket kategorizálunk), az elméleti háttér és így a felhasználási terület nagyon eltérő. Az emócióelemzés a legjobb példa arra, hogy nem csak az elérhető technológia fontos, hanem annak kreatív alkalmazása is!


2013. december 2. 8:00

Ki a bura alól!

A perszonalizáció egyrészt nélkülözhetetlen, hiszen nélküle elvesznénk az adatok tengerében. Másrészt a szűrők alkalmazása elvezet az ún. filter bubble kialakulásához. Graells-Garrido és tsai Data Portraits: Connecting People of Opposing Views tanulmányukban egy olyan módszert mutatnak be, mely segíti a közösségi média felhasználóit abban, hogy nézeteikkel ellentétes véleményeket is elolvassanak. De kell-e ezt erőltetni, vagy inkább bízzuk az emberekre, hogy jó-e nekik a saját kis burájuk? A kutatók vizsgálatukhoz a chilei csiripelők abortusszal kapcsolatos vitáinak alakulását vették górcső alá. A Twitteren végzett keresés segítségével LDA eljárással állapították meg milyen témákba (topikok) csoportosíthatóak a tweetek. A #pro-choice és #pro-life hashtagek spanyol megfelelőinek használata segítette eldönteni hogy melyik véleményt képviselik az egyes bejegyzések, ill. milyen "köztes témák" fordulnak elő mindkét oldalon. Ahogyan a fenti ábrán is látható, élesen elkülönülnek az egyes vélemények! A közösségi médiában tapasztalható homofília (l Birds of Feather: Homophily in Social Networks) miatt érthető, hogy nincs sok kapcsolat általában az ennyire eltérő véleményeket képviselő emberek között. A nagy kérdés az, miképp lehetne egy adott nézet elkötelezett hívét megismertetni az ellentétes véleményekkel. Itt két probléma merül fel rögtön. Először is nagyon szeretünk gyorsan dönteni, ezért ha valami nem tetszik, azzal nem is foglalkozunk. Másodszor pedig kognitív disszonancia jelentkezik amikor valamilyen számunkra szokatlan információval találkozunk az szorongáshoz vezet, amit csökkenteni szeretnénk; ennek több útja is van, az egyik legkézenfekvőbb az, hogy nem keressük azokat a helyzeteket, melyek zavart okozhatnak. Ezen megfontolások mentén Graells-Garrido és tsai egy olyan témafelfedező felületet fejlesztettek ki, ami egy szófelhő mentén jeleníti meg a kapcsolódó kulcsszavakat. Az egyes kulcsszavakra kattintva megjelennek a kapcsolódó bejegyzések. A szófelhőben ügyesen a köztes témák beiktatásával sikerült csökkenteni a kezdeti idegenkedést és kognitív disszonancia jelenségét. Miután köztes témákkal is találkoztak a felhasználók, egyre több ellentétes vélemény is megjeleníthetővé válik, amit a kutatási résztvevő a kérdőíves vizsgálatok alapján kifejezetten jól fogadtak. A tanulmányban többször előfordul a "nudge" szó, ami kb, terelgetést, (finom) bökdösést jelent, de egyben utalás Thaler és Sunstein azonos című könyvére is, ami az ún. libertariánus paternalizmus egyik népszerűsítő műve. Úgy gondoljuk, hogy egy demokráciában jó dolog, ha a polgárok megismerik egymás álláspontját a közügyeket illetően és a filter bubble ez ellen dolgozik. Azonban az egy külön kérdés, hogy aktívan be kell-e avatkoznunk a kívánt viselkedés eléréséhez!


2013. november 30. 8:39

Szövegbányászat - BURN meetup előadás

Szerdán a BURN meetupon adtam elő és a szervezők jóvoltából az előadás megtekinthető a YouTube-on is immár. A kapcsolódó prezentáció pedig elérhető itt.


2013. november 29. 18:41

A szavak titkos élete - conTEXT prezentációm

Múlt héten a Clementine conTEXT - szöveganalitika magyarul konferencián vettem részt - a lehetőséget és a sok érdekes előadást ezúton is köszönöm a szervezőknek és a kollégáknak! Mivel sokan kérték, közzéteszem itt a prezentációmat és korábbi posztokat linkelek alatta, melyek segítenek eligazodni az említett elméletek tengerében. Az előadás főbb pontjai és a hozzájuk kapcsolódó korábbi posztok: Szándékos viselkedésünkkel nagyon sokat elárulunk magunkról a neten - Lájkolj, s megmondom ki is vagy! Egy egyszerű szógyakoriságra alapozott vizsgálattal is sok olyan dolog kideríthető, amit nem szándákosan árul el rólunk nyelvi viselkedésünk - Mit árul el rólad a Twitter fiókod? A sima szógyakoriságon alapuló elemzéseknek és szófelhőknek megvannak a maguk korlátai - Miről beszél @dajcstomi? Miről csiripelnek a politikusok? FIDESZ vs. MSZP - miről beszélnek a közösségi médiában? A szótáralapú szentiment- és emócióelemzés már sokkal jobb értelmezési keretet ad - Rossz híre van hazánknak 1? és 2 A "More Tweets, More Vote" elv arra hívja fel a figyelmet, hogy a puszta említésgyakoriság jó prediktor lehet. Ezt a pollyanna jelenséggel szokták magyarázni, azonban több jel is arra utal, hogy ez nem igaz. - Több csirip, több szavazat Pollyanna a magyar weben Úgy tűnik, a nyelvben is jelen vannak ún. kognitív torzulások (cognitive bias), melyeket a pénzügyi hírelemzés területén figyeltek meg először - Hírelemzés A kognitív tudomány, a kognitív nyelvészet és a pszichológia területén találhatunk olyan elméleteket, melyek segíthetnek feltárni ezeket a kognitív torzulásokat - Nekünk elmélet kell! Mindennapi metaforák


2013. november 28. 9:58

Miről csiripelnek a politikusok?

A magyar politikusok - legnagyobb sajnálatunkra - nem szeretik a Twittert. Szerencsére azért akadnak kivételek! Megvizsgáltuk miről beszél Deutsch Tamás, Mesterházy Attila, Szanyi Tibor, Bajnai Gordon és Jávor Benedek - célunk nem a politikai elemzés, hanem a szófelhők elleni keresztesháborúnk propagálása.  A fenti szófelhőben az összes vizsgált politikus által gyakran használt szavakat látjuk, ez az ún. commonality cloud. Általánosan elmondható, hogy ennek segítségével kb. képbe kerülhetünk arról milyen közös témákról csiripelnek. Az alábbi ábrán az összehasonlító szófelhőn (comparison cloud) viszont azt láthatjuk, mely szavak relatív gyakorisága jellemző az adott politikusra. A legmeglepőbb dolog talán az, hogy saját pártjukról szeretnek beszélni, Mesterházy esetében a nagy ellenfél Orbán Viktor viszont előkelő helyen áll. Külön megvizsgáltuk Mesterházy és Bajnai Twitter fiókját. A alábbi ábrán látható ún. Conway szófelhőben térben is elkülönül, hogy egy-egy szó melyik politikusra jellemző inkább. Jól látható, hogy Mesterházynak markánsan elkülönülő szóhasználata van, ebben a FIDESZ, a miniszterelnök és a magyar szavak dominálnak. Bajnai Gordon Twitter kommunikációja viszont alig különböztethető meg a szocialista vezető csiripelésétől. A puszta szógyakoriság persze nem túl informatív, annyi azonban látszik, hogy mindenkinek megvannak a maga témái. A nyelvhasználati különbségek értelmezéséhez azonban már el kell olvasnunk a csiripeket is, amihez kellemes időtöltést kívánunk kedves olvasóinknak.


2013. november 28. 0:07

R meetup prezentáció

Mivel sokan kértétek, itt közzé is teszem az előadásomhoz kapcsolódó prezentációt. Szeretném felhívni a figyelmet arra, hogy a twitteR csomag interaktív autentikációja nem működik RStudio alatt! A szervezőknek pedig ezúton is köszönöm a remek találkozót, élmény volt sok lelkes R fan között tölteni az estét! Budapest Users of R Network - 2013. november 27. from Zoltan Varju  


2013. november 25. 10:17

Telenor Okostelefon Akadémia 2013. november 27.

2013. november 27-én tartja a Telenor Okostelefon Akadémia idei utolsó összejövetelét, melyet a kontextus alapú keresésről szóló előadásom nyit. További információk a rendezvény Facebook oldalán. Hogyan változtatták meg az okos eszközök a keresés fogalmát? Hogyan keresünk? Mit keresünk? Hol keresünk? MENNYIT keresünk? Milyen technológiák, algoritmusok segítik a legjobb találatok elérését? Ha ma az okos eszközök megpróbálják kitalálni következő kérdéseinket, mit tartogat a jövő?18.00-tól várunk benneteket, a programot 18.30-kor kezdjük.A fenti témákat meghívott szakértőinkkel, többek között Jóföldi Endrével a Precognox ügyvezetőjével, és a kereses.blog.hu szerzőjével járjuk körül, aki a kontextus alapú keresésről, a keresés külföldi, és hazai kísérleteiről mesél majd. Jelen lesz Pintér Róbert, az eNET mobil kutatások vezetője is, aki az okostelefonok, és a piackutatás módszereiről beszél majd. Az előadások közül természetesen nem maradhat ki a Google, mint korunk egyik legnépszerűbb keresője Dojcsák Dániel, a HWSW újságírójának ígéretes előadásában, illetve a Firefox OS keresésben nyújtotta előnyeire is fény derül Dencs Gábor előadásában. És ha már keresés… adatokon, eseményeken, és hasznos információkon, célpontokon kívül az utóbbi években már a társkeresés sem tabu téma. Berényi Konrád az onlinemarketing.blog.hu szerzője beszél a társkeresés XXi. századi mobilos megoldásairól. Gyurkó Szilvi az UNICEF applikációjának bemutatásával szembe megy témánknak: nem kell keresni, itt a témában mindent megtalálsz! Az est végéhez közeledve Várnagy Priszcillától megtudhatjátok, hogyan keres egy startup - azaz mit kell tenni, ha van egy jó ötletetek, már csak egy befektető hiányzik. A színpad záróeseményeként egy izgalmas keresőversenyen vehettek részt, illetve izgulhattok az Okostombola sorsoláson! :)A rendezvény EXPO területére ismét a legmenőbb gyártók hozzák el újdonságaikat, illetve a keresés témájához kapcsolódó hazai fejlesztőcsapatok munkáival ismerkedhettek meg - a legérdekesebb megközelítésben. A belépés ingyenes, de regisztrációhoz kötött: részvételi szándéktokat jelezzétek az oa@eurolex.hu email címen, OA4 tárggyal! Regisztrációkat 2013. november 26. 17:00-ig dolgozunk fel.


2013. november 22. 8:00

Data science kicsit másképp

A Stanford IRiSS Computational Social Science központja harmadik alkalommal rendezte meg konferenciáját, ami a big data legizgalmasabb felhasználási területeit mutatja be - igaz a társadalomtudományok álruhájába bújtatva. A konferencia összes előadása megtekinthető a YouTube-on, ezért mi itt személyes kedvenceinket emeljük ki. Susan Athey az internetes hírgazdaságról szóló előadása kifejezetten üdítő és az olyan új aggregátorok megjelenésével mint Prismatic, Zite stb. van benne valami aktualitás is. Az előadás címe önmagában érdekes; Peer Effects and Social Product Design! Eytan Bakshy egy másik kutatásáról már beszámoltunk korábban, most a Facebook kutatójától azt tudhatjuk meg, mire érdemes a közösségi termékek tervezése során figyelni. Percy Liang személyes hősünk, mivel a mostanában mellőzött szemantika területén igyekszik új (és használható!) eredményeket elérni.


2013. november 21. 8:00

Miért buknak el nemzetek? - és mi köze van ennek a nyílt adatokhoz?

A poszt eredetileg az Open Data blogon jelent meg. Ha érdekelnek a nyílt adatok, akkor az opendata.hu oldalon találhatsz érdekes adatokat, vagy linkelheted/feltöltheted az általad érdekesnek talál adathalmazokat. Mi köze a nyílt adatoknak és a nyílt kormányzásnak egy nemzet sikeréhez és hogy áll Magyarország ezen a téren? Daren Acemoglu és James A. Robinson magyarul is olvasható Miért buknak el nemzetek? (Why Nations Fail?) című könyvükben arra keresik a választ, miért sikeresek egyes országok, míg mások úgy tűnik menthetetlenül elbuktak. A szerzőpáros könyvével azonos című blogján a nyílt kormányzást (open government) a befogadó intézményrendszer fontos részeként írják le, ami alapvetően befolyásolja az egyes nemzetek sikerességét. We are delighted to see the Prime Minister emphasize the importance of inclusive political institutions. He even went further and recognized that making political institutions inclusive is not the natural instinct of politicians (stating that “Transparency brings risks"). In fact, many politicians and elites actively work to maintain extractive institutions in place. This will not change overnight, but more political and intellectual leaders emphasizing the importance of inclusive institutions and the role of politicians and elites in creating and maintaining the institutions that are at the root of much of the poverty around the world is a very very important first step. [forrás] A könyv rengeteg példán keresztül támasztja alá a sikeresség főbb tényezőit, melyek a schumpeteriánus teremtő rombolás, azaz az új technológiák, eszmék stb. folyamatos megjelenése tulajdonjog tisztelete jogállamiság (rule of law) demokrácia jól működő és megbízható intézmények A kötet legnagyobb érdekessége az, hogy sokkal tágabb perspektívába helyezi a jólét és a sikeresség fogalmát. A legtöbben általában a szabad vállalkozásban látják a jóléthez vezető utat és szeretik a GPD növekedés és a vállalkozás könnyedsége (ease of doing business) közötti összefüggést túlmisztifikálni. A Világbank adatkatalógusából a 2013-as GDP növekedési adatokat a "Doing Business Ranking" rangsorral összevetve azt látjuk, hogy a lista elején álló országok növekedése általában pozitív és a középmezőnytől kezdve egyre nagyobb a negatív eltérés. A trendvonal ellenben jól jelzi, hogy az államok többsége átlag körüli növekedést produkált. Sokkal érdekesebb képet kapunk, ha a The Economist Democracy Index-ét vetjük össze az üzlet szabadságával. Nagyon egyértelműen látszik, hogy a vállalkozás szabadsága és a demokrácia összetartozik, további meglepetés, hogy a GDP változást megjelenítő ábrához képes nincs nagy különbség az élbolyban (hiszen az x-tengely ugyanaz mindkét esetben). A World Justice Project jelentésének Open Government indexét vetjük össze az alábbi ábrán a demokrácia indexszel. Látható, hogy az "érett" demokráciákban a nyílt kormányzás már elterjedt, de a jelenség annyira új, hogy  az élmezőnyben is akadnak későn ébredők és a demokratikusnak tekinthető középmezőny is még rosszul teljesít. Mivel a különböző indexek nem listáznak minden államot, ezért 88 országot tudtunk megvizsgálni. Az ábrákon a nagyobb EU tagállamok, a hazánkkal szomszédos országok és pár olyan ország szerepel melyeket Acemoglu és Robinson könyve tárgyal. Külön figyelmet érdemel, hogy külföldi, független intézetek által egész szép helyezéseket ért el hazánk mindegyik rangsorban! Reméljük minden évben jobban fogunk teljesíteni és az opendata.hu is hozzájárulhat ehhez. Azonban érdemes megjegyezni, hogy Robinson a HVG-nek adott interjújában felhívja a figyelmet arra, hogy bizony vigyázni kell az eddigi eredményekre és keményen munka árán lehet tovább javítani a jelenlegi viszonyokon.


2013. november 20. 8:00

Adatok, statisztika, üzlet

Habár napjainkban az újdonság erejével hat az üzleti felhasználók körében az ún. data science vagy adattudomány, az igazság az, hogy az üzleti életben már régóta bevett dolog az adatok módszeres gyűjtése és elemzése. További kérdést vet fel, hogy tudománynak nevezhetjük-e azt a gyakorlatot, amikor csupán mintázatokat keres valaki egy hatalmas adatbázisban.   Statisztika és tudomány Chris Anderson híres The End of Theory című cikkében egyenesen arra az álláspontra jut, hogy a big data értelmetlenné teszi a tudományos módszert, hiszen a számok immár magukért beszélnek és a mögöttük megbújó mintázatok mindent elmondanak nekünk. Így a minden statisztika órán ismételt a "korreláció nem oksági kapcsolat" mantra helyét felváltja a "nekem elég a korreláció, mivel nagyon sok adatom van" szemlélet. Ezzel szemben George E. P. Box, a modern statisztika egyik atyja úgy gondolja, a statisztikának különös helye van a tudományban, hiszen a módszeresen tervezett kísérletek nyitnak ablakot a világra, teszik lehetővé elméleteink tesztelését, a tesztek pedig alkalmat nyújtanak elméleteink korrigálására. Box Science and Statistics esszéjében a modern statisztikai egy másik megalapozója, Roland Fisher életútján keresztül szemlélteti a statisztika szerepét a tudományban és az alkalmazott kutatásokban. Fisher a Rothamsted Experimental Statition mezőgazdasági kutatóintézetnél kezdte meg pályafutását, ahol olyan nagyon gyakorlati kérdésekkel került szembe mint pl. az éves termés mennyiségének előrejelzése, az egyes növényfajták termelékenységének összevetése stb. A fiatal tudós annyira komolyan vette munkáját, hogy tkp. megteremtette a modern kutatásmódszertant! Box rövid írásában Fisher életművéből kiemeli, hogy az alkalmazott statisztika nem csupán matekzsonglőrködés (mathematistry), vagy a módszerek receptszerű követése (cookbookery), hanem együttműködés az adott terület szakértőivel, hogy az adatok megfelelően értelmezhetőek legyenek. Ez pedig egy iteratív munkát követel meg, melyben a modell kidolgozása, a kísérletek megszervezése és az adatok elemzése egy körfolyamat, amiben a statisztika egy eszköz egy probléma jobb megértéséhez. Box elképzelése tkp. Karl Popper tudománymodelljével egyezik meg, mely szerint minden valamennyire komolyan vehető tudományos elméletnek meg kell adnia cáfolhatóságának feltételeit. A tudományos elméletek lényege így nem csupán bizonyos mintázatok megtalálása és egyes események előrejelzése, hanem valamilyen magyarázattal is kell szolgálniuk, s egyben a téves előrejelzésekre is reagálniuk kell (ilyenkor általában az adatokban, vagy az elemzésben van a hiba, de előfordulhat az is hogy magát az elméletet kell módosítani, mert falszifikálódott, azaz megcáfolódott). Lehetnek hasznosak az Anderson által is említett mintázatok és a korrelációk hozhatnak jó előrejelzéseket, de nagyon ingatag lábakon állnak önmagukban, mivel pont a tudomány önkorrekciójára képtelenek! Tudományos menedzsment Az adatok gyűjtése és tanulmányozása egyidős a modern vezetéstudomány megszületésével. A tudományos menedzsment, vagy taylorizmus megalapítója Frederic W. Taylor minden munkafolyamat aprólékos tanulmányozásában látta az ipari termelés maximalizálásának kulcsát.  Alfred P. Sloan a General Motors-nál tökélyre fejlesztette a taylorizmust és az autógyártás minden munkafolyamatára kiterjedő aprólékos mérésekre alapozva szervezte át az általa vezetett gyáróriást. A pontos mérések és nyilvántartások statisztikai elemzése a GM-et a világ vezető vállalatává tette több évtizedre. A nyolcvanas években a Motorola a tudományos menedzsment eredményeire támaszkodva dolgozta ki a Six Sigma módszertanát, mely célja, hogy 99.9999998% legyen a hibamentes termékek aránya a gyártásban. A tudományos menedzsment eszközeit lassan minden üzleti szereplő átvette, mind a munkaszervezés, mind a piackutatás területén. A kilencvenes évektől megjelentek az üzleti intelligencia csoportok is, melyek elkezdték összefogni egy adott cégen belül az adatok gyűjtését és elemzését, ami nagyban megnövelte a statisztikákra alapozott döntések hatékonyságát. Immár nem egy-egy különálló részleg hoz adatokra alapozott döntést, hanem lehetőség van a különböző adatok közötti összefüggések feltárására is.  Big data és data science Technikai értelemben mindenképpen váltásról beszélhetünk a big data kapcsán, hiszen hihetetlen mértékben növekedett meg a begyűjthető és tárolható adatok köre az utóbbi években. Azonban Box arra figyelmeztet minket, hogy az adatelemzés nem merülhet ki előre megírt receptek követésében és számmisztikában! Miképp a jó statisztikus részt vesz az általa segített kutatásban, úgy a rendes adattudósnak is értenie kell hogyan kapcsolódik munkája cégéhez, a "tudós" jelző használata pedig csak akkor indokolt, ha a mintázatokon túl magyarázatokat és előrejelzéseket is képes adni, továbbá képes tanulni kudarcaiból is.


2013. november 19. 8:00

A levelek köztársasága

A felvilágosodás korának meghatározó közösségi hálózata volt a Respublica literaria, a levelek köztársasága. Filozófusok, tudósok, a kor meghatározó értelmiségei terjedelmes leveleket váltottak egymással a legkülönfélébb kérdésekről és a fennmaradt levelek bepillantás nyújtanak a modern világ kialakulásába. A Mapping the Republic of Letters projekt célja, hogy a modern technológia és a hálózatkutatás eredményeit felhasználva pontosabb képet alkothassunk a felvilágosodás koráról. A projekt igazán nemzetközi, a Stanford mellett az Oxfor University, a CNRS, a Huygens CKCC és az DensityDesign Research Labs vesz részt benne. Az adatokat az Early Modern Letters Online adatbázis biztosítja, ami sajnos csupán metaadatokat jelent, mivel a levelek szövegét szerzői jogi megfontolások miatt nem tehetik elérhetővé (habár a levelek írói és címzettjei már rég halottak, a projekt során használt szövegek szerkesztettek ezért jogvédettek is), aki teljes szövegeket is szeretne elemezni, annak az Electronic Enlightment adatbázist ajánljuk (de előre szólunk, hogy előfizetéses!). Mivel a levelek korpusza nem teljes, hiszen több mint 200 év alatt nagyon sok darabja elkallódott, és az adatbázis mérete sem tipikusan big data (de azért elég nagy ahhoz, hogy emberileg lehetetlen legyen feldolgozni), a kutatók kreatívan alkalmazták a technológia nyújtotta lehetőségeket. A legérdekesebb eredmények közül érdemes kiemelni, hogy az adatok tükrében a kontinentális és a brit felvilágosodás között alig történt érintkezés. Sok a ma is ismert nagy gondolkodók között nem volt intenzív a kapcsolat, vagy egyáltalán nem volt, viszont megtalálhatók olyan hídként funkcionáló "másodvonalbeli" figurák mint pl. André Moreilet, akik intenzív levelezést folytattak és kapcsolatban álltak a felvilágosodás minden jelentősebb szereplőjével. A digitális bölcsészet még gyerekcipőben jár, de a Mapping the Republic of Letters projektet elnézve sok izgalmas tudományos eredmény és szép vizualizáció vár ránk.


2013. november 15. 8:00

Közösségi hirdetés a Facebookon

A kedves olvasó bizonyára találkozott már azzal a jelenséggel, amikor a Facebook ismerőseire hivatkozva ajánl  neki egy oldalt. De mi alapján kerül oda ismerősünk neve? Eytan Bakshy és tsai Social Infuence in Social Advertising című tanulmányukban három ún. terepkísérletben vizsgálták a közösségi hirdetés (social advertising) hatásait. Donald P. Green és Alan S. Gerber kutatásaiból tudjuk, hogy a társadalmi környezet ún. gyenge nyomásgyakorlása nagyon hatékony eszköze a politikai marketingnek (bővebben l. Társadalmi kísérletek és big data c. posztunkat). A Facebook kutatói első kísérletükben azt vizsgálták milyen hatással van a lájkolásra és kattintásra (itt ez a Facebookon belüli kattintást jelenti) ismerőseink megemlítése a reklámban. Miképp az várható volt, több barát magasabb kattintásszámot és több lájkot eredményezett. A további két kísérletben a kedveltség megemlítését (lájkok száma) vetették össze a kapcsolatok megemlítésével. Itt is megfigyelhető, hogy a nagyobb szám, legyen szó akár arról, hogy hányan kedvelték már az adott oldalt, vagy arról, hogy hány személyes ismerőst jelenített meg a reklám, több kattintást és lájkolást eredményezett. Persze az eddigi eredményekre mondhatjuk azt, hogy hát ehhez nem kell kísérlet, ezt józan paraszti ésszel is ki lehet következtetni. Azonban a tudomány egyik dolga az, hogy ellenőrizze a józan ész által alapigazságnak gondolt dolgokat, továbbá minden ilyen "felesleges" kísérlet tartogat további érdekességeket, ez alól a most ismertetett tanulmány sem kivétel. Ahogy a keresőmarketing területén is érdekességekkel szolgált a tudományos módszer, úgy a közösségi médiában is tartogat meglepetéseket! Az első két kísérletből kiderült, hogy a közösségi célzás (social cue) alkalmazása különösen hatékony akkor, ha több ismerős ajánlásával jeleníthető meg egy hirdetés. Érdemes megjegyezni, hogy közösségi hálózataink nem véletlenszerűek, erős bennük a homofília (az azonos érdeklődésű emberek egymáshoz vonzódnak) ezért sokszor ugyanazon dolgokat lájkolják egy hálózat tagjai. Ugyanakkor egy közösségi hálón belül nem egyforma erősségűek a kapcsolatok. Ahogyan arról már többször beszámoltunk (itt, itt és itt), az ún. gyenge kapcsolatoknak nagyon nagy szerepe van a csoportok közötti információ áramlásában. Mi a helyzet a hirdetéseknél? A harmadik kísérlet arra világít rá, hogy a kapcsolat erőssége növeli mind a kattintási, mind a lájkolási hajlandóságot. A probléma csupán az, hogy minél erősebb a kapcsolat, annál nagyobb a homofília, ergo nagyon nehéz olyan dolgot mutatni egy felhasználónak amit ő még nem lájkolt, de három-négy közeli ismerőse már igen. A jövő nagy kérdése az, hogyan lehet egy felhasználó számára érdekes dolgokat ajánlani kapcsolati hálóján keresztül.


2013. november 14. 8:00

Budapest Users of R Network . 2013. november 27.

Daróczi Gergely és a Rapporter jóvoltából immár van egy jól működő hazai R meetup is. Minket pedig az a megtiszteltetés ért, hogy 27-én a tm csomagról tartunk egy előadást, amire mindenkit szeretettel várunk. Mint a legtöbb meetup, a BURN is ingyenes, de a részvétel előzetes regisztrációhoz kötött, amit itt le is tudhat az érdeklődő olvasó.


2013. november 14. 8:00

Budapest Users of R Network - 2013. november 27.

Daróczi Gergely és a Rapporter jóvoltából immár van egy jól működő hazai R meetup is. Minket pedig az a megtiszteltetés ért, hogy 27-én a tm csomagról tartunk egy előadást, amire mindenkit szeretettel várunk. Mint a legtöbb meetup, a BURN is ingyenes, de a részvétel előzetes regisztrációhoz kötött, amit itt le is tudhat az érdeklődő olvasó.


2013. november 12. 8:00

conTEXT - szöveganalitika magyarul 2013. november 21.

A Clementine Consulting nagyon kedvesen magára vállalta az első magyar szöveganalitikai konferencia, a conTEXT megszervezését, mi pedig mindenkit arra buzdítunk, hogy vegyen is részt rajta. A Clementine szakembereinek előadásai mellett a szakma elismert hazai művelőitől - pl. Tikk Domonkos (Gravity), Szekeres Péter (Neticle) - tudhatjuk meg mi mindenre jó a szövegbányászat. Nem mellesleg mi is ott leszünk. A konferencia programja és a regisztrációs link elérhető itt.


2013. november 7. 8:00

Több csirip, több szavazat?

Ahogyan arról már korábban beszámoltunk, Bollen és tsai kutatásai nyomán egyre többen gondolják úgy, hogy a választási eredmények megjósolásában sokkal inkább az említésgyakoriság számít, mint az említések polaritása. Mi is arra jutottunk, hogy a magyar webes említések száma párhuzamba állítható a közvéleménykutatások eredményeivel. Azonban Andreas Jungherr a 2009-es német választások ideje alatt keletkezett tweeteket vizsgálva arra következtet Tweets and Votes, a Special Relationship című tanulmányában, hogy óvatosabbnak kell lennünk amikor pusztán az említésgyakoriságot vizsgáljuk!   A "more tweet, more vote", azaz a több csirip, több szavazat elvet Bollen és tsainak tanulmánya robbantotta be a köztudatba. Fontos azonban megjegyezni, hogy ők nem egyszerűen egy-egy jelölt említésgyakoriságát mérték, hanem igyekeztek kizárni az adott választókerületen kívüli tweeteket is. Eredményük szerint a puszta említésgyakoriság a választási győzelmet jól jelzi előre egy adott választókerületben. A magyar politikában is hasonló jelenséget figyelhetünk meg a neten! Itt nem tudunk geolokációs adatokkal korrigálni, ezért az egyes pártok említésgyakoriságának arányát érdemes összevetni a közvéleménykutatásokban mért támogatottságukkal, ami a következő képet mutatta az idei első negyedévben (az említésgyakorisági adatok a Neticletől származnak, a közvéleménykutatási adatokat a TÁRKI jelentéséből vettük át, bővebben l. Kádár Ákos írását) Jungherr tanulmányában a több csirip, több szavazat elvet problematikusnak találja, mivel a Kalózpárt (Piratenpartei) említésgyakorisága köszönőviszonyban sincs a választási eredményekkel. Persze tekinthetnénk ezt egyszerű eltérésnek (outlier), csakhogy más eszközökkel sem sikerül magyarázatot találni erre a jelenségre. Ahogy a fenti ábrán is látható Jungherr az ún. hashtag említéseket gyűjtötte be, pontosabban minden olyan tweetet begyűjtött, ami olyan felhasználóktól származik akik legalább egyszer hashtaggel használták az egyik induló párt nevét. A szerző maga is megemlíti tanulmányában, hogy talán ezzel kizárja azon felhasználókat akik tudatosan vagy nem tudatosan, de nem követik a Twitteren kialakul keresést megkönnyítő hashtag használati szokásokat - igaz az így kapott adatok viszont bizonyosan tudatos politikai véleményt fejeznek ki.  A fiatal, kifejezetten internetes jogokra specializálódott Kalózpártnak sikerült az élretörnie az említések terén, ellenben a kancellárjelöltek esetében ilyen torzító hatást nem találunk, miképp a fenti ábra is mutatja. Ugyanakkor Steinmeier és Merkel említésgyakoriságának időbeli alakulása érdekes képet mutat; tulajdonképpen a kampánymegjelenéseket követve emelkedik vagy csökken, csúcsra a televíziós vita és a választások napján jut. Jungherr a divatos szentiment elemzés helyett a Twitterbarometer.de adataira támaszkodva elemezte, miképp alakul az egyes pártokkal kapcsolatos választó hozzáállás a kampányidőszakban. A Twitterbarometer.de arra kéri a német csiripelőket, hogy amikor egy párttal kapcsolatos hashtaget használnak, akkor véleményük polaritását jelezzék egy extra karakterrel, pl. #cdu+ ha pozitívan nyilatkoznak a kereszténydemokratáról és #cdu- ha negatívan.  Ahogy az ábra is mutatja, alapvetően negatív trend érvényesül mindegyik párttal kapcsolatban, a pozitív vélemények emelkedése során pedig összefüggés fedezhető fel egy-egy pozitív médiaszerepléssel (amit Jungherr nem részletez pontosabban). Ám itt már nem csak a Kalózpárt hanem a Die LINKE is kilóg a sorból, sok pozitív említéssel, melyeket nem sikerült szavazatokra váltaniuk.  Szeretnénk megjegyezni, hogy akadnak gondok Jungherr vizsgálatával. Jobb lett volna ha nem maga gyűjtöget adatokat, hanem a teljes elérhető archívumot vizsgálja (habár ez lehet túl drága még egy német kutató számára is) és érdekelne minket miképp zárta ki a német politikáról németül tweetelő osztrákokat, svájciakat és a németet mint második nyelvet beszélő egyéb felhasználókat, valamint talán a szimpla említés jobb adatokat adott volna mint a hashtagek vizsgálata. Azonban a kérdőjelek ellenére is fontos dologra hívja fel a figyelmet a szerző, mégpedig arra, hogy hamis a big data olyan értelmezése, mely szerint önmagukban az adatok bármit is képesek megmagyarázni elméletek nélkül. In this, research into the relationship between tweets and votes illustrates the limits of an empiricistic, exclusively data driven approach in the social sciences. An approach that recently has gathered some steam under the term big data. Especially in data rich contexts, and thus contexts with a high probability of spurious correlations, research has to be grounded in the theoretical development and data based examination of social mechanisms that lead to the emergence of specifc data patterns.


2013. november 6. 8:00

Funkcionális programozás - divat vagy van benne valami?

A programozási nyelvek Turing-ekvivalensek, azaz ami az egyikben megvalósítható, az a másikban is az. Mégis, rengeteg programozási nyelv létezik és híveik gyakran bonyolódnak hitvitákba. Napjainkban gyértelműen reneszánszukat élik a funkcionális nyelvek, különösen a JVM-en futó Scala és Clojure nyer egyre nagyobb teret a nyelvtechnológia és a gépi tanulás területén, a kérdés az miért...   Tényleg jobb az FP? Az egyik leggyakrabban hangoztatott érv a funkcionális nyelvek mellett az, hogy többmagos, elosztott rendszerekben könnyebb velük boldogulni. Mielőtt azonban valaki a fejlesztőit elzavarja egy tanfolyamra, érdemes eolvasnia Pankratius és tsai  Combining functional and imperative programming for multicore software: An empirical study evaluating Scala and Java című tanulmányát, melyben empirikus kimutatják, hogy egy új paradigmában egyenesen romlik a programozók hatékonysága. Persze figyelemre méltó, hogy a munkaigényes feladat esetében minimálisan csökkent az erőráfordítás Scala-t használva. Nem feledkezhetünk meg arról sem, hogy egy évekig objektum-orientált nyelvvel dolgozó embereknek időbe telik megtanulni az új technológiát és csak kb. "egyenrangú" feleket érdemes igazán összehasonlítani. Ha nem jobb, akkor miért használják? Az Y Combinator startup akcelerátor és a bayesiánus spemszűrők atyja Paul Graham Beating the Averages című esszéjében amellett érvel, hogy egy funkcionális nyelv (esetében a Lisp) használata amolyan taktikai előnyt jelent elsősorban.  Peter Naur Programming as Theory Building esszéjében amellett érvel, hogy a fejlesztő dolga az, hogy externalizája, azaz külsővé és megfoghatóvá tegye tudását egy adott problémával kapcsolatban. Úgy tűnik itt kapcsolódhatunk Graham-hez! Ahogy az alábbi három videó szemlélteti, a funkcionális nyelvek általában a kutatás-intenzív területeken kerülnek bevetésre, olyan helyeken ahol nagyon absztrakt elméleteket kell nagyon gyorsan "kódba önteni". Kik és hogyan használják az FP nyelveket? Caml Trading from Yaron Minsky on Vimeo. A Jane Street algoritmikus kereskedéssel foglalkozó cég, s így hatalmas adatmennyiséget kell valós időben elemeznie rendszereinek. Akinek túl hosszú az előadás (ami tkp úgy a 45 perces csak, a kérdések töltik ki a többi időt), annak nagyon röviden összefoglalva az OCaml-et szoftverfejlesztési megfontolások (kompaktabb kód, nagyobb kifejezőerő, stb.) és a statikus típusossággal járó robosztusság miatt választották.  A Prismatic-et nem kell bemutatni a nyelvtechnológia iránt érdeklődőknek. Éredekes módon a cég Clojure-t használ, de nem a Java interoperabilitás miatt! A cég szinte minden eszközét maga fejlesztette ki (ezek egy részét nyílttá is tette), ami a mai programozási trendek tükrében nagyon meglepő lépés, hiszen miért akarna valaki nulláról indulni, amikor sok nagyon jó minőségű könyvtárat lehet használni. A Prismatic válasza erre annyi, hogy persze sok jó könyvtár van, de egyik sem annyira skálázható és adat-orientált mint amire egy modern, gépi tanulással és nyelvtechnológiával operáló cégnek szüksége van. [nyc-haskell] Practical Data Processing With Haskell and Putting Cloud Haskell to Work with Ozgun Ataman and Gershom Bazerman from Richard Minerich on Vimeo. Köztudott, hogy az ún. MapReduce paradigmát a funkcionális nyelvek ihlették, azonban a Hadoop menthetetlenül a Java környezet szülötte, még akkor is ha ma már gyakorlatilag minden nyelvvel használható. A Haskell közösségen belül a Cloud Haskell egyre nagyobb teret nyer, mint a Hadoop alternatívája, mivel a Scadling-hez és a Cascalog-hoz hasonlóan lehetővé teszi, hogy mintegy a nyelvbe beágyazva egyszerű konstrukcióként használhassunk elosztott rendszereket. Az OCaml ökoszisztémában is megtalálható hasonló elosztott fájlrendszer és MapReduce implementáció, a Plasma Project. A fenti videón bepillantást nyerhetünk abba, miképp használják ki a Haskell előnyeit a Soostone analitikai cégnél, ill. a Cloud Haskell-ről kaphatunk átfogó képet a S&P Capital IQ pénzügyi elemző cég tapasztalatai alapján. Összegezve A funkcionális nyelvek használata akkor tűnik jó választásnak, ha kutatás-vezérelt fejlesztést végzünk. Ilyen területen gyakran tálkozunk az ún. szoftver-szakadékkal, azaz a kutatásra használt programok és a módszeres ipari fejlesztés során használt metodológiák közötti hatalmas különbségekkel. A funkcionális paradigma előnye éppen az, hogy a hagyományos fejlesztők és a kutatók a segítségével megtalálhatják a közös hangot. Olvasnivaló Mitől kutatás-vezérelt valami, hogy kerül a tudományos módszer ide? Buddha and Popper: The Processless Process Startup Hypothesis Testing and Premature Execution Research-Driven Startups Philosophy and Machine Learning Workshop Machine Learning as Philosophy of Science Scientific computing vs software engineering A Software Chasm: Software Engineering and Scientific Computing - (korlátozott hozzáférés!) remekül összefoglalja a két terület alapvető különbségeit A Survey of the Practice of Computational Science Ellenvetés - avagy a "klasszikus" háttérrel rendelkezők idegenkedése a (kvázi-) funkcionális paradigmától Combining Functional and Imperative Programming for Multicore Software Proofs are programs - avagy miért a funkcionális nyelvek Proofs Are Programs (technikai oldalról mutatja be miért vannak oda sokan a funkcionális nyelvekért) Beating the Averages (Graham kult esszéje pedig a humán faktort fogja meg) Product design, stb. Planning for Big Data Designing Great Data Products Hogyan vizsgáljuk meg a helyzetet és készítsünk tervet a jövőre? Empirical Software Engineering


2013. november 5. 8:00

A Facebook tudja kivel kavarsz - akkor is ha nem jelölöd a profilodon

Granovetter óta tudjuk, hogy az ún. gyenge kapcsolatoknak nagyon fontos szerepe van a társadalmi hálózatokban. Lars Backstorm a Facebook kutatója és Jon Kleinberg a Cornellről Romantic Partnerships and the Dispersion of Social Ties: A Network Analysis of Relationship Status on Facebook című tanulmányukban rámutattak arra, hogy a gyenge kötések szerelmi életünkről is árulkodnak. Granovetter ún. gyenge kapcsolatok (weak ties) elmélete (amit The Strength of Weak Ties tanulmányában fektetett le) szerint egy embernek általában sok kapcsolata van, ezek között egyesek erősebbek (pl. család, barátok, szomszédok stb.) mások gyengébbek. Kitől szoktunk új információkat hallani; azoktól akikkel szoros kapcsolatot ápolunk vagy azoktól akikkel gyenge kapcsolatban állunk? Egy találkozás egy rég nem látott volt osztálytárssal vagy szomszéddal gyakran beindítja a pletykát és hirtelen sok mindent megtudunk hajdani barátokról, ismerősökről. Ahogy a fenti ábra is szemlélteti az ún. gyenge kapcsolatok hídként kötik össze az egyes csoportokat és biztosítják az információ áramlását. A tanulmányhoz a Facebook felhasználói bázisából vett mintát használtak. Mivel a legtöbben jelölik kapcsolati státuszukat, a kapcsolati hálón végzett vizsgálatok hatékonysága remekül tesztelhető.  A hálózatelemzéshez két metrikát alkottak meg a kutatók. A beágyazottság (embeddedness) a kölcsönös ismerősök számát jelenti egy adott végpontban. A szétszórtsággal ([recursive] dispersion) jellemezhető, hogy két egymással kapcsolatban álló személy kapcsolati hálója mennyire nem kötődik össze. A két metrikát összevetették más, a gépi tanulásban előrejelzésre használt tulajdonságokkal is. A beágyazottság és a szétszórtság mint látható legalább olyan jól jelzi előre a kapcsolati státuszt, mint a fotók és a profil áttanulmányozása! A szétszórtság ismét arra világít rá, hogy milyen fontosak az emberi kapcsolatok. Egy pár két tagja nem csak egymással létesít kapcsolatot, hanem - ha csak gyengén is - egymás számára ismeretlen csoportokat is összeköt és ezen gyenge kapcsolatok mentén sok információ áramlik át. Az már egy másik kérdés, hogy a Facebook csak a tudományt szolgálja-e a tanulmánnyal és tiszteletben tartja azon felhasználók döntését, akik nem jelenítik meg kapcsolati státuszukat de van párjuk, vagy a marketingesek megpróbálnak élni valahogy az ölükbe hullott adatokkal.


2013. október 31. 8:00

Lájkolj, s megmondom ki is vagy!

Mennyire vagyunk kiismerhetőek Facebook profilunk alapján? A YouAreWhatYouLike oldalon bárki kipróbálhatja, mennyire sikeresen alkotható meg róla egy pszichológiai profil pusztán az általa kedvelt dolgok alapján, a szerzőről például az alábbi elemzés készült mindössze kilenc lájk alapján. Persze mindenki óckodik a kategorizálástól s így a blog szerzője is, hiszen ő egyáltalán nem tartja magát félénknek és visszahúzódónak, pláne nem gondolja hogy rámenős és versengő lenne, de a környezetében valahogy mindenki erősen egyetértett a buta kis program elemzésével... Hogy lehetséges ez? Egyrészt természetesen mindenki félreismerte a poszt íróját! Másrészt talán lehet hogy Kosinski és tsai Private traits and attributes are predictable from digital records of human behavior című tanulmányukban azért mégis csak fontos dolgokra mutatnak rá... A myPersonality Project önkénteseket kért meg arra, hogy hozzáférhessen Facebook adataikhoz, a lájkoktól kezdve posztjaikig mindent szépen be is gyűjtöttek, persze ügyelve a kutatásetikára. De ez sem volt elég a kutatóknak, ugyanis minden résztvevővel különböző pszichológiai teszteket is kitöltettek, hogy a Big Five személyiségjegyek mentén kategorizálják őket és demográfiai jellemzőiket is megismerhessék. Az így keletkezett adatokhoz már csak egy kis statisztika szükségeltetik és meg lehet vizsgálni hogy Facebook profilunk árulkodik-e személyiségünkről. Ahogy a fenti ábra is mutatja, a nem (gender) már egy(!) lájk alapján is 0.5 a Pearson korreláció értéke és 20-25 darab esetében már a nagyon jónak számító 0.75-ig is el lehet jutni. A kor (age) esetében azonban 0.6-0.7 a maximális prediktív pontosság (ez egyébként nagyon jó eredménynek számít!), amihez szintén 20-25 darab lájkolás szükségeltetik, a nyitottság (openness) esetében a közepes erősségű korrelációhoz viszont már 30-40 elemet kell megvizsgálni. (A Pearson korreláció 0.1-0.3 tartományban gyenge, 0.3-0.5 között közepes 0.5 felett pedig erősnek tekinthető) A fenti ábra további jegyek prediktív erejét szemlélteti. A legérdekesebb számunkra az, hogy a Caucasian/African American, azaz a fehér/fekete faji hátérre vonatkozó információ nagyon nagy pontossága előrejelezhető, azaz a két csoport ízlése, érdeklődési köre a jelek szerint nagyon eltérő. Hasonlóan meglepő a politikai beállítottság (Democrat vs. Republican) markáns volta is - a jelek szerint a politikai szegregáció (big sort) online is kimutatható. Ha tetszik, ha nem az online térben is eláruljuk magunkat, felfedjük személyiségünket, preferenciáinkat és viszonyunkat a világhoz. Persze lehetünk tudatos nethasználók (és ez a blog lelkesen buzdít mindenkit erre!!!!), de viselkedésünk öntudatlanul is sok dolgot elárul rólunk, ezt pedig nagyon érdekli a marketingeseket.


2013. október 30. 8:00

A saját kis világunk - mit kezdjünk a filter bubble jelenséggel?

A perszonalizáció egyrészt szükséges rossz, hiszen a ránk zúduló információt valahogy szűrni kell és mi lenne jobb erre mint saját preferenciáink? Eli Pariser azonban nagyon meggyőzően érvel amellett, hogy ez szűrés következtében jelentősen torzul a világról alkotott képünk, hiszen kiesnek azok a dolgok amik nem érdekelnek minket, de a minket érdeklő témákkal is csak a nekünk tetsző nézőpontokon keresztül találkozunk így. Bill Bishop és Robert G. Cushing a The Big Sort című könyvükben kimutatták, hogy az Egyesült Államokban egyre homogénebbek a választókörzetek. Ezért csak részben felelős a választási körzetek átrajzolása egy csoport érdekében (amire szép angol szó is van; gerrymandering), a másik ok, hogy öntudatlanul is olyan lakóhelyet választanak maguknak az emberek, ahol hozzájuk hasonló szomszédokra lelhetnek. (Bőbben l. a The Economist cikkét) Ilyen környezetben az ún. statisztikai diszkrimináció remekül működik. Miért foglalkozzak a másik csoporttal, ha azok úgyis buták, lusták, érdektelenek stb. az én ügyemmel szemben? Itt nem arról van szó, hogy valaki szívből utálja a másik politikai csoportot, vagy egy kisebbség tagjait, hanem szimplán "statisztikai alapon" lát egy mintázatot, ami alapján elutasítja társaságukat, véleményüket stb. A szegregáció viszont a csopoton belül megerősíti az extrém nézeteket, ahogy Schkade, Sustein és Hastie tanulmánya is mutatja homogén közösségeken belül a liberálisok és a konzervatívok is szélsőséges álláspontra jutottak olyan kérdések megvitatásában mint pl. a globális felmelegedés és a melegházasság. Hiába születnek technológiai megoldások a jelenség orvoslására, valahogyan nehéz belátni miképp oldja meg a begubózást a DuckDuckGo vagy a Prismatic. Nem kell persze temetni a jövőt és várni az apokaliptikus véget, de érdemes odafigyelni a körülöttünk zajló folyamatokra mind az on- mind az offline világban.


2013. október 29. 8:00

Hírelemzés

A nyelvtechnológia legizgalmasabb és egyben talán legkevésbé ismert alkalmazása az ún. high frequency trading vagy automatikus pénzügyi kereskedelmi rendszerek területe. A nagy hír- és adatszolgáltató cég, mint pl. a Bloomberg és a Reuters már évek óta kínálnak ún. machine readable news szolgáltatásokat, melyek összeszedik, elemzik és programmatikusan is "emészthető" formában metaadatokkal feldúsítva API-n keresztül kínálják a pénzügyi és gazdasági híreket (szinte) valós időben. A teljesség igénye nélkül a hírelemzéssel kapcsolatos legfontosabb tanulmányokat mutatjuk be posztunkban röviden.  Rich Brown, Incorporating News Analytics into Quantitative Investment and Trading Strategies, April 12, 2011 from Seth Grimes on Vimeo. Tim Loughran és Bill McDonald When is a Liability not a Liability? Textual Analysis, Dictionaries, and 10-Ks című tanulmányukban kimutatták, hogy a szentimentelemzéshez használt általános szótárak nem működnek jól a pénzügyi területen, mivel a hagyományos eszközök az esetek háromnegyed(!!!) részében rosszul azonosították az egyes szavak polaritását. A tanulmányt megjelenése óta szeretik idézni más területeken is, mivel úgy tűnik, hogy vagy új szótárakat kell építeni minden esetben, vagy egyszerűbb tréningkorpuszt készíteni és klasszifikációval megközelíteni a szentimentelemzést. Dzielinski News sensitivity and the cross-section of stock returns tanulmányában a Reuters NewsScope szolgáltatását használva kimutatta, hogy egyes részvények mozgása érzékenyebb a hírekre. További érdekesség, hogy ez a hírérzékenység egyben prémiumot is jelent (0.84%) a tőzsdei árfolyamban. Akbas és társai a Pollyanna jelenséghez hasonló folyamatot figyeltek meg a pénzügyi híreket elemezve, melyet Mispricing Following Public News: Overreaction for Losers, Underreaction for Winners című tanulmányukban összegeztek. A vizsgálatok szerint a negatív szentimentre alapozott kereskedési stratégia sokkal jobban teljesít, mint a pozitív hírekre figyelő. A szerzők ezt egy ún. kognitív torzításnak (cognitive bias) tulajdonítják, ami összhangban van a Pollyanna jelenség vizsgálata során felhalmozott empirikus adatokkal. Érdekes, hogy habár sok más területen egyre elterjedtebb a nyelvtechnológia, a pénzügyi világban kapcsolják csupán össze igazán a felhasználók, a piacok és egyéb ágensek viselkedésének megértését a rendelkezésre álló nyelvi információval. Reméljük ez a szemlélet hamarosan máshol is teret nyer!


2013. október 24. 8:00

Gépi fordítás másképp

Tomas Mikolov és tsai a Google laboratóriumában egy új gépi fordítási eljárást dolgoztak ki, ami alaposan felkavarta a szakmát. Mivel a Nyelv és Tudomány már összefoglalta a lényeget, mi most a kalandvágyóbb olvasókat csábítjuk a vektorterekbe, hogy lássuk hogyan lehet hasonlóságot találni két különböző nyelvű és tárgyú dokumentumhalmaz között. Miért kell új módszer? Jogosan merülhet fel a kérdés, miért kell nekünk új módszer. Erre válaszolni csak úgy lehet, hogy a hegymászók is azért másznak meg egy hegyet, mert ott van. A kutatóknak meg problémáik vannak, és ahogy a hegymászók is felmennek olyan csúcsokra, melyeken előttük mások már jártak, úgy a kutatók is nekiesnek régi, részben vagy egészben már megoldott kérdéseknek. Jelen esetben azonban van egy nagyon praktikus magyarázata is a dolognak; nincs elegendő ún. párhuzamos korpusz, azaz több nyelven is elérhető szöveg, mely tartalma megegyezik. Ha lenne elegendő ilyen szövegünk minden lehetséges nyelvpárra, akkor a napjainkban divatos statisztikai módszerekkel egész jól működne már a gépi fordítás. Sajnos azonban kevés párhuzamos szöveg létezik, ha akad is, akkor az általában egy vagy két világnyelven, vagy egy kisnyelv és egy világnyelv viszonylatában létezik. Az Ethnologue katalógusában 7105 élő nyelvet tartanak nyilván, ha minden nyelvre csupán az angol szöveggel készítünk párhuzamos korpuszt, már az is hatalmas szövegmennyiséget jelent (eltekintve attól, hogy a nyelvek jelentős részének nincs írott formája). Egyszerűbb tehát azzal dolgozni ami van, szövegekkel. Vektorterek A legtöbb kereső és információkinyerő alkalmazás ún. vektorterekkel dolgozik, ami nagyon egzotikusnak hangzik, de valójában egyszerű, mint egy faék. Minden dokumentum (vagy mondat, bekezdés stb.) jellemezhető a benne előforduló szavak számával, így egy dokumentum tkp. egy vektor. Az alábbi ábra ezt szemlélteti, amin az M1,...,M14 oszlopok az egyes dokumentumok. Egy ilyen táblázatot term-document mátrixnak hívunk. Ez tkp. egy ún. szózsák, vagy bag-of-words modell, mivel a nyelvtani struktúrát figyelmen kívül hagyja. Ez annyit tesz, hogy a "Kutya megharapta a postást" és a "Postás megharapta a kutyát" mondatok között nem tud különbséget tenni, hiszen mindegyikben ugyanazok a szavak ugyanannyiszor fordulnak elő (természetesen szótövezés után). Ugyanakkor a táblázat egyes sorai megadják egy adott szó disztribúcióját. Amelyik oszlopban értéket vesz fel az adott szó, ott az adott dokumentumot leíró oszlop egyben jelzi, milyen más szavakkal fordul elő. Ha elfogadjuk a disztribúciós szemantika alaphipotézisét, mely szerint egy szó jelentését ismerni annyi, mint ismerni lehetséges előfordulásait, akkor a term-document matrix sorai egyben egy-egy szó jelentését is rögzítik. Ha geometriailag szeretnénk ábrázolni egy-egy term-document mátrixot, akkor a fenti ábrához hasonló ún. többdimenziós teret kapnánk, melynek minden szó egy dimenziója, egy dokumentum pedig ezen tengelyek mentén felvett értékekkel jellemezhető. Többdimenziós terekben nagyon nehéz egy embernek gondolkodnia, és momentán még a számítógépek sem dolgoznak velük eléggé fürgén. Szerencsére azonban a főkomponens-analízis nevű technikának hála a sok-sok dimenzió leredukálható akár kettőre is. Régóta ismert jelenség, hogy különböző nyelveken a (kb.) azonos jelentésű szavak helyzete a vektortérben hasonló. A fenti ábra, melyet Mikolov és tsai tanulmányából vettünk át, remekül szemlélteti ezt a jelenséget. Az új módszer lényege, hogy a két- vagy többdimenziós vektortérben kereshetünk hasonló pozíciókat, nem kell feltétlenül párhuzamos korpuszokkal rendelkeznünk a fordításhoz. Kérdések Az új eljárás azért izgalmas különösen, mert nyelvelméleti kérdéseket is felvet. Mennyire hasonlóak a nyelvek, mennyire tartható a hipotézis, hogy a vektorterek hasonló pozíciói, hasonló fogalmakat jelenítenek meg? Ha a szózsák modell el is tekint a nyelvtani szerkezettől, a hasonlóság okának tarthatjuk-e azt, hogy a nyelvek rendelkeznek univerzális tulajdonságokkal? Fordítva is kérdezhetjük, az eljárás működőképessége alátámasztja a nyelvi univerzálék meglétét? Napjainkban az ún. generatív grammatika irányzata egyre inkább visszaszorul, mivel általános szabályokat keres és nem igazán vizsgálja a nyelv statisztikai tulajdonságait. Az új eljárás viszont épp arra épít, hogy minden nyelv mögött ott van egy univerzális struktúra és a gépi tanulás módszereivel a szisztematikus különbségek "megtanulhatóak". Lappin és Shieber Machine learning theory and practice as a source of insight into universal grammar című tanulmányukban is amellett érveltek, hogy a gépi tanulás módszere talán sikeresen tárhatják fel az univerzális grammatikát. Az eljárás legnagyobb hátránya szerintünk az, hogy hiányzik belőle a kompozicionalitás, mely szerint egy összetett kifejezés jelentése függ a benne szereplő tagok (szavak, kifejezések stb.) jelentésétől és az összetétel módjától. Azaz a "A kutya megharapta a postást" és a "A postás megharapta a kutyát" mondatok jelentésbeli különbségét nem csupán a bennük előforduló szavak gyakorisága (disztribúciója), hanem azok grammatikai struktúrája által jelzett sorrendje is meghatározza. Ezért úgy gondoljuk, a jövőt a kompozicionális disztribúciós szemantika jelenti a gépi fordítás és a nyelvtechnológia egyéb területein is - de ehhez sokkal izmosabb számítógépekre lesz szükségünk, addig pedig marad a szózsák modell és a vektorterek.


2013. október 22. 8:00

A Precognox megjelent az USA piacán

Cégünk az Interstack-kel kötött megállapodás keretein belül megjelent az Egyesült Államok piacán is. Persze eddig is jelen voltunk a legfontosabb IT piacon, ahogyan referenciáink is mutatják, de az együttműködés keretében további lehetőségek nyíltak meg előttünk. A seattle-i székhelyű Interstack felhőalapú analitikai szolgáltatásokat kínál ügyfeleinek. A cég filozófiája, hogy az ügyfeleket maximálisan kiszolgálja és ne gátolja a modern technológia. A Filelytics nevű termékük lehetővé teszi a közösségi média monitorozását és szentimentelemzését, mindeközben nem igényel különösebb előképzettséget használata és könnyen beállítható az igények szerint. A Loyal Channel és a Share Your Experience alkalmazások pedig az egyes termékekkel és szolgáltatásokkal kapcsolatos fogyasztói visszajelzések begyűjtését és elemzését könnyítik meg. Büszkék vagyunk arra, hogy az Interstack partnere lehetünk és ügyfeleink igényeit még jobban kiszolgálhatjuk! Megállapodásunkról a Figyelő és a HVG.hu alábbi cikkeiből tudhat meg többet a kedves olvasó: Amerikába tart egy kis magyar cég Beindult a magyar Precognox az USA-ban


2013. október 18. 8:00

Nomen est omen - avagy mit árul el rólunk a nevünk

Minden szülő fontosnak tartja, hogy gyermeke számára megtalálja a legmegfelelőbb nevet, de persze közben egyetértünk Júliával abban, hogy nem a név fontos egy ember megítélésében: Mi is a név? Mit rózsának hívunk mi, Bárhogy nevezzük, éppoly illatos. Így, hogyha nem hívnának Romeónak, E cím híján se volna csorba híred. De tényleg így van ez? Hiszen nevünk az esetek többségében jelzi nemünket, a változó névadási szokások utalhatnak korunkra, de társadalmi és vagyoni helyzetünkre is - a vezetéknevekről ne is beszéljünk. Mostanában szinte minden ismerősöm szülő lett és azt vettem észre, hogy a legtöbb baba az  Eszter, Anna, Jázmin, Hanna és Bence, Máté, Levente neveket kapta, melyek az utóbbi évek legnépszerűbb keresztnevei. Elkezdtem hát figyelni, milyen gyerekneveket hallok a környezetemben és a Dzsenifer, Dzsesszika, Vivien nyert a lányoknál, a Kevin, Krisztofer és Martin a fiúknál. Ismerőseim és barátaim a középosztály tagjai, általában magasan képzettek és nagyvárosokban laknak. Én viszont egy olyan kistérségben lakok, ahol a munkanélküliség és a roma lakosság aránya egyaránt kb. 20%. Talán önmagában az, hogy valakit Kevinnek hívnak nem árulkodik arról, milyen szociokulturális közegből érkezik, de mi a helyzet Szabó Kevinnel és Lakatos Kevinnel? Lehet, nevünk nem csak nemünket, de korunkat és társadalmi hátterünket is elárulja? A nevek gazdaságtana Hazánkban különböző okok miatt nem gyűjtenek nemzetiségre vonatkozó adatokat az újszülöttekről és szüleik hátteréről. Azonban Roland G. Fryer Jr. és Steven D. Levitt a kaliforniai születési statisztikákat használva érdekes eredményeket tártak fel a nevekkel kapcsolatban. A két kutató a szülők lakhelyét használva következtetett etnikai hovatartozásukra és a kórházi számla kiegyenlítésének módjából pedig anyagi helyzetükre. További hasznos fogódzót jelentett nekik, hogy Kaliforniában rögzítik az anya családi állapotát, korát és iskolai végzettségét is. Ezen adatok birtokában már empirikusan is bizonyítható volt az, amit sokan sejtettek; a feketék névadási szokásai jelentősen eltérnek a többségi társadalométól, ahogy az alábbi táblázat is mutatja (forrás Freakonomics): A “legfehérebb" lánynevek A “legfeketébb" lánynevek A “legfehérebb" fiúnevek A “legfeketébb" fiúnevek 1. Molly Imani Jake DeShawn 2. Amy Ebony Connor DeAndre 3. Claire Shanice Tanner Marquis 4. Emily Aaliyah Wyatt Darnell 5. Katie Precious Cody Terrell 6. Madeline Nia Dustin Malik 7. Katelyn Deja Luke Trevon 8. Emma Diamond Jack Tyrone 9. Abigail Asia Scott Willie 10. Carly Aliyah Logan Dominique 11. Jenna Jada Cole Demetrius 12. Heather Tierra Lucas Reginald 13. Katherine Tiara Bradley Jamal 14. Caitlin Kiara Jacob Maurice 15. Kaitlin Jazmine Garrett Jalen 16. Holly Jasmin Dylan Darius 17. Allison Jazmin Maxwell Xavier 18. Kaitlyn Jasmine Hunter Terrance 19. Hannah Alexus Brett Andre 20. Kathryn Raven Colin Darryl Szintén különös fejlemény, hogy a fekete közösségen belül egyre kevesebb gyerek kapja ugyanazt a nevet, ahogy az alábbi ábra is mutatja. Ezáltal önmagában az a tény, hogy valakinek különleges neve van egyre jobban jelzi, hogy nem a többségi társadalom tagja. Hogy ez jó vagy rossz? Attól függ milyen a társadalmi környezet, önmagában a név nem okozója a különbségeknek, sokkal inkább oka. Ugyanakkor érdemes odafigyelni Sendhill Mullainathan és tsai vizsgálataira is, mely bebizonyította, a név igen komoly akadály lehet a munkaerőpiacon. Mullainathan nagyon egyszerű és ötletes kísérlettel állt elő: két ugyan olyan képzettséggel és előélettel rendelkező fiktív személy önéletrajzát írták meg és küldték el álláshirdetésekre, a két pályázó közötti egyedüli eltérés a nevük volt; egyikük szép hagyományos fehér nevet kapott, míg a másik igazi afro-amerikait. Az eredmények szerint harmad annyi esélye van a fekete névvel rendelkező személyeknek arra, hogy felhívják őket, mint a fehéreknek... Név = nem, kor, jövedelem De kanyarodjunk vissza a szegmentáció kérdéséhez! Ha van megfelelő adatunk, úgy tűnik pusztán keresztnév alapján is sokat megtudhatunk egy emberről. Tyler Schnoebelen egyik tavalyi meetupunkon elmondta, hogy vizsgálódásaik során a férfi- ill. nő nevek listáival határozták meg vizsgálati alanyok nevét és a névadási statisztikákat használva nagy hatékonysággal tippelték meg korukat is! Tyler Schnoebelen : Gender and style in American English tweets from Szamitogepes nyelveszet on Vimeo. Fryer és Levitt nagyon sok változót megvizsgált, ezek közül szemezgetve az egyik legkirívóbb, az anya iskolázottsága és a gyermek neve közötti kapcsolat. A fehér lánynevek közül az alábbiak jelzik a leginkább az anyuka iskolázottságát években megadva. A húsz leggyakoribb alacsony iskolázottságot jelző fehér lánynév (forrás Freakonomics) (Zárójelben az anya iskolázottsága években kifejezve) 1. Angel (11.38) 2. Heaven   (11.46) 3. Misty   (11.61) 4. Destiny   (11.66) 5. Brenda   (11.71) 6. Tabatha   (11.81) 7. Bobbie   (11.87) 8. Brandy   (11.89) 9. Destinee   (11.91) 10. Cindy   (11.92) 11. Jazmine   (11.94) 12. Shyanne   (11.96) 13. Britany   (12.05) 14. Mercedes   (12.06) 15. Tiffanie   (12.08) 16. Ashly   (12.11) 17. Tonya   (12.13) 18. Crystal   (12.15) 19. Brandie   (12.16) 20. Brandi   (12.17)   A szülők, különösen az anya, iskolázottsága az egyik legmeghatározóbb faktora a gyermek jövőbeli iskolázottságának és jövedelmének. Az eddig bemutatott adatok a kilencvenes évekre vonatkoznak, de Steven D. Levitt és Stephen J. Dubner Freakonomics című könyvükben kitértek a névadási divatokra is. Ha megnézzük a kétezres években az alacsony és a közepes jövedelmű családok névadási szokásait, akkor jelentős átfedéseket látunk a két csoport között - vessünk egy pillantást a lánynevekre (forrás Freakonomics) kis jövedelmű családok népszerű lánynevei közepes jövedelmű családok népszerű lánynevei 1. Ashley Sarah 2. Jessica Emily 3. Amanda Jessica 4. Samantha Lauren 5. Brittany Ashley 6. Sarah Amanda 7. Kayla Megan 8. Amber Samantha 9. Megan Hannah 10. Taylor Rachel 11. Emily Nicole 12. Nicole Taylor 13. Elizabeth Elizabeth 14. Heather Katherine 15. Alyssa Madison 16. Stephanie Jennifer 17. Jennifer Alexandra 18. Hannah Brittany 19. Courtney Danielle 20. Rebecca Rebecca   Az adatokat megvizsgálva arra jutott a szerzőpáros, hogy a kis jövedelmű családok névadási szokásai pár év késéssel követik a felsőbb osztályokét, ez okozza a jelentős átfedést. Vezetéknevek Sajnos hasonló magyar vonatkozású adatokról nincs tudomásunk - ha valakinek van, kérjük írjon nekünk! A vezetéknevekkel most nem foglalkoztunk, de nem állunk talán messze az igazságtól, ha feltesszük, bizonyos esetekben jól jelzik az etnikai hovatartozást (az afro-amerikaiak körében az adatok szerint ez így van). A gyakorlatban A nevek önmagukban nem érdekesek, ez ellen csak a névtannal foglalkozó szakembereknek lehet kifogása.  Viszont, ha sok adat mellett rendelkezünk a vizsgált alanyok nevével is, akkor jelentősen megkönnyíthetik a felhasználók szegmentálását nem, kor és akár iskolázottság/jövedelem szerint is. Pl. a Neticle újdonsága a nemek szerinti szegmentálás, így már nem csak a a populáció egészére adnak véleményárfolyamot, hanem férfi-női bontásban is. További felhasználási terület lehet, a más módszerekkel nyert eredmények validálása is - de persze csak akkor, ha van megfelelő minőségű és mennyiségű adat!


2013. október 17. 8:00

Tőzsdére megy a Twitter

Hamarosan tőzsdére megy a Twitter, ami annyira magával ragadta a befektetőekt hogy október 4-én egy a csőd szélén álló elektronikai cikkeket árusító cég a Tweeter részvényei 1800%-ot növekedtek, hála annak hogy a kersekdedési rendszerben TWTRQ kód alatt futnak. A történet jól mutatja, mennyire várják a csirpelős cég TWTR kód alatti bevezetését, de tényleg bomba üzlet lesz? Honnét vannak és a mi még fontosabb, honnét lesznek bevételei a "legöregebb startupnak"? Minden elemző a Twitter felhasználók számát, a penetráció bővülésének gyorsaságát vagy éppen lassulását szereti megemlíteni, no meg azt, milyen hatással vannak a kis 140 karakteres üzenetek hírfogyasztási szokásainkra (persze nem hazánkban, hanem a világ azon részén, ahol a Facebookon kívül ismernek más közösségi oldalakat is). Ez alól a Bloomberg szakétői sem kivételek: Ha hagyományosan médiavállalatnak nézzük a Twittert, akkor nyilván igazuk is van. A Bluefin Labs felvásárlása után elindított Twitter Amplify is az ún "második képernyő" jelenségét, azaz azt a tényt hogy egyyre többen használnak valamilyen mobileszközt televíziózás közben hívja segítségül a médiafogyasztási szokások vizsgálatához. A Nielsen is elindította Twitter Ranking mérését, ami megpróbálja számszerűsíteni az egyes műsorokról kialakuló csevelyeket. Érdekes fejlemény, hogy Deb Roy (a Bluefin alapítója) szerint érdemes lenne a műsorokról csiripelőknek célzott visszajátszásokkal megkörnyékezni - hiszen aki éppen csiripel egy meccsről, lehet hogy lemarad egy gólról. Sokak szerint a Twitter a tartalomipar felé is kacsingat, hiszen immár saját adat szerkesztőjük is van Simon Rogers, a Guardian Datablog alapítójának személyében. Az arab tavasz, a török és brazil tiltakozási hullámok mind-mind arra utalnak, hogy a csiripek megváltoztatták a híreket. Habár biztosak vagyunk abban, hogy a Rogers és társai nagyon izgalmas projektekkel fognak jelentkezni hamarosan, mi inkább arra szeretnénk felhívni a figyelmet, hogy a Twitter adatai köré egy komplett ökoszisztéma épült fel, amiből eddig a cég még nem sokat profitált! Aki dolgozott már a Twitter API-val, az szembekerülhetett a historikus adatok hiányával. Persze lehetne archiválni magunknak a csiripeket, de egyrészt nem teljesen konfrom a felhasználási feltételekkel, másrészt kifejezetten tilos a nyers adatokat tovább adni. Ezzel nincs is semmi baj, amíg nem akarunk komolyabb elemzésket végezni, amihez nem árt ha idősoros adataink vannak. Ilyen pl. a Cayman Atlantic esete, ami befektetési elemzéseket végez. A Twitter Certified Products néven külön biztisít hozzáférést analitikai partnereinek és az adatok viszonteladóinak. A Facebook nagyon korlátozottan teszi elérhetővé adatait a szélesebb felhasználói közösségnek és egyedi alapon csak a kiválasztottak láthanak bele mélyebben az adatbázisokba. A Twitter jellengénél fogva sokkal nyíltabb, ennek köszönhetően rengeteg alkalmazás épült már ki köré, ezek jelentős része függ az elérhető adatoktól. Itt nem a barátok csoportosítását végző applikációkra gondolunk, hanem a Cayman Atlantic-re vagy éppen a Bloomberg Terminal-ra, akik jelenleg viszonteladóktól veszik meg a szükséges adatokat. A Twitter jövőjét szerintünk két dolog határozza meg alapvetően; 1) sikerül-e fenntartani a felhasználók érdeklődését, azaz továbbra is népszerű hírmegosztó oldal tud-e maradni a Twitter 2) milyen gyorsan sikerül átültetni a gyakorlatba az olyan úttörő kutatási eredményeket mit pl. Bollen és társainak választási előrejelzése vagy nyelvi viselkedés alapján felállított pszichológiai profilozás. Így a Twitter jövőjét nem a marketing megoldások jelentik (ezzel nem mondjuk az, hogy ezek nem hozhatnak szép bevételt!), hanem az adatok gondozása és tovább adása üzleti felhasználók számára.


2013. október 15. 8:00

Pénzügyi startupok 3 - nyelvtechnológia és fintech

Az utóbbi években nagyon megerősödött a pénzügyi startupok világa és a nyelvtechnológia is erősen jelen van a területen, ahogy a Cayman Atlantic példája is mutatja. Posztunkban három olyan induló tech céget mutatunk be röviden, melyek a fintech szektorba keresési és nyelvtechnológiai megoldásokkal igyekeznek betörni. Egyszerű Google kereséssel rengeteg olyan dokumentumot találhatunk, melyet nem a nyilvánosságnak szántak! Pl. a "confidential not for public release +filetype:pdf" keresés 3,370,000 találatot eredményez, amit persze az egyszerű internetező nem fog áttekinteni, de rosszindulatú emberek, vagy éppen a konkurencia rendelkezhet a szükséges technikai apparátussal arra, hogy csemegézzen ezekből. De a bizalmas dokumentumok nem csak gondatlanságból kerülnek fel a netre, sok alkalmazott meggondolatlanul vagy éppen szándékosan a közösségi médiában is közzétesz olyan információkat, melyeket nem lenne szabad. A Digital Shadows keresési és nyelvtechnológiai megoldásai segítenek feltérképezni ezeket az ún. digitális árnyékokat.  A szó elszáll, az írás megmarad - erre a régi bölcsességre épül a Calltrunk. Manapság egyre olcsóbban, egyre több eszközön kommunikálhatunk szóban, ami egyrészt jelentősen megkönnyíti az együttműködést, másrészt viszont megnöveli annak esélyét, hogy a szóban kapott információt elfelejtsük. A Calltrunk lehetővé teszi, hogy minden hívást, legyen az vezetékes- vagy mobiltelefon vagy valamilyen internet alapú szoftveres megoldás, rögzítsünk egy felhő alapú tárhelyen. A hívásokat egy speech-to-text alkalmazás szöveges átirattá konvertálja és a cég saját fejlesztésű Argo keresőjével kereshetővé is válnak. A fejlesztés nagy előnye, hogy nem igényel külön call center-t, akár KKV-k is megengedhetik maguknak használatát. A TipRanks a pénzügyi híreket elemezve követi az egyes szakértők ajánlásait és állít fel közöttük egy rangsort. A szolgáltatás egyre népszerűbb a kisbefektetők körében, hiszen rendkívül időigényes áttekinteni minden piaci információt és nyomon követni az egyes szakértők ajánlásainak sikerességét. Habár a bemutatott cégek fintech inkubátorházakból kerültek ki, láthatóan a pénzügyi szektoron kívül is alkalmazható megoldásokat sikerült alkotniuk. Külön érdekesség, hogy a nyelvtechnológia és a gépi tanulás a fintech világában nagyon elterjedt és sikeresen alkalmazható, de talán a szektor egzotikussága miatt nem jut el a szélesebb közönséghez a jó hír. Ha a pénzügyek világán kívül is sikeresek lesznek ezek a startupok, akkor nem csak ők járnak jól, hanem az egész szakma. Ezért is kívánunk nekik sok sikert!


2013. október 10. 8:00

George Lakoff @ CEU! 2013. október 16-án

Az egyik legnagyobb nyelvészlegenda, George Lakoff a CEU-n tart előadást 2013. október 16-án 11 órától. Az IARPA Metaphor projektje kapcsán minden rendes nyelvtechnológiai szakember is minimum hallott a mesterről, most élőben is lehet őt csodálni! Date: October 16, 2013 - 11:00 - 12:30 Building: Frankel Leó út 30-34. Room: 101 A general overview of a theory of embodied cognition under development by myself and Srini Narayanan. It will begin with basic cognitive linguistics: Embodied Schemas, Frames, Conceptual Metaphor and Metonymy, Blends, Constructions, and the basic experiments, and will present in general form a theory of the neural circuitry needed to characterize these phenomena in detail. The presentation will be informal and for a nontechnical audience. It will flesh out the presentation on Neural Politics given the previous day. (Bővebb információ)


2013. október 8. 8:00

Adatra fel!

Itt a big data, Hal Varian is megmondta, hogy a 21. század legszexibb foglalkozása lesz a statisztikus, de elveszettnek érzi magát a kedves olvasó az adatok tengerében és zavartan bólogat miközben adatújságírásról, Pearson korrelációról vagy éppen Kendall tauról beszélnek hipszter ismerősei? Megnyugtatjuk, nagyon kevesen értik miről is szól az adatok kora, még kevesebben vannak azok, akiknek volt kb. 60. 000 USD a zsebükben egy a UC Berkeley data science mesterképzéséhez hasonló diploma megszerzéséhez. Jó hírünk is van, ha szorgalmas a kedves olvasó, akkor a józan paraszti ész mellé csak egy laptopra és internethozzáférésre van szüksége ahhoz, hogy megértse a nagy szavakat és saját maga is vizsgálhassa az adatokat - nem mellesleg saját tapasztalatunk szerint ezzel már többet fog tudni, mint a legtöbb önjelölt szakember.  Az Open Knowledge Foundation School of Data programja remek alapozó kurzust kínál, amit tényleg bárki elkezdhet, aki tud egy kicsit angolul és rendelkezik megbízható IT felhasználói alapismeretekkel (pl. tudja hol keresse a táblázatkezelő szoftvert a gépén, képes telepíteni önállóan egy programot). Az alapozó kurzust érdemes végigcsinálni, a leckék nem túl rövidek és nem emészthetetlenül hosszúak. Haladóknak érdemes egy Data Expedition-höz, azaz adatfelfedező akcióhoz csatlakozni. A School of Data annak ellenére, hogy alig egy éves, máris rengeteg használható anyagot tartalmaz. Egyetlen hátránya, hogy az alapozó kurzus és az expedíciók szintje között nincs anyag, sokak számára nehéz lehet az egyszerű feladatok után hirtelen éles bevetésre menni, de állítólag a csapatok segítőkészek és nem szólják le a zöldfülűeket. "Az adatokkal történeteket kell mesélni" mondat minden rendes big data könyvben, cikkben és beszélgetésben előjön. A kérdés az, hogy hogyan csináljuk ezt! Ehhez ad tippeket az ingyenesen hozzáférhető Data Journalism Handbook. A nyílt adatokról sokat hallunk manapság, de mit is jelent az, ha egy adathalmaz nyílt? Az Open Knowledge Foundation Open Data Handbook-ja ebben segít eligazodni. Kezdőknek elsőre a függeléket ajánljuk, ami gyorsan eligazít mindenkit a leggyakrabban használt fájlformátumok és licencek világában.  A statisztika nem kerülhető meg, ha valaki adatokkal foglalkozik. A Coursera, az edX és a Udacity is ajánl remek bevezető kurzusokat, érdemes a linkeket követni és szétnézni az oldalakon. Mi most a CMU Open Learning Initiative ajánlatára hívjuk fel a figyelmet. Ezek minőségükben messze a többi felett állnak és sokkal kezdőbarátabbak is, az pedig csak hab a tortán, hogy bármikor el lehet kezdeni őket és mindenki a saját tempójában haladhat az anyaggal. A Statistical Reasoning kurzus inkább "filozófiai" és igyekszik a valószínűségi és statisztikai gondolkodás hátterét megvilágítani, a Probability and Statistics pedig gyakorlatiasabb (érdemes mindkettőt elvégezni!)


2013. szeptember 30. 8:00

Google Hummingbird

A napokban jelentette be a Google, hogy a keresőmotor jelentős átalakuláson megy (és már ment) keresztül. Az új motor a Hummingbird kódnevet kapta és a bejelentés szerint sokkal jobban ki tudja szolgálni a manapság egyre népszerűbb beszédvezérelt válaszkeresést. A Guardian lényegretörően és röviden összefoglalta a lényeget, a Webisztán pedig rámutat arra, hogy ezzel egyben lassan el is köszönhetünk a kulcsszavaktól, mi pedig megvilágítjuk miért válnak egyre lényegtelenebbé a kulcsszavak, miért kell jobban koncentrálni a tartalomra és mi köze van ennek a Kowledge Graph-hoz. Bye-bye keywords, hello topics! Már 2010-ben sokan gyanakodtak arra, hogy a Google valamilyen formában használja a látens dirichlet allokáció (latent dirichlet allocation, vagy röviden LDA) módszerét a találatok rangsorolására. Egy gyors keresés a Google Research oldalon megerősít minket abban, hogy az eljárás nagyon foglalkoztatja a keresőóriás kutatóit.  Az LDA tekinthetjük egy klasszifikációs eljárásnak, abból a szempontból, hogy az egyes dokumentumokhoz ún. topikszavakat rendel. Vegyünk egy konkrét példát, amiben az alábbi mondatokhoz hasnló rövid szövegek szerepelnek: Szeretek banánt és almát enni. Répát és körtét eszek minden este vacsorára. A kutyák és a macskák aranyos háziállatok. A testvérem tegnap örökbefogadott egy macskát a menhelyről. Nézd azt a nyuszit, milyen aranyosan majszolja az almát! Az LDA elemzés során két topikot keresünk. 1) és 2) mondatokat egy topikhoz, nevezzük A-nak, sorolná az algoritmus. 3) és 4) szintén egy topikhoz tartozik, legyen ez most B. 5) esetében azt mondhatjuk, 50%-ban A, 50%-ban pedig B topikhoz tartozik. A többi mondathoz A és B arányát 0 és 100% között adja meg, végül listázza az A (pl. banán, alma, répa, körte, dinnye, uborka, zsemle, kenyér, vaj, reggeli, ebéd, vacsora, stb) és B (kutya, macska, aranyhal, nyuszi, egér, hörcsög, stb) topikszavakat. Általánosságban az LDA algoritmusnak megadjuk hány topikot szeretnénk azonosítani. Ezután az egyes dokumentumokban szereplő szavak eloszlása alapján kapjuk meg a topikszavakat. Hogy miért jó ez nekünk? Hagyományosan az információkinyerő és kereső alkalmazások a dokumentumhalmazban előforduló szavak gyakoriságán alapuló eljárásokat alkalmaznak klasszifikációra és az egyes dokumentumok közötti hasonlósági metrikák megállapítására. Habár ezek sok feladatra kivállóan megfelelnek, az LDA eredményei konzisztensek és természetesek (ez alatt azt értjük, hogy ha "nevet adunk" egy-egy topik listának, az általában megfelel egy humán erőforrásokkal azonosított topiknak, továbbá gyakran olyan szavakat is tartalmaz, amire az ember nem is gondolná, hogy jó megkülönböztető jegye lehet egy topiknak) Az nTopic a webes tartalmak elemzése révén állapítja meg, hogy milyen topikszavak tartoznak egy adott tartalomhoz, s ez alapján tesz ajánlásokat a SEO szakembereknek a megfelelő kulcsszavak kiválasztásához. Érdemes ugyanakkor megjegyezni, hogy egy topkiszavakból álló lista eltér a hagyományos keresési kulcsszavaktól, hiszen ez tkp. egy ajánlás arra nézve hogy tartalmunkban milyen terminológiát alkalmazzunk. Minden gráf! A híres PageRank algoritmus a honlapok közötti linkek alapján felépített gráf struktúrán keresi és rangsorolja egy adott keresés találatait.  Egy mondat szintaktikai elemzése is egy fát eredményez. És az emberi tudást reprezentáló szimbolikus rendszerek is szeretik a gráfokat. Porfüriosz fája egy Arisztotelész kategóriái nyomán készült egyszerű "döntésfa", ami segít rendszerezni minden élő és élettelen létezőt. A linked data is az arisztotelészi hagyományt viszi tovább. A Freebase, melyet a Google által felvásárolt Metaweb alkotott meg 2006-ban, is egy linkelt adathalmaz, amit a felhasználók szerkesztenek. A Google Knowledge Graph a Freebase adataira épül, de kiegészítették automatikusan generálható tudáselemekkel (a Wikipedia és egyéb wikik ilyen felhasználása ma már bevett gyakorlat) és szabadon felhasználható linked data adatokkal. Szemantikus keresés és SEO Minden hipochonder álma egy orvos ismerős, de ha jogi gondunk akad szeretnénk gyorsan találni egy ismerős ügyvédet és kedvenc hentesünk véleményét kérjük ki hogy jó steaknek való húst szerezzünk be. A szakértők sajátos szótárat használnak és ismerik a szakszavak közötti hierarchiát. A keresőtől egyre inkább azt várjuk el, hogy ilyen szakértő tanácsadó legyen. A topikokat megfeleltethetjük a szakzsargonnak, a topikszavak közötti hierarchiát pedig a Knowledge Graph-nak. A legegyszerűbb keresőoptimalizálási trükk ebben a paradigmában az ha minőségi tartalmat készít számunkra egy szakértő, vagy keresünk valakit aki képes rövid időn belül otthonosan mozogni egy területen és jó tartalmat készíteni (ezt nevezzük újságírónak). Jól jöhet még egy nTopic-hoz hasonló eszköz a terminológia megválasztásához, ennek hiányában érdemes szövegergonómiai szakértőhöz fordulni.


2013. szeptember 27. 8:00

Mire jók a tudományos modellek?

Az adatokban minden ott van! De akkor mire jók a tudományos elméletek? Igaza volt Chris Anderson-nak amikor a tudományos módszer végéről írt? A szegregáció kapcsán megvizsgáljuk mi értelme van az íróasztal mellett valós adatok nélkül elméleteket gyártani, de előbb kitérünk arra hogyan is vélekedik az elméletekről az egyik legismertebb adattudós Drew Conway. Conway data science Venn diagramja rendkívül népszerű, érdemes azonban kiemelni a kapcsolódó posztból a veszélyzónáról (Danger Zone!) szóló részt (kiemelés tőlünk): Finally, a word on the hacking skills plus substantive expertise danger zone. This is where I place people who, "know enough to be dangerous," and is the most problematic area of the diagram. In this area people who are perfectly capable of extracting and structuring data, likely related to a field they know quite a bit about, and probably even know enough R to run a linear regression and report the coefficients; but they lack any understanding of what those coefficients mean. It is from this part of the diagram that the phrase "lies, damned lies, and statistics" emanates, because either through ignorance or malice this overlap of skills gives people the ability to create what appears to be a legitimate analysis without any understanding of how they got there or what they have created. Fortunately, it requires near willful ignorance to acquire hacking skills and substantive expertise without also learning some math and statistics along the way. As such, the danger zone is sparsely populated, however, it does not take many to produce a lot of damage. Az adatok értelmezéséhez és elemzéséhez elméleti háttér szükséges tehát. Ez nem csupán a statisztika alapos ismeretét feltételezi! Thomas Schelling nyomán a szegregáción keresztül próbáljuk meg azt szemléltetni, hogy nagyon is elméleti megfontolások mentén kell értelmezni a statisztikai adatokat.  Hogyan adhatjuk meg a szegregáció definícióját? X város, iskola stb. mihez képest szegregált? A teljes lakossághoz viszonyítva, egy térséghez képest? Ha egy adott kisebbség tagjainak arány egy településen 20%, de egyes kerületekben arányuk 25% feletti akkor beszélhetünk szegregációról? Egyáltalán, van olyan ideális helyzet, amikor nincs szegregáció? Schelling híres Dynamic Models of Segregation tanulmányában abból indult ki, hogy egy tökéletesen deszegregált környezetben mindenki véletlenszerűen választ magának lakhelyet. Tegyük fel, hogy egy adott város lakói egyáltalán nem rasszisták, de jellemző rájuk a homofília azaz a velük egy csoportba tartozóakat preferálják bizonyos mértékig (bővebben l. korábbi posztunkat) Ha eztuán az emberek elkezdenek költözködni, bizony kis homofília preferencia mellett is kialakulnak homogén szigeteg egy adott területen belül! Mindez nem jelenti azt, hogy a szegregáció "természetes" jelenség, csupán azt szemlélteti, hogy a homofília miatt egy ideális helyzetben is megjelenik némi elkülönülés.  A NetLogo program segítségével modelleztünk egy világot, melyet egyenlő arányban népesítenek be zöld és piros háromszögek és preferenciájuk szerint az szeretik ha minimum 30%-a a szomszédaiknak hasonló színű. A kiindulási helyzetben véletlenszerűen népesítik be a rendelkezésükre álló területet.  Ezután "megengedjük" a lakóknak hogy elköltözzenek. Pár költözés után már látszik, hogy elkezdenek kialakulni homogén területek. Több költözési ciklus után szabályos zöld és piros "negyedek" alakulnak ki. Érdemes egy pillantást vetni a Pro Publica szegregációról szóló Living Apart sorozatának térékpeire. Az 1940-es években még éltek a szegregációs törvények és a fekete népesség a déli államokban öszpontosult. Az északi iparvárosokban is egyértelműen egy-egy nagy tömben összpontosultak a feketék. A polgárjogi mozgalomnak hála sokat változott a helyzet délen, Az északi városokba egyre több fekete költözött a gazdasági változások hatására, de meglepő módon továbbra is etnikailag homogén lakókörnyezetbe érkeztek az új migránsok. Schelling modelljének értelmében ez a diszkrimináció és a szegregáció nyilvánvaló jele, hiszen messze túlmutat a preferenciákon alapuló véletlen mintázatokon. Ha csupán az adatokat néznénk, akkor szinte minden esetben szegregációt kiálthatnánk. Mivel nincs tökéletesen deszegregált társadalom, nehéz megtalálni azt a pontot, amikor szegregációról beszéhetünk - a klasszikus elméletek pontosan az ilyen viszonyítási pontok megtalálásában segítenek.


2013. szeptember 26. 8:00

FIDESZ vs MSZP - miről beszélnek a közösségi médiában?

Hogyan jelenik meg a FIDESZ és az MSZP a közösségi médiában? Milyen témák foglalkoztatták az embereket mostanában a két nagy párttal kapcsolatban és ezek hogyan kapcsolódnak? A 444.hu írását olvasva úgy gondoltuk, hogy érdemes komolyan is megnézni ezt. Ezen kérdések megválaszolásához begyújtöttünk minden olyan elérhető Facebook posztot és Twitter bejegyzést, ami tartalmazza a két párt nevét (2013. szeptember 1. és szeptember 25 között, összessen 783 bejegyzés) és egy ún. szógráfban ábrázoltuk hogyan kapcsolódnak ezek egymáshoz. A szógráfnak két fontos összetevője van, a szógyakoriság és hogy egy adott szó milyen gyakran fordul elő egy másikkal. Látható, hogy a bajai időközi választás és a rezsicsökkentésel kapcsolatos kérdések a központi témák. A rezsicsökkentést közelebbről is megvizsgáltuk, amihez a Facebook és Twitter APIk használatával begyűjtöttük a "rezsicsökkentés" kifejezésre adott találatokat (2013 szeptember 1 és 25 között kerestünk és összesen 417 posztot találtunk). Először megnéztük melyek a leggyakrabban használt szavak a témával kapcsolatos bejegyzésekben. Hierarchikus klaszterelemzéssel megnéztük hogyan kapcsolódnak egymáshoz a posztokban használt szavak. Ezt a módszert általában arra szokták használni, hogy egy szöveget tartalmi egységekre bontsanak és a köztük lévő logikai kapcsolatokat feltárják - azaz tekinthetünk erre úgy mint egy nagyon egyszerű érveléstechnikai elemzésre, ami ha nem is pontos, elolvashatatlanul nagy mennyiségű szöveg esetében ad némi támpontot. Íme az eredmény: Ahogy látható, empirikus eredményeink is alátámasztják a politikai marketing egyszerűségre való törekvését, hiszen nem találunk nagy struktúrát a szövegekben. Habár a szógráfban nem jelent meg a devizahitelek ügye, összehasonlításképpen elvégeztük erre is elemzésünket (2013. szeptember 1 és 25 között 401 bejegyzést találtunk). A húsz leggyakrabban használt szót mutatja az alábbi ábra. A klaszteranalízis dendrogram pedig így néz ki: Mivel nem ugyanaz az üzenet ismétlődik minden devizahitelekkel kapcsolatos bejegyzésben, sokkal nagyobb a posztok lexikai diverzitása is és a dendrogramon is látszik, hogy két csoport nagyon jól elkülönül; a személyes beszámolók és a "hírek és vélemények". A híreken belül is elkülönül két csoport, a hitelesek mentését szorgalmazó egyesületek és aktivisták vs. szakmai érveket hangoztatók. Reméljük sikerül érzékeltetni, hogy a szófelhők helyett más módszereket is bevethetünk a tartalomelemzés során és a poén mellett még valamennyire informatívak is lehetünk.


2013. szeptember 25. 8:00

Nyílt adatok - Open Access konferencia a W3C Magyar Iroda szervezésében október 3-án

A W3C Magyar Iroda Nyílt adatok - Open access témában konferenciát rendez 2013. október 3-án. A konferencia a szabadon hozzáférhető adatok szerepét, illetve felhasználását járja körül olyan területeken, mint a kutatás, az államigazgatás, valamint a web világa. A programot "Nyílt hozzáférés a hazai kutatóhálózatban" címmel Makara Gábor akadémikus előadása nyitja. Phil Archer, a W3C munkatársa a weben közvetlenül elérhető nyílt adatok szerepéről tart előadást a nap folyamán.A konferencián való részvétel ingyenes, de regisztrációhoz kötött. Jelentkezni Pataki Máténál lehet az office@w3c.hu címen.További információk és részletes program: http://www.w3c.hu/


2013. szeptember 24. 8:00

Szótár egy óra alatt - Kutatók Éjszakája szeptember 27-én

A SZTAKI Nyelvtechnológiai Kutatócsoportja idén is izgalmas programmal várja az érdeklődőket a Kutatók Éjszakáján. A részvétel ingyenes, de előzetes regisztrációhoz kötött. Gondolkoztál már azon, hogy hogyan készülnek a szótárak? Te hogy fognál hozzá pl. egy örmény-finn szótár építéséhez? A SZTAKI Nyelvtechnológiai csoportja több módszert is bemutat szótárak automatikus készítésére. A bemutatott eljárások egy része a Wikipediához hasonlóan közösség által épített Wiktionary-t használja kiindulási alapként, a többi pedig statisztikai módszerekkel nyer ki fordításokat különböző nyelvű szövegpárokból. A szótárépítést élőben is figyelemmel követhetik az érdeklődők. Észrevetted már, hogy a böngésző felismeri a weboldalak nyelvét? Vagy a Google Translate kitalálja, hogy milyen nyelvű szót írtál be? Elegendő egy hosszú lista az adott nyelv szavairól? Sajnos ez a lista sosem lehet teljes, mindig találnánk új és új szavakat. Míg a szótárak épülnek, bemutatunk néhány egyszerű módszert, amikkel nem szükséges szavak millióit számon tartanunk. A nyelvfelismerőnket élőben is ki lehet próbálni.


2013. szeptember 23. 8:00

Dühös csiripek - emóciók terjedése a közösségi médiában

Hogyan terjednek a hírek a közösségi médiában? Mi befolyásolja a hírek terjedését? Fan, Zhao, Chen és Xu Anger is More Influential Than Joy: Sentiment Correlation in Weibo című tanulmányukban arra a meglepő eredményre jutottak, hogy a négyelemű Ekman-féle emóciókategóriák (harag, élvezet, szomorúság, undor) közül a harag terjed a legjobban a hálózatokban. A Weibo tkp. a Twitter kínai reinkarnációja, a felhasználók közötti viszony asszimetrikus is lehet, hiszen nem kell visszaigazolni a kapcsolatokat. Tovább bonyolítja a helyzetet, hogy a felhasználók megoszthatják az áltatluk követett emberek üzeneteit saját követőikkel, s azok is tovább oszthatják az adott tartalmat. Azonban ez az interakciós kapcsolat jobban mérheti mennyire szoros kapcsolatban áll két felhasználó, hiszen pl. @justinbieber kb 45 millió követővel rendelkezik és 120 000 felhasználót követ, kétséges hogy elmélyült kapcsolatot ápol velük. Egy kellően nagy mintát vizsgálva érdemes a felhasználók közötti kapcsolatokat az interakciók számával jellemezni. Egyrészt így élhetünk azzal a feltételezéssel, hogy tényleges kapcsolat áll fent a felhasználók között, másrészt jelentősen csökken a kapcsolatok száma is a szimpla követés relációhoz képest. Fan és tsai úgy találták, hogy az interakciók küszöbértéke 30 - de ez nincs kőbe vésve, csak az adott vizsgálat során találták hasznosnak ezt az értéket. Az egyes emóciók automatikus megállapítását egy tanítókorpuszra alapozott bayesiánus klasszfikációt végző eljárás végezte el. Az emóciók terjedését úgy deifniálták, hogy milyen "messze" ér el a kapcsolatok hálójában egy adott érzelem, azaz egy adott felhasználótól elindulva egy emóció megtalálható-e kapcsolatai között, majd azok kapcsolatai között és így tovább. Érdekes módon csupán a harag (anger) esetében találtak a kutatók jelentős összefüggést három lépésen belül.  Érdemes egy pillantást vetni arra, milyen témák esetében terjedtek el a hálózatokban leginkább a negatív emóciók. Ahogy a fenti ábra is mutatja, ezek többsége a Kína külkapcsolataival ill. a belföldi eseményekkel (katasztrófák, korrupciós ügyek, stb.) kapcsolatos hír. Érdemes megemlíteni, hogy a Johan Bollen és tsai Happiness is assortative in online social networks című tanulmányukban kimutatták, hogy a nyelvi viselkedés alapján mért SWB (subjective well-being) alapján is érvényesül a homofília, azaz az azonos típusú emberek alkotta csoportokhoz való csatlakozás. (A homofíliáról érdemes a Birds of Feather: Homophily in Social Networks című tanulmányt elolvasni) Ahogy egy korábbi posztunkban már megjegyeztük, egyrészt az online világ leképezi a való világot. A homofília jelensége nem csak a Twitteren és egyéb közösségi hálókon tapasztalható, hanem hatással van akár a demográfiai folyamatokra is, ahogy a The Big Sort-ban is olvashatjuk. Kérdés azonban, hogy ha adva van a homofília, akkor miért pont a düh képez kivételt és terjed el egy csoportban gyorsan? Ha megfigyeljük milyen témákkal kapcsolatban jelent meg leginkább a düh, azt látjuk, hogy ezek alapvetően a kínaiak számára érzékeny hírek voltak. Garcia, Garas és Schweitzer, Positive words carry less information than negative words nagyon deskriptív című tanulmányukban kimutatták, hogy a Pollyanna jelenség miatt a negatív töltetű szavak információtartalma magasabb. Megkockáztathatjuk, a negatív szavak megjelenése magas információtartalmat zúdít egy-egy hálózatra, ezért terjednek el jobban. Hogy ez pont a düh emócióhoz kapcsolódik, az arra int minket hogy fogadjuk meg a régi mondást miszerint a harag rossz tanácsadó.


2013. szeptember 23. 8:00

opendata.hu - honosítók kerestetnek

Hamarosan nyilvánossá válik az opendata.hu CKAN szerver, mely a magyar vonatkozású nyílt adatok kereshetővé tételét tűzte ki maga elé. A CKAN egy nyílt forráskódú szoftver, s mint ilyen szabadon honosítható. A szoftver kezelőfelületének és dokumentációjának fordítását tőlünk függetlenül már elkezdték lelkes önkéntesek a Transifex oldalán - amit ezúton is köszönünk nekik - és eljutottak 33%-os honosítási arányhoz. Szeretnénk, ha a rendszer mindenki számára hozzáférhető lenne magyarul is, ezért kérünk mindenkit aki tud angolul és akad egy kis ideje, regisztráljon a Transifex-en és kapcsolódjon be a honosításba.  Továbbra is várjuk lelkes tesztelők jelentkezését a zoltan.varju(kukac)precognox.com címre - hamarosan indulunk, addig is adatra fel!


2013. szeptember 20. 8:00

Open Source Intelligence Konferencia 2013. október 3.

2013. október 3. csütörtök kerül megrendezésre az Open Source Intelligence konferencia, melyet a Magyar Információbrókerek Egyesülete és a Nemzeti Közszolgálati Egyetem szervezett. A program igazi csemege az adatok szerelmeseinek! Nemzeti Közszolgálati Egyetem Díszterem; Budapest, Hungária körút 9-11. 08.30 - Érkezés, regisztráció 09.00 - Megnyitó (Mikulás Gábor, elnök, MIBE, Prof. Dr. Kovács László ezredes, egyetemi tanár, NKE) 09.10 - Javaslat teljesen új OSINT felderítő ciklusra a legfontosabb OSINT-trendek alapján (A proposal for a totally new OSINT Intelligence Cycle based on the the most significant issues in the changing OSINT landscape) (Arno Reuser, Reuser's Information Services) 09.40 - Az információszolgáltatás tudomány 2.0-ás paradigmája (Science2.0-enabled paradigms for information delivery) (Prof. Dr. Klaus Tochtermann, igazgató, ZBW - Leibniz-Informationszentrum Wirtschaft) 10.10 - Az OSINT új arca: Cyber intelligence (Zala Mihály, vezérőrnagy, elnök, Nemzeti Biztonsági Felügyelet) 10.30 - Kávé 11.00 - Az OSINT szerepe/fontossága a titkosszolgálatok világában (Dr. Unicsovics György ezredes, Alkotmányvédelmi Hivatal, informatikai igazgató) 11.20 - Egy legyet két csapásra: a metakeresés egy alkalmazása (Vadász Pál, ügyvezető, Montana Tudásmenedzsment Kft.) 11.40 Hogyan gyűjtsünk adatot, hogy ne rólunk gyűjtsenek adatot?(Papp Pál, NETI) 12.00 - Ebéd 13.00 - Túlélőkészlet adatáradat esetére (Varjú Zoltán, Precognox Informatikai Kft.) 13.20 Ariadné fonala a bírósági és hatósági döntések labirintusában (Dr. Hegedűs András, jogi szaktanácsadó) 13.40 - Egészségügyi adatok feldolgozása a köz érdekében (Dr. Görög György, kandidátus) 14.00 - 15.00 - Kerekasztal a nap előadóival (moderál: Vadász Pál) Részvételi díj: 16.000 Ft, egy szervezettől 2 fő: 28.000 Ft, MIBE-tagoknak és közalkalmazottaknak 6.000 Ft, nappali tagozatos hallgatóknak 4.000 Ft; szept. 30-ig utalva. Helyben fizetve +2.000 Ft. Az összeg "konferencia" és a résztvevő nevének megjelölésével a 11991102-06312392-10000001 MIBE számlára utalandó. Részvételi szándékát emellett szept. 28-ig a titkarsag@montana.hu név, telefonszám és munkahely megnevezésével is jelezze. A részvételi díj tartalmazza az ebédet és a frissítőket. Vegetáriánus vagy speciális étkezési igényét kérjük, előre jelezze.


2013. szeptember 20. 8:00

Open Source Intelligence Konferencia, 2013. október 3.

2013. október 3-án, csütörtökön kerül megrendezésre az Open Source Intelligence konferencia, melyet a Magyar Információbrókerek Egyesülete és a Nemzeti Közszolgálati Egyetem szervezett. A program igazi csemege az adatok szerelmeseinek! Nemzeti Közszolgálati Egyetem Díszterem; Budapest, Hungária körút 9-11. 08.30 - Érkezés, regisztráció 09.00 - Megnyitó (Mikulás Gábor, elnök, MIBE, Prof. Dr. Kovács László ezredes, egyetemi tanár, NKE) 09.10 - Javaslat teljesen új OSINT felderítő ciklusra a legfontosabb OSINT-trendek alapján (A proposal for a totally new OSINT Intelligence Cycle based on the the most significant issues in the changing OSINT landscape) (Arno Reuser, Reuser's Information Services) 09.40 - Az információszolgáltatás tudomány 2.0-ás paradigmája (Science2.0-enabled paradigms for information delivery) (Prof. Dr. Klaus Tochtermann, igazgató, ZBW - Leibniz-Informationszentrum Wirtschaft) 10.10 - Az OSINT új arca: Cyber intelligence (Zala Mihály, vezérőrnagy, elnök, Nemzeti Biztonsági Felügyelet) 10.30 - Kávé 11.00 - Az OSINT szerepe/fontossága a titkosszolgálatok világában (Dr. Unicsovics György ezredes, Alkotmányvédelmi Hivatal, informatikai igazgató) 11.20 - Egy legyet két csapásra: a metakeresés egy alkalmazása (Vadász Pál, ügyvezető, Montana Tudásmenedzsment Kft.) 11.40 Hogyan gyűjtsünk adatot, hogy ne rólunk gyűjtsenek adatot?(Papp Pál, NETI) 12.00 - Ebéd 13.00 - Túlélőkészlet adatáradat esetére (Varjú Zoltán, Precognox Informatikai Kft.) 13.20 Ariadné fonala a bírósági és hatósági döntések labirintusában (Dr. Hegedűs András, jogi szaktanácsadó) 13.40 - Egészségügyi adatok feldolgozása a köz érdekében (Dr. Görög György, kandidátus) 14.00 - 15.00 - Kerekasztal a nap előadóival (moderál: Vadász Pál) Részvételi díj: 16.000 Ft, egy szervezettől 2 fő: 28.000 Ft, MIBE-tagoknak és közalkalmazottaknak 6.000 Ft, nappali tagozatos hallgatóknak 4.000 Ft; szept. 30-ig utalva. Helyben fizetve +2.000 Ft. Az összeg "konferencia" és a résztvevő nevének megjelölésével a 11991102-06312392-10000001 MIBE számlára utalandó. Részvételi szándékát emellett szept. 28-ig a titkarsag@montana.hu név, telefonszám és munkahely megnevezésével is jelezze. A részvételi díj tartalmazza az ebédet és a frissítőket. Vegetáriánus vagy speciális étkezési igényét kérjük, előre jelezze.


2013. szeptember 17. 8:00

Megjósolhatóak a forradalmak?

Kalev H. Leetrau a tartalomelemzés igazi fenegyereke. Még 2011-ben egy Nature hír kapcsán lett igazán közismert, amiben beszámoltak arról, hogy a kutató online híreken végzett szentimentelemzései az arab tavaszt jól előre jelezték, de még Oszama tartózkodási helyét is sikerült kb. belőnie.   Big data és tartalomelemzés Leetrau elemzései figyelemreméltóak, de felmerül a kérdés hogy a hírek mozgatják-e a világot, vagy a hírek a világ történéseit képezik le. Predikcióra pedig végképp alkalmatlanok a hírfigyelésre alapozott vizsgálatok, nincs elfogadott "forradalmi hangulatot jelző negatív szentimenthatár". A tartalomelemzés remek eszköz és a big data rengeteg lehetőséget rejt magában, de még többet is jelenthet ha több adatot tudunk kombinálni! Marco Lagi, Karla Z. Bertrand és Yaneer Bar-Yan a New England Complex System Institute kutatói The Food Crises and Political Instability in North Africa and the Middle East című tanulmányukban klasszikus módon közelítette meg a témát és szétnézett a jó öreg elméletek között s azok alapján keresett megfelelő adatokat melyek előrejelezhetnek egy politikai eseményt. Small data és a jó öreg elméletek Amartya Sen közgazdász-filozófus munkásságának egyik központi eleme a "képesség/lehetőség" (capabilitiy), melynek egy alapvető része az alapvető javakhoz való hozzáférés. Sen maga is megélte az 1943-as bengáli éhinséget mint gyermek, s az élmény hatására kezdett foglalkozni a fejlődéselméletekkel. Az éhinségek kapcsán kimutatta, hogy nem az árú hiánya jelenti a legnagyobb problémát, hanem az, hogy biznyos társadalmi csoportok képtelenek hozzájutni az alapvető élelmiszerekhez. Ebben az értelmezésben a szegénység a lehetőségek (capabilities) hiányát jelenti. A fejlődés mint szabadság című magyarul is hozzáférhető kötetében Sen remekül érvel amellett, hogy a demokráciákban az általános választójognak hála a legalapvetőbb javakhoz való hozzáférést igyekeznek biztosítani, s így az éhséglázadások és forradalmak igen ritkák a demokratikus országokban. Ellenben ott, ahol a hatalmi elitet nem korlátozza a rendszeres választás, nem jelenik meg a szegények igényeinek kielégítése és az elelmiszerellátásban adódó problémák éhinségekhez, lázongásokhoz és forradalmakhoz vezethetnek. Lagi és tsai az ENSZ Food and Agriculture Organization Food Price Index-ét elemezve jutottak hogy - az amúgy már feltételezett és gyakran vizsgált - összefüggés az élelmiszerárak emelkedése és a társadalmi elégetlenség között fenáll. A tanulmány legérdekesebb pontja, hogy egy küszöbértéket határoz meg, melyet elérve számítani lehet valamilyen elégedetlenségi mozgalom elindulására. Érdemes megjegyezni, hogy ez a küszöbérték, amellett, hogy remek prediktor, "nincs benne az adatokban", hanem a Granovetter által lefektetett kollektív viselkedési modellek hagyományára épül (bővebben erről l. Twitter forradalmak című posztunkat). A közösségi média mítoszai Az arab tavasz, a törökországi és a brazil tüntetések kapcsán egyre inkább előtérbe került a közösségi média elemzése és használata predikcióra. Persze nem haszontalan elemezni ezen forrásokat, de tisztában kell lennünk a big data buktatóival és az online tartalomelemzés határaival is. Nem árt tudni, hogy Brazília és Törökország alapvetően demokratikus országok (lehet azon vitatkozni, hogy mennyire persze) és habár felmerült a hatóságokban az internet korlátozása a zavargások alatt (ahogy a londoni zavargások alatt is felmerült a mobilhálózatok ideiglenes lekapcsolása), nem éltek ezzel az eszközzel. A többé-kevésbé elnyomó rendszerekben a közösségi média szerepe minden társadalmi szerveződésnél a propaganda, s nem a koordináció. Jevgenyi Morozov viccesen jegyzi meg egy írásában, hogy a nyilvános interneten tervezni egy forradalmat hülyeség, hiszen a hatalom emberei is ugyanazokat a forrásokat olvassák (The Net Delusion című könyvében külön fejezetet szentel ennek Why the KGB Wants You to Join Facebook címmel). Az egyiptomi forradalom során érdekes módon a közösségi médiát használó középosztály fiataljai csak a hálózat lekapcsolása után váltak aktívakká: [...] Az internet leállítása sosem látott tömegeket vitt ki az utcára, olyanokat, akik egyébként nem mentek volna ki. A rezsim lebecsülte az emberek információ iránti igényét. [...] El lehet venni egy embertől a szabad választásokat, a demokráciát, el lehet venni a szabadságjogainak nagy részét, de nem vehetik el a kommunikációs eszközeit, melyeket használ és ismer. Senki sem fog önként sötétségben maradni, elvágva mindentől és mindenkitől. (Jászberényi Sándor: Budapest-Kairó) A The Economist China and the Internet melléklete nagyon részletesen mutatja be, hogy a kommunista állam milyen módszerekkel tartja kontroll alatt netező polgárait. Az Aranypajzs (más néven Nagy Tűzfal) kifinomult technikái, a szorgos cenzorok és az öncenzúra kényesen ügyel arra, hogy milyen információ kerülhet nyilvánosságra. A nagy hírek rendre fennakadnak a tűzfalon, de akadnak olyan dolgok (pl. légszennyezés, alacsonyabb rangú pártkatonák és hivatalnokok mocskos ügyei stb.) melyek felszínre kerülhetnek.  Mindezek ellenére a leghíresebb kínai blogger Han Han kétségbe vonja a közösségi média forradalmi erejét: “You feel everyone’s really angry, you feel like you could go open the window and you would see protesters on the street," Mr Han said. “But once you open the window, you realise that there’s nothing there at all." Microblogging, he said, encouraged people to tune into a big story briefly, almost as entertainment, until the next big story comes along. It did not bring about “any real change or progress". (forrás)   Don't panic! A big data minden hibájától eltekintve jó dolog, de önmagában attól, hogy van egy hatalmas adatbázisunk még nem oldottunk meg minden problémát. A legtöbb esetben nem áll rendelkezésünkre megfelelő mennyiségű adat, mivel vagy anyagi korlátai vannak annak begyűjtésének (bizony, nem mindenki a Google költségvetésével gazdálkodik), vagy nem is férhet hozzá minden adathoz (minden közösségi médiás API-nak vannak korlátai!) Azonban egy jó elemző tudja merre érdemes keresni releváns adatokat, melyek legtöbbször a "small data" kategóriájába esnek, ellenben jó minőségűek és nyilvános protokol szerint dolgozták fel őket. Az ipari felhasználás terén is érdemesebb saját adatainkat nyilvánosan elérhető "small data" adatsorokkal kigeészítve elemezni. Habár az adattudományokban népszerű kétségbe vonni a területspecifikus szakértelem fontosságát, szerencsére még tartja magát az az elképzelés, hogy érteni kell valamennyire a vizsgált területet mielőtt elemzésekbe fogunk. Bővebben a témáról Twitter forradalmak Twitter forradalom? The Revolution Will Not Be Televised Társadalmi kísérletek és big data Adatújságírás - vissza a gyökerekhez


2013. szeptember 16. 8:00

Miért mondod? - szándékelemzés

Az tud beszélni, aki reménykedni tud, s viszont. A szentiment- és emócióelemzés egyre inkább a (közösségi) média monitorozásának bevett eszközévé válik. Ugyanakkor az "egyszerű" monitorozás nem ad választ arra a kérdésre, hogy milyen szándék áll egy-egy megnyilatkozás hátterében, s ennek hiányában azt sem tudjuk megmondani, hogy milyen hatást fejt az ki. Saif M. Mohammad és munkatársai a National Research Council Canada kutató Identifying Purpose Behind Electoral Tweets című tanulmányukban a 2012-es amerikai elnökválasztással kapcsolatos csiripek szándéka és polaritása közötti kapcsolatokat elmezte. Anélkül, hogy hosszadalmas fejtegetésekbe bocsátkoznánk, annyit sejthetünk, hogy egy megnyilatkozás szándéka és polaritása között valamilyen kapcsolat van. Gondoljuknk csak bele, milyen ritkán fejezzük ki utálatunkat pozitív szavakkal (ha ez a helyzet, akkor viszont ironizálunk!)! Mohammad és társai a 2012-es választásokat szemelték ki, hiszen az Egyesült Államokban magas a Twitter felhasználók száma és sok politikai csirip keletkezik. A tweetek felcímkézésére használt ún. hashtagek nagyon jó indikátorai annak miről is szól egy 140 karakteres bejegyzés. A kutatók elször kigyűjtötték az elnökválasztás kapcsán leggyakrabban használt hashtageket. A hashtegek alapján végzett keresésekkel gyűjtötték be a tweeteket, melyeket a Mechanical Turk (továbbiakban MT) crowdsourcing rendszeren az alábbi kérdőívhez hasonló feladatokkal rendszereztek a turkerek (az MT felhasználóit nevezeik így). A csiripek szándéka mellett, egy külön feladatban a turkerek elvégezték a tweetek emóciók szerinti kategorizálását is. A crowdsourcing alkalmazásának egyik legnagyobb hátránya az, hogy a turkerek sokszor csak benéznek egy-egy feladatra és gyorsan ott is hagyják, ha nem tetszik nekik, vagy csak egyszerűen valamiért csak pár kérdésre válaszolnak s tovább is állnak. A nyelvtechnológiában (és a gépi tanulásban) nagyon fontos, hogy egy adatot több személy is annotáljon, ezért egyre többen próbáltak kitalálni olyan metodológiát, amivel kezelni lehet az MT és hasonló rendszerek sajátosságait. Úgy tűnik, hogy Mohammad és tsai is sikeresen elkerülték ezt a problémát s az annotátorok közötti egyezés mértéke az egyes tweetek besorolásánál egész szép értékeket mutat. A lehetséges szándékokat előzetesen szakértőkkel egyeztetve állapították meg a kutatók. Különböző megfontolások után 11 különböző szándékot különítettek el, melyeket három nagy csoportba soroltak. A szándékok "aprólékos" kategorizálása (11 osztály használata!) nem minden esetben szükséges, ezért ezeket érdemes összevonni (viszont az, hogy melyeket vonjuk éppen össze, az a kontextus függvénye). A "szuper-kategóriák" megoszlását szemlélteti az alábbi tábla. Az egyes szándékok és a Paul Ekman által bevezetett emóciókategóriák megoszlását szemlélteti az alábbi ábra. Az egyes szándékok és emóciók közötti kapcsolatok nem meglepőek, de a tanulmány érdeme, hogy elsők között számolt be arról, hogyan lehet miőségi korpuszt készíteni olcsón és hatékonyan, annak érdekében, hogy jobban megértsük ezt. Fontos megjegyeznünk, hogy egy dolog "közismert tényként" kezelni valamit, s megint más feltárni tudományosan az ismert kapcsolatot. Mohammad és tsai a felépített korpusz alapján hatékonyan tréningeltek különböző klasszifikációs algoritmusokat, bizonyítva ezzel, hogy az eljrásra alapozva nagy mennyiségű, emberi elemző számára elolvashatatlanul nagy, szöveget is képesek szándék alapján osztályozni.


2013. szeptember 13. 8:00

Precognox Labs - Twitter Sentiment Analyzer

A szentimentelemzés nagyon jó dolog, hiszen segítségével megtudhatjuk hogyan beszélnek egy termékről vagy márkáról a közösségi média felhasználói. Milyen jó lenne megtudni, hogy kik alakítják a pozitív, semleges és negatív véleményeket. Marosi Máté és Fodor Mánuel erre a kérdésre adott választ a Twitter Sentiment Analyzer alkalmazásával, ami angol és magyar csiripeket elemez polaritásuk szerint és a szerzők közösségi médiában gyakorolt befolyását is figyelembe veszi. A Twitter Sentiment Analyzer angol ága az AlchemyAPI szentimentelemzőjét használja, a magyar szentimentelemző saját fejlesztésünk. Mindkét nyelv esetében először az egyes tweeteket polaritásuk szerint szétválogatjuk, majd a PeerIndex API-t használva a felhasználókat "influence index" értékük alapján rangsoroljuk. A Twitter Sentiment Analyzer kezelőfelülete egyszerű mint egy faék, kiválaszthatjuk a nyelvet és megadhatjuk a keresési kifejezést. Fontos megjegyezni, hogy a rendszer márka- és terméknevekre van optimalizálva, személyekre, általános fogalmakra stb. nem érdemes keresni vele. Az eredményeket három oszlopban láthatjuk, pozitív, semleges, negatív (balról jobbra) a tweetek sorrendjét szerzőjük PeerIndex értéke határozza meg.  A Twitter Sentiment Analyzer nem érhető el szabadon, de kérésre szívesen biztosítunk hozzáférést. Ha jövő nyáron te is szívesen lennél gyakornok a Precognoxnál, jelentkezz már most! Maximum három személyt tudunk fogadni.


2013. szeptember 12. 8:00

Precognox Labs - szentimentelemző

Szentimentelemzők célja elsősorban az volt, hogy gyakornokaink megismerkedjenek a gépi tanulás gyakorlati aspektusaival, mint például a tréning adatok használata, gépi tanulási algoritmusok tesztelése stb. Ezt egy bayesiánus klasszifikáció elvén működő szentimentelemző építésével kötöttük össze, melyen Marosi Máté és Fodor Mánuel dolgozott. Hogy kíméljük az erőforrásokat, maximum 1000 karakteres szöveget vizsgál a szentimentelemző. Most csak egy mondatot adunk meg, de több mondatot is képes kezelni a rendszer. Többmondatos input esetén minden egyes mondatra megkapjuk a szentimentértékeket, majd a szoftver ezeket összesítve állapítja meg az egész szöveg polaritását. A demo nem érhető el szabadon, de nagyon szívesen biztosítunk hozzáférést igény esetén. Ha jövő nyáron te is szívesen lennél gyakornok a Precognoxnál, jelentkezz már most! Maximum három személyt tudunk fogadni.


2013. szeptember 11. 8:00

Precognox Labs - News Tagger

A szövegek automatikus címkézése a nyelvtechnológia egyik klasszikus területe és cégünk már több ügyfélnek is nyújtja ezt a szolgáltatást. A nyáron Kulcsár Ádám gyakornokunk "leporolta" már meglévő kulcsszavazó alkalmazásunkat. A demo alkalmazásnak meg kell adni a tagelni kívánt szöveg url címét. A megadott url alapján Text Extractor alkalmazásunk kinyeri az oldalon található lényeges szöveget (pl. egy hír esetében a hír szövegét). Az elemzés eredménye sok-sok kulcsszó. A kulcsszavak abban az értelemben deskriptívek, hogy pl. automatikus klasszifikációra kiválóan alkalmasak, de a humán felhasználó számára egy részük értelmetlen lehet. A további fejlesztés célja, hogy megtaláljuk a helyes arányt és csak a humán felhasználók számára is értelmezhető kulcsszavakat jelenítsük meg. A News Tagger jelenleg nem érhető el szabadon, de kérésre nagyon szívesen megmutatjuk! Ha jövő nyáron te is szívesen lennél gyakornok a Precognoxnál, jelentkezz már most! Maximum három személyt tudunk fogadni.


2013. szeptember 10. 8:00

Precognox Labs - Entity Extractor

A névvel rendelkező entitások felismerése (named entity recogniton, röviden NER) napjainkban a szövegfeldolgozás egyik kedvelt területe. Fodor Mánuel gyakornokunk egy egyszerű, általános célú NER rendszer kifejlesztésébe kapcsolódott be miután elkészítette beszédfelismerős cégkeresőnk prototípusát. Az Entity Extractor demo felületén egy url-t adhatunk meg. Az eszköz Text Extractor alkalmazásunkat használva képes az adott honlapon azonosítani a "törzsszöveget". Jelenleg kb. 80%-os pontossággal képes azonosítani a szövegben szereplő entitásokat (személyek, szervezetek, helyek és egyéb kategóriákba sorolva). A fejlesztés célja, hogy tovább növeljük az eszköz hatékonyságát, ill. szeretnénk az entitások közötti kapcsolatokat is felismerni. Az Entity Extractor jelenleg még nem érhető el szabadon, de kérésre nagyon szívesen megmutatjuk működés közben is. Ha jövő nyáron te is szívesen lennél gyakornok a Precognoxnál, jelentkezz már most! Maximum három személyt tudunk fogadni.


2013. szeptember 9. 8:00

Precognox Labs - Text Extractor

Egy korábbi posztunkban megemlékeztünk arról, mennyire nehéz csupán a tartalmilag releváns szövegeket kiszedni egy weblapból. Kulcsár Ádám gyakornokunk a hivatkozott bejegyzés nyomán készítette el Text Extractor alkalmazásunkat, ami egy megadott url alapján képes kinyerni a tartalomelemzés számára releváns szöveges tartalmat egy adott honlapról. A demo alkalmazás kezelőfelülete nagyon egyszerű, a beviteli mezőbe meg kell adnunk egy url-t. Az eredmény pedig a szövegelemzés szempontjából releváns tartalom. Habár elvileg nagyon egyszerű dolog lenne szintaktikai elemzéssel felismerni egy html oldalban a releváns részeket, a gyakorlat azt mutatja, hogy a webfejlesztőket nem igazán érdeklik a szabványok. A Text Extractor ezért nem a hagyományos parsing megközelítést használja, hanem gépi tanuláson alapuló modell alapján választja ki a szöveget. Az alkalmazás nem érhető el szabadon, de igény esetén nagyon szívesen megmutatjuk!


2013. szeptember 6. 8:00

Az opendata.hu tesztelőket keres!

Cégünk egy a nyílt adatokat kereshetővé tévő CKAN szerver felállításával és üzemeltetésével szeretne hozzájárulni a magyar open data mozgalom sikerességéhez. Jelenleg a rendszer tesztelés alatt áll,  de szívesen biztosítunk hozzáférést bárkinek, aki szeretne adatokat feltölteni, vagy linkelni.  A CKAN szerver elsődleges célja, hogy kereshetővé tegye az élrehtő nyílt adatokat. Lehetőség van csupán az adatok forrásának linkelésére és egy rövid leírás megadására is illetve fel is tölthetők az adathalmazok a szerverre. Jelenleg csupán pár adathalmaz érhető el a szerveren, ezek számát szeretnénk jelentősen növelni mielőtt publikussá válik az oldal. Továbbá reméljük, hogy az esetleges hibákra is fényderül a tesztüzem során. Tesztelésre egy a zoltan.varju(kukac)precognox.com email címre küldött emailel lehet jelentkezni, a tárgyban a "CKAN" feltüntetésével.


2013. szeptember 5. 8:00

Legyél az NLP meetup szervezője!

Az NLP meetup segítőket keres! Általában évi hat alkalommal kerül megrendezésre a meetup, mely lebonyolításában eddig Kádár Ákos és Recsik Gábor segített - amit ezúton is köszönünk nekik. A segítőre váró feladatok sokszínűek, olyan kreatív tevékenységeket fednek le mint székpakolás, a vendégek fogadása és útbaigazítása, egy-egy esemény lebonyolítása, előadók meghívása stb. Ezek jelentős része helyhez kötött, mivel Budapesten tartjuk rendezvényeinket. Amennyiben szeretnél csatlakozni a szervezőkhöz, írj magadról pár sort a zoltan.varju(kukac)precognox.com címre, a tárgymezőbe írd be hogy "NLP meetup segítő". Ellentételezéssel nem tudunk szolgálni, de mint segítő megismerheted a hazai és részben a nemzetközi szakmai élet szereplőit, kapcsolatba kerülhetsz kutatókkal és az iparral is. Szükség esetén nagyon szép ajánlásokat tudunk írni! Továbbá írhatsz a Kereső Világra, amit kétszer is a harmadik legjobb IT blognak választott a Goldenblog zsűrije és idén ott van a tíz legjobb biznisz blog között. Médiapartnerünk a Nyelv és Tudomány rendszeresen megkörnyékezi tagjainkat, hogy írjanak nekik szakterületükről. Az sem utolsó szempont, hogy a lelkes segítő úgy jelentkezhet gyakornoki programunkra, hogy már ismerjük.


2013. szeptember 4. 8:00

ePSI Platform Workshop - 2013. október 2, Budapest

A nyílt adatok iránt érdeklődők számára igazi csemege lesz az ePSIplatfrom október 2-án megrendezésre kerülő workshopja. A részvétel ingyenes, de előzetes Eventbrite regisztrációhoz kötött. A részletes program ezen a linken érhető el.  


2013. szeptember 2. 8:00

Precognox Labs - pollyanna és szentiment a magyar nyelvben

Legelső gyakornokunk Kádár Ákos volt, aki még 2012-ben töltött velünk pár hónapot. Ákos sokat segített az NLP Meetup szervezésében és lebonyolításában miután végetért formális kapcsolata cégünkkel. Gyakorlati munkája mellett bekapcsolódott a pollyanna hipotézis kapcsán megkezdett kutatásainkba, amit egy kis angol nyelvű beszámolóban foglalt össze Observations on Sentiment Analysis címmel. Mivel Ákos dolgozata szabadon elérhető, itt a források mellőzésével csak röviden összefoglaljuk eredményeit. A magyar említésgyakorisági és szentiment adatokat a Neticle Technologies biztosította, amit ezúton is köszönünk. A vizsgálatot Johan Bollen és társainak meglepő eredménye inspirálta, mely szerint a 2012-es választások eredményei az Egyesült Államokban korreláltak a Twitteren mért említésgyakorisággal (bővebben erről már beszámoltunk egy korábbi posztunkban). A pollyanna hipotézis szerint a pozitív töltetű szavak és kifejezések aránya a nyelvben sokkal magasabb mint a negatív töltetűeké. A szakirodalom szerint ez valószínűleg nyelvi univerzálé, azaz minden nyelvben jelen van. Mivel nem találtunk kifejezetten a magyar nyelvre vonatkozó adatokat, kigyűjtöttük a leggyakoribb ellentétpárokat és Ákos a Magyar Webkorpuszra épült Szószablyával megnézte gyakoriságukat. Az alábbi ábra a magyar politikai pártok említésszámát (sum), ill pozitív, semleges és negatív említéseinek számát összegzi egy adott időszakban. Jól látható, hogy a legtöbb említés semleges, ez összhangban van a szentimentelemzés alapelveivel. Az alábbi ábra az említések megoszlását szemlélteti az egyes pártok között. Ha a TÁRKI felmérésével összevetjük az említésgyakoriság megoszlását, érdekes eredményt kapunk. Úgy tűnik, bizonyos esetekben a szentimentnél sokkal informatívabb az említésgyakoriság. Érdekes ellentmondás feszül a szentimentelemzés neutralitás túlsúlyát feltételező alapelve és a pollyanna hipotézis között, amit szeretnénk a jövőben jobban megérteni. Nagyon büszkék vagyunk Ákosra, aki jelenleg a Tilburg University Human Aspects of Information Technology szakos mesterhallgatója. Reméljük tudásával hamarosan a hazai nyelvtechnológiai ipart gazdagítja!


2013. augusztus 30. 15:28

Precognox Labs - beszédfelismerős cégkereső

A Precognoxnál nyáron sincs uborkaszezon. Gyakornoki programunk olyan sikeres volt, hogy több izgalmas prototípus is született, melyeket blogunkon külön sorozatban mutatunk be. Az alábbi videón Fodor Mánuel beszédfelismerős cégkereső Android alkalmazása látható működés közben. Az applikáció a Cylex Tudakozó adatbázisában keres, beszédfelismerésre pedig a Nuance Dragon API-t használja. Ahogy a felvételen is hallható és látható, a felhasználó jólformált természetes nyelvi kifejezésekkel kereshet az app segítségével.


2013. augusztus 29. 17:00

A szíriai polgárháború a GDELT adatbázison keresztül

A GDELT, azaz a Global Database of Events, Language and Tone a globális események adatbázisa. Felépítése nagyon egyszerű, ún aktorok (személyek, pártok, kormányok, szervezetek stb) és események (tüntetés, nyilatkozat, diplomáciai és fegyveres konfliktusok stb.) kódolnak minden történést. Hogy mire jó ez? A szíriai polgárháború kapcsán erre keressük a választ. A GDELT adatbázist mindenki szabadon letöltheti. Egy egyszerű Python szkript segítségével kiválaszthatjuk és külön fájlba menthetjük a minket érdeklő eseményeket, helyeket és aktorokat. Elemzésünkhöz minden Szíriával kapcsolatos eseményt kigyűjtöttünk. Az alábbi grafikonon jól látható, hogy a polgárháború kitörésekor hirtelen drámai mértékben megnövekedett az események száma. Ha arra vagyunk kíváncsiak kiket is érintenek a Szíriával kapcsolatos események, akkor érdemes aktorok szerint szűrni. A húsz leginkább érintett aktort mutatja az alábbi ábra. Látható, hogy Sziria az egyik legérintettebb, de ez nem meglelpő. Sokkal inkább furcsa, hogy a közvetlen szomszédok mellett Franciaország, Ausztrália és az Egyesült Államok érintettsége. Az alábbi ábrán az összes európai, észak-afrikai és kelet-ázsiai aktort megjelnítettünk geolokációs adataik alapján. Ezután szűkítettük az adatok körét. Kiszűrtünk minden 2011, azaz a polgárháború előtti eseményt, az aktorok közül pedig csak az alábbiakat vizsgáltuk tovább: GOV OPP MIL REL CVL REB COP SPY REF SEP azaz kormányzat (GOV), ellenzék (OPP), vallási csoportok (REL), civil csoportok (CVL), felkelők (REB), rendőrség (COP), hírszerzés (SPY), menekültek (REF) és szeparatisták (SEP). Az aktorok közötti viszonyok közül a visszautasítás, fenyegetés, ellenállás, erőszakos fenyegetőzés, kapcsolatok megszakítása/redukálása, kényszerítés, támadás, harc és nem-konvencionális tömeges erőszak történéseket tartottuk csupán meg. Még ezen megszorítások mellett is látható hogy a szír polgárháború nagy hatást gyakorol a térségre. Damaszkusz és térsége bővelkedik leginkább Szírián belüli eseményekben. Ha az egyes aktorok közötti kapcsolatokat gráf formájában helyezzük a térképre, sokkal jobban kirajzolódik a közöttük fennálló számos összetett kapcsolat. A GDELT remek eszköz társadalomtudósok és adatújságírók számára, de értő kezek más elemzésekben is jól felhasználhatják. Reméljük folyamatosan fog bővülni új és historikus adatokkal is. Hasznos olvasmányok az adatbázis megértéséhez: Commonly Used CAMEO Agents CAMEO Conflict and Mediation Event Observations Codebook


2013. augusztus 28. 8:00

Budapest BI Forum - 2013 november 6-7.

A nagy sikerű Open Source BI és Innovative BI konferenciákra építve idén kétnapos rendezvénnyel várják az üzleti intelligencia és az adatbányászat iránt érdeklődőket a szervezők. A Budapest BI programja nagyon átfogó, mindenki találhat benne érdekes témát. Előadónak is lehet még jelentkezni a konferencia CfP oldalán!


2013. augusztus 26. 8:00

Rossz híre van hazánknak? - Facebook elemzés

Egy korábbi posztunkban megvizsgáltuk, hogy a hazánkkal kapcsolatos tweetek milyen emóció- ill. szentimentkategóriába tartoznak. Most megvizsgáltuk hogy mi a helyzet a Facebookon elérhető nyilvános posztokkal. A "Hungary" szóra keresve 1048 angol bejegyzést gyűjtöttünk be és elemeztünk.  Szentimentelemzés Emócióelemzés A vizsgálat a Facebook bejegyzések begyűjtésében tért el csupán a Twitteren végzett hasonló elemzésünktől, a részletek iránt érdeklődő olvasókat ezért oda irányítjuk. Úgy tűnik, a Facebookon is alapvetően pozitívan beszélnek Magyarországról, legalábbis az angolul megnyilatkozó felhasználók.


2013. augusztus 24. 11:04

Recesszió-index Google Ngram adatokra

Az egyik legnépszerűbb és egyben legegyszerűbb gazdasági előrejelző index a The Economist Intelligence Unit R-Word Index-e. Az index a "recession" szó gyakoriságát mutatja a Financial Times és a Wall Street Journal lapokban. Egyszerűsége ellenére az utóbbi harminc évben csupán az 1990-es recessziót jelezte rosszul előre. Historikus léptékkel mérve harminc év nem tekinthető soknak, ezért posztunkban megvizsgáltuk hogy egy a Google Ngram korpuszra alapozott recesszió-index mennyire informatív. A vizsgálódáshoz az Ngram Viewer helyett letöltöttük a Ngram korpusz amerikai angol 1-gram részletét és egy sqlite adatbázisban tároltuk (aki követné példánkat jó ha tudja csupán az amerikai angol korpusz adatbázisa 25GB helyet foglal). A recessziós időszakokat az U.S. Bureau of Economic Analysis oldaláról töltöttük le. (A vizsgálatot elvégeztük a brit angol és a francia korpuszra is, de azokat most nem közüljük) R-index 1800-tól 2000-ig Látható, hogy a "recession" gyakorisága először a nagy gazdasági világválság idején ugrik meg drámaian. A harmincas évek után tapasztalható némi csökkenés, de napjainkig egyértelműen növekszik a szó frekvenciája. R-index 1950-2000 Ha leszűkítjük vizsgálódásainkat a második világháború utáni időszakra, akkor látható, hogy habár nagyon nagy kitérések vannak a görbén (ez a vékony vonal jelzi), a trend egyértelműen azt mutatja, hogy a csúcsok egyre magasabbra kerülnek és a visszaesések is magasabb szinten állnak meg (a piros vonal szemlélteti ezt). Republikánus elnökök alatt nő a "recession" frekveniája! 1950-től tapasztalható tendencia, hogy a republikánus elnökök hivatali ideje alatt nő a recesszió gyakorisága. Ennek okai nyilván bonyolultak, de annyit megkockáztathatunk hogy a konzervatívok egyik vesszőparipája a recesszió elkerülése s ez nyomot hagyott az Egyesült Államokban megjelent könyvek nyelvén. Economist-stílusú R-word index Mivel a rendelkezésünkre álló adatok 1850-től tartalmazzák a recessziós időszakokat, az ábrán ezen év előtt nem jelezhettük ezeket. Látható, hogy a rózsaszínnel kiemelt válaságidőszakok előtt és alatt általában emelkedik az R-index. Nagyon érdekes, hogy az újságcikkekre alapozott R-index a sokkal lasabban készülő és nem annyira a mindennapok történéseire reagáló könyvekre alapozott Ngram korpuszokon is egész jól működik.


2013. augusztus 23. 8:00

Pénzügyi startupok 2. - Cayman Atlantic

A Cayman Atlantic a közösségi média tartalomelemzésére alapozott befektetési stratégiát használva a piaci átlagot meghaladó nyereséget tud elérni. A cégről egy korábbi posztunkban már beszámoltunk, egy másik írásunkban pedig röviden bemutattuk Johan Bollen és társai emócióelemző módszerét, ami a Cayman Atlantic rendszerének alapja. A WIRED Money 2013 konferencián Paul Hawtin alapító a legújabb fejlesztéseikről számolt be, melyek lehetővé teszik, hogy ne csupán a tőzsdeindexek alakulását, de ágazati és céges szintű elemzéseket is végezhessenek. Az előadásból érdemes kiemelni, hogy immár nem csupán a Twitter tartalmait figyeli a Cayman Atlantic, hanem minden nagy közösségi oldalt. Az előadásban Hawtin meg se említi, hogy a tartalmak aggregált szentimentje előrejelzi a tőzsdeindexek mozgását, holott Bollen és társainak kutatása ezzel az eredménnyel hívta fel magára a pénzügyi szféra figyelmét. Ellenben sok időt szentel annak, hogy egy adott céget, vagy egy adott ágazat számára fontos eseményeket is monitoroznak és szinte valós időben készítik el emócióelemzéseiket. Az is kiderül, hogy ún. szótári módszert alkalmaznak, azaz minden szektorra és azon belül az egyes cégekre létrehoztak egy szótárat, ami a releváns, hírértékkel bíró kifejezések gyűjteménye (hazánkban a Neticle Technologies rendszer működik hasonló elven). Több közösségi média tartalmat aggregáló API-t is megemlít Hawtin, de a DataSift neve hangzik el a legtöbbször, ami arra utal, hogy nem saját architektúrán gyűjti és tárolja az adatokat a cég. Jó látni, hogy a Cayman Atlantic fejlődik és új funkciókkal gazdagodik. Elődje a Drewent Capital csak egy hónapot élt meg, de nagyon nagy volt körülötte a felhajtás. Úgy tűnik kevesebb hype és több munka mellett létjogosultsága van az emócióelemzésnek a fin-tech világban.


2013. augusztus 22. 8:00

Egyre individualistább a nyelv?

Patricia Greenfield a UCLA szociálpszichológusa The Changing Psychology of Culture From 1800 Through 2000 (sajnos nem szabad hozzáférésű) című tanulmányában a Google Ngram Viewer segítségével vizsgálta, hogy az individualizmusra ill. a kollektivizmusra jellemző szavak gyakorisága miképp változott 1800 és 2000 között. A kutató azt találta, hogy az amerikai angolban az individualizmusra jellemző szavak gyakorisága növekszik. További elemzésekkel szeretné megvizsgálni, hogy a brit angol, francia, spanyol és kínai Ngram korpuszokban is megfigyelhető-e hasonló jelenség. Mielőtt kitérnénk arra, mennyire lehet megalapozott egy ilyen vizsgálat, vessünk egy pillantást néhány példára Greenfield tanulmányából. Kötelesség (obliged) vs választás (choose) Adni (give) vs kapni (get) Engedelmesség (obedience) - tekintély (authority) - valahová tartozik (belong) - imádkozik (pray) Egyén/egyéni (individual) - én (self) - egyedi (unique) - gyerek (child) Greenfield arra a megállapításra jutott, hogy a városiasodás és a modern életforma megjelenésével egyre individualistább lett a nyelvhasználat és a társadalom is. De következik-e bármi is egy szó vagy kifejezés gyakoriságából? Egy korábbi posztunkban már foglalkoztunk azzal a kérdéssel, hogy az Ngram Viewer segítségével tényleg megállapítható-e, hogy az emberek egyre individualistábbak, vagy egyáltalán van-e összefüggés a gyakoriság és a való világ között. Kedvenc példánk erre: Az ún. flogiszton-elmélet a 17. és 18. században nagyon népszerű volt az égés magyarázatára míg Lavoisier meg nem cáfolta. A modern kategóriaelmélet megjelenését 1942-re datálják, de maga az elnevezés az 1960-as évekig nem terjedt el. Ugyanakkor a kategóriaelmélet tárgyalása során egészen a 19. században megjelenő algebrai geometriáig szokása visszamenni. Nézzük meg miképp alakul a "phlogiston theory" és a "category theory" kifejezések ngram-ja: A flogiszton-elmélet fontosabb lenne a kategóriaelméletnél? Fektessünk flogisztonnal foglalkozó startupba? Akik ismerik a filozófiatörténetet tudják, hogy az említésgyakoriság fokozatos emelkedésének oka egyszerű; a tudományfilozófusok egyik kedvenc példájával állunk szembe. A kategóriaelmélet hiába az egyik legfontosabb kutatási terület napjainkban (főbb "felhasználási területei" mint például a matematika alapjai, a kvantumfizika matematikai modellezése, kompozícionális-disztribúciós jelentéselmélet, kvantumszámítógépek, probabilisztikus programozás, bioinformatika tkp. lefedik a leginnovatívabb kutatási irányokat) ennek ellenére nagyon alacsony a frekvenciája. Az individualista nyelvhasználat egyik legelemibb esetének szoktuk tekinteni, ha valaki sokat hivatkozik magára. "Én úgy gondolom, hogy...", "Azt hiszem...", "Szerintem..." stb. A többes szám használatát pedig a kollektivizmus jelének tartjuk. Azonban ahogy Pennebaker is kimutatta, a mi (angolban we, magyarban ez gyakran lemarad és a többes szám utal rá) legalább négy jelentésben használatos: (Mi) meg fogjuk oldani. (Mi) megtudjuk ezt csinálni holnapra? (Mi) sokkal jobbak vagyunk náluk. Ezt a sikert mi magyarok közösen értük el. A fentiek közül az 1. pont az, ami az igazi "kollektív mi" értelemben használatos. A 2. pont lehet egy főnök kérdése a beosztottak felé, amiben a többes szám használata félrevezető, hiszen a beosztottak dolgoznak a feladaton. A 3.-ban a "mi" a két csoport közötti különbségtétel hangsúlyozását szolgálja. A 4. pont a politikára jellemző, gyakran változó hatókörű "mi" egyik példája. Nem szeretnénk cáfolni Greenfield és a hasonló módszertannal kutató tudósok munkáját, csupán arra szeretnénk felhívni a figyelmet, hogy a puszta gyakorisági adatokon túl más információkat is figyelembe kell venni.


2013. augusztus 21. 8:00

Miről beszél @dajcstomi?

A magyar Twitter-szféra talán legismertebb felhasználója Deutsch Tamás az Európai Parlament képviselője, aki @dajcstomi néven csiripel és 140 karakteres megnyilatkozásai gyakran keltik fel a média érdeklődését is. A lexikai elemzés segítségével megnéztük miről és hogyan beszél @dajcstomi. 2013. augusztus 19-én a @dajcstomi fióka legutolsó 1500 bejegyzését gyűjtöttük be a Twitter API-n keresztül és a hasonló elemzések során megszokott R csomagokat használtuk (twitteR, cluster, FactoMineR, igarph). Szófelhő A  szöveg normalizálása (stopszószűrés, a betűkön kívül minden más karakter eltávolítása és csupa kisbetűsre alakítás) után automatikus klasszifikációval 7 csoportba soroltuk a tweeteket, a szófelhőben az eltérő színek ezeket jelzik, az egyes szavak nagysága pedig a frekvenciára utal.  Szógráf A szófelhőhöz használt klasszifikációt egy kicsit megbolondítva állíthatjuk elő az ún szógráfot ami alkalmas arra, hogy megjelenítsük milyen gyakran fordul elő a vizsgált szövegekben együtt egy-egy szó. Klaszter dendrogram A leggyakrabban használt szavak hierarchikus viszonyát ábrázolja a fenti dendrogram.  A leggyakrabban használt szavak Minden korpusz esetében érdemes megnézni, hogy a "nyers" azaz még nem normalizált szöveg szógyakorisága mutat-e eltérést egy nagymintás vizsgálat során várható eloszlástól. Látható, hogy "Bajnai" a 16. leggyakrabban használt szó, ami jelentős eltérést mutat az átlagos magyar szógyakoriságtól (összevetésnek l. az alábbi ábrán a Magyar Webkorpusz 10.000 leggyakoribb elemét). Hogyan beszél @dajcstomi? A legalapvetőbb stilisztikai jellemzője egy tweetnek az, hogy hány szóból áll. A fenti grafikonon látható, hogy általában 12-19 ez a szám @dajcstomi esetében. Habár egy tweet akár 140 karakteres is lehet, a leíró statisztika szerint  a vizsgált felhasználó ebből átlagosan 83.82-ot használ csupán fel. Az egyes szavak hosszának eloszlása követi a beszélt nyelvre jellemző eloszlást. Általánosan elmondható, hogy több szó használata több karaktert igényel, ugyanakkor az írott, formális nyelvhasználat esetében minél több szót használ valaki, annál nagyobb az esély arra, hogy azok hosszúak lesznek. Ahogy az alábbi ábra is mutatja a vizsgált felhasználó esetében a szavak számának növekedése és a felhasznált karakterek között lineáris kapcsolat van, ami arra utal, hogy a hosszú tweetek is inkább hétköznapi nyelvezetűek. Az egyedi szavak száma (uniq_words az ábrán) jellemzi azon szavak számát melyek egy tweetben fordulnak csak elő. A lexikai diverzitás (lexical.diversity) egy szöveg gazdagságát írja le, azaz a típus-token (a használt szavak száma osztva az összes szó gyakoriságának összegével) arányt mutatja. Látható, hogy 1500 csiripre 3059 egyedi szó jut, azaz minden tweetre kicsit több mint két új szó! A lexikai diverzitás értéke viszonylag magas, 0.56 ami egy átlagos felsőfokú végzettséggel rendelkező férfi szintjének felel meg. Érdekes viszont, hogy az egyedi szavak magas aránya ennél sokkal magasabb diverzitással szokott járni, amiből arra követjeztethetünk, hogy a felhasználónak nagyon sok kedvenc szófordulata van s gyakran ismétli ezeket. Az egyedi szavak eloszlása is érdekes képet mutat. Habár átlagosan két egyedi szó jut egy tweetre a 13-19 új szót tartalmazó csiripek aránya kifejezetten magas. A hírelemzésben is hasonló jelenséget láthatunk, s ezt általában a "hamar elhaló hírekkel" szokták magyarázni. Figyelembe véve, hogy a vizsgált felhasználó szeret reagálni a hazai és nemzetközi hírekre, megkockáztathatjuk hogy itt is erről van szó. Mire jó a tartalomelemzés? Nagy mennyiségű szöveg szoros elemzése egyre inkább lehetetlen. A tartalomelemzéssel átfogó képet kaphatunk a szövegek tartalmáról, az író stílusáról stb. Mindez segíti az elemzőt a lényeges információt tartalmazó szövegek kiválasztásában és további információk automatikus begyűjtésében.


2013. augusztus 20. 19:08

Pápai vizeken ne kalózkodj - segítenek ebben a SPARQL endpointok

Szerencsére a legtöbb adatot nem kell magunknak összeszedni, megteszik ezt helyettünk a linked data hívei. Jó esetben egy ún. SPARQL endpoint-on keresztül egy egyszerű SQL-szerű lekérdezőnyelvel online is elérhetjük az ilyen adatbázisokat. Willem Robert van Hage, Marieke van Erp és Véronique Malaisé Linked Open Piracy SPARQL endpointja a nemzetközi kalóztámadásokat rendszerezi, posztunkhoz a készítők jegyzeteit használtuk, hogy megnézzük merre vannak a modern kalózok. Merre kalózkodnak a legtöbbet? Kalózkodásnak számít a próbálkozás, a hajóról ellopni valamit, vagy az egész hajó eltüntetése... Egy megrakott kereskedelmi hajóra mindenhol pályáznak a latorokm ha ideális célpont. Az Ádeni-öbölben azonban tutira vehetünk egy kalóztámadást!  Megnyugtatok mindenkit, Észak-Amerika sem mentes a kalózkodástól, csak nem szolgáltat sok adatot... Az egyes támadások elterjedsége az alábbi képet mutatja. Habár Indonézia és Malájzia vezeti a nemzetközi kalózkodási listát, Szomália partjai mentén divat RPG-vel, azaz páncéltörő rakétával támadni a hajókra. Mire jó a linked data? A megfelelő linked data adatbázis segítségével értékes adatokkal gazdagíthatjuk meglévő adatbázisunkat (data enrichment néven emlegetik néha ezt) Időt is tudunk spórolni, ha nem nekünk kell strukturált formába hozni az adatokat A legtöbb linked data adatbázis egymáshoz is kapcsolódik így további összefüggésekre is bukkanhatunk 


2013. augusztus 15. 21:03

Rossz híre van hazánknak?

Egyesek szerint "médiahadjárat folyik Magyarország ellen", mások úgy gondolják "a kormány intézkedései miatt gondolnak rosszat hazánkról" és akadnak akik szerint a "Budapest - New York - Tel-Aviv" háromszög kelti rossz hírünket. A Twitter-t hívtuk segítségül és megvizsgáltuk miképp jelenik meg az angol nyelvű csiripekben hazánk. A "Hungary" szóra keresve 1287 angol nyelvű tweetet gyűjtöttünk be a Twitter API segítségével. Vizsgálatunk során az R statisztikai programozási nyelv sentiment csomagjából vettük át Janyce Wiebe polaritásszótárát és Carlo Strapparava és Alessandro Valitutti emóciószótárát, mivel a csomagot már nem fejlesztik aktívan, saját osztályozót készítettünk.   A polaritás- vagy szentimentelemzés két (pozitív, negatív) három (pozitív, semleges, negatív) esetleg öt (nagyon pozitív, pozitív, semleges, negatív, erősen negatív) kategóriába sorol egy szöveget. Az eljárás egyik alapfeltevése, hogy a legtöbb nyelvi megnyilatkozás semleges, ennek tükrében meglepő a pozitív polaritású tweetek kiugróan magas aránya. Az emócióelemzés során bizonyos érzelmekhez kapcsolódó szavakat gyűjtenek egy csokorba, ezek aránya adja a vizsgált nyelvi megnyilatkozás emóciós értékét. A használt emóciószótárban tulajdonképpen csak egy egyértelműen pozitív kategória ("joy") található és még egy ("surprise") sorolható talán  ide, a többi négy negatív. Ahogy az alábbi grafikon is mutatja, a csiripek döntő többségét nem tudjuk automatikusan besorolni egyik kategóriába sem, de itt is vezet az egyértelműen pozitív emóció! Az alábbi szófelhőben az emóciókategóriákba sorolt tweetek leggyakrabban használt szavai láthatóak.  A szófelhőből kirajzolódik, hogy a félelem ("fear") visszatükrözi az elmúlt hetek média megjelenéseit. A legjellemzőbb tweetek itt az "Ozora" és "attack" szavakat tartalmazzák, ezek vagy az O.Z.O.R.A. fesztivállal foglalkoztak, vagy a romagyilkosságok elkövetőinek ügyében hozott ítélettel.  Úgy tűnik a Twitter jobb véleménnyel van rólunk, mint gondolnánk!


2013. augusztus 14. 8:00

J. K. Rowling esete a számítógépes nyelvészettel

A brit The Sunday Times igazságügyi nyelvészeket kért fel, hogy megállapítsák kit takar a Robert Galbraith álnév. Ahogyan arról több riport is beszámolt, a Rowling-ot képviselő jogi iroda egyik ügyvédje elmesélte barátnőjének, hogy a szerző álnéven jelentette meg legújabb regényét. A hölgy a Twitteren gyorsan meg is osztotta információit a világgal, majd rájött, hogy ez nem volt jó ötlet és törölte a bejegyzését. A szemfüles újságírók azonban nem adták fel és számítógépes nyelvészekhez fordultak, akik arra a következtetésre jutottak, Galbraith és Rowling nyelve nagyon közel áll egymáshoz. Posztunkban körüljárjuk a szerzősség megállapításának módszereit és statisztikai képletek helyett grafikonokkal szemléltetjük az eljárás menetét. Hogyan bukott le Rowling? A Sunday Times Patrick Juola és Peter Millican segítségét kérte a szerzőség megállapításában. A két szakértő egymástól függetlenül dolgozott, de nagyon hasonló módszereket használtak. Sajnos még nem sikerült Juola vizsgálatáról részletes leírást találnunk, de Millican a Language Log olvasóival megosztotta eljárását. Röviden összefoglalva Millican öt kötet szövegét kapta meg elektronikus formában, ebből kettő szerzőről (Val McDermid és J. K. Rowling) tételezték fel, hogy a The Cukoo's Calling szerzője lehet, a továbbiak vizsgálata azt a célt szolgálta, hogy a kutatók lássák, mennyire tér el a vizsgált mű más szerzők szövegeitől. A JGAAP program segítségével négy különböző vizsgálatot futtatott le Millican: szóhosszúsági eloszlás, a száz leggyakrabban használt szó gyakorisági eltérései, szó bi-gramok elemzése és 4-gram karakterláncok elemzése. Habár McDermid is jó esélyesnek tűnt, egyedül Rowling eredményei voltak konzisztensen jobbak minden vizsgálatban. The Federalist Papers - a szerzősségi vizsgálatok állatorvosi lova A Federalist Papers néven emlegetett művet Alexander Hamilton, James Madison és John Jay írta és jelentette meg Publius álnéven különböző folyóiratokban 1787 és 1788 között. A 85 esszé célja az volt, hogy az alkotmányt elfogadása előtt népszerűsítse és értelmezze. A célját messzemenőkig elérte, a Federalist Papers a mai napig hivatkozási alap az Egyesült Államok alkotmányának értelmezésében és a legfelsőbb bíróság ítéleteiben is gyakran hivatkoznak passzusaira. Hamilton halála után egy listát hoztak nyilvánosságra, melyen magának tulajdonította a szövegek kétharmadát, sok olyat is, mely szerzőjének a közvélekedés inkább Madison-t tartotta. Az esszék szerzősségének megállapítása külön tudományággá fejlődött az idők során. Douglass Adair a Yale történész doktorandusza disszertációjában arra jutott, hogy az esszék az alábbiak szerint oszlanak meg a szerzők között: Alexander Hamilton 51 db James Madison 26 db John Jay 5 db Madison és Hamilton közösen 3 db Adair alapvetően stílusérzékére és történészi vénájára hagyatkozva állapította meg az egyes írások szerzőinek kilétét, 1944-ben még nem is nagyon tudott volna számítógépeket bevetni erre a vizsgálatra. De huszonhárom évvel disszertációjának megírása után lelkes statisztikusok vették elő újból a nagy hatású művet. 1967-ben Frederick Mosteller és David L. Wallace számítógépes vizsgálataikkal megerősítették Adair eredményeit, amit a bayesiánus számítógépes nyelvészet előfutárának tartott Applied Bayesian and Classical Inference, The Case of The Federalist Papers című könyvükben foglaltak össze. Lassan ötven év telt el a mű megjelenése óta, de minden új szerzősség megállapítására írt algoritmust illik kipróbálni a Federalist Papers korpuszán! Óz és a főkomponens-analízis Az Óz sorozat kötetei több szerzőtől származnak. A The Royal Book of Oz L. Frank Baum neve alatt jelent meg, de az általánosan elfogadott nézet szerint Ruth Plumly Thomson írta. Ingo Feinerer nyomán az alábbi kötetekkel vetettük össze a vitatott művet (a Project Gutenberg-ről szabadon letölthetőek): The Wonderful Wizard of Oz (Baum) The Marvelous Land of Oz (Baum) Ozma of Oz (Baum) Ozoplaning with the Wizard of Oz (Thomson) Vizsgálódásaink során a kötetek szövegeit ún. szó-dokumentum mátrixba (Term-Document Matrix) tettük. A mátrix tkp. egy táblázat, mely oszlopai egy-egy dokumentumot reprezentálnak, sorai pedig az összes dokumentumban előforduló szavakat, valahogy úgy mint az alábbi ábrán: Az ilyen táblázatokban gyakran találkozhatunk nulla és egy értékekkel, hiszen egyes szavak csak egy-egy dokumentumban fordulnak elő. Hogy ne kelljen a számítógépnek túl sok erőforrást használnia, a vizsgálatok jelentős részénél elvetettük a ritka elemeket, ezzel jelentősen csökkentettük a mátrixok méretét. A táblázatok összehasonlítására az ún. főkomponens-analízist (röviden PCA, az angol principal component analysis megfelelője után) használtuk és két komponenst kerestünk minden esetben. A PCA neve komoly, de igazán kényelmes módszer arra, hogy a gép számolja ki helyettünk mennyire hasonlít egymáshoz két mátrix. A választott elemzési módszer lehetővé tette azt, hogy "hátra dőljünk" és csak azzal foglalkozzunk, hogy milyen műveleteket végezzünk a szövegen. Millican-hez hasonlóan feldaraboltuk a szövegeket, mi általában 100 soronként.  (A vizsgálatok során az R statisztikai programozási nyelv tm és kernlab csomagjait használtuk.) A grafikonokon az egyes művek "szeleteit" az alábbi színeknek megfelelő körök jelölik: fekete - The Wonderful Wizard of Oz (Baum) piros - The Marvelous Land of Oz (Baum) kék - Ozma of Oz (Baum) zöld - Ozoplaning with the Wizard of Oz (Thomson) sárga - The Royal Book of Oz Először a szövegeket "úgy ahogy vannak" tettük mátrixba és kiszűrtük a legritkább 20%-át az előforduló szavaknak. Látható, hogy ez nem vezetett sok eredményre, a különböző színű pontok nagyon közel vannak egymáshoz, nincs semmilyen jól kivehető mintázat szerveződésükben. A PCA algoritmus az ún. bináris-relációk, azaz a táblázat celláinak értékei közötti különbség alapján dolgozott. A következő lépésben a PCA alapbeállításától eltértünk, s a gyakorisági értékek csökkenő sorrendjét vettük kiindulási pontnak. A fekete, piros és kék pontok (Baum szövegei) egyértelműen közel kerültek egymáshoz, de a zöld és a sárga (Thomson) színnel jelzett adatok nem tartanak egyértelműen egyik csoporthoz sem. Ezután a szövegeket normalizáltuk, azaz minden karaktert kisbetűsre alakítottunk, kiszűrtünk minden nem-karaktert (számok, írásjelek) kiszűrtük a stopszavakat és szótövezést végeztünk. Látható, hogy sok pont átfedésbe került egymással az ábrán, de a zöld-sárga és a sárga-piros adatpontok közelsége kezd kirajzolódni. Megnéztük, hogy a funkciószavak (tkp. a stopszavak listájára tett és kiszűrt névelők, névmások stb.) és írásjelek mátrixai milyen képet mutatnak. Itt is a sárga-zöld ill. sárga-piros közelséget találjuk.  Mi van, ha akad egy kellően erős gépünk és minden szűrés nélkül a teljes szöveget tudjuk vizsgálni a PCA technikával? Az alábbi ábrán látható, milyen eredményt kaptunk, ha a szöveget ötszáz soronként daraboltuk fel. Tovább finomodott a helyzet, ha száz soronként daraboltuk fel a szöveget. Itt már egyértelműen látszik a sárga és a zöld adatpontok közelsége, azaz hogy Thomson a The Royal Book of Oz szerzője. Joggal merülhet fel az olvasóban, hogy miért végeztünk el sok vizsgálatot, melyek grafikonjain alig látszott valami eredmény. A válasz az, hogy hiába csupán pár megabájtnyi az öt kötet, a dokumentum mátrixok és a rajtuk végzett PCA műveletek erőforrásigényesek. Egy jobb, 8GB memóriával rendelkező laptopon is könnyen kifuthatunk a rendelkezésre álló memóriából egy ilyen elemzés során (ez a szerzővel meg is esett miközben a poszt írására készült). A négy előzetes vizsgálat közül három statisztikailag szignifikánsan mutatta ki (még akkor is ha grafikonon nem is tudta jelezni) hogy Thomson a kérdéses mű szerzője. Mind a négy vizsgálat elvégezhető gyorsan egy átlagos laptopon, együttes eredményeik pedig még erősebbek is, mint a nyers erővel végzett vizsgálat.


2013. augusztus 13. 8:00

Pénzügyi startupok 1.

A 2008-as pénzügyi válság után gombamód elszaporodtak a pénzügyi, népszerű angol nevükön fin-tech (financial technology) startupok. Az, hogy az elmúlt öt évben megerősödött a fin-tech szektor és immár minden nagy pénzügyi központban találunk szakmai meetupot, a területre specializálódott inkubátor programot és befektetőket, azt jelzi, hogy valami változóban van. Sorozatunk első részében röviden bemutatjuk ezt a területet, a későbbi posztokban fogunk a fin-tech nyelvtechnológiai vonatkozásaival is foglalkozni. A válság nyilvánvalóvá tette, hogy valami nincs rendben a pénzügyi szektorral. Ugyanakkor - érthető okokból - minden válság a piaci szabályozás egyre nagyobb fokát hozza magával. A fin-tech cégek nincsenek könnyű helyzetben. Heavy regulation of financial companies means many firms stick to small niches to skirt the boundaries of banking regulations. Peer-to-peer lenders do not offer savers the security of deposit insurance or the convenience of guaranteed instant access to their cash. This limits their appeal. Other firms that take deposits such as Holvi, a Finnish start-up that offers group accounts, are not allowed to lend. Those that do lend, such as Wonga, cannot take deposits. [Forrás] A visszásságok ellenére, a The Economist riportja szerint négy tényező kedvező együttállása segíti a pénzügyi startupokat: a felhőalapú szolgáltatások elterjedése és alacsony ára a kiszervezések nyújtotta olcsó munkaerő az okostelefonok elterjedése és a big data. A fenti felsorolás persze szektortól függetlenül minden induló vállalkozás számára előnyt jelent. A fin-tech esetében azonban kicsit mások a hangsúlyok. The rise of cloud computing, a term for software and services delivered over the internet, has also slashed barriers to entry for technology firms. This is true across many areas of business but it is an especially potent force in financial services, which is a digitised industry in which most money exists as bits and bytes in computers rather than as notes and coins. Globalisation also helps. Sonali de Rycker, a partner at Accel, a VC firm, and a director of Wonga, points out that the company initially got started by outsourcing much of its programming to developers in Kiev, the Ukrainian capital. The spread of smartphones has also boosted tech start-ups by enabling the emergence of new ways of making or receiving payment. Firms such as Square in America or iZettle in Europe produce cheap credit-card readers that plug into smartphones and allow merchants to accept card payments. Their costs are low partly because customers already have sophisticated computers in their pockets. The emergence of “big data", a term used rather loosely to describe computer software that can analyse masses of information for patterns or correlations that people would not otherwise spot, is another factor. Number-crunching has helped firms such as Wonga and ZestFinance, an American start-up, transform the way credit decisions are made. Az idézett riport az alábbi cégeket emeli ki: Wonga - gyors kölcsönökkel foglalkozó cég (payday lender) Xoom - nemzetközi pénzátutalásokat bonyolító cég, amolyan Western Union Square - mobiltelefonokhoz kapcsolható bankártyaleolvasó iZettle - mobiltelefonokhoz kapcsolható bankártyaleolvasó M-Pesa - mobil alapú pénzátutalási szolgáltatás Holvi - online és mobil letétiszámlákat kezelő cég Lending Club - peer-to-peer, azaz ügyfelek által további ügyfeleknek nyújtott, kölcsönökkel foglalkozó cég Zestcash - kölcsönt nyújtókat és -felvevőket összehozó startup Zopa - peer-to-peer kölcsönöket bonyolító cég Látható, hogy a fin-tech cégek a bankok alternatíváivá akarnak válni és első sorban magánszemélyeknek és kisvállalkozásoknak kínálnak szolgáltatásokat. Itt nem találkozhatunk (még!) nyelvtechnológiai megoldásokkal, ezért a sorozat további részeiben a fin-tech szektor ún. financial engineering, azaz pénzügyi informatika területéről fogunk szemezgetni.


2013. augusztus 12. 8:00

Mindennapi metaforák

A nyelvtechnológia egyik legnagyobb kihívását jelentik a metaforák. George Lakoff és Mark Johnson Metaphors We Live By kötetének megjelenése óta az egyik legproduktívabb kutatási irányzat a kognitív nyelvészet, mely eredményeit sajnos nagyon nehéz automatizálni. Lera Boroditsky és tanítványa Paul H. Thibodeau ötletes kísérletekben mutatta ki, hogy döntéseinkre hatással van az, milyen metaforákat használunk. Hasznosíthatjuk ezt a tudást és képet alkothatunk arról, milyen metaforákat használnak az emberek, amikor közügyekről vagy éppen termékekről beszélnek? Metafora nem csak versekben van? Kövecses A metafora című könyvében az alábbi öt pontban összegzi Johnson és Lakoff legfontosabb eredményeit: a metafora elsősorban a fogalmak, és nem a szavak jellemző tulajdonsága a metafora funkciója az, hogy segítse bizonyos fogalmak megértését, és nem csupán művészi vagy esztétikai célokat szolgál a metafora gyakran nem hasonlóságon alapszik a metaforákat a köznapi emberek is a legkisebb erőfeszítés nélkül használják (anélkül, hogy ennek tudatában lennének) a metafora nem egy fölösleges, bár kellemes nyelvi díszítőeszköz, hanem az emberi gondolkodásnak és megértésnek elengedhetetlen kelléke.   A metaforák közös jellemzője, hogy egy absztrakt fogalmat megfeleltetnek egy konkrétnak. Pl.: A vállalat egyre nő. Elváltak útjaink. Ellenérvei célba találtak. Sándor révbe ért. Egy absztrakt fogalmat (vállalati ciklus, életút, vitatkozás stb.) egy konkrét fogalom segítségével írunk le (utazás, növekedés stb.). Szakszavakkal fogalmazva a forrástartományt (konkrét fogalmak) leképezzük a céltartományra (absztrakt fogalmak). A metafora több formában is felbukkanhat, nem feltétlenül mondjuk ki, hogy "az élet egy utazás", gyakran metaforikus kifejezéseket használunk helyette "az élet olyan, mint egy nagy utazás", "a fiam elindult az életbe" stb. Hogyan hatnak ránk a metaforák? Thibodeau és Boroditsky Metaphors We Think With: The Role Of Metaphor in Reasoning című tanulmányukban azt vizsgálták, hogy egy előzetes keret (frame) bemutatása után, milyen megoldásokat vázolnak fel a kísérleti alanyok. Egy képzeletbeli kisvárost írtak le, ahol az egyik történet szerint felütötte fejét a bűnözés járványa, a másik szerint pedig a bűnözők prédájává  váltak a helyiek. Az, hogy melyik kerettel írták le a történetet (crime as a virus/epidemic, azaz a bűnözés mint járvány ill. crime as a beast, azaz a bűnözés mint vadállat) meghatározta, milyen megoldási javaslatokkal álltak elő a kísérleti személyek. A járvány metafora oktatási, szegénységellenes és egyéb preventív programok javaslatát hívta elő, még a vadállat metafora a kemény fellépést, a bűnözők levadászását stb. erősítette. Öt kísérletet is végeztek, hogy kizárják a demográfiai torzítást és az ún. lexikai előfeszítés (a metaforában használt szavak aktiválják a kapcsolódó szavakat, ezáltal megnövelik használatuk valószínűségét) hatását is, így arra következtethetünk, hogy a framing hatás nagyon erős. Külön érdekessége a kísérletnek, hogy vizsgálták mi befolyásolta a kísérlet részvevőit a válaszok megfogalmazásában. Az alanyok döntő többsége szerint a használt metaforának semmilyen hatása nem volt rájuk, sokkal inkább hivatkoztak a szövegben szereplő adatokra és tényekre - ennek azonban ellentmondanak a kísérlet szignifikáns eredményei. A szerzőpáros Natural Language Metaphors Covertly Influence Reasoning tanulmányukban további kísérleteikről számolnak be, melyekben a vizsgálatokat próbálták életszerűbbé tenni. Az alapszituáció maradt a bűnözéssel sújtott kisváros története, két különböző frame használatával elmesélve. Az alanyoknak most azonban választaniuk kellett a megoldási javaslatok között. Az alábbi ábrán látható, hogy a vadállat metafora az erő alkalmazását előtérbe helyező megoldások helyeslését szignifikánsan megnöveli. A további kísérletek is hasonló eredményekre vezettek. A vizsgálat végén rákérdeztek az alanyok politikai beállítottságára is. Érdekes eredmény, hogy a konzervatív (republikánus) alanyok esetében a bemutatott frame hatása sokkal kisebb. A független és demokrata válaszadók esetében a metaforák hatása sokkal jelentősebb volt. És mit kezd ezzel a nyelvtechnológia? A metafora nagyon kemény diónak bizonyult, hiszen gyakran előkerül mint probléma, de máig nincs kielégítő algoritmikus megoldás azonosítására. A IARPA Metaphor projekt célja, hogy képes legyen azonosítani és értelmezni a metaforákat, hiszen a bűnözői és terror csoportok előszeretettel használnak sajátos nyelvet kommunikációjuk során. Sokkal gyakorlatiasabb probléma a szentiment- és emócióelemzés. A metafora és metaforikus kifejezések használata itt egyre inkább az ún. szótáralapú rendszerek felé tolja el a fejlesztések irányát. Az ilyen rendszerek listába szedik a jellemzően pozitív, negatív, semleges szavakat, szófordulatokat, külön szabályokkal kezelik a tagadást (pl. a tagadás hatóköre, kettős tagadás jelentése stb.). Ezt egészítik ki olyan metafora szótárakkal, mint pl. a szabadon elérhető VU Amsterdam Metaphor Corpus, ami lehetővé teszi a metaforikus kifejezések azonosítását is. Így egy elemzés képet adhat arról, milyen frame-ben jelenik meg egy adott közügy vagy termék, ami hasznos információ lehet a döntéshozóknak arra nézve, hogy hatásos volt-e kampányuk, vagy kísérletet tehetnek a frame megváltoztatására is. Ajánló Kognitív nyelvészet és (politikai)marketing Nekünk elmélet kell!


2013. augusztus 9. 8:00

Serendip-o-matic - csodálkozz a bibliográfiádra

A One Week|One Tool a digitális bölcsészek számára készített eszközöket a nyáron. A George Mason University Roy Rosenzweig Center for History and New Media kezdeményezése nem csak hasznos, hanem vicces, elgondolkodtató eszközök kifejlesztését célozta meg. A SERENDIP-o-MATIC egy szöveghez vagy bibliográfiai gyűjteményhez kapcsolódó tartalmakat bányász elő a Digital Public Library of America, a Europeana és a Flickr Commons archívumaiból. Az alkalmazás célközönségét kutatók alkotják. Amennyiben rendelkezik valaki Zotero (népszerű bibliográfiai és forráskezelő program) fiókkal, összekötheti bibliográfiai adatbázisát a SERENDIP-o-MATIC-kel. Esetünkben a következő eredményt kaptuk. A fejlesztőcsapat az alábbi videóban mutatta be az alkalmazás hátterét. Dióhéjban annyit érdemes kiemelni ebből, hogy a szövegeken entitásfelismerést végeznek (named entity recognition) a bibliográfiai adatokból pedig kinyerik a felhasználó által megadott címkéket és a Zotero adatbázisában előforduló gyakori tageket, s az így kibányászott adatok segítségével keresnek kapcsolódó tartalmakat a nyilvános archívumokban. Nem tökéletes az alkalmazás, de nem is az a célja, hogy konkrét problémát oldjon meg. A nevében is sugallt rácsodálkozást viszont mindenképpen eléri, vagy azért mert teljesen idegen asszociációkat jelenít meg, vagy nagyon is találókat. Egy kis kikapcsolódásra mindenkinek csak ajánlani tudjuk az alkalmazást!


2013. augusztus 8. 8:00

Új algoritmus a hálózatok jobb megismerésére

Az MIT kutatói olyan új algoritmust dolgoztak ki, amely segítségével feltérképezhető az egyes hálózatok valódi szerkezete. Amikor egy csoport (mely tagjai lehetnek emberek, állatok, gépek, vagy bármi más) tagjai közötti kapcsolatokat szeretnénk feltérképezni, megeshet, hogy a megfigyelés félrevezet minket. Például, ha a Foma 1-es csapatok közötti hálózatokra vagyunk kíváncsiak, akkor a megfigyelés során a csapattagokon kívül az egyes futamokra meghívott hírességek, a versenyzőkkel, mérnökökkel és szerelőkkel tartó családtagok, a gyakran feltűnő sajtósok is feltűnnek az adatokban. Az intuíció is azt sugallja, hogy a megfigyelt személyek közül sokan nem jelentenek tényleges kapcsolódási pontokat (pl. egy minden pilótával interjút készítő riporter a megfigyelés szerint központi eleme lehet a hálózatnak, a valóságban - jó esetben - nem folyik át rajta a csapatok közötti információ). Soheil Feizi, Daniel Marbach, Muriel Médard és Manolis Kellis tanulmánya a Nature Biotechnology magazinban jelent meg Network deconvolution as a general method to distinguish direct dependencies in networks címmel (sajnos nem szabad hozzáférésű). Az eljárást eredetileg biotechnológiai problémák megoldására dolgozták ki, de a tanulmány is foglalkozik további felhasználási területeivel (pl. a szerzői hálózatok vizsgálata). A hálózatkutatás relatíve fiatal mint önálló diszciplína, szerencsére azonban sok eszes kutatót vonzott magához és bakfis kora ellenére is képes értékes, új eredményekkel gazdagítani a tudományt.


2013. augusztus 7. 8:00

Az online tartalomelemzés határai

Mennyire reprezentatív egy online minta? Tudjuk, hogy valamennyire torzít, de reméljük, hogy az internetes penetráció növekedésével ez majd megszűnik - addig is bízunk abban, hogy az igazán jelentős csoportok és a véleményvezérek úgyis online élik már életüket. Jen Schradie The digital production gap: The digital divide and Web 2.0 collide című tanulmányában (sajnos nem érhető el szabadon) részletes adatokkal támasztotta alá, hogy nem egyszerű a helyzet még az Egyesült Államokban sem. Schradie a digitális szakadék hét mítosza néven foglalta össze a kétségek elhajtására használt érveket: A digitális szakadékon már túl vagyunk, hiszen mindenki online (vagy nagyon rövid időn belül egyszerűen kihalnak azok, akik nem kapcsolódnak a világhálóra). A digitális megosztottság markánsan szétválasztja az online és az offline populációt. A mi esetünkben nem érdekes a digitális szakadék. Csak a nagyon öreg emberek nem csatlakoznak a világhálóhoz. A kisebbségek aktívabbak az interneten. A kisebbségek és marginalizált csoportok az internet segítségével törnek ki. Minden ellenkező félig üresnek látja a poharat és pesszimista. A tartalomelemzés számára fontos kérdés, hogy mennyien vesznek részt online tartalmak létrehozásában. Látható, hogy ez a blogok esetében nagyon lassan növekszik és kb. 9%-on áll jelenleg. A közösségi médiában viszont három év alatt 5%-ról 21%-ra emelkedett az aktivitás. Azonban nagyon nagy különbség mutatkozik a különböző demográfiai mutatók mentén az aktivitásban. A legfontosabb faktornak az iskolázottság tűnik (viszont vegyük észre, hogy a fehér, középosztálybeli városi gyerekeknek van a legjobb esélye arra, hogy a felsőoktatásba kerüljenek). A chatelés az egyedüli forma, amiben nincs eltérés a középiskolai és egyetemi végzettségűek aktivitása között. Az alábbi ábra jól szemlélteti, hogy egy felsőfokú végzettséggel rendelkező felhasználó kétszer nagyobb valószínűséggel generál valamilyen tartalmat. A blogok és hozzászólások esetében talán nem meglepő, hogy az iskolázottság emelkedésével nő a tartalomelőállítás valószínűsége. Az viszont megdöbbentő, hogy a közösségi média használatában is megjelennek ezek a különbségek!


2013. augusztus 6. 8:00

Gyűlöletbeszéd és szexuális zaklatás a Twitteren

Caroline Criado-Perez feminista újságíró és Stella Creasy képviselő Keep Women on Banknotes kampánya elérte, hogy 2014-től a tízfontos bankjegyen Charles Darwin képét Jane Austen váltsa le. Normális ember számára döbbenetes, hogy az aktivista és a képviselő is rengeteg gyűlölködő, gyakran szexuálisan offenzív Twitter üzenetet kapott a hír bejelentése után. A Twitter brit vezetője nyilvánosan is bocsánatot kért és megígérte, lépéseket tesznek egy hasonló üzenetek jelentését és monitorozását lehetővé tévő rendszer kidolgozására. A trollok az internet szerves részét képezik, a szólásszabadság pedig alapvető érték, hol húzhatjuk meg a határt a zaklatás és a véleménynyilvánítás szabadsága között? A brit médiában felvetették ezeket a kérdéseket és rendre feltűnt különböző műsorokban mint szakértő Dr. Claire Hardaker a Lancaster University korpusznyelvésze, aki a trollokat kutatja. A kibontakozó vita legfontosabb pontjait két rövid stúdióbeszélgetés és egy riport segítségével foglaltuk össze. 1. A gyűlöletbeszéd és a szexuális zaklatás ugyanolyan valós online, mint a való világban 2. Bárki lehet troll, nem csak a ballonkabátos mutogatós bácsik gyanúsak Hardaker What is turning so many young men into internet trolls? írását a The Guardian hasábjain. 3. Az ellenlépések megtétele fontos, ugyanakkor az aktivisták tisztában vannak a szólásszabadság korlátozhatatlanságával A legfontosabb talán az, hogy az ügyet nyíltan tárgyalja a média. Vicky Beeching nagyon találóan jegyzi meg a harmadik videóban, hogy a közösségi média egy eszköz, hogy miképp használjuk az a társadalomról árulkodik...


2013. augusztus 5. 8:00

Szavak, városok, long tail és a 80/20 szabály

Egy szavakat számolgató nyelvész felfedezett egyszer egy különleges statisztikai-eloszlást. A szavak eloszlásához hasonló mintázatokat láthatunk azonban az üzleti életben, a szoftverfejlesztésben, a városok lélekszámát vizsgálva is. Maradjon velünk az olvasó, a matematika helyett grafikonokkal eredünk a különös jelenség nyomába! Pareto és a 80/20 szabály A Pareto-elvet, vagy más néven 80/20 szabályt sokan ismerik, íme néhány példa rá a vonatkozó Wikipedia szócikkből: A profit 80%-a az ügyfelek 20%-tól származik. A reklamációk 80%-a az ügyfelek 20%-tól érkezik. A profit 80%-a a munkára fordított idő 20%-ból keletkezik. Az eladások 80%-a a termékportfólió 20%-ból keletkezik. Az eladások 80%-át a sales csapat 20%-a hozza. A felsoroláshoz hozzátehetjük még a szoftverfejlesztésben használatos 80/20 elveket is: A hibák 80%-a a kód 20%-ában rejlik. A követelmények 20%-a adja a funkcionalitás 80%-át. Tehát általában elmondhatjuk, hogy az esetek 20%-a eredményezi az okozatok 80%-át. Ezt az elvet általánosan Vilfredo Pareto fogalmazta meg először és matematikai szabatossággal kidolgozott hatványtörvényét  ma Pareto-eloszlásnak hívjuk. Long tail - sok kicsi, sokra megy A legismertebb 80/20 szabály a long tail vagy hosszú farok, melyet Chris Anderson azonos című (magyarul is olvasható) könyve vezetett be a köztudatba. A fenti görbét megfigyelve láthatjuk, hogy az első 20% alatti terület kb. megegyezik a maradék 80% alattival. Anderson szerint a modern technológiák lehetővé teszik, hogy a kis mennyiségben árusított termékek is elérjenek a potenciális vásárlókhoz, ami kb. ugyanakkora piacot jelent, mint a nagy volumenben értékesített, könnyen eladható áruké. Normál eloszlás Ha egy mintázatot sokszor megfigyelhetünk a világban, akkor az segíthet minket szisztematikus összefüggések feltárásában. Az egyik legismertebb mintázat az ún. normál eloszlás. A statisztikai adatgyűjtés kezdetétől fogva megfigyelték, hogy az emberek magassága, testsúlya, halálozása stb. nagyjából egyforma képet mutat. Az alábbi ábrán 10.000 ember magasságát ábrázoljuk (amerikai adatokat használtunk a Machine Learning for Hackers c. könyvhöz kapcsolódó kódtárból, az értékek inchben vannak). Látható, hogy a legtöbben 65-70 inch (165-178 cm) közötti tartományba tartoznak és az ettől magasabb vagy alacsonyabb (jobbra és balra) emberek száma fokozatosan csökken a szélső értékek felé közelítve. Ha szétválasztjuk a férfiakat és a nőket, akkor sokkal szimmetrikusabb grafikonokat kapunk. A fenti ábrát összevetve láthatjuk, hogy mind a férfiak, mind a nők magassága majdnem tökéletesen haranggörbe alakú. A fenti ábrán egy "hipotetikus" normál eloszlás látható. A statisztikában ez nagyon hasznos, mivel ezzel a hipotetikus és ideális normál eloszlással viszonylag könnyű számolni, sokat tudunk róla és megbízhatóan működik. Tapasztalat alapján arra jutottak a statisztikusok, hogy a legtöbb jelenség követi a normál eloszlást (azaz közelíti, különösen ha sok megfigyelést tudunk végezni) aminek örülünk, mert nagyon kényelmes ilyen eloszlású adatokkal dolgozni. Zipf törvénye Pareto-elve, a hosszú farok és a sok megfigyelés támasztja alá, hogy a 80/20 szabály mögött valami általánosabb rejlik. Ezt először George Kingsley Zipf fedezte fel szógyakorisági vizsgálatai során. A róla elnevezett törvény kimondja, hogy egy szó gyakorisága fordítottan arányos a frekvenciatáblában (csökkenő sorrendű szógyakorisági táblázat) szereplő sorszámával. A következő ábrán látható pár ideális Zipf-eloszlás. A Magyar Webkorpusz 10.000 leggyakoribb elemét  mutatja az alábbi grafikon (a vízszintes tengelyen a frekvenciatáblában elfoglalt pozíciót, a függőlegesen pedig a gyakorisági értéket mutatjuk). Láthatjuk, nem tökéletesen követi a hipotetikus Zipf-eloszlást, de azért hasonlít rá.  Zipf törvénye világvárosokra alkalmazva A szógyakoriság mellett Zipf törvényét előszeretettel alkalmazzák a társadalomtudományokban is, erről a területről a legtöbben a városok lélekszáma és a lakosság szerinti sorrendben elfoglalt pozíció közötti fordított arányosságot ismerik. Az alábbi ábra a nagyobb világvárosok Zipf-eloszlását szemlélteti. (A PopulationData.net oldal adatait használtuk a grafikonok elkészítéséhez.) Érdekes, hogy országokon belül is láthatjuk ezt az eloszlást (ha nem is olyan tökéletesen). A fenti nyolc ország adatait összesítve az alábbi grafikont kapjuk. Egy grafikonon szemléltetve jobban látszik, hogy országokon belül is megismétlődik a Zipf-eloszlás. Zipf törvénye a magyar települések esetében is működik Az alábbi ábrát a KSH Magyaroszág közigazgatási helynévkönyve 2012. január 1. táblája alapján készítettük. A fenti ábrán látható, hazánk sem kivétel a globális trendek alól. Az összes magyar települést vizsgálva látható, hogy Budapest kilóg a sorból és a vízszintes tengely végéhez közeledve nagyon sok apró település eltéríti a görbét az "ideális iránytól". Hol használható Zipf-törvénye A Zipf-törvény a keresésben és információkinyerésben arra a felismerésre vezetett, hogy a leggyakoribb szavak túl sok zajt okoznak. Az ún. funkciószavakat (névelők, kötőszók stb.) általában stoplistába gyűjtve kiszűrik a feldolgozás során. Előszeretettel alkalmazzák az ún. inverz frekvenciatáblákat, mivel az alacsony gyakoriságú szavak különböztetik meg általában az egyes dokumentumokat. Az internetes áruházak életében a Zipf-törvény (és változatai) nagyon nagy szerepet játszanak. Egyrészt a készlettervezésben  érvényesül a 80/20 szabály, de a kiszállításban is megjelenik a Zipf-eloszlás. Az internetes biztonsági alkalmazások is előszeretettel vizsgálják a felhasználói logok hosszú farkát. Az ún. anomáliadetekció abból indul ki, hogy legtöbb felhasználó a 80/20 szabály szerint viselkedik és a logok 80%-a az ismétlődő viselkedési formák 20%-át tartalmazza (pl. böngészés, chatelés, e-mailezés stb.) a gyanús és potenciálisan veszélyes dolgok a log 20%-ban találhatóak (melyek viszont az észlelt tevékenységek 80%-át tartalmazzák). Amikor Zipf becsap minket A nyelvtechnológiában egyre elterjedtebb emócióelemzésben és a törvényszéki nyelvészetben is egyre nagyobb figyelmet szentelnek a funkciószavaknak és a gyakorisági tábla első 20%-ába eső elemeknek. Habár egy beszélő számára lehetetlen észrevennie, hogy mely ismerőse használ több névelőt, egyre több kutató talál erős korrelációt pszichológiai faktorok és a funkciószavak gyakorisága között (l. Mit árul el rólad a Twitter fiókod és Nekünk elmélet kell című korábbi írásainkat). A szerzőség megállapításakor (legutóbb pl. J.K. Rowling esetében) is a gyakori szavak használati arányában meglévő apró különbségek vizsgálata kezd előtérbe kerülni.  Az anomáliadetekció területén is egyre nagyobb figyelmet szentelnek a megszokott viselkedés vizsgálatára. Ennek oka elsősorban az ún. nem szándékos károkozás megakadályozása volt (pl. amikor egy fájl helyett egy egész könyvtárat töröl valaki, vagy egyszerre több programot futtat, ami lassítja más, fontos programok működését stb.). Több teljesen normális esemény láncolata rossz dolgokhoz vezethet. Ilyen láncolatok kialakulhatnak véletlenül is, de akár szándékosan is. Úgy tűnik a Zipf-eloszlás szorosan kapcsolódik az ember alkotta dolgokhoz, legyenek azok szavak, városok vagy e-kereskedelmi oldalak. Az elsőre pofonegyszerű összefüggés felbukkanhat mindenhol, nem árt számolni vele!


2013. augusztus 2. 8:00

Az adatújságírás után itt a JavaScript újságírás!

"the content of a medium is always another medium." (Marshall McLuhan) A vezető híroldalakon sok szöveg található, de még több JavaScript, ahogy az alábbi grafikon is mutatja. Igaz, a JavaScript "láthatatlan", hiszen a böngészőben futó értelmező számára tartalmaz utasításokat. McLuhan sokat idézet mondása, mely szerint minden médium tartalma egy másik médium itt nagyon találó. Ray Daly a The Washington Post fron-end fejlesztője az adatújságírás mintájára alkotta meg a JavaScript újságírás fogalmát. Az online sajtóban (és tegyük hozzá, úgy általában az online világban) ui. a JavaScript felel azért, hogy a tartalom és az olvasó egymásrataláljon a böngészőn keresztül. Az adatújságírás, a sajtófotó, a tényfeltáró írások végül valahogy meg kell hogy jelenjenek a böngészőben. Daly JSConf előadásában nagyon szépen bemutatja miért fontos a JavaScript Journalism.  Az előadáshoz kapcsolódó jsjournalism.com oldalt érdemes a videó megtekintése közben böngészi, az előadás diái mellett minden említett példa linkjét is megtalálhatjuk itt. Jó szórakozást!


2013. augusztus 1. 8:00

A big data buktatói

A közösségi médián keresztül rendkívül sok adatohoz juthatunk a felhasználókról. Ezek birtokában pedig nagyon érdekes eredményekhez juthatunk. Az utóbbi hónapokban az olyan divatszavak mellé, mint a "big data" és a "data science" felzárkózott a "behavioral analysis" az az a viselkedéselemzés is. A közösségi médiát elemezve megállapíthatjuk a felhasználók preferenciáit, demográfiai jellemzőit és kapcsolati hálózatukat is feltérképezhetjük. De az online világban végzett mérések eredményeiből következtethetünk-e arra, hogy mi fog történni a való világban? Eredményezhet egy like áruházi vásárlást, egy civil tüntetésről szóló tweet továbbosztása milyen hatással van a tényleges részvételre? Zeynep Tufekci a Princeton University és a University of North Caroline at Chapel Hill kutatója szerint túláradó szolúcionista optimizmus azt hinni, hogy a big data képes ezekre a kérdésekre válaszolni és Big Data Pitfalls, Methods and Concepts for an Emerginf Field című tanulmányában éles és találó kritikát fogalmaz meg az adattudomány és a hálózatelemzés társadalomtudományi alkalmazásaival szemben. Mielőtt érveit összefoglalnánk, érdemes kitérni Tufekci hátterére, mert abból kitűnik, hogy ismeri mindkét oldalt, azaz a big data használatát s a hagyományos adatgyűjtési munkát is. A kutató nagyon aktív a Twitteren és az egyiptomi forradalom során keletkezett tweetek archiválásával és kutathatóvátételével foglalkozó The Tahrir Data Project egyik koordinátora. De Tufekci nem csak az online elérhető adatok értelmezésével foglalkozik, a Taksim téren rengeteg interjút és kérdőíves felmérést készített, melyekről blogján rendszeresen beszámolt és hamarosan tanulmányokat is szeretne közölni eredményeiről. Tufekci a big data vizsgálatokat az ecetmuslicán végzett genetikai kutatásokhoz hasonlítja. A kis rovar a laboratóriumok egyik kedvence, mert nagyon jó modellszervezet. Csakhogy az ecetmuslicákon végzett modellkísérleteket nagyon nehéz komplexebb, a laboron kívüli világban található helyzetekhez igazítani. Persze ez nem jelenti az, hogy a modellkísérletek haszontalanok, viszont alkalmazhatóságuk erősen behatárolt. A közösségi médiára alapozott big data elemzéseknek is megvannak a maguk korlátai, a modellszervezeteken végzett vizsgálódásokhoz hasonlóan: Torzított minta - Pl. az Egyesült Államok lakosságának kb. 10%-a Twitter felhasználó, a Facebook penetráció pedig 57%-os. Bonyolítja a helyzetet, hogy az életkor szerinti eloszlásban is erős eltérések mutatkoznak.  Ismeretlen adatok - Nem tudjuk pontosan hányan láttak egy adott Facebook bejegyzést, vagy csiripet, csak azt tudjuk hányan reagáltak rá like, továbbosztás vagy komment formájában. Túláltalánosított hálózati modellek - A gráfelméleti modellek nem tesznek különbséget a közösségi média kapcsolatai, az internetes hálózatok, vagy a személyes ismertség között. A matematika az általánosat kutatja, ez nem is dolga, de ésszerű feltételezni hogy a személyes ismertség kapcsolati hálója minőségileg különbözik a kábel tévé szolgáltatóm hálózatától. A nem-hálózati viselkedési faktorok figyelmen kívül hagyása - Az emberi viselkedésnek vannak nem hálózati jellegű vonatkozásai. Ilyenek az ún mező hatások a csoportviselkedés terén (nagy nemzeti katasztrófák, nagy csoportok viselkedése tüntetések/zavargások idején, véletlenszerű hatások a csoportra mint pl, természeti csapások stb.) A megfigyelő-paradoxona - A közösségi média felhasználói többé-kevésbé tudatában vannak annak, hogy megfigyelhetőek. A Twitteren pl. ki lehet hagyni a felhasználót jelző és értesítő @ előtagot egy azonosító elöl és máris lehet úgy beszélni róla, hogy arról nem kap értesítést, egyben evvel nehézzé válik a Tweetek automatikus elemzése is. A Sloan Management Review-nak nyilatkozva a kutató felhívta a figyelmet arra, hogy mennyire behatároltak az online adatokra alapozott vizsgálatok. “A lot of big data research is done in an isolated, one-shot, single-method manner with no way to assess, interpret or contextualize the findings, [...] There is great potential for error and misunderstanding; worse, with a lot of money flowing into this space, there is a lot pressure to produce “results" and overlook the fact that methods that were not developed to study humans, and do not necessarily work the same way, but are being applied widely. The online imprints that create these large, aggregate datasets are not just mere ‘mirrors’ of human activity; rather, they are partial, filtered, distorted and complex reflections." A tanulság annyi, hogy tanuljunk a nagyoktól! Egyre több társadalomtudóst foglalkoztatnak a nagy cégek (Google, Yahoo!, Bing, Facebook, Twitter) és sorra jelennek meg a Microsoft Research (Computational) Social Science részlegéhez hasonló szervezetek ezeken belül. Ha az emberi viselkedés érdekel minket, ne adattudóst, hanem társadalom- és/vagy viselkedéstudományokban jártas szakemberhez forduljunk!


2013. július 31. 8:00

Lobbicsoportok és civil mozgalmak hálózatainak alakulása a SOPA-PIPA vita kapcsán

Hogyan alakul egy vita, milyen szerepe van ebben a lobbicsoportoknak, civil szervezeteknek és a sajtónak? Sokan vizsgálták már ezeket a szorosan összefüggő kérdéseket, de általában erőforrások hiányában kis mintán. Napjainkban azonban az IT költségek kicsik, a rendelkezésre álló adatok száma viszont hatalmas. A Harvard University Berkman Center for Internet and Society kutatói, név szerint Yochai Benkler, Hal Roberts, Robert Faris, Alicia Solow-Niederman és Bruce Etling, Social Mobilization and the Networked Public Sphere: Mapping the SOPA-PIPA Debate című tanulmányukban a modern technika lehetőségeit ötvözték a hagyományos tartalomelemzéssel és megvizsgálták hogyan alakultak 2010 és 2012 között a Stop Online Piracy Act (SOPA) és a  Preventing Real Online Threats to Economic Creativity and Theft of Intellectual Property Act (PIPA) törvénytervezetek körül zajló vita. A tanulmány ötvözi a hagyományos tartalomelemzési módszereket (kézi kódolás) a társadalomtudományi adatfelvételt (interjúk, nyilvántartás statisztikák használata) és szövegbányászat eszköztárát. A vizsgálni kívánt tartalmakat a főbb hír- és közösségi oldalakon (pl. Reddit) kívül, a hagyományos módszerekkel azonosított felek (lobbicsoportok, think-tankek, civil szervezetek, kevésbé ismert szakmai kiadványok stb.) honlapjai alkották. Az ezek között meglévő kapcsolatokon (pl. tulajdonosi kör, szerzők stb.) szövegbányászati eszközökkel kerestek további összefüggéseket, melyeket az ún. link analízis (link analysis) módszerével elemeztek. A tanulmány mellett az adatok is letölthetők. A Berkman Center által fejlesztett Media Cloud online tartalomelemző eszköz felhasználásával készült vizualizáció szemléletesen mutatja be, miképp fejlődött a vita. A tanulmány eredményei nem forradalmiak, mivel megerősítik hogy a decentralizált civil szervezetek segítik szakértelmükkel a vitát, rajtuk keresztül jutnak el a különböző álláspontok a mainstream médiába és ők jelentik a nézetek közötti ütközőpontokat.


2013. július 30. 8:00

Mit árul el rólad a Twitter fiókod?

A közösségi médiában szeretünk ismerős és ismeretlen emberekkel csevegni, magvas és kevésbé magvas gondolatokat megosztani, vagy csak időtöltésből írogatni. De mit árulunk el magunkról eközben? Mivel a Twitter lehetővé teszi, hogy letöltsük saját adatainkat s így a szerző saját fiókját (@zoltanvarju a továbbiakban mint "alany" hivatkozunk rá) elemezve keresi erre a választ. Először megnézzük, milyen eredményekre vezet minket a legelemibb elemzés, majd kitérünk arra, hogy ez mennyire fedi a valóságot. Saját csiripek beszerzése A Twitter a személyes beállítások alatt teszi elérhetővé a csiripek archívumát. A "Request your archive" gombra kattintva kérhetjük ezek letöltését. Miután rákattintottunk a gombra, a Twitter nyugtázza nekünk ezt. Változó, hogy kinek mennyi időt kell várnia (az azonnali letöltéstől a két órás várakozásig tartó intervallummal számoljunk). Az archívum elkészültéről e-mailben értesít minket a szolgáltató. A letöltött archívum egy tömörített mappa, ami alapvetően egy html oldalt is tartalmaz, ezen böngészhetjük csiripjeinket. A "data" mappában találjuk a tweeteket tartalmazó JSON fájlokat év_hónap.js séma szerinti nevek alatt. Vizsgálatunkhoz az alany 2009 január és 2013 június között írt tweetjeit vizsgáltuk az archívumból.  Lexikai elemzés Automatikus nyelvfelismerés használatával azt találtuk, hogy az alany két nyelven, angolul és magyarul csiripel. Az angol nyelvű posztok aránya 77%, miután kiszűrtük a linkeket tartalmazó tartalmakat (azzal a feltételezéssel élve, hogy ezek nem saját tartalmak, hanem hírmegosztások) azt találtuk, hogy a tartalom kétharmada angol, a maradék pedig magyar nyelvű. Egy átlagos tweet 13.98 szóból áll, ami 15.88 az angol és 11.3 a magyar csiripek esetében.  A lexikai diverzitás egy olyan mérőszám, amivel egy adott szöveg választékossága jellemezhető. Ezt úgy kapjuk meg, hogy a szöveg összes szavának számát (token) elosztjuk az egyedi szavak számával (type). Pl. a híres "lenni vagy nem lenni" idézetben négy token található és három típus, így lexikai diverzitása 1.33. Azt találtuk, hogy mindkét nyelv esetében 107 feletti értéket mutatnak a vizsgált alany nyelvi megnyilatkozásai, amire a linket tartalmazó megosztások sincsenek hatással. Ez egy minimum középiskolai végzettséggel rendelkező felnőtt lexikai diverzitásának felel meg, ami alapján eddig arra jutottunk, hogy alanyunk átlagos nyelvhasználó. Ezután egyszerű szógyakorisági vizsgálatot végeztünk. Ehhez a szöveget megtisztítottuk a linkektől és minden nem-betű karaktertől, majd minden karaktert kisbetűre alakítottunk, végül pedig mind az angol, mind a magyar stopszavakat kiszűrtük. Az alábbi ábrán a huszonöt leggyakrabban használt szó látható. Érdekes, hogy habár a korpusz 23%-a magyar nyelvű, egy magyar szó sem került fel a listára. Minimalista networkelemzés Aki újra oszt egy adott tartalmat, arra valószínűleg valahogy hatott az. Nézzük meg alanyunk, mely felhasználók csiripeléseit szokta re-tweetelni. A fenti táblázathoz nagyon hasonlót kapnánk a @TheEconomist és @PhilSciArchive nélkül, ha azt vizsgálnánk kikkel beszélget a legtöbbet a felhasználó. Pszichológiai profilozás Találomra kiválasztottunk hat angol tweetet és az LIWC program online elérhető változatával elemeztük, ennek eredményét mutatja az alábbi ábra. Az eredmények értelmezéséhez Pennebaker elméletéhez fordultunk (amiről bővebben Nekünk elmélet kell! és A tweet a lélek tükre című posztjainkban tudhat meg a kedves olvasó). Feltesszük, hogy a tweetek többsége személyes hangvételű (bővebben l. Milyen is az internet nyelve című írásunkat) ezért a "Personal Texts" oszloppal vetjük össze a kapott értékeket. Az önreferenciális (Self-references) szavak magas és a kognitív kifejezések (Overall cognitive words) alacsony aránya arra utal, hogy a szerző férfi. A nagy szavak (Big words) használata jelezheti az alábbiakat (egyiket vagy akár mindegyiket); felnőtt, iskolázott, magas státuszú. (Bővebben erről l. Pennebaker The Secret Life of Pronouns c. könyvét) A LIWC teljes változatát használva az összes angol tweet elemzésére is a fentihez nagyon hasonló eredményt kapunk, ami azt mutatja hogy viszonylag kis szövegrészleten is jól működik ez az elemzés. Mit tudunk az alanyról Az alany 31 éves férfi, aki logikát és matematikai nyelvészetet tanult, jelenleg a Precognox Kft. számítógépes nyelvésze. Az egyszerű szógyakoriság nagyon jól tükrözi érdeklődési köreit, a pszichológiai profilozás pedig megadja alapvető demográfiai jellemzőit is. Látható, pusztán szöveges tartalmak elemzésével az alanyról jó profilt tudtunk alkotni. Az alapvető networkelemzés is ezt támasztja alá, hiszen főleg logikával, számítógépes nyelvészettel, funkcionális programozással és gépi tanulással foglalkozó felhasználókat követ. Szavakat számoltunk és arra jutottunk, hogy egész jó jellemzését tudjuk adni egy felhasználónak. Könnyű belátni, hogy további elemzésekkel egy teljes profilt is készíthetünk.


2013. július 29. 8:00

Szentimentelemzésre alapozott döntések

Kate Niederhoffer Sentiment Symposium előadásában arra keresi a választ, hogy milyen hatása lehet a fogyasztók/felhasználók által kifejezett szentimentnek a stratégiai és marketing döntésekre. Sentiment Driven Behaviors; Sentiment Driven Decisions (Kate Niederhoffer, Knowable Research) from Seth Grimes on Vimeo. Az előadás legérdekesebb pontja az, amikor Niederhoffer elmeséli igazából nem talált senkit, aki módszeresen használná a szentimentelemzést! Persze mindenki beépítette a maga kis reporting eszközébe mint KPI (key performance indicator), szeretik nézegetni az elemzők hogyan is áll termékük vagy cégük szentimentértéke, de nincs módszertan arra miképp is használják ezt az információt. Azért nem ilyen rossz a helyzet, három rövid esettanulmányon keresztül láthatjuk, hogy érdemes használni a polaritási mérőszámokat. Az előadás végén pedig megismerkedhetünk azon kutatásokkal, melyek a fogyasztói viselkedés jobb megértésében és ezáltal a szentimentmérés döntéshozatali felhasználásában is segíthetnek.


2013. július 26. 8:00

Csoportviselkedés feltárása szervezeteken belül

Sok szervezet életében eljön az a pillanat, amikor a hatékonyságnövelés érdekében alaposan végig kell gondolnia a szervezeti felépítést, a tagok csoportdinamikáját és az együttműködés minőségét. Manapság általában a gazdasági válság hatásait nyögve a költségcsökkentések sarkalnak arra cégeket, hogy külső szakértők bevonásával próbálják növelni munkatársaik hatékonyságát - de ezen kívül más okok (hirtelen méretnövekedés, nagy fluktuáció stb.) szerepet játszhatnak ebben. A Sociometric Solutions hálózatkutatói az ilyen esetekre kínálnak megoldásokat. A bostoni cég nem az egyetlen hálózatelemzéssel és szervezetfejlesztéssel foglalkozó cég a piacon, a magyar Maven7 is hasonló szolgáltatásokat kínál. A Sociometric Solutions, ahogy a többi hasonló cég, céges e-maileket, közösségi oldalakat és egyéb kommunikációs csatornákat szokott elemezni. Abban sem különbözik, hogy ezen adatokat kiegészíti  egyéb adatfelvételi módszerekkel (pl. kérdőívezés és megfigyelés), viszont abban ahogyan ezen adatokat begyűjti, nagyon is eltér a konkurenciától. A fenti képen látható eszköz az ún. ID Badge, azaz "azonosító kártya" egy hardver, amit a vizsgált szervezet munkatársainak nyakába akasztanak. Ez az eszköz érzékeli más, hasonló azonosítóval rendelkező emberek közelségét, beépített kamerájával rögzíti hogy éppen kire figyel a viselője és milyen reakciókat "lát" közben, továbbá a beszélők beszédtónusát elemezve azok pszichológiai állapotát is rögzíti.  A Sociometric Solutions az MIT Media Lab Human Dynamics Group-ban   született. Alex (Sandy) Pentland, a csoport alapítója az evolúciós biológiában népszerű szignálelméletet (Signaling theory) ültette át az emberi csoportok vizsgálatára. Ennek lényege, hogy a verbális és nonverbális viselkedés tartalma helyett (vagy mellett) az olyan szignálokat is érdemes vizsgálni, mint az utánzás, az aktivitás (pl. gesztikuláció beszéd közben), befolyásolás (a beszélgető felek nyelvhasználata egymáshoz igazodik) és a konzisztencia (mennyire folyamatos a beszélgetés). Pentland To Signal Is Human cikkében arra a megállapításra jut, hogy ezek a jelzések sokkal nagyobb hatással vannak ránk, mint azt gondolnánk és viselkedésünket nagyban meghatározza az hogy milyen hálózatokhoz tartozunk. (Ez persze nem megdöbbentően új felfedezés, de empirikusan is alátámasztja MacIntyre narratív énkoncepcióját, mely a manapság divatos kommunitárius politikai filozófia egyik központi eleme) Pentland a Forbes magazin szerint a hét legbefolyásosabb adattudós közül a hatodik. Honest Signals: How They Shape Our World című könyve közérthetően fejti ki bővebben elméletét. A kötet egyetlen hibája, hogy kétszáz oldal sok az ismeretterjesztésre és a lehetséges felhasználási körök találgatására. A Sociometric Solutions CEO-ja Ben Waber a Human Dynamics Lab tagja volt és Pentland vezetésével írta meg doktori disszertációját. A Financial Times Press gondozásában jelent meg nem rég People Analytics: How Social Sensing Technology Will Transform Business and What It Tells Us about the Future of Work című könyve. A kötet első két fejezete rendkívül olvasmányos módon vezeti be az olvasót a szociometria technikai és elméleti hátterébe, majd a következő nyolc fejezetben esettanulmányokon keresztül mutatja be a módszert.    A Sociometric Solutions megoldásai nagyon ötletesnek tűnnek, viszont egy kicsit zavaró, hogy pont a nyelvi elemet nem vizsgálják. Ahogyan azt pl. az MTA Pszichológiai Kutatóintézet Űrkutató Csoportjának vizsgálatai is mutatják, a csoportviselkedésről rendkívül sokat árulhat el a nyelvi viselkedés. Az általuk is használt Pennebaker-féle tartalomelemzéssel hasznos információkkal egészülhetne ki a szociometriai elemzés. Reméljük a nyelvtechnológia egyre elterjedtebb lesz ezen a területen is.


2013. július 25. 8:00

Fogyasztói hangulat mérése online szövegekre alapozva

A gazdasági élet szereplőit izgatja a jövő, hiszen szeretnek előre tervezni. Ezért rendkívül népszerűek, az olyan viszonylag egyszerű jelentések, melyek a vásárlói hangulatot (szentiment néven is szokták ezt emlegetni ,de nem tévesztendő össze a nyelvtechnológiában használatos szentimentelemzéssel!) vizsgálják, hiszen ez egész jól leképezi a potenciális vásárlók költési szándákait. Az automatikus pénzügyi kereskedelmi platformokba is gyakran építik be ezeket. Eddig bevett gyakorlat volt, hogy a tréderek fizettek, hogy a hivatalos közzététel előtt kapják meg ezen adatokat, azonban a New York-i bíróság ítéletében eltörölte ennek lehetőségét. Ezért a szakma most keresi annak lehetőségét, hogy hasonló indexeket állítson elő online szövegekre és a közösségi médiában található tartalmakra alapozva. Ebben a posztban megvizsgáljuk hogy mennyire lehetséges ez és hogy milyen kihívásokkal kell szembesülnie annak, aki hasonló indexek előállítására adja a fejét.   R-Word Index - hírekre alapozott gazdasági előrejelzés A The Economist és a The Economist Intelligence Unit régóta jelen van a gazdasági elemzések piacán. Leghíresebb gazdasági indexük az ún Big Mac Index, ami az elterjedt hamburger ára alapján hasonlítja össze a különböző valuták túl- ill. alulértékeltségét. Hasonlóan egyszerű és érthető, ám sajnos kevésbé ismert a csoport R-Word Indexe (vagy másnéven Recession Index). Ez a Washington Post és a New York Times cikkeiben méri a "recession" (recesszió) szó előfordulását. Az index viszonylag jól teljesít, 1981-ben, 1990-ben, 2001-ben és 2008-ban is jelezte a válság közeledését, de 1991-ben továbbra is válságot jelzett miután már hivatalosan elmúlt a recesszió. Az index népszerű, hiszen egyszerű mint egy faék, de könnyen előállítható és két olyan sajtótermékre alapozták ami a döntéshozók és a vásárlók várakozásait nagyban alakítja. A Michigan Consumer Sentiment Index - a fogyasztói hangulatindexek őse A University of Michigan Consumer Sentiment Index néven kiadott havi jelentései a legmeghatározóbbak az Egyesült Államokban. Az indexet telefonos interjúkra alapozva készítik el, mely módszertani alapjait a magyar származású pszichológus, George Katona fektette le még a múlt század ötvenes éveiben. A Michigan-i fogyasztói hangulat index nagyon népszerű lett pénzügyi körökben, mivel jó előrejelzője a költési hajlandóságnak. Marta Lachowska Expenditure, Confidence, and Uncertainty: Identifying Shocks to Consumer Confidence Using Daily Data című tanulmányában megerősíti ezt az összefüggést, ugyanakkor felhívja a figyelmet arra is, hogy a fogyasztói szentiment információtartalma eltér mind a gazdasági hírektől, mind pedig a költési görbétől (habár ahogy a fenti ábra is mutatja, kb. együtt mozognak). Tyúk vagy a tojás? - avagy a közhangulat hat a hírekre, vagy fordítva? Mark Doms és Norman Morin Consumer Sentiment, the Economy, and the News Media című tanulmáyukban megpróblták megfejteni milyen összefüggés van a hírek és a fogyasztói hangulat alakulása között. A szerzők a The Economist R-Word Indexét "turbózták fel" több forrással és ezt vetették össze a Consumer Sentiment Index grafikonjával. A sárga oszlopok a válságokat jelzik, amennyiben ezeken belül csökkenést mutat a felső (Consumer Index) ill. emelkedést az alsó (R-Word Index) grafikon, akkor helyesen azonosított a trendet. Látható, hogy kb. együtt mozog a két görbe (igaz az elmozudlás iránya ellentétes!) de jelent-e ez oksági kapcsolatot? Ha igen, akkor a sajtó hat a fogyasztókra, vagy fordítva? Persze ez a mi volt előbb, a tyúk vagy a tojás kérdésére hasonlít. Ezzel a szerzők is tisztában vannak, és az alábbi ábrával szemléltetik milyen összetett kapcsolat áll fent az egyének hangulatának alakulása és a sajtóban megjelenő tartalmak között. A gordiuszi csomót átvágva Doms és Morin arra koncentrál, hogy a média miképp hat az aggregált szentiment kialakulására. Úgy találták hogy három faktor különíthető el, az információ maga, a hír hangneme és annak valószínűsége hogy a hír hatására valaki megváltoztatja hangulatát. Azonban a fogyasztók nem figyelik állandóan a médiát, ezért nem reagálnak ugyanakkor. További érdekesség, hogy a recesszió megjelenésekor egy pillanatig nem történik semmi, majd hirtelen úgy tűnik, hogy mindenki hozzáigazítja a várakozásait a kialakult helyzethez. Az szentiment változásának két legmeghatározóbb eleme viszont nem maga a hír, hanem annak hangneme és volumene (azaz hányszor hangzott el). Ezek alapján úgy tűnik, hogy online hírekre alapozva egész jól meg lehet tippelni a fogyasztói hangulat alakulását, vagy Lachowska érevlését elfogadva, annak azon részét, mely információtartalmát a hírekből nyeri.   A hírek meglepően jól jelzik előre a fogyasztói szentimentet! David Fan Predicting the Index of Consumer Sentiment When It Isn't Measured című tanulmányában arra tesz kísérletet, hogy egy hírkorpuszra alapozva jelezze előre a vásárlói hangulatot. Ahogy a fenti ábra mutatja, jó eredményeket sikerült elérnie (a tanulmányban több modellel is sikerült ez neki!) A grafikonokon látható pontok a valós szentimentértékek, a folytonos görbe pedig a predikció. Nyugodtan hátra is dőlhetnénk, hiszen a jelek szerint az R-Word Index javított változatával helyettesíthető egy fogyasztói index. Fan azonban maga is szembesült avval a problémával, hogy egyes kiadók meggondolják magukat és akár visszamenőlegesen is törlik szabadon hozzáférhető tartalmaikat egy archívumból. Manapság egyre több kiadó fontolgatja az ingyenes tartalmak körének szűkítését, vagy a teljesen fizetős modell kialakítását. Így a módszer igen költségessé válhat, használata akár meg is haladjatja a telefonos panelvizsgálat költségeit. A másik probléma elméleti; Lachowska szerint két különböző vizsgálat (hírelemzés és vásárlói hangulat mérése) eredményei nem hordozhatnak teljesen azonos információtartalmat. Továbbá Doms és Morin is azt suggalja, hogy a média és a fogyasztók között létezik valamilyen visszacsatolási folyamat, amit a fenti módszerekkel nem tudunk megragadni.   A közösségi média emócióelemzése is jó prediktor! A blogunkon korábban már bemutatott SmogFarm tartalomelemző cég a Gallup Daily Mood Indexéhez hasonló jelentést készít, melyhez a közösségi médiában fellelhető nyilvános tartalmakat elemzi. A módszer a szentiment elemzés új riányát jelentő ún. emócióelemzésre támaszkodik és Pennebaker eljárását alkalmazza. Az egyes bejegyzéseket nyelvi jelemzőik alapján sorolja be emócionális kategóriákba, majd ún. döntési fa módszerrel alakítja ki az aggregált értékeket. Ahog az alábbi ábra is mutatja, a két index között nagy korreláció áll fent. De mindig van egy de... Minden szépnek tűnik és úgy néz ki, hogy mind a közösségi média, mind az online sajtó alkalmas alapanyag a vásárlói hangulatindexek helyettesítésére. Ne feledjük azonban, hogy a közösségi tartalmait nem vizsgálhatjuk historikus adatokon (a Facebookot 2004-ben, a Twitter pedig 2006-ban alapították), a The Economist R-Word Index viszont arra int minket, hogy a hírek nem minden esetben jó előrejelzők! A Long Term Capital Management igazgatóságában hiába ült két Nobel-díjas közgazdász is, a cég tönkrement. A szofisztikált matematikai modellre épülő befektetési stratégiájukba nem építettek bele kellő mennyiségű historikus adatot s így alábecsülték a várható kockázatokat. Így számolnunk kell azzal, hogy a historikus adatok hiányában az online tartalmak elemzése nagy bizonytalanságot hordoz magában. Úgy tűnik a nyelvi információ nem tükrözi le teljesen a vásárlói hangulatot, ahogy maga a vásárlói hangulat sem képezi le teljesen a tényleges vásárlói viselkedést. Hogy miért van ez? Valószínűleg nem direkt hazudnak random páran, hogy torzítsák az eredményeket és bizonyára sok tényező szerepet játszik ebben (pl. ahogy említettük, az emberek nem folyamatosan igazítják hangulatukat a hírek tükrében, amikor nagy változás következik be, akkor pedig egy pillanatra "megmerevedik" a helyzet). Talán ezek közé torzító tényezők közé tartozik maga a nyelv is. A Pollyanna jelenséget bemutató posztjainkban már említettük, hogy a pozitív töltetű szavak gyakorisága magasabb, mint a negatívaké. Ez avval is jár, hogy a negatív szavak információtartalma magasabb, s így amikor egy negatív hír megjelenik, gyorsabban tud terjedni és jobban is tartja magát a köztudatban. Egy későbbi posztunkban ezt a jelenséget még alaposabban fogjuk elemezni blogunkon.


2013. július 24. 8:00

Small Data

Az utóbbi években úgy tűnik minden a Big Data-ról szól. Ez a megközelítés azonban eltereli a figyelmet arról, hogy az adatok önmagukban csak értéktelen bitek egy elemzés nélkül. Ahogyan arra az Open Knowledge Foundation is felhívja a figyelmet, nagyon sok lehetőség rejlik az ún kis adatokban (Small Data), hiszen ezeket könnyű elemezni és nagyon sok mindent megtudhatunk abból is ha ezek között keresünk összefüggéseket.  Nem elhanyagolható tényező az sem, hogy az igazán nagy adatok begyűjtése és kezelése sokak számára egyszerűen elérhetetlen lehetőség. Kutatók, civilek és KKV-k, itt az igazi forradalom, a Small Data A demográfiai adatok, a különféle nemzeti statiszikai hivatalok jelentései, a nemzetközi szervezetek statisztikái és az egyre inkább elterjedő (ön)kormányzati nyílt adatok általában a kis adatok kategóriájába tartoznak, ami az Open Knowledge Foundation definíciója szerint: “Small data is the amount of data you can conveniently store and process on a single machine, and in particular, a high-end laptop or server" [Forrás] A legtöbb céget érdeklő adat is ebbe a kategóriába tartozik. A céges honlap(ok) látogatottsági statisztikái, a HR és az árúnyilvántartás, stb. stb. Vegyünk egy egyszerű példát, egy e-kereskedelemmel foglalkozó oldal számára pl. érdekes adat lehet a fogyasztói várakozásokat tükröző vásárlói szentiment, a saját forgalom és pl. az általános keresési trendeket tükröző adathalmaz. Ezek mindegyike betölthető egy Excel táblázatba is. A fogyasztói szentiment mérésére általában a University of Michigan Consumer Sentiment Index-hez hasonló felméréseket szoktak bevetni, a saját adatok megtalálhatók az oldal logfájlaiban, az általános keresési trendeket a Google Trends-en szerezhetjük be. Ezek kombinálásával egy jó elemző egy laptopon képes jó előrejelzést készíteni a várható forgalomról. Továbbá az oldal webes jelenlétéről is képet alkothatunk és belső keresőjének optimalizálásához is jó információkat kaphatunk. Ahogy a fenti példából is kitűnik, legtöbbször nem hatalmas adatmennyiségre van szükségünk, hanem több, jó minőségű forrásra, melyek segítenek megvilágítani alapvető összefüggéseket. Ez azt jelenti, hogy legyen akár big, akár small data a kezünkben, az elemzés számít. A belső adatok értelmezéséhez pedig szükségünk van külső forrásokhoz - ami a legtöbb esetben közpénzből fentartott intézményeknél keletkezik, ergo az üzelti élet számára is kulcsfontosságú a nyílt adatok ügye.


2013. július 23. 8:00

Watchup - a személyes videó hírcsatorna

Az internetes tartalmak között egyre nagyobb a videók aránya. Egyre több hírtelevízió indít saját csatornát a YouTube-on, vagy más videómegosztó platformon, miközben a hagyományos híroldalakon is megjelentek a saját készítésű mozgóképes anyagok. A Watchup applikáció ezeket gyűjti össze és kínál személyre szabott hírcsatornát felhasználóinak (amennyiben iPad tulajdonosok és az Egyesült Államok lakosai). A Watchup sikerének (egyik) titka az lehet, hogy komoly újságírói munka szülötte. Az alkalmazás alapötletét Adriano Farano olasz újságíró adta, aki a Café Babel európai, s így többnyelvű híroldal és blogplatform alapítójaként tette le névjegyét a tartalomiparban. A Stanford Egyetem Knight média innovációs ösztöndíját elnyerve kezdett dolgozni a Watchup megvalósításán és jutott el az első használható prototípusig. A Watchup kifejlesztésében a Knight-Mozilla News Challenge támogatása segítette Farano-t, majd a Knight Foundation seed programja adott tőkét a cég beindulásához. A Watchup kezelőfelülete nagyon ötletes, a tartalmak összeszedése és kezelése pedig kifejezetten egyszerű. Az applikáció próbálkozik ajánlásokat tenni további, a felhasználót esetlegesen érdeklő videókra, de úgy tűnik hogy az ajánlórendszeren még sokat kell dolgozni... Az alkalmazás ugyan nagyon frappáns, de kérdéses tényleg ki tudja-e váltani a megszokott hírcsatornákat. A legnagyobb hátránya éppen az, hogy sokan nem engedik tartalmaikat be a Watchup válogatásaiba. Reméljük hamarosan több platformra is elérhető lesz az alkalmazás és az Egyesült Államokon kívül is használhatóvá válik.


2013. július 22. 8:00

Graph Databases - ingyenes ekönyv

A Neo Technologiesnak hála, egyszerű regisztráció után ingyenesen letölthető Ian Robinson, Jim Webber és Emil Eifrem Graph Databases című könyve ezen a linken. A cím kicsit félrevezető, mert konkrétan egy adatbázissal, a Neo4j-vel ismerkedhetünk meg a könyv segítségével, viszont egy alapos, az O'Reilly-tól megszokott minőséget kapunk a legjobb ár/érték arány mellett. A kötet egyetlen hibája, hogy a szerzők néha túlságosan is felmagasztalják a gráfelméletet és annak informatikai felhasználását, de csak az utolsó fejezetben említik meg, hogy bizony ezek a gráfok címkézett digráfok/multigráfok (labeled directed graph/ labeled directed multigraph). A kötet végén található függelék (NoSQL Overview) nem-technikai hátterű olvasók számára is érthetően foglalja össze a NoSQL adabázisok fontosabb jellemzőit és a különböző gráfadatbázisok helyét ebben a gyorsan bővülő és folyamatosan váltaozó világban. Az első öt fejezet (Introduction, Options for Storing Connected Data, Data Modeling with Graphs és Bulding a Graph Database) érthetően, egészen éltszagú példákkal mutatja be a Neo4j alapjait. Az ötödik fejezet (Graphs in the Real World) célja az lenne, hogy elterjedt felhasználási eseteket (common use cases) mutasson be, amit sajnos csak részben értek el a szerzők. A közösségi média nagyon elcsépelt felhasználási kör, de egyben mindenki ismeri is, ezért telitalálat ezen bemutatni az adatmodellezést és lekérdezést. Viszont sok dologgal csak érintőlegesen tudnak foglalkozni (pl. gráfok az ajánlórendszerekben, földrajzi információk, stb.) A hetedik fejezet (Graph Database Internals) a teljesítmény és skálázhatóság mellett a Neo4j core API-val foglalkozik behatóbban és érintőlegesen (a poszt szerzőjének nagy bánatára szinte minden technikai részletet mellőzve) a skálázhatóságra is kitér. Az utolsó (hetedik) fejezet tér ki a prediktív analitaka és a gráfelmélet kapcsolatára. A fejezet színvonala nagyon vegyes. Az első fele kiválló, a breath-first, Dijsktra és A* algoritmusokat érthetően szemléletetik a szerzők. Ezután viszont kutyafuttában térnek ki a gráfelmélet társadalomtudományi használatára (Granovetter és Easley-Kleinberg nyomán) ami nagyon lerontja a kötet minőségét, hiszen pont arról írnak a szerzők keveset, ami talán legtöbb olvasójukat érdekelheti. Összességében a kötet remek bevezető a Neo4j használatába, de ennél többet ne várjon tőle senki!


2013. július 19. 8:00

Trayvon Martin ügy a Twitteren

A floating sheep blog megvizsgálta a Trayvon Martin üggyel kapcsolatos Tweetek geográfiai jellemzőit. A #JusticeForTrayvon és a #NoGuilty hastagek eloszlását vizsgálták, ügyelve arra, hogy a demográfiai különbségeket kiküszöblve mutassák be a földrajzi jellemzőket. A vizsgálatot bemutató posztban látható, hogy a két hastag külön-külön is érdekes elterjedést mutat. Viszont a #NoGuilty nem jelent olyan szoros kapcsolódást az ügyhöz mint az áldozat nevét is tartalmazó, ezért lehet hogy másra is használták. Ezért megvizsgálták a hastagek együttes előfordulását is. A térkép szerint ott a legsarkosabbak a vélemények, ahol vegyes a lakosság összetétele, ami egyrészt nem meglepő, másrészt felveti annak kérdését, hogy tényleg elérkezett-e az Egyesült Államokban a "rasszok-utáni társadalom" (post-racial society) kora.   Az ügy hátteréről és arról, milyen szerepet játszott az adatújságírás annak bemutatásában a Nyelv és Tudományon olvashatnak bővebben látogatóink.  


2013. július 18. 8:00

Big data goes to Hollywood

A Big data betört a tartalomiparba. Ahogyan arról már korábban beszámoltunk, a Netflix sorozatait és egyre inkább a New York Times cikkeit is adatvezérelt elemzésekre alapozva formálják a kreatív szakemberek is. A Wordwide Motion Picture Group a hollywoodi forgatókönyvek elemzésében segít és habár az írók nincsenek oda érte, a pénzügyi döntéshozók egyre gyakraban fordulnak hozzá. A Wordwide Motion Pictures Group alapítója Vincent Bruzzesse statisztikus, aki egyben mozifüggő is. A cég több ezer fókuszcsoportos vizsgálat adatait és még több film és forgatókönyv kritikáit és gazdasági statisztikáit gyűjtötte össze. Erre az adathalmazra alapozva képes elemezni egy forgatókönyvet, hasonlóságot keresve az egyes jelenetek és az adatbázis elemei között. A vizsgálat nem csak a várható nézettséget és bevételt tippeli meg, de javaslatokat tesz a forgatókönyv módosítására is a kedvezőbb eredmények eléréséhez. Egy ilyen elemzés ára kb. 20,000 USD, de a jelek szerint megéri, hiszen a cég folyamatosan növekszik és sorra jelennek meg a konkurens startupok is a piacon. A forgatókönyvek írói kétkedve fogadták az új technológiát, ami részben érthető is, hiszen erősen az újdonságok ellen hat. Egy hollywoodi blockbuster azonban elsősorban egy üzleti vállalkozás, nem pedig művészi alkotás, ezért érthető, hogy a befektetők az analitikához fordulnak. Akit jobban érdekel mit gondolnak a filmszakmában a Wordwide Motion Pictures Group ténykedéséről és Bruzzesse-ről, az feltétlenül olvassa el a New York Times riportját a témáról. 


2013. július 17. 8:00

Gráfadatbázisok

Napjainkban a legelterjedtebb reprezentációs forma a gráf. A közösségi oldalak baráti/ismerősi viszonyai, a mobiltelefonok közötti kapcsolások, a weboldalak közötti linkek, vagy egy felhasználó preferenciái mind-mind reprezentálhatóak gráfokban. Ez önmagában még nem követelné meg azt, hogy külön gráfadatbázisokat is készítsenek, hiszen egy gráf csúcsokból és élekből áll, ami bármilyen más adatbázisban tárolható mivel két elem közötti relációról van szó. A problémát az jelenti, hogy manapság nagyon nagy lehet egy ilyen adatbázis és általában több szerveren elosztva kell tárolni az adatokat, mindeközben pedig gyorsan és megbízhatóan kell kiszolgálni a ráépülő alkalmazásokat. Posztunkban két gráfadabázisokat fejlesző céget  és termékeiket mutatjuk be, a Neo Technology-t és a GraphLab-et. A Neo4j gráfadatbázis a Neo Technology terméke. Az adatbázis nyílt forráskódú, szabadon felhasználható, a fejelsztő cég a kapcsolódó szolgáltatásokból (tanácsadás, fejlesztés, support) termel bevételt. Legnagyobb előnye, hogy Java nyelven írodott és nagyon jól skálázható. Az adatbázis Cypher lekérdezőnyelve (query language) könnyen elsajátítható és intuitív. Ugyanakkor a Neo4j alapvetően "ipari" szempontok szerint készített adatbázis, kicsit sok "mérnökösködés" szükséges a beüzemeléséhez (ami nem feltétlenül jelenti azt, hogy nehéz telepíteni, ezen inkább azt értjük hogy sokszor az adatelemzésen kívüli szempontokat is figyelembe kell venni a munka során) és nem annyira természetes gyors prototípus készítéséhez használni. Az alábbi videó közérthetően foglalja össze mit is kínál ez a technológia. A GraphLab kifejlesztői a Carnegie Mellon University híres Department of Machine Learning kutatói. A GraphLab C++-ban íródott, szintén jól skálázható, de ami még fontosabb, a manapság leginkább használt algoritmusok futtatására optimalizált adatbázis. Mivel a szakma nagyon jól fogadta az új eszközt, a megnövekedett igények kiszolgálására céget alapítottak az eszközt létrehozó kutatók, ami az ötletes GraphLab nevet kapta. A Neo4j-vel összevetni kicsit olyan mint amikor almát hasonlítunk a körtéhez. Gyorsaság tekintetében a GraphLab nyeri a versenyt, de ennek az az ára, hogy mélyebben bele kell ásnunk magunkat a dokumentáció bugyraiba az üzemeltetéséhez. A GraphLab fejlesztői azonban rendes kutatók és gondoltak kollégáikra. A GraphChi adatbázis segítségével viszonylag nagy mennyiségű adatot (több gigabájt és egy terabájt között) emberi időben (pár perc és úgy egy, másfél óra között) lehet hatékonyan elemezni. Ezt a kutatók nagyon tudják értékelni, hiszen többségük nem szoftverfejlesztő, hanem programozni is tudó tudós. Gyors prototípusok készítésére, ötletek kipróbálására még mindíg a desktop, vagy a laptop a legjobb megoldás és ilyenkor általában mai mércével mérve kis adatmennyiséggel szoktunk dolgozni (vagy kevés adatunk van, vagy mintával dolgozunk). A GraphChi előnye, hogy Java verzióban is elérhető, így Java-val, vagy az egyre kedveltebb JVM nyelvekkel könnyen használható. A GraphChi alkotója Aapo Kyrola OSDI előadásában alaposan bemutatta tavaly ezt a kedves kis gráfadatbázist, érdemes megnézni hogyan készült és mit is tud pontosan. Adatbázisokkal ma már Dunát lehet rekeszteni, de a gráfadatbázisok előtt úgy tűnik nagy jövő áll. Az ipar a Neo4j híve, a kutatásvezérelt vállalkozások és kutatók számára azonban a GraphLab megoldásai lehetnek vonzóbbak. Reméljük az egészséges versenyben csak jobbá válnak ezek a remek adatbázisok.


2013. július 16. 8:00

Megéri keresőmarketingre költeni?

John Wanamaker, a modern marketing atyja szerint "Half the money I spend on advertising is wasted; the trouble is I don't know which half" (A reklámra költött pénz felét elvesztegetem, a gond az hogy nem tudom melyik felét). A kereső- és onlinemarketing világában az a benyomásunk támadhat, hogy nagyon is jól nyomon tudjuk követni mire megy el a hirdetők pénze. Azonban nem is olyan könnyű oksági kapcsolatot taláni a hirdetések és a fogyasztók viselkedése között. Lewis, Rao és Reily a Yahoo! Research kutatói három kísérletet mutatnak be tanulmányukban, melyek eredményei arra utalnak, hogy a keresőmarketing hatását túlbecsüljük általában. A kísérleteket az  Amazon MechanicalTurk rendszerén végzték, az önkéntes résztvevők nagyon szerény díjazásban részesültek munkájukért. Az első kísérlet során a résztvevőket két csoportra osztották. Az egyik csoportnak előbb egy Yahoo!-t reklámozó videót, még a másiknak egy semleges közéleti bejátszást kellett megtekintetnie, majd nyomonkövették internethesználatukat. A Yahho! reklámot megtekintő csoport nagyobb arányban használta a Yahoo! keresőjét, de érdekes módon ugyanez volt megfigyelhető a másik csoport esetében is (ahogy a tanulmányból vett alábbi ábra is mutatja - a Treatment csoport látta a hirdetést, a Control pedig a semleges videót). Ennek okát a kutatók az ún. aktivitási torzulásban (activity bias) látják. Köztudott, hogy az internethasználat időben nem egyenletes, esténként és hétvégén több időt töltenek el az emberek böngészéssel, még bizonyos tartalmakat (pl. híroldalakat) hétköznap reggel keresnek fel inkább. További két kísérletben (az egyikben a böngészési szokásokat, a másikban a "konkurens" vagyis nem hirdetett, de hasonló profilú szolgáltatásokat felkeresését vizsgálták) is úgy találták, hogy az aktivitási torzulás beleszól az eredményekbe. Ez annyit tesz, hogy mivel időben nem egyenletes az internethasználata, nehéz elédönteni hogy a reklám hatására keresnek-e fel egy adott oldalt a felhasználók. Az aktivitási torzulás miatt ugyanis eleve megnő annak valószínűsége, hogy több látogatója vagy vásárlója lesz egy adott oldalnak. Hogy eldönthessük milyen tényleges hatása van a keresőmarketingnek, szükségünk van kontrollált randomizált kísérletekre. Ehhez demográfiailag nagyon hasonló területeket kell találnunk, melyek egy részében nem élünk a keresőmarketing eszközeivel, mint pl. az alábbi ábrán látható, sokak által ismert fizetett keresési eredméynek. Blake, Nosko és Tadelis (az eBay Research Labs kutatói, ill.Nosko és Tadelis UC Berkeley és University of Chicago kutatója is) tanulmányukban a Google Ads targetális rendszerét használva sikeresen azonosítottak olyan területeket, melyek demográfiai és egyéb szempontok alapján kellőképp hasonlítanak egymásra. Ezeket két csoportba sorolták, az egyikben "kikapcsolták" a cégnevet említő keresésekhez kapcsolt hirdetéseket (pl. az "ebay basketball"  esetén megjeknő fizetett linkeket), míg a másikban minden ment a megszokott módon. Azt tapasztalták, hogy a kikapcsolt hirdetések esetében is megmaradt a forgalom 99.5%-a. A márkanevet nem említő keresések esetében hasonló módszerrel mutatták ki, hogy a hirdetéseknek nincs sok hatása. Általában az figyelhető meg, hogy a hirdetésekre költött összeg és az elért bevétel között korreláció található. Ezzel ellentétben az eBay kutatói arra jutottak, hogy a marketingköltségek 10%-os növelése a bevételt 0.5%-al növelte. Érdemes megjegyezni ugyanakkor, hogy az eBay-t nem ismerő új felhasználók esetében sokkal hatékonyabb volt a kampány. Úgy tűnik a keresőmarketing esetében sikerül lassan megfejteni a költségek melyik hányada kidobott pénz. Az eszköz kivállónak tűnik az új felhasználók bevonzására, a "régi motorosok" megfogásához viszont a tartalomra kell koncentrálni és a SEO eszköztárát érdemesebb használni, hogy az organikus találatok között minél jobb heylezést érjen el oldalunk. (Posztunk a The Economist Free exchange rovatának Ad scientists című cikke alapján íródott)


2013. július 15. 8:00

CompSS ajánló

Az Institute for Research in Social Sciences immár második alkalommal rendezte meg Computational Social Science konferenciáját, ennek YouTube csatornájáról szemezgettünk. A "data science" vagy adattudomány napjaink egyik legdivatosabb szava IT körökben. Fontos azonban megjegyeznünk, hogy ez nem csupán a nagy mennyiségű adatok feldolgozásához szükséges infrastruktúrát és a statisztikát jelenti. Legalább annyira fontos az elméleti háttér is, hiszen az segít kérdéseket megfogalmazni és értelmezni a válaszokat. A társadalomtudományok számára a webkettes technológiák eddig soha nem látott mennyiségű adatot hoztak, melyek az adatfeldolgozás technikai megoldásain túl kutatásmódszertani kérdéseket is felvetettek. Ezek közül az egyik legjelentősebb az ún. terepkísérletek átültetése az online világra. A szinte minden statisztika tankönyvben fellelhető példa szerint, a francia falvakban a gólyafészkek száma és az újszülöttek száma között korreláció van. Egy bizonyos kor után szinte minden ember tudja, hogy nem a gólya hozza a babákat, ergo a korreláció nem jelent oksági (kauzális) kapcsolatot a két jelenség között. A gólyák és az újszülöttek esete egyszerűnek tűnik, de vannak sokkal bonyolultabb esetek is. Pl. a dohányzás és a daganatos megbetegedések megjelenése közötti viszony kimutatása nem volt éppen zökkenőmentes, de az afro-amerikaiak alacsony pontszámait az IQ-teszteken sokáig gazdasági hátterükkel korreláltatták míg rá nem jöttek hogy a fehér középosztálybeli iskolázott férfiakra szabott kérdések rosszak. A kísérletek célja, hogy felfedje tényleg akad-e oksági kapcsolat ott, ahol korrelációt találunk, ill. rávilágítson az oksági lánc irányára. A CompSS előadásai laikusok számára is emészthető formában mutatják be mi mindenre jó az ilyen gondolkodás. Jeff Heer: Interpretation and Trust Jon Levin: Learning from Experiments in Online Markets Hal Varian: Predicting the Present with Search Engine Data Justin Grimmer: The Impression of Influence


2013. július 4. 10:17

A Big Data kora

A BBC Horizon dokumentumsorozatának egyik idei darabja a Big Data felfogásban rejlő lehetőségeket tárja elénk. A Különvélemény lehet ma már nem számítana sci-fi-nek?


Az összes hír