Beállítás kezdőlapnak! Hozzáadás a kedvencekhez! Az összes hírt látni akarom!  
Nyitóoldal Autó-motor Blogok Bulvár Életmód, egészség Gazdaság Kultúra, művészet Női témák Politika, közélet Sport Technológia Tudomány Videó
 

Kereső Világ

2013. június 19. 8:00

Journalism Plus Plus - európai adatújságírók hálózata

Habár 2011-ben indult el a Journalism Plus Plus, csak idén sikerült kinőnie magát igazi nemzetközi hálózattá. Az alapítók elkötelezték magukat a nyílt forráskódú szoftverek, a nyílt adatok és az adatvezérelt újságírás mellett. A tagok között szabadúszó újságírók, szoftverfejlesztők és szerkesztőségek egyaránt akadnak. A Journalism Plus Plus a ProPublica Pair Programming Project mintájára indította el Embedded News Nerds önkéntes programját, mely keretében újságírók és fejlesztők töltenek el pár hetet egy közös fejlesztésen. A Journalism++ minden fejlesztését elérhetővé teszi a GitHub-on. Habár manifesztójuk szerint minden sztorit angolul is megjelentetnek, ez még nem vált valóra. Többnyire francia, német és svéd írásokat találhatunk a hálózat honlapján, de szerencsére akad pár angol írás is. Reméljük többen hamarosan több országból - és köztük hazánkból - is csatlakoznak a Journalism Plus Plus hálózatához.


2013. június 18. 8:00

Szentimentelemzés és kontextus

A Mashable cikke kapcsán bontakozott ki egy igazi cicaharc a Luminoso és a Lexalytics között, amit azóta is nyomon lehet követni a közösségi médiában. A vitát az váltotta ki, hogy a Luminoso állítja, jelenleg egyedül ő képes a szentiment kapcsán azonosítani a szóban forgó entitásokat és a közöttük lévő kapcsolatokat. A cikk négy nagy szereplőt emel ki; Luminoso, Lexalytics, Clarabridge és CrimsonHexagon. Annyi bizonyos, hogy az egyszerű szentimentelemzés ma már nem olyan nagy szám, no nem technikai vagy tudományos értelemben. Sokkal inkább arról van szó, hogy ma már nem jelent versenyelőnyt, hiszen mindenki használja (ne a hazai viszonyokból induljunk ki és a mindenki alatt értsük a korai adaptálók és lelkes követőik táborát).  A piacvezetők megpróbálják az aggregált szentimentértékeket kiegészíteni további elemzésekkel, melyek akár predikcióra is alkalmasak lehetnek. A CrimsonHexagon, ahogy korábbi írásunkban bemutattuk, nagyon nagy hangsúlyt fektet az adatok megfelelő kezelésére és nem hisz abban, hogy teljesen automatizált megoldást tud nyújtani mindenkinek. Mivel alapvető módszereit tudományos publikációkból megismerheti bárki, nem is szokott kritikát kapni.  A Luminoso az MIT Common Sense Reasoning kutatócsoport által megálmodott ConceptNet-re alapozva képes a szentimenthez kapcsolódó entitások és szavak hálózatát feltárni. A szabadon elérhető ConceptNet-et azonban kiegészítik más adatbázisokkal is. A Lexalytics saját állítása szerint a Wikipedia segítségével csinál valami hasonlót. De amíg a Luminoso működésének elveiről lehet némi fogalmunk a ConceptNet kapcsán megjelent publikációk alapján, addig a Lexalytics-ről semmit sem tudunk. Annyi bizonyos, hogy a Wikipedia részhalmaza a ConceptNet5-nek, így a Luminoso adatbázisa bizonyára nagyobb. Szerintünk egyszerűen nem szép dolog nyilvánosan szidni a konkurenciát, még akkor sem, ha az MIT kutatói alkotják cégünk keménymagját. A Lexalytics is a piacon él és az hogy ügyfelei vannak jelzi, valamit csak tudnak ők is. A poszt szerzője is úgy gondolja, hogy a Luminoso-ban rengeteg lehetőség rejlik, de tisztában van azzal is, hány nagyszerű kutatási program bicsaklott meg amikor termékesíteni szerette volna eredményeit. A cicaharc egyszerűen méltatlan az üzlethez és a tudományhoz is.


2013. június 17. 8:00

Mire jó a szentimentelemzés?

Ha már nem lehettünk ott a Sentiment Analysis Symposium-on, kerítettünk egy kis időt a konferencia Vimeo csatronájának bámulására. Elégedetten konstatáltuk, hogy immáron vége a hurrá optimizmusnak és lassan, de biztosan megtalálja a helyét a szentimentelemzés a piacon. A posztban négy előadást emelünk, mivel úgy gondoljuk nagyon fontos dolgokra mutatnak rá. Customer Affinity Meets Brand Vectors: Sentiment That Matters (Augie Ray) from Seth Grimes on Vimeo. Ezt az előadást nyugodtan megnézheti az is, aki nem tudja mit is jelent a szentimentelemzés. Marketingeseknek kifejezetten ajánljuk, hiszen gyakorlati példákon keresztül (pl. United Breaks Guitars, #NBCFail) világít rá arra, hogy egy negatív szentiment hullám nem árt feltétlenül egy márkának. Ugyanakkor a pozitív szentiment kialakítása során fontos szem előtt tartani, hogy az a márkánkra, vagy a közösségi oldalakon posztolt tartalmakra vonatkozik. Az egészben a legszebb, hogy viccesnek tűnő előadás során teszi rendbe a szeintmentelemzéssel kapcsolatos tudnivalókat Augie Ray. Big Data, Linguistics, and the Science of Crowd Psychology (Erin Olivo, SmogFarm) from Seth Grimes on Vimeo. Korábbi posztjainkban már bemutattunk kísérleteket (l. A tweet a lélek tünkre(?) és Gazdasági előrejelzés szentimentelemzéssel című írásainkat) arra, hogy a "hagyományos" szentimentelemzést felváltsák ún. emócióelemzéssel. A SmogFarm is ebbe a vonalba illeszkedik és avval büszkélkedhet, hogy ő a terület első startupja. A szentiment kategóriák helyett amik általában három (pozitív, semleges, negatív) vagy öt (nagyon pozitív, pozitív, semleges, negatív, nagyon negatív) kategóriába sorolnak be egy szöveget, a SmogFarm egy sokkal szofisztikáltabb megoldást használ. James W. Pennebaker lassan negyven éve kutatja, hogyan fejeződnek ki érzelmeink az általunk kreált beszédben és szövegekben és most mint tanácsadó segíti a startupot.  A kialakított eljárás remekül előrejelzi pl. a Gallup Daily Mood Poll-t. Az online tartalmak monitorozása viszont sokkal olcsóbb mint a telefonos vagy személyes kérdőívezés, továbbá lehetővé teszi hogy ne csak napi, hanem akár óránkénti bontásban is elkészítsék az indexet. A SmogFarm itt nem állna meg, céljuk a pénzügyi előrejelzés. A következő videóból azonban kiderül, hogy ez nem olyan könnyű. News Analytics in Finance (Gary Kazantsev, Bloomberg) from Seth Grimes on Vimeo. Érdekes, hogy miközben sokan gondolják úgy, a szentimentelemzés jó prediktor lehet gazdasági előrejelzésre, a Bloomberg-nél arra jutottak, hogy nem ez a helyzet. Gray Kazantsev szerint az ún szózsák modellek alkalmatlanok arra, hogy kezelni tudják a nyelv komplexitását (pl. metafora, szarkazmus) és egy adott dokumentumot értelmetlen egy szentimentértékkel leírni (legalábbis pénzügyi hírek esetében). Ezért átálltak inkább a hatásvizsgálatra, ami egy hír hatását (impact) és újdonságát (novelty) próbálja meg azonosítani. Arra jutottak, hogy egy hír általában három napig él a médiában, ami nagyon sok zajt generál. Tovább bonyolítja a helyzetet, hogy  globális gazdaságban több nyelven terjednek az információk. Első lépésben egy olyan tréningkorpuszt készítettek, mely a múltbeli gazdasági változásokhoz rendelt híreket, melyeket aztán annotátorok láttak el metaadatokkal. Így a Bloomberg nem szentimentet keres a médiamonitirozás közben, hanem olyan jeleket, melyek relevánsak a gazdasági döntéshozók számára. A többnyelvűség problémáját gépi fordítással oldották meg, ami saját bevallásuk szerint sem tökéletes még, de helyzeti előnyt jelent mivel gyors reagálást tesz lehetővé. Egyszerűen lenyűgöző, hogy házon belül milyen szofisztikált rendszert fejlesztettek ki ezek a szakik! Multi and Cross-lingual, Concept-based Sentiment Analysis (Catherine Havasi, Luminso) from Seth Grimes on Vimeo. A Luminoso-t korábban már bemutattuk blogunkon. Érdemes kiemelni, hogy a cég a többnyelvűségre és a szentiment kontextusára helyezi a hangsúlyt. A ConcepNet-re alapozott lexikai gráfjuk lehetővé teszi, hogy ne csupán szentimentet azonsítsanak, hanem az adott szentimenttel kapcsolatos fogalmi hálót is. Ez pedig visszavezet minket Augie Ray előadásához. A Sentiment Analysis Symposium előadásainak megtekintése során úgy éreztük, hogy a terület immár felnőtt korba lépett. Nem úgy tekintenek a szentimentelemzésre mint mindent gyógyító csodaszerre, hanem mint egy hasznos eszközre. További érdekesség volt az emócielemzés egyre hansúlyosabb megjelenése, ami viszont még körül leng a misztikum. A legpragmatikusabb és józanabb Gary Kazantsev és Augie Ray volt szerintünk, ők egyszerre mutatták be a technológiában rejlő lehetőségeket és éreztették annak határait.


2013. június 14. 8:00

Twitter forradalom?

A SocialTimes.Hu írásában a törökországi eseményeket Twitter forradalomnak nevezi. Ezzel egy jeles csoportba kerülnek a török események melyek tagjai az arab tavasz, a moldovai zavargások és a burmai "rendszerváltás". A Twitter és a közösségi média szerepét egy percig sem vitatnánk el, de felhívnánk a figyelmet arra, hogy a tartós és pozitív változások eléréséhez több kell mint lájkok és újraosztások sora. Minden forradalom célja, hogy bizonyos társadalmi változásokat érjen el. Sajnos közös sorsuk, hogy gyakran elbuknak és csak később, sokszor korlátozottan érik el a kitűzött célokat. Ezért is népszerűek mostanában Edmund Burke gondolatai. Twitter forradalmak című posztunkban már röviden összefoglaltuk gondolatait Burke a francia forradalmat az amerikai függetlenségi háborúval állította szembe. Míg az újvilági telepesek körében szerves fejlődés vezetett az önszerveződéshez és a függetlenségi háború az angol korona korlátozó intézkedéseire adott válasz volt, addig a francia forradalom a felvilágosodás absztrakt eszméire épült. Burke szerint eleve bukásra volt ítélve a forradalom, hiszen túl racionális volt, nem számolt az emberi természettel (ti. az absztrakt eszmék helyett a társadalmilag rögzült gondolkodás elsőbbségével). A forradalom végül a centralizált bonapartista rendszerhez vezetett, később pedig a restaurációhoz. (Bővebben l. Burke: Töprengések a francia forradalomról) A szépreményű forradalmak listáján egyedül Burma (Mianmar) büszkélkedhet azzal, hogy a 2007-es burmai kormányellenes megmozdulások elvezettek egy mai is zajló rendszerváltáshoz. A The Economist Burmáról szóló melléklete szerint a külföldi szankciók és a kínától való nagyarányú függés miatt döntött úgy a katonai junta, hogy enged az ellenzéknek és elindítja a változást. Nem szabad lebecsülni a közösségi média szerepét abban, hogy a nemzetközi figyelmet éberen tartotta és bemutatta a diktatúra kegyetlenségeit, hisz ez vezetett el az embargóhoz. Ugyanakkor be kell látnunk, hogy legalább annyira szerepet játszott a változásokban a gazdasági válság, a kínától való félelem és Obama ázsiai nyitása is. Váil Ghoneim (vagy angolos átírásban Wael Ghonim) a "Mindannyian Kaled Szaid vagyunk" oldal elindítója és több egyiptomi tüntetés szervezője a magyarul is olvasható Forradalom 2.0 című könyvében összegezte tapasztalatait. Ghoneim fantasztikusan tudta kezelni a közösségi médiát és nagyon ügyelt arra, hogy mederben tartsa Facebook oldalának követőinek dühét. De még így is nagyon nehéz volt megszervezniük az első ún. csendes kiáltás tüntetéseket. Ezek az első próbálkozások arról szóltak, hogy több ember - lehetőleg fekete ruhában - összegyűl és csendben állva fejezi ki tiltakozását a rezsim ellen. Amikor a tunéziai események híre eljutott az egyiptomiakhoz sokan az utcára vonultak - de nem Ghonim világias, nyugatias hívei! A Facebook fiatalsága csak akkor ment ki a terekre és utakra, amikor Ghoneim és társai együttműködésre léptek a Muszlim Testvériség mérsékeltebb tagjaival.  Mubarak távozása után a választásokon a testvérek győztek és valahogy nem lett minta demokrácia Egyiptomból. Miért nem tudtak választást nyerni a mérsékelt, nyugatias fiatalok, ha ott volt nekik sok-sok Facebook csoport, több százezer követővel? Jászberényi Sándor a Budapest-Kairóban írta meg az egyiptomi "forradalom" során szerzett élményeit. Az alábbi részletben egy angol újságíróval beszélget a szerző: "Ki csinálta a forradalmat?", kérdezem Davidet. "A kormányközeli média azt mondja, hogy az iszlamisták." "Hazudnak. Nem az iszlamisták." "Az ellenzék?" "Az ellenzék tüntetést szervezett, nem forradalmat." "Akkor ki?" "A Twitter meg a Facebook", mondja David. És nem viccel. De hogyan fordíthatja át a közösségi média a tüntetést forradalomba? [...] Az internet leállítása sosem látott tömegeket vitt ki az utcára, olyanokat, akik egyébként nem mentek volna ki. A rezsim lebecsülte az emberek információ iránti igényét. [...] El lehet venni egy embertől a szabad választásokat, a demokráciát, el lehet venni a szabadságjogainak nagy részét, de nem vehetik el a kommunikációs eszközeit, melyeket használ és ismer. Senki sem fog önként sötétségben maradni, elvágva mindentől és mindenkitől. Az ellenzéken a két részletben általában a Muszlim Testvériséget kell érteni. Az ő tüntetéseik találkoztak össze a közösségi médián élő nyugatias fiatalok megmozdulásaival, ahogyan arról Ghoneim is beszámolt. Ketten érték el, hogy lemondjon Mubárak és hogy változások induljanak. A választásokat később a testvériség nyerte, mivel nekik volt az ország minden pontján emberük, kiterjedt hálózatuk és mindennapi élő kapcsolatuk szavazóbázisukkal.  Azt, hogy a Twitter a propaganda és nem a szervezés eszköze, a SocialTimes.Hu írása is alátámasztja. Egy másik feltevés szerint a rendőrség a posztok és tweetek GPS adatait követve, valamint a közösségi médiát monitorozva csapott le csoportokra. Ezután a kormányellenes tüntetők a különböző oldalakon zárt csoportokat hoztak létre, melyekben nem tudják lenyomozni őket, illetve megugrott az olyan mobilappok népszerűsége is, melyek elrejtik a felhasználó aktuális pozícióját. A Hotspot Shield nevű alkalmazás törökországi letöltéseinek száma pl. 120.000-rel nőtt az elmúlt egy hétben. Hogy Törökország esetében mi a tanulsága ezeknek? Azt nem tudhatjuk, de nem az interneten dől el a dolog. A közösségi média segít eljutattni a tüntetők üzeneteit külföldre, lehet hirdetést vásárolni közadakozásból a New York Times-ban és jól jönnek a fotók, amikor a rendőrök támadnak. Mi lesz ha veszítenek, mi lesz ha nyernek a tüntetők? Az ott helyben, offline dől majd el...


2013. június 13. 8:00

Nyelvtechnológia gyűlöletbeszéd és genocídium ellen

A Hatebase projekt célja, hogy lehetővé tegye a gyűlöletbeszéd monitorozását a webes tartalmak körében. A kanadai Sentinel Project indította a gyűlöletbeszéd különböző formáit több nyelven is gyűjtő oldalt. De mi köze van a gyűlöletbeszédnek a népirtásokhoz? Sajnos a mindennapok része lenéző, sértő, vagy gyalázkodó megjegyzést hallani vagy éppen olvasni egyes kisebbségekről vagy szubkulturális csoportokról. A különbség a világ szerencsésebb és kevésbé szerencsés részei között a gyakoriságban mutatkozik meg. Ugyanakkor az is igaz, hogy önmagában a gyűlöletbeszéd megjelenése és elterjedése nem vezet genocídiumhoz minden egyes esetben. De ha fordítva nézzük a dolgot, azt láthatjuk hogy minden népirtást megelőz egy olyan periódus, amikor az áldozatokról való beszédben megnő a pejoratív, degradáló kifejezések száma. Fontos továbbá megjegyezni, hogy a genocídium nem csak egy nép teljes kiirtását jelenti, maga a kísérlet arra hogy részlegesen, akár fizikailag, akár kulturálisan eltüntessen valaki egy csoportot, már népirtásnak tekinthető. A Genocide Watch kutatásai szerint nyolc szakaszra osztható ennek  folyamata; klasszifikáció, azaz megkülönböztetés szóban, bőrszín vagy viselet alapján stb. szimbolizmus, azaz a mindennapi nyelvhasználatban élesen is megjelenik a klasszifikáció dehumanizáció, azaz az emberiesség megtagadása a csoporttól polarizáció, amikor egy extrém csoport már többé-kevésbé szabadon hangoztathatja nézeteit a veszélyeztetett csoporttal kapcsolatban készülődés, ahogy egyre nagyobb teret nyernek a szélszőséges eszmék, úgy egyesek elkezdenek felkészülni a népirtás kivitelezésére is végrehajtás, a tényleges népirtás tagadás, a népirtás tényének tagadása, jelentősségének lekicsinylése az események után A gyűlöletbeszéd monitorozása különösen a második lépcsőben fontos, hiszen egyfajta figyelmeztetés lehet hogy hamarosan megtörténik a dehumanizáció és a polarizáció. A Hatebase jelenlegi formájában az írásos, azon belül is a webes tartalmak monitorozására alkalmas korlátozottan. Jelenleg ugyanis nagyon nehéz eldönteni hogy tényleg gyűlöletbeszéd-e egy-egy pejoratív szó használata. Pl. a "negro" kifejezés ma már nem elterjedt az amerikai angol nyelvben és használata pejoratívnak tekinthető, kivéve a múlt században alapított fekete mozgalmak és egyesületek esetében (pl. Universal Negro Improvement Association and African Communities League) További problémát jelent, hogy napjainkban a genocídiumok olyan helyeken fordulnak elő, ahol az írásbeliség nem elsődleges kommunikációs forma. Pl. a ruandai népirtás kapcsán is megfigyelhető a fent leírt nyolc szakasz, de az írott sajtó Ruandában szinte elhanyagolható. Ahhoz, hogy igazán jól működjön egy gyűlöletbeszéd monitorozó rendszer, a rádió és televízió adásokat is figyelni kellene, hiszen a világ elmaradottabb részén ezeken a csatornákon jelenik meg a klasszifikáció és a szimbolizmus. A Hatebase korlátai ellenére is egész jól használható. Nézzük meg melyek a gyűlöletbeszéd leggyakoribb típusai. Ugyanakkor a legaktívabb nyelveket szemléltető ábrán látható, hogy kb. beszélőik számával arányosan járulnak hozzá az adatbázishoz. A regionális megoszlás már kedvezőbb képet mutat. Mivel az eszközt készítő alapítvány forrásai korlátozottak, a többnyelvű adatbázis létrehozását és bővítését tűzték ki maguk elé és még nem tudtak saját tartalomfigyelő szolgáltatást indítani. Azonban az adatbázis elérhető egy API-n keresztül és szabadon fel is használható. Reméljük nem kell sokat várnunk és hamarosan hanganyagokban is vizsgálódhatunk a Hatebase segítségével.


2013. június 12. 8:00

Gazdasági előrejelzés szentimentelemzéssel

Napjainkban egyre népszerűbb szentimentelemzést bevetni a pénzügyi folyamatok előrejelzésére és a nagy adatszolgáltatók is felvették a webes tartalmak polaritásmérését kínálatukba. Johan Bollen, Huina Mao és Xiao-Jun Zeng Twitter mood predicts the stock market című tanulmányukban egy olyan eljárást mutatnak be, ami Twitter üzeneteket elemezve három-hat nappal előre jelzi DIJA (Dow Jones Ipari Átlag) alakulását. A kutatók még nem milliárdosok, hiszen még sok problémát meg kell oldaniuk mielőtt piaci termék lehet eredményeikből, de a Bloomberg szerkeszőinek érdeklődését már sikerült felkelteniük. Bollen és társai nem a szokásos szentimentelemzést végezték. A Profile of Mood States teszt alapján állított össze szólistákat, melyek egy-egy adott "kedvre" - nyugalom, óvatosság, bizonyosség, vitalitás, kedvesség, boldogság ( Calm, Alert, Sure, Vital, Kind, Happy) - jellemző szavakat tartalmaznak. Ezt a Google Sets alkalmazás használatával kiegészítették további, statisztikai előfordulás alapján kapcsolódó szavakkal. Úgy találták, hogy a nyugalom kategória a legjobb prediktor a DJIA esetében. Filozófiai kérdésnek tűnik, de a DJIA hat-e a szentimentre vagy a szentiment alakítja az ipari átlag mozgásait? Mivel a kutatók egy adott időszak összes tweet-jét vizsgálták, bonyolítja a helyzetet, hogy a magyar HP tweetek (amik utalhatnak házi pálinkára, vagy a technológiai cégre is) hogyan kerülnek a képbe (hat a HP hiányt csiripelő egyetemista a DJIA alakulására, vagy a HP részvények árfolyamemelkedése meghozza a magyar fiatalok kedvét egy felesre) Kik tweetelnek a DJIA indexben szereplő cégekről? Csak azok akik kereskednek velül, vagy kizárólag az ügyfeleik, netán mások is? Bollen tisztában van ezekkel a kérdésekkel és kutatási programjának központi eleme hasonló problémák megválaszolása. Ugyanakkor a tanulmányban ismertetett technológia a Guidewave Consulting keretében már elérhető ügyfelek számára, amit az Indiana University (Bollen és tsainak munkáltatója) licencel. (Érdemes megjegyezni, hogy Bollen új, blogunkon is bemutatott vizsgálataiban, már inkább az említésgyakoriság felé fordult)


2013. június 11. 8:00

Gazdasági előrejelzés Google Trends használatával

A Google Trends nyomonkövethetővé teszi milyen kifejezésekre keresnek a felhasználók. Nyelvekre, országokra és kisebb területi egységekre bontva vizsgálhatjuk meg, milyen kifejezésekre keresnek az emberek. Hal R. Varian (Chief Economist, Google) és Hyunyoung Choi Predicting the Present with Google Trends című tanulmányukban (közérthetőbb beszámoló itt) meggyőzően bizonyították, hogy a keresési statisztikák a rövidtávú (negyedéves) jelentéseknél gyorasabban adnak megbízható adatokat. Ez az ún. nowcasting, azaz a jellemzően pár héttel az adott negyedév lezárása után megjelenő összesítő statisztikák adatainak megtippelése. Joggal merül fel a kérdés, használhatók-e a kereső motor adatai összetettebb előrejelzésekre.   De mit is jeleznek a keresési trendek? Miért gondoljuk azt, hogy egy előrejelzést lehet alapozni arra, hogy sok individuum keresgél a neten nagyon különböző okokból? Minden ilyen vizsgálódás előfeltételezi, hogy az egyének keresési viselkedése kifejezi, milyen információra van igényük egy adott cselekvésük előtt. Így sok esetben a felhasználók előzetes várakozásairól ad képet a Google Trends. Fontos megjegyezni, hogy nem minden keresés ilyen (kedvenc szappanoperánk főszereplőjére nem a műsor indulása előtt keresünk, hanem akkor amikor már egy ideje a program nézői vagyunk), de a gazdasági szempontból releváns esetekben (pl. tartós fogyasztási cikkekk vásárlása, munkahelyváltás vagy utazás előtt) ez történik. Tobias Preis és társai Quantifying the Advantage of Looking Forward című tanulmányukban azt vizsgálták meg, hogy a 2012-ben végzett keresések jövő orientáltsága és az egy főre jutó GDP között milyen összefüggés lehet. A jövő orientáltság azt fejezi ki, hogy egy adott évben a megelőző, vagy a következő évre keresnek-e többet. Ahogy az alábbi ábra is mutatja, minél inkább jövő orientált egy ország, annál nagyobb az egy főre jutó GDP. Preis a vizsgálatok után úgy gondolta, ideje megnézni, hogy komolyabb előrejelzésre is alkalmazható-e a Google Trends. Célja a Dow Jones Ipari Átlag alakulásának megtippelése és egy erre épített tranzakciós szimuláció kidolgozása volt. A Quantifying Trading Behavior in Financial Markets Using Google Trends című tanulmányban a kutatók által kidolgozott stratégia 326%-al nagyobb nyereséget produkált mint a hagyományos módszer. A Wall Street Journal korpusza alapján választották ki azokat a kifejezéseket, melyek előfordulását érdemes a Google Trends-el vizsgálni. Ezután a listát automatikusan kiegészítették a Google Sets alkalmazás  segítségével további kapcsolódó szavakkal (sajnos a Google bezárta az alkalmazást, de egy kis trükkel bárki kipróbálhatja miképp működik, ha követi ezt a leírást).  Az alábbi ábrán látható mely keresési kifejezések eredményeztek nagyobb hasznot. Az A oszlopban csak az Egyesült Államok területén indított keresések vizsgálatát, a B-ben pedig az egész világra vonatkozó adatokat találjuk.  Látható, hogy a nemzetközi adatok is jó előrejelzők, de mégjobb eredményekez produkált a földrajzi megszorítás. Ez érthető, hiszen a Dow Jones indexben amerikai cégek szerepelnek, a magyar adósságról angol forrásokat kereső felhasználóknak nincs sok köze a DJIA indexhez. Érdekes, hogy a pénzügyi cégek mégsem álltak át a Google Trends használatára. Ennek nyilván meg is van az oka, nem bíznak benne. A pénzügyi tranzakciók lebonyolítói ma valamelyik nagy szolgáltató (Thomson Reuters, Bloomberg) "desk"-jére - rendszeres elemzéseket és statisztikákat real-time szolgáltató szoftver és gyakran speciális számítógép is - fizet elő (mely ára úgy évi 20.000 USD), de egyre nagyobb teret nyernek az innovatív módszerek. A Google adataiban rengeteg lehetőség rejlik, kérdés ki és hogyan él velük.


2013. június 10. 8:00

A Twitter belép a tartalomiparba?

Simon Rogers, a The Guardian datablog és datastore szerkesztője átigazolt a Twitter-hez, ahol Data editor munkakörben dolgozik immár. Rogers 1998-tól dolgozott a Guardian-nél és aktív részese volt a brit lapnál bevezetett "digital first" irányzatnak. A 2009-ben elindított datablog szerkesztőjeként  az adatújságírás műfajának egyik megteremtője és egyben legismertebb arca. Hogy mit is fog pontosan csinálni új munkahelyén? Erről lakonikusan csak ennyit írt: Twitter has become such an important element in the way we work as journalists. It’s impossible to ignore, and increasingly at the heart of every major event, from politics to sport and entertainment. As data editor, I’ll be helping to explain how this phenomenon works. And I can’t imagine a better job than getting to tell stories based on some of the most amazing data around.[forrás] A találgatások szerint két lehetséges irány jöhet szóba. Az egyik szerint Twitter a közösségi média hírfolyamaira alapozott hírolvasóval szeretne előjönni. Ebben mi kevésbé hiszünk, mivel a Twitter saját "Discover" névvel illetett megoldása a közelében sincs a Prismatic vagy a bottlenose eszközeihez képest. További problémát jelent, hogy a hírfolyamra alapozott applikációk általában több oldalról szedik össze a cikkeket és nehéz elképzelni, hogy a Facebook vagy a Google "beengedi" a konkurenciát a saját portájára (pl. a Facebook pár hónapja a Yandex Wonder-t tiltotta le a Graph API használatáról) A LinkedIn-hez hasonló szerkesztett tartalom megjelenítése már valószínűbb, de témafelelősök felkérése és a sztorik szerkesztése nem illik Rogers profiljához. Így mi azok mellett tesszük le a garast, akik szerint az adatszerkesztő feladata a Twitter felhasználói adatbázisára alpozott adatvezérelt hírek készítése lesz. A tartalom így pl. a londoni zavargásokat bemutató Guardian-LSE beszámolókra, vagy az arab tavaszt szinte élőben követő vizsgálatokra fog hasonlítani. A jövőben az olyan események, mint a törökországi tüntetések szinte "élőben" kerülnek közvetítésre hiszen a Twitter-nél "házon belül" nagyon gyorsan el lehet majd dönteni mely felhasználók számítanak biztos forrásnak, a helyi tudósítások közül ki lehet szűrni melyek generálják a legtöbb megosztást, látni lehet ki milyen adatokra hivatkozik stb. Flickbook vine.co/v/bMp2XwKaHFQ — David Grayson Kenyon (@dGrayk) January 24, 2013 A Twitter kora ellenére még mindíg úgy viselkedik mint egy startup és mer kísérletezni. Nagyon reméljük hogy sikerül valami újat hoznia a cégnek a tartalomiparba. A Vine beágyazott videóit szeretik a felhasználók, de a hatmásodperces mozgóképek nem tekinthetők sem paradigmaváltóknak, sem informatívnak.


2013. június 7. 8:00

Lombiq - bemutatkozás

Lehóczky Zoltán írása A nyílt forráskódban gondolkodás, modern webalkalmazások fejlesztése és oktatások biztosítása egyetemi és állami klienseknek - ez jellemzi a webfejlesztési szakmában régóta jelenlévő fiatalok által frissen alapított Lombiq Technologies Kft.-t A Lombiq jelenleg elsősorban Orchard alapú webfejlesztési projektekre és ehhez kapcsolódó oktatásra fókuszál. Ugyanakkor tevékenységünket már a közeljövőben ki szándékozzuk bővíteni a webfejlesztésen túli technológiai területek felé is.A Lombiq alapítói, Lehóczky Zoltán és Farkas Zs. Benedek nem ismeretlenek a hazai NLP meetupok közönségének sem: Zoltán a februári NLP Meetupon bemutatta Associativy nevű asszociatív gráf alapú tudásbázis-rendszerét, Benedekkel pedig az inkLink hackercsapatának keménymagját alkották.De mi is az Orchard?Az Orchard egy nyílt forráskódú, közösség által irányított, modern webes tartalomkezelő keretrendszer-projekt: vagyis egyrészt tartalomkezelő rendszer, melyben megtalálhatók olyan általános funkciók, mint a lapok létrehozása vagy a felhasználókezelés, másrészt webes keretrendszer is, melyre a szoftverfejlesztők bármilyen webalkalmazást felépíthetnek.Mivel C#-ban írták meg, az Orchard a Microsoft webes infrastruktúráján (azon belül az ASP.NET MVC keretrendszeren) fut.Miért nyílt forráskód? Miért Orchard?A nyílt forráskódú szoftverek nem csak, hogy szabadon felhasználhatók, hanem mivel a program működését leíró forráskódot is publikálják, a működésük is módosítható. Mivel az Orchard keretrendszer is, ez nagyon fontos: így azok a programozók, akik Orchardra építenek alkalmazást, teljes mértékben beleláthatnak keretrendszerük működésébe, olyan mértékben, ahogy zárt forrású szoftvereknél nem lehetséges. Sokszor pedig rengeteget segít a jó minőségű szoftver írásához az, ha "mögé tudunk lesni az absztrakciónak", azaz meg tudjuk nézni, hogyan működik az általunk használt szoftver: ez nyílt forráskód esetében lehetséges.Az Orchard tehát nyílt forráskódú, és ezt nagyon szeretjük benne: mivel a működését így megérhetjük, akár mi magunk is módosíthatunk rajta. Ha hibát találunk benne, vagy hiányzik egy funkció, nem csak várni tudunk, hanem tenni is. A Lombiq fejlesztői ténylegesen is sok tucatnyi javítást és funkcióbeli bővítést eszközöltek már az Orchardon (sőt, Zoltán azok közé tartozik, aki közvetlenül módosíthatja az Orchard rendszermagot is), így mi magunk is az Orchard fejlesztői közé tartozunk.Ezen kívül az Orchard mint CMS rengeteg, és folyamatosan növekvő mennyiségű funkciót tartalmaz. Ez lehetővé teszi számunkra, hogy ne az általános problémák megoldásával foglalkozzunk, hanem minden projektünknél arra tudjunk koncentrálni, ami a megrendelőnek szükséges. Mivel arra az Orchardra építünk, melyet programozók tucatjai fejlesztenek, olyan, mint ha ez a tucatnyi programozó is folyamatosan velünk dolgozva segítené a munkánkat - hiszen végül ez is történik.Lombiq? Technologies?A Lombiq-nál hiszünk a nyílt forráskódban és szeretünk Orchardra fejleszteni: Orchard fejlesztési munkáink és oktatási megbízásaink formalizálása céljából is alapítottuk a cégünket. Fiatalok vagyunk, tele ötletekkel, és úgy gondoltuk, hogy céges formában sokkal inkább meg tudjuk valósítani önálló projektjeinket is.Egyelőre az Orchardhoz kötődő tevékenységünket építjük ki (ennek is van kifutása bőven, az Orchard egy fiatal rendszer), de a jövőben nem csak Orcharddal szándékozunk foglalkozni, hiszen rengeteg más is érdekel bennünket. Technológia? Az jöhet.Közösséget építünkTudjuk, hogy a nyílt forráskód kooperatív világa csak akkor működik, ha vissza is adunk: a Lombiq ezért folyamatosan tesz az Orchardért, mert úgy gondoljuk, hogy egy olyan hasznos rendszer, amivel csökkenteni lehet a webfejlesztési projektekre fordított energiát. Ezért még régebben elkezdtük építeni az Orchard magyar közösségét (majd angol blogot is indítottunk hozzá), kiadtunk tucatnyi nyílt forráskódú Orchard modult, nem rég elindítottuk Orchard oktatási oldalunkat, az Orchard Dojo-t és előadóként részt vettünk az első és részt veszünk a második Orchard konferencián.Kihívásokra készenNyílt forráskódú óriások vállán állunk azért, hogy ügyfeleink ne a spanyolviasz feltalálásáért, hanem csak az érdekükben végzett munkáért fizessenek. Ismerjük a rendszereket, amikkel dolgozunk és szeretünk újat alkotni: ezért is fejlesztünk szoftvert.


2013. június 6. 8:00

A Nuance felvásárolta a Tweddle Group-ot

Az utóbbi években egyre több információkinyerés-, nyelv- és beszédtechnológiai cég célozta meg az autókat. Ebbe illeszkedik a Nuance legújabb akvizíciója is, mely keretében 80 millió dollárt adott a Tweddle Group-ért. A Tweddle autós szórakoztató elektronikai központokat fejleszt, többek között a Toyota járművekben elérhető Entune rendszert. A Tweddle Connect tkp. egy központi interfész, melyen keresztül egyszerűen érhetők el appok (pl. Bing, Spotify, időjárás előrejelző szolgáltatások stb.) az autógyártók számára pedig lehetővé teszi autós alkalmazásbolt indítását. Érdekes, hogy a Nuance egyre több területen konkurál a Google-el. Ennek legfőbb oka az, hogy a keresőóriás belépett a beszéd- és nyelvtechnológiai valamint dokumentumkezelési megoldásokat szállító cég térfelére. A Tweddle app store-ok ugyanakkor az Androidhoz hasonló ökoszisztéma kiépítése felé tett lépésnek tekinthetők. A Google nyilván nem szeretné, ha nem a saját mobil platformja terjedne el a gépkocsikban. Reméljük a verseny jót tesz ezen a területen is.


2013. június 5. 8:00

A Nuance van a Siri beszédfelismerője mögött - ez már hivatalos

Habár a szakmában ezt amolyan nyílt titoknak tartották, a Nuance "hivatalosan" is elismerte, hogy a cég szállítja a Siri beszédfelismerő rendszerét. Paul Ricci (Nuance, CEO) az All Things Digital konferencián kifejtette, a digitális asszisztensek elterjedésében látja cége a jövőt. “I think that we will see virtual assistants within two years that are quite robust with respect to the most common domains [subjects] that you would want to use on a smartphone,"[...] “They’ll be very good at command and control of the device; they [will have] very high functionality at doing that. They will be context specific and they will have some information that carries over from your usage, so they will become refined by your personal usage and the preferences you have. I think those systems will become really quite good for general usage within the next couple of years."   A Nuance saját asszisztense a Nina Androidon érhető el jelenleg és a Samsunggal állapodott meg egy modern beszédalapú vezérlőfelület kialakításáról. A Google ellenben saját beszédfelismerőjét használja és integrálta a Google Now-val. A két cég beszéd- és nyelvtechnológiai megoldásait egy korábbi írásunkban már bemutattuk. A C|Net alábbi videójában nagyon ötletesen hasonlították össze a Google Now és a Siri képességeit. Érdemes megjegyezni, hogy a Google Now bizonyos esetekben kezeli a névmások feloldását (anaphora resolution) ami nagyon szép teljesítmény! Reméljük a Nuance és a Google versenyéből a felhasználók és a tudomány kerül ki győztesen és jobb alkalmazások, remek tanulmányok születnek a közeljövőben.


2013. június 4. 12:00

Azt beszéli már az egész város

A közösségi médiából nagyon sok dolgot megtudhatunk. Jó esetben nem csak az számít, hogy mit mondanak az emberek, hanem hogy mikor, hol és ki mondott valamit. Tovább tetézi a bajt, hogy sok közösségi oldal van a világban és azok a fránya felhasználók képtelenek egy mellett elkötelezni magukat. A Banjo és a Geofeedia ezekre a problémákra ad választ.   A Geofeedia sajnos nem érhető el egyszerű regisztrációval, ezért nem ismerkedhettünk meg alaposabban a szolgáltatással. A cég nagy hangsúlyt fektet mind a térképészeti megoldások minőségére, mind a különböző források integrálására. A szolgáltatást kormányzati szerveknek (pl. katasztrófák jelentése, szemtanúk keresése, biztonsági monitorozás) marketingeseknek és a médiáknak ajánlják elsősorban. A Banjo térképei nem annyira profik, ellenben ingyenes regisztrációval elérhető a szolgáltatás. A regisztrációt követően összeköthetjük különböző közösségi médiás profiljainkat az appal (pl. Facebook, Twitter, LinkedIn, G+, Instagram, Foursquare, Weibo). Az önmagába, hogy a felhasználó helyzetéhez közeli megosztásokat láthatjuk ezután, még nem nagy szám. Az már érdekesebb, hogy nem csupán a barátaink és az általunk követett emberek tartalmait látjuk, hanem minden nyilvános posztot, minden közösségi oldalról. Ha már adott a lehetőség, megpróbáltuk olyan területen tesztelni az appot, ami a hagyományos keresőmotoroknak nem fekszik annyira. Ha a közösségi médiában a sanghaji lakosok ingatlanpiaccal kapcsolatos véleményére vagyunk kíváncsiak, akkor eleve nem sok haszna van a Twitternek vagy a Facebooknak, hiszen a Nagy Tűzfal miatt ezek elérhetetlenek a kínai polgárok számára. Mivel a Banjo a kínai közösségi oldalakról is összeszedi a nyilvános posztokat, nekünk nem kell bajlódni a regisztrációval és a kereséssel. Először a helyre, esetünkben Sanghaj, kerestünk rá, ezután állíthattuk be a szűrőnket a témára. Így megtudhattuk mit gondolnak a sanghajiak a helyi ingatlanpiacról - sőt akár utcákra lebontva is végignézhettük menyire idegesíti őket a nagy forgalom.  Az app szépséghibája, hogy nem lehet szűrni a találatok nyelvét és nincs integrálva semmilyen gépi fordítóprogram. Az alkalmazás tesztelése közben jutott el a poszt írójához a törökországi tüntetések híre a Twitteren keresztül. Ekkor még a hagyományos keresőkön semmilyen információ nem volt fellelhető erről. Kik, miért és hol tüntetnek? A Banjo ebben is segített. Az anakari tüntetések kapcsán jelent meg az #occupygezi hashtag. Rákeresve Gezi-re világossá vált, hogy az isztambuli Gezi parkot takarja ez. Rögtön lehetett látni, hogy viszonylag sokan posztolnak a közelben. A jobboldali sávban vegyes posztok között is felülreprezentáltak voltak a "protest" "protests" "protesto" hashtag-gel ellátott bejegyzések és rengeteg képet töltöttek fel a helyszínen tüntetők. A szűrés eredménye még több kép és bejegyzés lett. Itt ismét felmerült az a probléma, hogy nem lehet nyelvi szűrést végezni és/vagy gépi fordítással próbálkozni. Azonban így is gyorsan lehetett több angol bejegyzést találni, amelyek közös pontjai (az alkohol árusítás szigorítása elleni tiltakozás, Kemal Atatürk és világi rendszerének védelme, Erdogan központosító és konzervatív intézkedéseinek kritikája stb). A "hagyományos" médiának kb. másfél órába telt mire az első hírek megjelentek. Külön érdekesség, hogy ezek az első beszámolók mind a Twitter-re alapozták híreiket és a képek zömét is a helyszínről csiripelő Twitter felhasználóktól vették át. A lokációs keresés a közösségi médiában kicsit azt az érzést adja, hogy az ember bepillantást nyer abba, mit beszél egy-egy város. Személyes szinten is hasznos lehet, de szerkesztőségeknek különösen jól jöhet a civil újságírás forrásainak összeszedéséhez és szűréséhez.  A felhasználók monitorozása és lokalizálása marketing célokra vagy éppen kormányzati vizsgálatokra viszont minden esetben felveti a reprezentativitás problémáját.


2013. június 3. 11:03

Juristat - jog és big data

Az IEEE podcastban a Juristat startup egyik alapítójával, Andrew Winship-pel készítettek interjút (a posztba beágyazva lentebb megtalálható) a múlt héten. A nyelvtechnológia és az információkinyerés régóta jelen van a jogi területen, de előrejelzésre még nem igazán használták eddig. A Jursistat alapvetően szöveges adatokat dolgoz fel és köt össze, ezzel segítve a jogászok munkáját. A szövegbányászat mellett kiemelt szerepet kap a keresés is, hiszen napjainkban mind ügyb esetében a vonatkozó jogszabályok erdejében könnyű eltévedni, nem beszélve arról, milyen mennyiségű irat tud keletkezni akár egy egyszerűbb jogi procedúra során is. A legizgalmasabb ugyanakkor a Juristat prediktív rendszere. Az angolszász országok precedens alapú jogrendszere megkönnyíti, hogy egy nagy esettárral és sok kiegészítő információval felvértezve, megjósolhatók legyenek egyes eljárások végkimenetelei. Mielőtt arra gondolnánk, hogy így akár adott esetben a büntetőeljárás is megspórolható, megnyugtatunk mindenkit hogy ezt főleg a megegyezéssel lezárható ügyekben használják. Jó látni, hogy a tudományos kiadók területére tévedt egy startup. Reméljük Európában is akadnak majd hasonló kezdeményezések!


2013. május 31. 10:10

A tweet a lélek tükre (?)

Eben Haber, az IBM kutatója olyan szolgáltatás indításán dolgozik, amely a demográfiai adatok helyett a felhasználók pszichológiai profilja alapján teszi lehetővé a targetálást. A The Economist szerint évente 170 milliárd dollárt költenek el direkt marketingre az Egyesült Államokban. A postai megkeresések 3%-a, az online hirdetések 0.01% eredményez vásárlást, ami annyit tesz, hogy 165 milliárdért küldözgetnek a cégek zavaró ajánlatokat (sőt spameket). A legtöbb piackutató manapság demgoráfiai karakterisztikát rendel egy-egy fogyasztóhoz. Habár nyilván akadnak olyan termékek, melyeket egy adott demográfiai csoport számára érdemes hirdetni (pl. pelenkát kisgyerekeseknek, sört csak felnőtteknek, gyógyászati segédeszközöket inkább idősebbeknek), sok termék esetében célszerűbb a fogyasztó személyiségét figyelembevenni (pl. otthon-centrikus házikertész apukáknak nem biztos hogy kalandtúra felszereléseket kell reklámozni). Haber és munkatársai már 50 tweet elemzéséből már be tudnak sorolni a felhasználót egy pszichológiai profilba és 200 tweet elegendő a nagy bizonyosságú eredményhez. A kutatók még az idén szeretnék a potenciális felhasználók számára elérhetővé tenni szolgáltatásukat, ami iránt a Twitter ad targeting sikere láttán biztosan lesz érdeklődés. Haber Tal Yarkoni vizsgálatai alapján vágott bele a fejlesztésbe. Yarkoni Personality in 100,000 Words: A large-scale analysis of personality and word use among bloggers tanulmányában arra a következtetésre jutott, hogy online szövegek esetében is működik a szerzők besorolása az öt személyiségfaktorba. Az ún. Big Five, vagy Öt Nagy személyiségvonásba (emocionalitás/neurocitás, extraverzió, nyitottság/intellektus, barátságosság/együttműködés és lelkiismeretesség) elvileg mindenki besorolható. Megfigyelték, hogy bizonyos nyelvhasználati szokásokkal korrelálnak a személyiségjegyek és Yarkoni igazolta, hogy online szövegek esetén is fennáll ez. Az egyes személyiségjegyekre jellemző bizonyos szavak hazsnálata, illetve kerülése, ahogy az alábbi ábra is mutatja. Meg kell azonban jegyeznünk, hogy a módszer hatékonyságának megvannak a maga korlátai.  As data from Mary Meeker show, the number of people using Twitter may be increasing, but the amount that people share online varies widely between different countries. On average, 24% of respondents shared “everything" or “most things" online. In countries with some of the largest concentrations of Twitter users, such as America and Britain, that proportion fell to 15% and 12%. Just as this group of happy sharers may not entirely representative of humankind, public forums such as Twitter may not hold the key understanding the strange things that go on inside that most mysterious of organs, the human brain. [forrás] Az eljárás ennek tükrében talán nem is a demográfiai módszer alternatívája, hanem inkább kiegészítője lehet a jövőben. Külön kérdés, hogy más közösségi oldalakon és más nyelveken milyen hatékonyan működne. Akit érdekelnek hasonló megoldások magyar nyelvre, azoknak az MTA Pszichológiai Kutatócsoportjának Narratív Pszicshológia Csoportjának és a PTE Narratív Pszichológiai Kutatócsoportjának oldalain találnak bővebb információt. A terület művelői nagyon eredményesek és szorosan együttműködnek a nyelvtechnológiai kutatókkal, izgalmas lenne látni mit tudnak nyújtani a piac számára.


2013. május 30. 8:00

Elindult a Twitter TV ad targeting

A Twitter elindította TV ad targeting programját. Jelenleg a technológia kizáról az Egyesült Államokban az országos adókon hirdetők közül is csupán azok számára érhető el akik korábban már folytattak Twitter kampányt. A Twitter új szolgáltatás a Bluefin Labs technológiájára épít, melyet pár hónapja vásárolt fel a cég. A Deb Roy és csapata által kifejlesztett rendszer szinte valós időben képes figyelni a televiziós csatornákon folyó műsorokat és azonosítja az egyes programokat és a köztük lévő reklámokat. Ezzel egy időben történik a közösségi média monitorozása és a kapcsolódó posztok azonosítása és elemzése. A TV ad targering lehetővé teszi, hogy a Twitteren folytatott nézői beszélgetésekbe be tudjanak kapcsolódni a marketingesek. Ehhez, miképp a fenti ábra is mutatja, a közösségi média elemzése mellett egyben a kapcsolódó tartalmakat is megjeleníti a rendszer. Érdekes, hogy egy eredetileg nyelvelsajátítást vizsgáló kísérletből született egy marketing eszköz. Gondoljunk erre, amikor azon mélázunk miért költünk sokat a bölcsészkarok fenntartására!


2013. május 29. 8:00

Ngrammatológia - túl az adatokon

A Google Ngram Viewer rendkívül népszerű lett elindulása óta. A Google korpusza a Google Books során beszkennelt és karakterfelismeréssel feldolgozott könyvek tartalmára alapozott történeti korpusz több nyelvre. A humán- és társadalomtudományok körében népszerűvé vált az Ngram használata, mivel könnyen tesztelhetünk vele eszmetörténeti trendeket. Külön irányzat is született Cultoromics néven erre. Azonban nem szabad elfelejtetünk, hogy az adatok önmagukban nem sokat mondanak, jelentős háttértudás szükségeltetik értelmezésükhöz. A LanguageLog mutatott rá három Ngram-ra alapozott tanulmányra. Twenge, Campbell és Gentile Increases in Individualistic Words and Phrases in American Books, 1960-2008 című tanulmánya szerint az utóbbi ötven évben egyre individualistábbá váltak az amerikaiak és ez tükröződik az ezen időszak alatt megjelent könyvek nyelvhasználatában is. Kesebir és Kesebir is hasonló eredményekre jutott melyeket The Cultural Salience of Moral Character and Virtue Declined in Twentieth Century America című tanulmányukban mutatnak be. Kesebirék példái szerint az erénnyel kapcsolatos kifejezések gyakoriságának csökkenése párhuzamba állítható az individualizmus előtérbe kerülésével és az erény hanyatlásával. McWhorter (ismert nyelvész és közíró) mutatott rá arra, hogy ezen tanulmányok nem veszik figyelembe a nyelv változását. Gondoljunk pl. a magyar "derék ember" kifejezésre. Ez ma már régiesnek hat, inkább "tisztességes ember"-t mondanánk helyette, de szlengben akár a "jó arc" is elmegy. Hasonlóképpen az amerikai angolban a "negro" (néger) szó használatát mára szinte teljesen felváltotta az "African American" kifejezés. Daniel B. Klein Ngrams of the Great Transformations című tanulmányában a Polányi Károly által felvázolt  nagy átalakulás nyomait kutatja a Ngram korpuszban. Klein nagyon helyesen meg is jegyzi, hogy az Ngram grafikonok csupán szemléltető eszközök, nem "tudományos bizonyítékok".  Hogy miért? Egy adott szó jelentése átmehet bizonyos változásokon. Pl. a "


2013. május 28. 12:00

Marketing és (nyelv)technológia

Az Onlinemarketing blogon jelent meg Marketing mérnökök címmel egy poszt kb. két hete. Nagyon érdekes azt látni, hogy vannak akik szerint ez a jövő, vannak akik szerint már most is alapvető elvárás az analitikai alaptudás ezen a területen. A The Economist egy cikke szerint az amerikai nagyvállalatok hetven százaléka alkalmaz ma már "chief marketing technologist" szakembert. Mivel az említett írás alapvetően üzleti szempontból foglalkozik az információtechnológia nyújtotta új lehetőségekkel, érdemes főbb pontjain végigmenni és megvilágítani technológiai oldalról ezeket. Egyben szeretném felhívni a figyelmet arra, hogy nem csak a "nálunk szerencsésebb történelmi fejlődésű országokban" érhetők el hasonló technológiák. Mi lenne ha az NLP meetup-on egyszer összetalálkozhatna pár marketinges és a területet technológiai oldalról támogatni próbáló kolléga? Ha van igény erre, írjatok nekünk és összehozunk egy beszélgetést!   A mobilinternet és a perszonalizáció elterjedése olyan kontextust teremt, mely lehetővé teszi az ún. adaptív (vagy személyre szabott) marketinget. A kontextusnak óriási ereje van a keresésben is, a GoogleNow pl. erre alapozva találja ki gondolatainkat és tálalja fel az adott helyzetben számunkra szükséges információt. A reklámozás terén ez valahogy így néz ki: With new digital tools marketers can reach the likeliest customers when they are most in the mood to buy. Last summer Wall’s ice cream and O2, a mobile-phone network, teamed up to send advertisements to Londoners’ smartphones when temperatures climbed. When the weather cooled Kleenex, a brand of tissues, used Google search terms and health-service data to target ad spending to areas likely to suffer the most sneezes.  A webkettes tartalmak monitorozása akár sci-fi-be illő jeleneteket is produkálhat. A Nestlé "digital acceleration team" főhadiszállását így mutatja be a riport: The setting was a situation-room-like studio, where the focus is normally on how Nestlé’s own products are faring among electronic opinion-formers. A glowing map shows where social-media buzz is liveliest. A screen records that Kit Kat bars were the subject of 164,462 recent posts on Twitter, Facebook and the like. Of these, 73% were positive. (Though it is hard to imagine why anyone would complain about chocolate. What’s not to like?) Kit Kat captured 34% of the chocolatey chit-chat, reveals an illuminated pie chart, while Snickers did better, with 39%. If sentiment droops, “community managers", many of them DAT alumni, can swoop in to soothe a malcontent or suggest a fix. Such give and take has “radically changed the relationship between our brands and the consumer", says Patrice Bula, Nestlé’s marketing chief. “Today we have really entered the age of conversation." A tartalom- és szentimentelemzés a jelek szerint bevett dolog a Nestlé marketing osztályán. Az utóbbi években az ügyfeleikkel hosszú kapcsolatot ápoló cégeknél (pl. bankszektor, telekommunikáció stb.) kialakított CRM (customer-relationship management) rendszerekhez hasonló megoldásokat vesz át a többi iparág is. A cégek ugyanis igyekeznek magukhoz kötni a fogyasztókat. Ezért "beszélgetnek" velük a közösségi médiában s különféle tevékenységekbe (pl. online nyereményjátékok, kampányok stb.)  próbálják bevonni őket. Ez egyben kihat a hirdetésekre is, hiszen nem a klasszikus reklámok, hanem tartalmak kerülnek előtérbe. Ezek hatékonysága nem mérhető jól a hagyományos eszközökkel (pl. A/B teszteléssel) a közösségi médiában megjelenő reakciók monitorozása pedig alapvetően SNA (social network analysis - közösségi hálózatelemzés) és tartalomelemzéssel végezhető csak el. Alábbi posztjainkban külföldi megoldásokat mutattunk be erről a területről: Mennyire érett a nyelvtechnológia ma? (AlchemyAPI és ConveyAPI) DiscoverText, a szövegfelfedező Crimson Hexagon - tartalomelemzés másképp A magyar piacon is elérhetők hasonló szolgáltatások! Ezek közül a legismertebb talán a Replise (korábban Brandmonitor) a blogunkon is bemutatott Neticle Technologies és a Maven7. Rajtuk kívül is akad szép számmal nyelvtechnológiai cég hazánkban. Habár ezt nem szokás reklámozni, ezen a területen tényleg a világ élvonalába tartozik hazánk! Az NLP meetup előadói, a Nyelv- és Beszédtechnológiai Platform és a LinguaPark Klaszter tagjai között érdemes keresnie annak, akinek ilyen fejlesztésre van szüksége. Saját tapasztalatom az, hogy nagyon nehéz elmondani miben is tud segíteni a technológia egy szakembernek (persze ebben sokszor benne van az is, hogy mi nem értjük, mire is lenne szüksége a másik oldalnak és elbeszélünk egymás mellett). Szerencsére van pár rövid elemzés, melyekben nem a technológián, hanem az elemzésen és az eredményeken van a hangsúly. Ezek talán segítenek elképzelni azt, mire is alkalmazhatók olyan nagy szavak mint SNA, polaritás mérés stb.: Tempfli Péter: A legfontosabb blog nyomában - Rövid cikk a borászattal foglalkozó blogok elemzéséről és általában a blogos hálózatokról Network blog: Online politikai harctér I. és II. - A hazai politikai pártok online jelenlétét elemzi a Facebook-on és a Twitter-en Méltányosság Politikaelemző Központ - Neticle Technologies: Politikai véleményárfolyam - havi rendszerességgel megjelenő elemzés a hazai politikai élet webes lenyomatáról Milyen szép lenne, ha a két szakma képviselői le tudnának ülni egy kicsit beszélgetni! Mit tudnak most nyújtani a nyelvtechnológiai cégek, milyen nemzetközi trendekre érdemes figyelni? Mire lenne szüksége a felhasználóknak (ezt a legnehezebb kitalálni)? Hogy viszonyulnak a marketingesek pl. a szentimentelemzésekhez? A tavalyi NLP matiné mintájára találkozzunk valamikor és beszélgessünk el ezekről a kérdésekről!


2013. május 27. 8:00

Magyar Open Data Hub indul

Május 22-én tartottuk a második Open Data Meetupot, ahol a résztvevők megegyeztek abban, hogy a jövőben szorosabban fognak együttműködni a nyílt adatok ügyének előmozdításán. Ennek első lépése a magyar Open Data Hub elindítása. Cégünk, a Precognox vállalta egy CKAN (Comprehensive Knowledge Archive Network) szerver felállítását és üzemeltetését. A LEG fogja koordinálni a kezelőfelület és a dokumentáció honosítását, a K-Monitor pedig megszervezi a működést segítő önkéntesek munkáját. A CKAN-t az Open Knowledge Foundation fejlesztette ki és jelenleg a legnépszerűbb open data hub szoftver. Szerte a világon egyre több kormányzati és önkormányzati szervezet indít open data hubot. Az Egyesült Államok és az Egyesült Királyság mellett többek között Ausztria, Németország és Hollandia is CKAN szerveren osztja meg az állami adatokat. Önkormányzati szinten is egyre több város és régió indít hivatalos data hubot, pl. Buenos Aires, Berlin, Hamburg, Róma és Manchester használja a technológiát. A mi kezdeményezésünk az ún. közösségi data hubok sorába tartozik, melyeket civilek üzemeltetnek. Ilyen pl. az orosz, a görög, a szerb és a norvég data hub is. Az Open Data Hubra bárki feltölthet nyílt adatokat, melyek licencét önkéntesek ellenőrzik majd. A CKAN lényege hogy egy helyen elérhetővé és kereshetővé ezeket. A szoftver lehetővé teszi hogy ne csupán "nyers" adatokat töltsenek le a felhasználók, hanem a honlapon értelmezzék azt egyszerű vizualizációk (grafikonok, térképek stb.) segítségével. A nyílt adatok segítik a polgárokat abban, hogy jobban rálássanak életükre - legyen szó buszmenetrendről, légszennyezettségi adatokról vagy költségvetési számokról. Az üzleti életben is nagyon fontos szerepük van a nyílt adatoknak és egyes elemzések szerint csupán az EU-ban 140 milliárd euró hasznot hajtana ha jobban kihasználnánk ezt. Az Open Data Hub az első lépés ezen a téren idehaza.


2013. május 23. 8:00

Crimson Hexagon - tartalomelemzés másképp

A közösségi média monitorozására szinte naponta alapítanak egy céget, de csak nagyon kevés tud megmaradni. Ennek csak részben oka az erős piaci verseny. Sokszor nehéz elmagyarázni az ügyfeleknek mire és hogyan használhatók a tartalomelemző eszközök, ennek hiányában pedig a legkifinomultabb technológia is rossz eredményekhez és értetlen felhasználókhoz vezet. A Crimson Hexagon mindkét oldalon erős és olyan ügyfeleket sikerült megnyernie mint a Bing, az NBA és a CNN. A Crimson Hexagon eljárása Gary King, a Harvard Department of Government professzora, az Institute for Quantitative Social Sciences igazgatója, tartalomelemzési munkásságán alapul. Ezt King Daniel Hopkins-szal írt A Method of Automated Nonparametric Content Analysis for Social Science című tanulmányban fektette le. A kapcsolódó ReadMe nevű program pedig elérhető szabadon is (az R nyelvet ismerők előnyben!). King és Hopkins abból a megfigyelésből indul ki, hogy a gépi tanulási osztályozó algoritmusok célja az, hogy nagy adathalmazt osztályozzanak gyorsan egy emberi erőforrások bevonásával készített ún. tanulókorpusz alapján. Habár ezek az eljárások általában igen jó hatásfokúak (77 és 90 százalékos pontosságot érnek el), a viszonyítási pont gyakran mesterséges és nem érhető el a gyakorlati alkalmazás során. Ennek oka, hogy statisztikailag nem reprezentatív se az algoritmus betanítására alkotott korpusz, se a vizsgálatra felhasznált adathalmaz. A tartalomelemzési eljárások során az ún. kódkönyvben fektetik le a korpusz kialakításának menetét és hogy milyen szempontok szerint értékeljék ki annak elemeit. A kódkönyv kialakítása és a tanulókorpusz elkészítése a legidőigényesebb és egyben a legdrágább része minden projektnek. King és társai ezt foglalták részben algoritmikus formába, amihez részletesen leíráták a kódkönyv készítésének metodológiáját. Ezt különböző tanulmányokban és szabad szoftver formájában közkinccsé is tették. Ezzel egy időben a Crimson Hexagon-on keresztül szabadalomat jegyeztek be az algoritmus és az eljárás egy-egy szofisztikáltabb változatára is. A cég a szabadalomra alapozva fejlesztette tovább King és társai eljárását. Az elemzőfelületet online teszik elérhetővé és az R nyelvről áttértek a Java technológiára (teljesítmény és skálázhatósági kérdések miatt). Nem csupán a technológiát árulja a Crimson Hexagon, hanem elérhetővé teszi tanácsadóit is az ügyfeleknek, ami nagy segítség a tanulókorpusz kialakítása során. Véleményünk szerint nem is annyira az alkalmazott technológiában rejlik a cég erőssége, hanem abban, hogy rugalmasan tud alkalmazkodni ügyfelei igényeihez és segít neki olyan kérdéseket megfogalmazni, melyekre ott rejlik a válasz az adatokban. Így nem csak a szokásos osztályozási módszerek (pl. szentimentelemzés, előre meghatározott kategóriába sorolás), hanem olyan kérdések is vizsgálhatóak mint mennyire humoros vagy ironikus egy adott szöveg, mennyire segítőkészek egy adott fórum hozzászólásai, stb. Mivel a cég nem árul el sokat magáról, ezért következő posztunkban két olyan tanulmány eredményeit ismertetjük mely a King és Hopkins eljárását használta fel.


2013. május 21. 12:00

Idibon - Big Data Bábel

Az interneten keletkező információ legnagyobb része nyelvi, legyen az szöveg, audió vagy pedig videó. Napjainkban kb. ötezer nyelvet használnak a modern tömegkommunikációs eszközök használói és az általuk generált adatok elemzése során gyakran merülnek fel nyelvi, nyelvészeti kérdések. Az Idibon célja, hogy segítsen eligazodni az ilyen kérdésekben.  Az  NLP meetup volt előadója, Tyler Schnoebelen a friss startup senior data scientist munkatársa szerint a cég piacát azok az adatelemző központok jelentik, melyek felismerik, hogy a nyelvi adatok elemzéséhez szükségük van külső szakértőkre. Az összes kommunikáció kb. hét százaléka az interneten zajlik ma. Ezt szemlélteti a Robert Munro (Idibon CEO) Strata előadásának ábrája. Habár több mint ötezer nyelvet használnak a netezők, a tíz leggyakrabban használt nyelv beszélőinek száma lefedi a felhasználók több mint felét. Látható, többet kommunikálunk mobilon (beszélgetés és SMS formájában is) mint interneten. Fontos ugyanakkor megemlíteni, hogy egyre gyakoribb az eltérő anyanyelvűek közötti kommunikáció (ami általában valamilyen közvetítőnyelven történik, ami legtöbbször az angol vagy valamelyik másik világnyelv). Akár egynyelvű, akár többnyelvű a vizsgálni kívánt dokumentumok köre, könnyen belátható, szükség van szakemberekre az adatok elemzése során. Számítógépes nyelvészt tartani drága mulatság és valószínűleg a legtöbb cégnek nincs is szüksége folyamatosan ilyen képzettségű munkatársakra. Az Idibon-on keresztül olyan szakemberek érhetők el, akiknek tapasztalata van az akadémia és az ipar világában is. Az Idibon munkatársait a Stanford Department of Linguistics és a University of Pennsylvania-n működő Linguistic Data Consortium körében toborozta. A cég első magvető befektetője 1.4 millió dollárral az a Khosla Ventures, melynek olyan cégekben vannak érdekeltségei mint a bitly, a Kaggle és a Metamarkets.  Az Idibon az első olyan nyelvtechnológiai és nyelvészeti tanácsadó cég, amely kockázati tőkét vont be és szinte egyedülálló a piacon. De csak szinte! Itthon a Nyelv és Tudomány kínál hasonló szolgáltatásokat. Hogy mit nyújthat egy nyelvész a big data terén? Erre jó példa Tyler meetup előadása, melyben arról beszél, hogyan gazdagíthatjuk egy Twitter vizsgálat demográfiai adatait nyelvészeti elemzéssel. Tyler Schnoebelen : Gender and style in American English tweets from Szamitogepes nyelveszet on Vimeo.


2013. május 17. 8:00

Pollyanna a magyar weben

A szentiment elemzésekről és a pollyanna jelenségről szóló posztunk kapcsán joggal merült fel olvasóinkban a kérdés, hogy is állunk a magyarban ezzel. A tanulmányokban előforduló példa szópárokbó kigyűjtöttem párat és magyar megfelelőik gyakoriságát vizsgáltam. A Google-t használva a keresési találatok száma is támogatja a pollyanna jelenséget meglétét a magyarban (a "buta" kivételével). szópár  pozitív negatív jó - rossz 104,000,000 23,300,000 boldog - szomorú 10,300,000 7,700,000 magas - alacsony 26,500,000 10,600,000 szép - csúnya 48,400,000 2,580,000 okos - buta 5,630,000 35,800,000   Mégjobb adatokat kapunk, ha csak a magyar oldalakra keresünk a Google-ön, de a Magyar Webkorpusz is megerősít minket ebben.    szópár pozitív negatív jó - rossz 375000 304423 boldog - szomorú 77073 10000 magas - alacsony 266981 106652 szép - csúnya 61000 20000 okos - buta 36211 15479 A huszonöt leggyakoribb melléknév a korpuszban pedig a következő: nagy magyar kis teljes fontos jó egyes biztos szakmai helyi politikai szabad emberi rossz hazai igaz bizonyos amerikai angol magas sok eredeti fiatal nemzeti ismert Ebből egyértelműen negatív a "rossz", de a "kis" is ennek tekinthető. Annyit megállapíthatunk, hogy szógyakoriság tekintetében a magyar nyelvben is megfigyelhető a pollyanna jelenség. Megkérdeztük Szekeres Pétert a Neticle vezető kutatóját, hogy véleményárfolyam vizsgálataik során ők tapasztaltak-e hasonló jelenséget, mint DiGrazia, McKelevy, Bollen és Rojas. Mi inkább szektor karakterisztikákat látunk a magyar weben: pl. politikában minél több az említés, annál negatívabb a véleményárfolyam, mert főleg negatívumokat írnak. Ez igaz például telekommunikációs és pénzügyi szektorra is erősen, míg például autók és tech szektor inkább igaznak tűnik az említett korreláció, hiszen ezeket a területeken inkább az elégedett "fogyasztók"/rajongók posztolnak, míg az előbbiek esetében rossz szolgáltatás/elégedetlenség miatt írnak a netezők. Ezt alátamásztandó Péter rendelkezésünkre bocsátotta az Együtt 2014-re mért polaritás és említésgyakoriság értékeket 2013 január 1-től (köszönjük szépen az adatokat Péter!). Látható, a pozitív vélemények az említések elenyésző számát képviselik csupán. Vessünk egy pillantást a vélemények eloszlására is: Akik szeretnének jobban elmélyedni az adatokban, azoknak ajánljuk a Méltányosság és a Neticle közös politikai véleményárfolyam riportjait, melyek a véleményelemzések mellett tartalmaznak említésgyakorisági adatokat is. A szakirodalom alapján úgy tűnik, a pollyanna jelenség univerzálé (azaz minden nyelvre jellemző tulajdonság). Azt sugallják a szógyakorisági adatok is, hogy a magyar sem kivétel ez alól. Nagyon elgondolkodtató, hogy a politikával kapcsolatban ennyire felülreprezentáltak a negatív vélemények. Ugyanakkor meg kell jegyeznünk, hogy az adatok az említett kutatástól eltérnek (nem csak a Twitter-ről gyűjtött ún. referencia említéseket tartalmazzák).


2013. május 16. 8:00

Légy negatív - megjegyzések a szentiment elemzések értelmezéséhez

A szentiment elemzések (vagy más néven polaritás mérés, azaz egy adott szöveg érzelmi viszonyulásának - pozitív, semleges vagy negatív voltának - automatikus megállapítása) egyre inkább elterjedtek. Az Indiana University egy interdiszciplináris kutatócsoportja, DiGrazia, McKelevy, Bollen és Rojas (School of Informatics és Department of Sociology) arra az elsőre meglepő megállapításra jutottak, hogy egyes esetekben nincs szükség a polaritás mérésére. More Tweets, More Votes: Social Media as a Quantitative Indicator of Political Behavior című tanulmányukban ismertetett eredményeik szerint, a 2010-es egyesült államokbeli kampányban a republikánus jelöltek említése a Twitteren (nem keverendő össze ez avval a jelenséggel, amikor hivatkoznak egy Twitter felhasználóra a kukac előtaggal pl. @BarackObama, vagy ún. témamegjelölésre szolgáló hashtag formában használják az adott politikus nevét pl. #obama, hanem a tweetekben, "folyószövegben" történő sima említés) korrelált a választási eredményekkel (pontosabban a két jelölt közötti szavazatkülönbséggel). Ahogy a tanulmányból vett alábbi ábra is mutatja, nagy szórás mutatkozik, de a kapcsolat egész erős (a társadalomtudományok mércéje szerint).     A TechPresident-nek nyilatkozva DiGrazia felhívja a figyelmet arra, hogy a vizsgálat deskriptív (leíró) és jelen formájában nem prediktív (azaz nem használható előrejelzésre). Ezért vigyázni kell az amikor a közösségi médiát elemezve akarunk következtetéseket levonni. "If you're a Democrat in a very conservative district, getting a lot of tweets would mean you would be expected to get a better than expected result," he said, "but not necessarily mean that you would overcome the disadvantage of being in a conservative district."   A kutatók úgy gondolták, a begyűjtött tweeteket szentiment elemzéssel kell majd vizsgálniuk miután megmérték a jelöltek említésének gyakoriságát, de meglepetésükre enélkül is kimutatható a korreláció. "We thought we were going to have to look at the sentiment," he said. He speculated that one reason for the correlation could be a so-called Pollyanna Hypothesis, "that people are more likely to gravitate toward subjects that they are positive about and are more likely to talk about candidates that they support."   A pollyanna jelentése kb. túlzott optimizmus, Eleanor H. Porter Pollyanna című gyermekregényének optimista főhősének neve vette fel ezt a jelentést. Sokáig gyanították a nyelvészek, hogy valamiért gyakoribbak a pozitív töltetű szavak, mivel a társadalmi normák is azt diktálják, hogy ne legyünk annyira negatívak. Boucher és Osgood The pollyanna hypothesis című tanulmányában sok bizonyítékot vonultat fel amellett, hogy kultúrafüggetlen ez a jelenség, sőt a gyermekek nyelvelsajátításában is hamarabb jelennek meg a pozitív szavak, továbbá tanulási feladatokban is hamarabb tanulják meg az alanyok a pozitív töltetű (vagy annak gondolt) szavakat.  Az ETH kutatói, Garcia, Garas és Schweitzer, Positive words carry less information than negative words című tanulmányukban kimutatták, hogy a jelenség irodalmi korpuszokban éppúgy kimutatható, mint a tkp. az egész webet feldolgozó Google n-gram korpuszokban.     Ugyanakkor azt is kimutatták, hogy a negatív szavak több információt hordoznak. Ezt könnyű belátni intuitívan is; mivel a pozitív töltetű szavak gyakorisága magasabb mint a negatívaké, ezért kevesebb szerepük van egy-egy mondat jelentésében is. Persze egy szó érzelmi töltése változhat a szövegkörnyezet hatására, de a tanulmány szerint ezt figyelembe véve is magasabb információtartalommal bírnak a negatív szavak. Manapság a szentiment elemzések egyik legelterjedtebb alkalmazása az üzleti hírek vizsgálata. Ezekkel kapcsolatban érdemes megjegyezni, hogy Hildebrandt és Snyder elemzése szerint, a pollyanna jelenség az üzleti beszámolókban is megjelenik. A vizsgálatban két évre fókuszáltak, egy recessziót (1975) és egy kifejezetten jó évet (1977). Azt találták, hogy a kifejezetten rossz évben is sokkal magasabb volt a pozitív kifejezések aránya, függetlenül az adott társaság anyagi helyzetétől. Természetesen egy rossz évben a beszámolókban elkerülhetetlen negatív kifejezéseket használni, de ezek száma nem emelkedik egyenes arányban a cég anyagi gondjainak sokasodásával. Az első kutatások óta többször is megismételték a vizsgálatot, ezek eredményei azt támasztják alá, hogy nem csupán a céges beszámolók, de a gazdasági hírek is csínján bánnak a negatívumokkal. Figyelembe véve a pollyanna jelenséget és az eltérő információtartalmat, érdemes a negatív hangokra odafigyelnünk amikor a webes tartalmak polaritása érdekel minket. Persze úgy tűnik evvel csak a régi bölcsességet ismételjük, miszerint a negatív kritikából lehet tanulni, de immár ezt tudományosan is alátámasztva mondhatjuk.


2013. május 14. 12:00

Twitter forradalmak

A közösségi médiában futótűzként terjedhetnek el a hírek. Erre a legjobb példa az egyiptomi forradalom, amit élőben követhettünk nyomon a Twitteren. Kérdés azonban mi volt előbb, elégedetlenség, ami kereste az útját, vagy a tömegkommunikáció teremtette meg annak lehetőségét, hogy az indulatok egymásra találjanak és elérjék azt a kritikus tömeget, ami már cselekvésre késztetett embereket? A Twitter forradalmak bepillantást engednek abba, milyen szerepe van a közösségi médiának a kollektív cselekvésben.   Ahogy később látni fogjuk, a forradalmak helyébe behelyettesíthetünk más eseményeket is, mint pl. a pletyka, az innováció vagy a divat, de akár gondolhatunk tudományos forradalmakra is á la Kuhn. Az ilyen jelenségek megértése nem egyszerű és általában több szinten történik, ezért először nagyon röviden kitérünk a "nagy képre", azaz a forradalmak kapcsán leginkább emlegetett politikafilozófiai elméletekre, majd magát a "folyamatot" leíró formális kerettel foglalkozunk. Ezután megvizsgáljuk, hogy a tömegkommunikáció és a közösségi média milyen szerepet játszik napjaink forradalmaiban és végül egy példán keresztül szemléltetjük milyen következtetéseket vonhatunk le a Twittert elemezve.   Forradalmak régenNapjaink forradalmainak értelmezéséhez az eszmetörténészek sokszor nyúlnak vissza a francia forradalomról szóló művekhez. Ennek oka, hogy a forradalmak után Egyiptomban és Tunéziában is erős centralizáció tapasztalható, ami párhuzamba állítható a francia történelemmel. Tocqueville szerint a felkelők nem akartak igazából eltörölni mindent, sokkal inkább a reformok iránti igény vezette őket. A kontinuitás utáni vágy erősebben hatott, mint a forradalmi hevület, hiszen az ancien régime helyett hamarosan egy erősen centralizált állam jött létre. (Bővebben l. Tocqueville: A Régi rend és a forradalom)Burke a francia forradalmat az amerikai függetlenségi háborúval állította szembe. Míg az újvilági telepesek körében szerves fejlődés vezetett az önszerveződéshez és a függetlenségi háború az angol korona korlátozó intézkedéseire adott válasz volt, addig a francia forradalom a felvilágosodás absztrakt eszméire épült. Burke szerint eleve bukásra volt ítélve a forradalom, hiszen túl racionális volt, nem számolt az emberi természettel (ti. az absztrakt eszmék helyett a társadalmilag rögzült gondolkodás elsőbbségével). A forradalom végül a centralizált bonapartista rendszerhez vezetett, később pedig a restaurációhoz. (Bővebben l. Burke: Töprengések a francia forradalomról)   Burke elemzését sokan az egyiptomi helyzethez hasonlónak tartják. Érdemes megjegyezni ugyanakkor, hogy sem Tocqueville, sem Burke nem ad magyarázatot arra, hogy mi váltotta ki a forradalmat és miért éppen az adott pillanatban. Erre Marx híres, hírhedt tétele, a "mennyiségi változások minőségbe ugrása" tett kísérletet. Ennek értelmében a társadalmi változások egy idő után elérnek egy olyan kritikus mennyiséget, ami minőségi változáshoz vezet.A politikai gondolkodók meglátásai jó fogalmi keretet biztosítanak egy adott helyzet elemzéséhez. Azonban nem adnak lehetőséget arra, hogy modellezzünk vagy éppen összehasonlítsunk hasonló helyzeteket. Arra pedig végképp nem alkalmasak, hogy előrejelzéseket tegyünk. (Fontos ugyanakkor megjegyezni azt, hogy ez nem is a céljuk, a politikafilozófia egy sajátos megértésre törekszik és nem tudományos leírásra. A tudományos és a bölcseleti megértés nem alá- vagy fölérendelt viszonyban áll, hanem ugyanannak az érmének a két oldala.) Társadalmi beágyazottság, hálózatok és az információ terjedéseA forradalmak és egyéb társadalmi jelenségek okait szeretjük egy-egy dologgal magyarázni. Ezek közül általában a legkézenfekvőbb a gazdaság. De elkülöníthetjük-e a gazdaságot a politikától? A politika független a kultúrától?    Polányi Károly elemezte először a különböző területek egymásba ágyazottságát, amit később Mark Granovetter fejlesztett tovább. Granovetter a közgazdaságtan elszigetelt, individualista homo economicus-a és a szociológia "túlszocializált", a társadalmi környezet által meghatározott egyénfelfogása helyett egy középutas megoldást javasolt Economic Action and Social Structure: The Problem of Embeddedness című tanulmányában, amit a társadalmi hálózatokban talált meg. Ez nem annyira meglepő egy hálózatkutatótól, de ha jobban szemügyre vesszük elméleteit, látható miért is gondolta ezt.Granovetter ún. küszöbérték modellje (amit Threshold Models of Collective Behavior c. tanulmányában mutat be) formálisan írja le miképp terjednek el bizonyos jelenségek (pl. pletyka, divat, vagy éppen a forradalmi eszmék és cselekvések) a társadalomban. A modell szerint mindenki bizonyos küszöbértékkel bír. Pl. vannak akik újítók és maguktól kezdenek el hordani egy vicces sapkát, mások rögtön követik őket, a többség csak akkor veszi meg a sapkát ha már sok emberen látta és így tovább. Ahogy a lenti ábra is szemlélteti, egy jelenség így először nagyon lassan terjed, majd egy ponton megugrik és hirtelen eléri azt az értéket, amikor a többség is követi a trendet, majd egy idő után nagyon lassan fejlődik tovább a trend. Persze ez a modell sem magyarázza meg azt, hogy miért alakulnak ki a forradalmi eszmék, de Marx mennyiségek minőségbe történő átcsapásáról szóló gondolatánál sokkal egzaktabb, formális rendszerben ír le egy jelenséget. De miképp terjed az információ a közösségen belül? Erre kísérek meg válaszolni Granovetter ún. gyenge kapcsolatok (weak ties) elmélete (amit The Strength of Weak Ties tanulmányában fektett le). Egy embernek általában sok kapcsolata van, ezek között egyesek erősebbek (pl. család, barátok, szomszédok stb.) mások gyengébbek. Kitől szoktunk új információkat hallani; azoktól akikkel szoros kapcsolatot ápolunk vagy azoktól akikkel gyenge kapcsolatban állunk? Egy találkozás egy rég nem látott volt osztálytárssal vagy szomszéddal gyakran beindítja a pletykát és hirtelen sok mindent megtudunk hajdani barátokról, ismerősökről.     Granovetter empirikus vizsgálataiban kimutatta, hogy a gyenge kapcsolatoknak sokkal nagyobb szerepe van, mint az erőseknek, mivel rajtuk keresztül sokkal több információ áramlik. Ez kontraintuitív, hiszen azt gondoljuk az informális álláskeresésben az erős szálak fontosak. De hasonló következtetéseket vontak le az innováció terjedését vizsgálva is.Tömegkommunikáció és a mobil hatása 2004 novembere és 2005 decembere között lezajlott Ukrán narancsos forradalom még nem használta a közösségi oldalakat, de erősen támaszkodott az olyan web 2.0 eszközökre, mint a blogok és az online sajtó kommentjei. Legalább ilyen fontos volt, hogy a résztvevők zsebében ott lapult egy mobiltelefon. De mire is használták ezeket az eszközöket?Minden protest mozgalom két kulcsfontosságú területre koncentrál, szeretne minél több embert megnyerni és csatlakozásra bírni és egyben koordinálnia kell a már csatlakozott tagok akcióit. Az ukrán forradalom során általánosságban elmondható, hogy a nyilvános internetes tartalmak a propaganda, a mobilkommunikáció inkább a koordináció eszközei voltak. (Érdemes elolvasni a The Role of Digital Networked Technologies in the Ukrainian Orange Revolution c. tanulmányt evvel kapcsolatban.)Koordináció vagy propaganda?   Jevgenyi Morozov viccesen jegyzi meg egy írásában, hogy a nyilvános interneten tervezni egy forradalmat hülyeség, hiszen a hatalom emberei is ugyanazokat a forrásokat olvassák (The Net Delusion című könyvében külön fejezetet szentel ennek Why the KGB Wants You to Join Facebook címmel). A 2009-es moldovai twitter forradalom sem kivétel ez alól. Az internetet elárasztották a különféle irományok, de ezek szerepe a propaganda volt, nem pedig a koordináció. Mivel a tiltakozók gyülekezési helyén erősen korlátoztatták a mobiltelefonok használatát, akadozott a résztvevők koordinációja és egyesek ebben látják annak okát is, hogy kaotikus állapotok alakultak ki (Bővebben l. More analysis of Twitter's role in Moldova). Morozov szerint Twitter helyett hangszórókra volt inkább szüksége a szervezőknek.   A moldáv Twitter felhasználók száma Morozov kutatása alapján kb. 70 volt 2009-ben. Mivel azonban Romániában különös figyelemmel kísérték az eseményeket és jelentős számú moldáv diaszpóra él szerte a világban, a tüntetésekről szóló beszámolók jelentős visszhangot kaptak a csiripelők között. Ebből arra következtethetünk, hogy a Twitter és a közösségi média szerepe elsősorban a propaganda. Ezt támasztja alá a Guardian és az LSE vizsgálata a londoni zavargások kapcsán is, ahol a koordináció eszköze a mobil volt.     The Revolution Will Be Tweeted A 2010 decemberében indult elégedetlenségi hullám 2011 tavaszára csúcsosodott ki az "arab tavaszban" és jelentős változásokat indukáltak az arab világban. Hiába próbálkoztak az elnyomó rezsimek a mobilkommunikáció és az internet részleges vagy teljes korlátozásával, a hírek megállíthatatlanul eljutottak a világ minden tájára. Maxim Tsvetovat hálózatkutató és kollégái a DeepMile Networks-nél ekkor úgy érezték, elérkezett az idő hogy Granovetter elméleteit a Twitteren is teszteljék. A továbbiakban ezt ismertetjük Tsvetovat és Kouznetsov Social Network Analysis for Startups című könyvének első fejezete alapján.A Twitter aszinkron közösségi háló. Alapbeállítások mellett nem kell a másik fél jóváhagyása, hogy "kövessük", de ez azt is jelenti, hogy a viszony nem kölcsönös, azaz nem köteles minket visszakövetni a másik. A Facebook-kal ellentétben a fiókok többsége nyilvános, tehát nem kell személyes ismeretség a kapcsolatok között. 2011 május 1-jén Sohaib Athar (@ReallyVirtual) abbottabadi informatikus az alábbi tweeteket tette közzé pár ezer követőjének: Helicopter hovering above Abbottabad at 1AM (is a rare event). — Sohaib Athar (@ReallyVirtual) May 1, 2011 A huge window shaking bang here in Abbottabad Cantt. I hope its not the start of something nasty :-S — Sohaib Athar (@ReallyVirtual) May 1, 2011   Mint utóbb kiderült, ő közvetítette az Osamára bírt amerikai csapást:   Uh oh, now I'm the guy who liveblogged the Osama raid without knowing it. — Sohaib Athar (@ReallyVirtual) May 2, 2011 A Tweetek nagyon gyorsan elterjedtek, pedig a @ReallyVirtual ekkor még a mai 63 ezernél nagyságrendekkel kevesebb követővel rendelkezett. Az egyiptomi forradalom során is hasonló módon egy akkor még átlagos követőszámmal bíró csiripelő, Wael Ghonim tweet-jei kapták a legtöbb újramegosztást (retweet). @Ghonim ekkor 80.000 követővel rendelkezett és minden tweetjére átlagosan 3200 reakció (retweet, említés, válasz) érkezett. Ugyanekkor Justin Bieber 7.5 millió követője 300 reakciót produkált a tinisztár egy-egy csiripelésére. Ezt szemlélteti Tsvetovat alábbi ábrája.     Ghonim követői gyenge kapcsolatok "sűrű" hálózatába szerveződnek, még Bieber hívei között még a gyenge kapcsolatok száma is gyenge. A kutatók ebből azt a következtetést vonták le, hogy Granovetter elmélete a közösségi médiára is alkalmazható; a gyenge kapcsolatok több információt közvetítenek, hiszen ezeken keresztül kerülhet be a "körön kívüli" információ. Minél sűrűbb ezeknek a kapcsolatoknak a hálózata, annál gyorsabban tud terjedni és lépi át egyre több ember küszöbértékét. Mi ebből a tanulság? A Twitter forradalmakról megállapíthatjuk, a propaganda eszközéről kapták nevüket. A közösségi média megkönnyíti az információ áramlását mivel sok lazán kapcsolódó sűrű hálózat alakul ki rajta. Ha szeretnénk, hogy az általunk közölni kívánt információ sok emberhez eljusson, érdemes kikutatni az erre legalkalmasabb utakat. Viszont ha koordinációra is szükségünk van, azaz valamilyen cselekvésre is szeretnénk rávenni a hálózat tagjait, akkor más eszközökre is szükségünk lesz. A Twitter mint propagandaeszköz mellett egyre elterjedtebbek az online közvetítést lehetővé tévő streaming szolgáltatások mint pl. a UStream és a jövőben érdemes lesz ezek szerepét is vizsgálni ilyen szemszögből. Addig is ajánljuk Kiss Dániel inkLink előadását, amiben szó esett arról, kik és hogyan használták a UStream-et hasonló helyzetekben.   Video streaming by Ustream   Összességében elmondható, hogy a közösségi média remek terep arra, hogy teszteljük elméleteinket, de nem helyettesíti az alapos kutatói és elemzői munkát.


2013. május 13. 8:00

Amikor egy adathibán nemzetek sorsa múlhat...

Az ún. evidence-based policy, azaz az evidencia alapú politikacsinálás egyre nagyobb teret hódít. A big data-nak köszönhetően már nem csak közszférában, hanem a vállalatirányításban is megjelent ez az irányzat. Míg a vállalatok esetében érthető, hogy nem teszik közkinccsé adataikat, a súlyos politikai döntéseket megalapozó kutatásokkal szemben ez alapvető elvárás kellene hogy legyen. Reinhart és Rogoff Growth in a Time of Debt tanulmányát az Egyesült Államokban és az EU-ban is előszerettel lobogtatták a szigorú megszorítások hívei, de Herndon, Ash és Pollin kimutatta, hogy komoly gondok vannak a vizsgálódás során használt táblázattal. Az inkriminált tanulmány szerint az országoknak ügyelniük kell arra, hogy a GDP-hez viszonyított államadósságuk szintje ne haladja meg a kritikus 90%-ot. Ez az az határérték, melyet átlépve a gazdasági növekedés drámaian lecsökken. A The Economist összefoglalója szerint azonban:  A coding error in their Excel spreadsheet sliced several countries out of the data set. Several critical years of post-war data from New Zealand were left out, thereby omitting a time in which both its debt level and growth rate were high. And the authors reckon the Reinhart-Rogoff method of calculating average growth gave outsize weight to unrepresentative data points (including one year of abysmal New Zealand data). Taken together, the authors of the new paper reckon that average post-war growth above the 90% threshold ought to have been reported at 2.2% rather than -0.1% Ennek tükrében jelentősen módosulnak az adatok. A The Economist ábrája remekül szemlélteti a "régi" és az "új" eredményeket.     Az eset alaposan felkavarta a kutatókat szerte a világban. Az Open Knowledge Foundation felhívta a figyelmet a nyílt adatok szükségességére a tudományban (és a tudományos eredményekre alapozott politikacsinálásban). De vannak akik szerint a nyílt tudomány felé tett lépések ellenére az ilyen hibák lehetősége "benne van a rendszerben" és a tudomány művelése során elkerülhetetlenek.


2013. május 10. 8:00

Nyári szakmai gyakorlati lehetőség a Precognox-nál

Kaposváron működő, innovatív informatikai fejlesztő cégünk szívesen biztosít gyakorlati helyet érdeklődő, környékbeli, elsősorban Óbudai Egyetem vagy BME mérnök informatikus, illetve ELTE programtervező informatikus hallgatók számára. A legjobban teljesítőknek hosszú távú munkalehetőséget biztosítunk. Ha érdekel a lehetőség, már sikeresen túl leszel legalább négy féléven, és legalább 4 hétre tudsz jönni, bátran jelentkezz online.


2013. május 9. 8:00

Szezonzáró NLP Meetup

Május 22-én tartjuk szezonzáró meetupunkat 18 órától a Colabs-ben (Budapest, Irányi út 3). A részvétel ingyenes, de előzetes regisztrációhoz kötött.  Neticle Technologies - Méltányosság Politikaelemző Központ: Politikai véleményárfolyamA Méltányosság Politikaelemző Központ és a Neticle Technologies egy itthon egyedülálló kutatást indított útjára, amely innovatív módszerekkel eddig ismeretlen szemszögből láttatja a hazai politikai folyamatokat. A Neticle Technologies saját fejlesztésű webes szöveganalízisére építve az MPK a fő politikai manőverek, taktikai lépések és a véleményalkotás összefüggéseire fókuszáló elemzéseket készít. Az elemzés nem csupán az internetes szféra véleményreflexióira világít rá, hanem feltárja a háttérben meghúzódó ok-okozati kapcsolatokat is. A májusi NLP meetupon az április havi történéseket vesszük górcső alá. (Az előadás elején kitérünk a módszertani kérdésekre is.) Korábbi elemzések: 2013. február: http://meltanyossag.hu/node/3233 2013. március: http://meltanyossag.hu/node/3268 Méltányosság Politikaelemző Központ A Méltányosság Politikaelemző Központ Magyarország első specifikus, a társadalmi és a politikai kohézió kutatására szakosodott agytrösztje, amely megőrzi és új tematikájában is alkalmazza a cég méltányos és elfogulatlan szemléletmódját.Agytrösztünk a politikában megszüntethetetlennek látja a konfliktust, nélkülözhetetlennek a konszenzust és pótolhatatlannak a kohéziót. E három fogalom mind alaposabb tudományos jellegű feltárására, egymáshoz való viszonyuk bemutatására, és az akadémiai jellegű kutatómunka mellett egy Magyarországon merőben újszerű kohéziós stratégia kimunkálása érdekében tevékenykedünk. Netice Technologies A Neticle-t egy fiatal szakértői csapat hozta létre azzal a céllal, hogy a jelenleg elérhető közösségi média és online sajtófigyelési szolgáltatásokon túlmutató támogatást kínáljon. Ennek eredménye egy olyan rendszer, ami közel valós időben, a webes véleményárfolyam kiszámításával tudja követni, hogy mi a véleménye a magyar webnek egy cégről, termékről, szolgáltatásról, vagy akár a versenytársakról.  Petykó Márton: Mit mond kognitív nyelvészet a blogokról?Előadásomban bemutatom, hogy hogyan értelmezhető a diskurzustípus és a műfaj fogalma a kognitív pragmatika elméleti keretében. Ezt követően az előbbi fogalomértelmezéseket a gyakorlatban is alkalmazom a számítógép közvetítette kommunikáció egyik jellegzetes műfajának, a blognak a vizsgálata során. Áttekintem, hogy a blogok esetében melyek azok a műfaji jellemzők, amelyek minden példányra érvényesek, és melyek azok, amelyek a példányoknak csak egy bizonyos részére. Végül szót ejtek a spontán írott nyelv és a tervezett írott nyelv fogalmáról, valamint alkalmazhatóságáról a blog két megnyilatkozástípusának: a posztnak és a kommentnek a jellemzése során. Petykó Márton az ELTE BTK Magyar nyelv és irodalom szakának végzős hallgatója beszédtudomány szakirányon. Emellett az MTA Nyelvtudományi Intézet Szótári Osztályának tudományos ügyintézője. Fő érdeklődési területe a számítógép közvetítette kommunikáció, valamint a nyelvhasználat és az identitásképzés viszonyának kognitív pragmatikai vizsgálata. Tempfli Péter: Social media monitoring - Néhány gyakorlati kérdésAz prezentáció bemutat néhány, a közösségi média figyelés napi gyakorlatában felmerülő problémát. Szólok az adatok megkereséséről és begyüjtéséről, a releváns kérdések megfogalmazásáról és az eredmények bemutatásáról. Szó fog esni arról, mit lehet és mit nem lehet mérni, illetve arról is, mikor érdemes mérni, mikor pedig más technikát választani. Végül, röviden bemutatom a Replise rendszert. Tempfli Péter az ELTE BTK orosz szakán végzett, jelenleg a Budapest Corvinus Egyetem gazdasági informatika szakos hallgatója. Szociális méda elemző a Replise-nél, magyar, lengyel és orosz piacokkal foglalkozik.


2013. május 7. 12:00

House of Cards - tartalom és big data

A tartalomgyártásban már régóta jelen van a fogyasztói viselkedés és igény mérése. A szórakoztató lapok vetették be először a kérdőívezést, de ma már a komoly lapok is rendre végeznek felméréseket, hogy megismerjék olvasóikat. Míg az eladási statisztikák utólag árulnak el sokat a tartalomról, addig ezek a felmérések segítenek abban, hogy a fogyasztók számára kívánatosabb legyen a termék. A Netflix House of Cards sorozata azonban új szintre helyezte az ilyen felméréseket. A The Hufftington Post az első olyan híroldal, ami intenzíven használja az A/B tesztelést arra, hogy megállapítsa mely címek és leader szövegek keltik fel jobban az olvasók érdeklődését. Az eljárás az utóbbi időben annyira elfogadottá vált, hogy olyan népszerű blog motorokhoz mint pl. a Wordpress is megjelentek az ezt lehetővé tevő bővítmények. A New York Times nemrég jelentette be, hogy szerkesztőségi analitikai csoportot állít fel. A csoport célja, hogy a szerkesztőségnek segítsen jobban megérteni kik és hogyan fogyasztják a lapot, tehát, hogy hatással legyenek a tartalomra. A Netflix tkp. egy online videótéka, csak éppen nem kikölcsönözik, hanem ún. streaming formájában, folyamatos internet kapcsolat mellett tekinthetik meg ügyfelei a filmeket. A cég így rengeteg adatot gyűjthet a felhasználókról; a megtekintés ideje, a megszakítások gyakorisága, hol hagynak abba egy filmet, hogyan néznek sorozatot az egyes korosztályok, mely témák érdekesek stb. Ennek szolgálatában a Netflix egy nagyon komoly analitikai architektúrát épített ki (a technológia iránt érdeklődők erről bővebben is olvashatnak itt). A Netflix ezen adatokra alapozva vágott saját tartalom gyártásába. A lépés logikusnak tűnik, hiszen a cég alaposan ismeri saját piacát és költséghatékony megoldás kikerülni a televíziós és mozis piacot megcélzó gyártókat. Az irányt az Amazon is igyekszik követni. A nézők ezzel biztosan nyernek, hiszen a szolgáltatók szeretnék az ízlésüket minél jobban kiszolgálni. Kérdés mennyi tere marad így a kísérletező, újító alkotásoknak. (A Kontent blogon bővebben is olvashatsz a Netflix új sorozatáról és a big data alkalmazásáról.)


2013. május 3. 12:00

Gráfra fel - BarCamp előadás

Tegnap a Web 2.0 Symposium - BarCamp konferencián adtam elő Gráfra fel! címmel, arról hogyan változtatják meg a közösségi média legújabb fejlesztései a (mobil) keresést. Gráfra fe barcamp_2013 from Zoltan Varju A beágyazott videók sajnos nem érhetők el a slideshare-en, ezért érdemes a prezentációt letölteni ezen a linken. Az előadásban említett témákról az alábbi anyagokban többet is megtudhatsz: Facebook Graph Search (Kerső Világ poszt) Yandex Wonder - ami a Facebook Graph Search szeretne lenni (Kereső Világ poszt) Google Knowledge Graph (Kereső Világ poszt) E-kereskedelem (Kereső Világ poszt a Hunch taste graphról, a Walmart és az eBay fejlesztéseiről) Interview with Hugo Liu taste researcher (A Hunch alapítójával a Számítógépes nyelvészet készített interjút) Google Now - a gondolatolvasó (Kereső Világ poszt) Giant Global Graph (Tim Berners-Lee írása) Giant Global Graph (Wikipedia szócikk)


2013. május 2. 8:00

Gépkocsiba be!

Miközben mindenki arra tippel, mikor jelenik meg az Apple az autóiparban valahogy, a Nuance és a Google már öles léptekkel halad az úton. Ahogy arról már beszámoltunk, a Nuance megállapodott a Spotify-al és a Ford-dal és az autórádiók új generációját hozza hamarosan kereskedelmi forgalomban. A Google pedig a Volskwagen-nel működik együtt. A Smileage az autózás élményét szeretné vegyíteni a közösségi média (jelen esetben a Google+) lehetőségeivel. Hogy mennyire jó ötlet a telefon használatára ösztönözni a vezetőket, azt döntse el mindenki saját maga. Az is lehet, hogy a kereső óriás már a jövőre gondol, amikor önvezérlő autóiban valamivel el kell majd ütnie az időt az utasoknak. Az autonóm autók, igaz még szigorú szabályok által kötve, kísérleti jelleggel már megjelentek az Egyesült Államok útjain. A Google által támogatott Udacity egyik kurzusán pedig betekintést nyerhetünk a technológia alapjaiba is. Hogy mikor vezethetünk ilyen csoda autókat, azt még az iparági szakértők sem tudják megmondani. A The Economist gépjárműipari melléklete szerint 2020 és 2040 között kerülhet sor a tömeggyártás beindítására. Azonban a technológia bizonyos elemeivel már ma is találkozhatunk a mindennapokban. Ilyen pl. a Ford vezetési asszisztense. European buyers of the Ford Focus, a mid-sized car, can now leave it to drive itself and maintain a safe distance in steady traffic. The car can measure a parking space and steer itself into it. It reads road signs and admonishes the driver if he breaks the speed limit. Such gadgetry also increasingly makes decisions on the driver’s behalf and overrules him in an emergency, for instance, braking to avoid a crash. (Forrás) A mobil technológia lehetőséget ad a telemetrikus (az autó műszaki állápotát, földrajzi helyzetét, sebességét stb. jellemző adatok) adatok figyelésére és megosztására. Sőt, a forgalomban lévő autók egymással is tudnak kommunikálni, elkerülve ezzel az emberek okozta veszélyes helyzeteket. From next year cars sold by GM in the United States and Canada will come with fast 4G mobile broadband. Improved connections will also make it possible for cars to send hazard warnings to each other, to receive a constant stream of information on the traffic and weather ahead and even to interact with signals as they approach junctions.(Forrás)  A Nuance egyre nagyobb hangsúlyt fektet az autóiparra. A mobil kommunikációs eszközök hangvezérlése csupán egy szelete ennek. Az AutoNavi-val - Kína egyik vezető navigációs rendszer fejlesztője és elektronikus térkép szolgáltatója - kötött megállapodása jelzi, hogy a navigáció is egyre hangsúlyosabban jelenik meg a cég stratégiájában. A különféle gyártókkal kötött megállapodásokban általában a kényelmi funkciók hangvezérléséses irányítása szerepel, de a BMW tulajdonosok a hangvezérléses SMS küldést is választhatják opciónak. További információkat a cég autóipari oldalán találhatnak olvasóink. A vezetés egyike azon kevés területnek, ahol természetesebbnek érezzük a hangvezérlést. Az asszisztív technológiák és az autonóm vezérlés is komplex, de egyszerűen kivitelezhető interakciót követel meg, amire a beszéd a legjobb. A jelenleg futó fejlesztések egy része még alapvetően kísérleti és nem tudjuk mikor kerülhetnek ezek felhasználásra. De reméljük nem kell túl sokáig várnunk és hamarosan mi is tesztelhetjük a technológia újdonságait!


2013. április 30. 12:00

LinkedIn: több tartalom, jobb kereső

A Facebook Graph Search keresőjét hatalmas médiazaj kísérte, annak ellenére, hogy jelenleg inkább ígéret mint ütős alkalmazás. Mindeközben a LinkedIn halkan megújította keresőjét és lépéseket tett a tartalomipar irányába is. Most, hogy a Google bejelentette a Reader bezárását, egyre többen gondolkodnak el azon, hogyan is fogyasztunk híreket. Az egyik legkézenfekvőbb a közösségi média használata; azt olvassuk, amit ismerőseink megosztanak velünk. Az olyan startupok mint a Wavii és a Prismatic ezt kihasználva állítanak elő személyre szabott hírfolyamot. Mielőtt temetni kezdenénk a sajtót, vegyük észre, hogy a közösségi hírfolyam minősége nagyban függ attól, hogy akadnak-e olyan ismerőseink, akik olvasnak értelmes tartalmakat és veszik a fáradtságot arra, hogy ezt megosszák velünk. Az ilyen kemény fogyasztók nélkül félő, hogy cuki cicákról, kutyákról és babákról szólna minden megosztás... Persze a LinkedIn nem az a hely, ahol a haverokkal és rég nem látott ismerősökkel tartjuk a kapcsolatot. Ott, ahol szakmai életünket éljük, nincs helye a vicces fotóknak és bulvárhíreknek. A LinkedIn Today erre érzett rá és a releváns szakmai híreket összegyűjtve kínál nekünk olvasnivalót. Nem vagyunk rászorulva egy hírmániás ismerősre ahhoz, hogy releváns tartalmakat kapjunk. A Thought Leaders (vezető gondolkodók) lehetőséget ad arra, hogy egy-egy téma szakértőjének írásait is kövessük. (Érdemes a Médiablog írását elolvasni a LinkedIn saját tartalomgyártásáról.)  A Pulse hírolvasó alkalmazás megvásárlásával a LinkedIn okosan kikerüli egy másik fél megjelenését saját platformján. A LinkedIn-en található szakmai profilok jó alapot jelentenek egy ajánlórendszernek. Mivel egy szakmai közösségen belül általában releváns híreket illik megosztani, itt nem merül fel az időtöltésből posztolt tartalmak problémája sem. Az akvizícióval olyan funkcióval bővült a cég, amit ma már elvárnak a felhasználók, ugyanakkor sikerült ezt szervesen illeszteni a meglévő tartalomgyártáshoz és közösségi funkciókhoz. A funkciók bővülése egyben a kezelőfelület komplexitását is növelte. A LinkedIn ma már nem csak egy szakmai közösségi oldal, hanem egyben információs portál is. Aki intenzíven használja a felületet, az egyre inkább elveszik a rázúduló információtól. Ezért kellett megújítani a LinkedIn keresőjét is. Smarter LinkedIn Search from LinkedIn A kereső egységesített lett, nem kell külön beállítani, hogy személyre, cégre vagy álláshirdetésre keresünk. Egy keresődobozba írjuk be a keresett kifejezést, majd az eredmények között végezhetünk egyszerűen szűréseket. Ezek mellett, olyan funkciók is megjelentek, melyek joggal elvárhatóak egy modern keresőtől: automatikus kiegészítés - a kereső kifejezés begépelése közben felkínált kiegészítési lehetőségek keresési ajánlások - a találati oldalon kapcsolódó keresések ajánlása keresési szándék megértése - a rendszer az oldalon folytatott tevékenységünket tárolja, ez alapján megpróbálja egyértelműsíteni a kereséseket is (pl. ha valaki IT területen dolgozik és "project manager" kifejezésre keres rá, akkor a szakterülethez kapcsolódó projekt menedzseri állások előrébb rangsorolódnak) haladó keresési funkció - jobban átlátható és kezelhető haladó funkciók figyelmeztetések - a Google Alerts-hez hasonlóan egyes kereső kifejezéseket automatikusan monitoroz a rendszer és figyelmeztetést küld nekünk az új tartalmakról rendszeres időközönként Az utóbbi időben egyre inkább teret nyer az a nézet, hogy a minőségi tartalom elengedhetetlen a felhasználók megszerzéséhez és megtartásához. A LinkedIn nem bízza a véletlenre és a felhasználókra a tartalom kialakítását, de teret enged a közösségi média lehetőségeinek. Persze a szakmai közösségi háló helyzeti előnyben is van, hiszen egyfajta enyhe nyomás nehezedik a felhasználókra, hogy ne osszanak meg olyan tartalmakat, melyek személyesek vagy nem relevánsak. Ugyanakkor a cég aktívan keresi a felhasználók igényeinek kiszolgálását és egyben alakítását is az üzleti modell szellemében. Reméljük a minőségi tartalomnak ebben tényleg nagy szerepe van és a LinkedIn követőkre talál.


2013. április 29. 12:01

A Google felvásárolta a Wavii-t

A Goolge sokáig próbálkozott, mire végül a Plus-szal nehezen, de betört a közösségi médiába. Ma már a Plus a Facebook mögött a második leglátogatottabb közösségi oldal, megelőzve ezzel a Twitter-t. A napokban a kereső óriás 30 millió dollárért felvásárolta a közösségi híraggregátor Wavii-t. A Google Reader hamarosan bezér, de a jelek szerint nem maradunk hírolvasó nélkül.  A dolog pikantériája, hogy a Wavii a Facebook hírfolyamokra alapozva generált személyre szabott hírfolyamot. Az akvizíció után az alkalmazás elérhetetlenné vált, akit érdekel miképp nézett ki, annak ajánljuk korábbi ismertetőnket. Úgy tűnik, a közösségi hírolvasók mostanában kelendő portékák, a LinkedIn is a napokban vásárolta fel a Pulse-t.


2013. április 25. 8:00

Milyen is az internet nyelve?

Előző posztunkban arra kerestük a választ, milyen határai vannak egy internetes tartalmak elemzésére alapozott vizsgálatnak. Andrea nevű levélírónkat az érdekli, hogy az interneten megjelenő szövegek mennyire alkalmasak elemzésre. Mennyire alkalmas az internetes nyelv arra, hogy azt elemezve következtetéseket vonjunk le? Egyrészt a tartalmak színvonala nagyon vegyes, a szépen, igényesen megírt elemző írások mellett ott van a sok igénytelen, nyelvileg primitív blogposzt, Facebook és Twitter "status update" stb. Nem kapunk így torz képet? A pletyka, a sok tartalmatlan csevegés és időtöltésből írt szöveg nem veszi el a figyelmet a komoly tartalmaktól? A nyelvészektől gyakran kérdezik meg, hogy mondunk valamit helyesen. Ennél nagyobb tévedést nem követhet el senki! A nyelvészek nem írják elő hogyan kell beszélni vagy írni! Egy fizikus nem írja elő miképp gyorsuljanak a szabadon eső testek, hanem megfigyeléseket és kísérleteket végez, majd olyan elméletet alkot ami leírja és megmagyarázza a látottakat, tovább előrejelzésket tesz. A nyelvészet is tudomány, s így egy nyelvész a fizikusokhoz hasonlóan megfigyel és elméletet alkot. A tudomány deskriptív, azaz leíró, nem pedig preskriptív azaz előíró. A témában érdemes a Nyelv és Tudomány Kálmán Lászlóval és Kis Tamással készített interjúit elolvasni. Érdemes elgondolkodni azon, hogy a közösségi média megjelenése "torzítja"-e a megjelenő tartalmakat. Az emberiséget történelme során egy dolog biztosan jellemezte, beszélt. Az írás viszonylag késői invenció, hiszen a modern ember kb. 200 000 éve alakult ki, az írás csak i.e. 3200 táján jelent meg Mezopotámiában, de a 19. századi kötelező iskolai oktatás eltrejedéséig igazán nem terjedt túl egy szűk elit határain. McLuhan szerint a nyomtatás megjelenése radikális változásokat indított be, a nyomtatott könyv szélesebb réteg számára is elérhetővé tette a szépen megformált szövegek világát, kialakult az írásos, individualizált, tudományos, felivlágosult nyugati kultúra. De pont ez a kultúra hozta el a tömegkommunikáció korát, amiben a távolságok eltűntek, a kommunikáció felgyorsult, ma már a felvilágosodásra jellemző emelkedett tudományos levelek eltűntek, ezek helyett csevegünk, akár a világ tulsó felén élő ismerősökkel (vagy ismeretlenekkel). A tömegkommunikáció, habár alapvetően írásos formában zajlik az interneten, alapvetően más, mint a nyomtatott szöveg. Ong (aki McLuhan tanítványa volt) vezette be a másodlagos oralitás fogalmát ennek leírására. A kommunikáció hiába írásos, alapvetően a beszélt nyelv jellemzőivel rendelkezik, azaz spontán, folyamatos, s így telis tele van "hibákkal". Fontos megjegyezni, hogy a másodlagos jelző nem hordoz értékítéletet, csupán arra utal, hogy a beszélt nyelvet más közegben alkalmazzuk, ami nem a természetes adottságunk (szemben a spontán beszéddel, azaz az elsődleges használattal). A szakirodalomban nincs megegyezés arról, hány százaléka spontán beszéd, vagy másodlagos oralitás a mindennapi nyelvhasználatnak és mekkora a formális szövegek alkotásának és fogyasztásának aránya. Abban viszont egyetértés mutatkozik, hogy nagyságrendekkel nagyobb a spontán nyelvhasználat aránya. Ha a nyelven keresztül vizsgáljuk az emberi viselkedést, akkor bizonyosan nagy hiba kihagyni ennek legelemibb és leggyakoribb megnyilatkozásait. De tartalmukban mit árulhatnak el ezek?  A szociolingvisztika (a nyelvészet azon ága, mely a nyelvet társadalmi vonatkozásaival együtt vizsgálja) megerősít minket abban, hogy még a jelentéktelennek tartott megnyilatkozások mögött is érdekes jelenségek bújhatnak meg. Bourdieu mutatta ki, hogy a nyelvi megnyilatkozásokban megmutatkoznak a társadalmi folyamatok. A politikai, gazdasági és kultúrális hatások minden szinten leképeződnek, nem csak az értelmiség és a média nyelvhasználatában. Összeségében tehát elmondhatjuk, ha több forrást is vizsgálunk, azzal nem rosszabb, hanem jobb képet kaphatunk. A problémát nem a nyelvi adatok reprezentativitása jelenti, hanem a jelenleg rendelkezésünkre álló módszerek határai, melyről következő írásunkban fogunk pár szót ejteni.


2013. április 23. 12:00

Párhuzamos világok - az online vizsgálódások határai

A társadalomtudományokkal foglalkozó posztjaink kapcsán (első és második rész) olvasóinkban felmerült pár kérdés, ezekből kettő tipikus levelet kiválasztottunk és két részben igyekszünk megválaszolni a héten. Sarolta nevű levélírónk kérdésével kezdjük: Mennyire tekinthető valid következtetéseknek azok, amelyekhez online vizsgálatok során jutunk? Például a blogotokon is bemutatott Neticle BUX-indexet vizsgálva egész jó eredményeket hoz, de mennyire tekinthető reprezentatívnak pl a politikai véleményárfolyam indexük? És ha tovább megyek, mennyire tekinthető reprezentatívnak a posztotokban bemutatott arab tavaszt vizsgáló kutatás? Rövid válaszunk az lenne, hogy jó okunk van azt feltételezni, hogy bizonyos mértékben az online világ leképezi a valóságot. Ezt nem csak azért mondjuk mert emberek kreálják az internetes tartalmakat, hanem mert sokszor figyelhetjük meg, hogy bizonyos jelenségek együtt járnak. Az együttes előfordulás azonban csak közvetett bizonyíték, ezért minden kutatást egészséges szkepticizmussal kell fogadni. A levélben említett Neticle a webes tartalmak polaritását méri, azaz senitment elemzést (sentiment analysis) végez. Ehhez a közösségi média bejegyzéseit, újságcikkeket, blogposztokat stb. vizsgál végig automatikusan, melynek az eredménye egy szám, ami kifejezi hogy az összes bejegyzés alapján mennyire pozitív vagy negatív az interneten megjelenő vélemény egy-egy témában (ami lehet a BUX-indexben szereplő cégek listája, egy étterem, egy politikus, egy cég stb.) Ahogy az alábbi videón is látható, a tőzsdeindex szépen együtt mozog a véleményárfolyammal. Habár nem közöltek korrelációs értéket, az ábrákon látható hogy az minden bizonnyal magas lehet. De még ekkor is joggal mondhatjuk, a korreláció még nem jelent oksági kapcsolatot (correlation is not causation). Video streaming by Ustream A társadalomtudományokban nagyon nehéz erős oksági kapcsolatot találni. A különféle felmérések esetében szoktuk hallani, hogy "reprezentatív mintán" végezték el az adatfelvételt és bizonyos "hibahatáron belül" kell érteni a kapott eredményeket. Internetes kérőívezés esetén szokás felhívni a figyelmet arra, hogy az internetezők demográfiai adatai jelentősen eltérnek a teljes népesség jellemzőitől (pl. kevés nyugdíjas netezik, talán még kevesebb tölt ki online kérdőíveket is). A tartalomelemzések kapcsán is érdemes figyelembe venni ezeket a tényezőket és óvatosan kezelni a levont következtetéseket. Ugyanakkor nem mehetünk el a tény mellett, hogy sok esetben a társadalomban megfigyelt jelenségekkel analóg folyamatok figyelhetők meg az online világban is. Idő és hely szűkében három példára, a filter bubble jelenségre, az internetes divat terjedésére és közösségi gráfokra szorítkozunk most. Blogunkon már többször foglalkoztunk a filter bubble jelenséggel. A közösségi média megjelenésével egyre inkább perszonalizálhatjuk a webet. A Facebook nyomon követi milyen tartalmak érdekelnek minket és azokat sokkal nagyobb valószínűséggel jeleníti meg hírfolyamunkban, a Google "emlékszik" keresési előzményeinkre és azok alapján szolgálja fel nekünk a találatokat. A "plusszolásokkal" és lájkokkal ezt tovább erősítjük és személyes preferenciáinkkal egy olyan burkot alakíthatunk ki magunk körül, melyen nem juthat át egy nekünk nem tetsző vélemény. Eli Pariser szerint ez ahhoz vezet, hogy pl. egy liberális előbb-utóbb nem értesül a konzervatív véleményekről egy-egy ügy kapcsán.  Thomas Schelling mutatott rá, hogy egy még akkor is előfordul bizonyos szegregáció a társadalomban, ha amúgy minden polgár az egyenjogúság híve. Ha mindenki véletlenszerűen választ lakhelyet, akkor vegyes képet kapunk (a fenti ábra baloldala mutatja ezt a helyzetet). Ha véletlenszerűen kiválasztunk néhány lakót és megcseréljük a helyzetüket, már az is ahhoz vezet, hogy homogén szigetek keletkeznek (az ábra jobboldala mutatja ezt a helyzetet). Ha csak egy kicsit változtatunk a kiindulási feltételeken és csak annyit mondunk, hogy a hasonló lakók a hozzájuk hasonló szomszédokat preferálják egy kicsit jobban, már akkor jelentősen megugrik a szegregáció. Bill Bishop The Big Sort című könyvében mutatja be, hogy az Egyesült Államokban egyfajta politikai szegregáció zajlik le és politikai nézetek szerint egyre homogénebb területek alakulnak ki (l. a bekezdés utáni ábrákat). Ez a folyamat nem csak az Új- hanem az Óvilágra is jellemző (l. pl. a The Economist cikkét az Egyesült Királyságban zajló hasonló folyamatokról) A közösségi média elemzése során talán a legtöbbet idézett (és a leggyakrabban újra felfedezett) matematikai szociológus Mark Granovetter. Thresold Models of Collective Behavior (A kollektív cselekvés küszöbérték modelljei) című 1978-as tanulmányában arra kereste a választ, hogy mikor ér el egy adott viselkedési forma olyan kritikus tömeget egy közösségben, ami már visszavonhatatlan változásokat generál. Pl. egy tüntetési hullám mikor csaphat át forradalomba?  A fenti ábra is szemlélteti, hogy ha minden résztvevőnek más preferenciái vannak, azaz csak akkor csatlakozik, ha bizonyos számú embertől már látja az adott viselkedést. Így először nagyon lassan növekszik a résztvevők száma, majd egy ponton robbanás szerű növekedés következik be, majd ismét lassú növekedés, végül pedig hanyatlás jön. Granovetter modellje remekül alkalmazható a forradalmakon kívüli társadalmi jelenségekre, pl. a divatra, eszmeáramlatokra, de a hírek és pletyka terjedésére is. Az online világban a hírek, rémhírek és mémek terjedésének vizsgálatára szokták alkalmazni a modellt. A küszöbérték modell az innovációk térnyerésének modellezésére is alkalmas. A The Strenght of Weak Ties (A gyenge kapcsolatok erőssége) című tanulmányában Granovetter arra hívja fel a figyelmet, hogy bizonyos közösségeket elhagyók, akik azután máshol alakítanak ki kapcsolatokat, egyfajta hidat képeznek és segítik a két elkülönülő közösség közötti kapcsolatok kiépítését. Acemogul, Ozdaglar és Yildiz tanulmányában megmutatta, hogy az innováció elterjedésében is komoly szerepe lehet ilyen hidaknak és az eltérő küszöbértékek optimalizálásban. Hasonló elemzésekre támaszkodott pl. az Obama kampány stábja, amikor adományokat gyűjtött. Ennek során igyekeztek elérni azokat a "hidakat", akik egy-egy alulreprezentált csoportot is megszólíthattak. Saroltát tehát nem nyugtathatjuk meg teljesen, de annyit mindenképpen elmondhatunk jó okkal gondoljuk úgy, hogy valamennyire érvényes következtetéseket vonhatunk le az online világ elemzéséből.


2013. április 18. 7:12

The Revolution Will Not Be Televised

"The revolution will not be televised, will not be televised, will not be televised, will not be televised. The revolution will be no re-run brothers; The revolution will be live." (Gil Scott Heron: The Revolution Will Not Be Televised)   Az arab tavasz, az M5S választási sikere, a szír felkelés eseményeiről tudósító Syria Deeply arra utal, hogy a közösségi média a változások katalizátora lehet. Nem véletlen, hogy kialakult egy új tudományág, a számítógépes társadalomtudomány (computational social science) ami az internet nyújtotta lehetőségeket kihasználva próbálja feltérképezni a társadalmat mozgató erőket.    Szkeptikus hangok   Jevgenyi Morozov Belorussziában született és nőtt fel, volt alkalma megismerni Lukasenka, Európa utolsó diktátora  elnyomó rendszerét. Morozov szerint az internet nem hozza el a korlátlan szabadságot, hiszen egyszerre nyújtja a globális kommunikáció lehetőségét a felhasználóknak és totális megfigyelés elérhetőségét az államoknak (és cégeknek stb.) A közösségi média szerepét is kétségbe vonja a társadalmi változásokban. A The Economist China and the Internet melléklete nagyon részletesen mutatja be, hogy a kommunista állam milyen módszerekkel tartja kontroll alatt netező polgárait. Az Aranypajzs (más néven Nagy Tűzfal) kifinomult technikái, a szorgos cenzorok és az öncenzúra kényesen ügyel arra, hogy milyen információ kerülhet nyilvánosságra. A nagy hírek rendre fennakadnak a tűzfalon, de akadnak olyan dolgok (pl. légszennyezés, alacsonyabb rangú pártkatonák és hivatalnokok mocskos ügyei stb.) melyek felszínre kerülhetnek.  Mindezek ellenére a leghíresebb kínai blogger Han Han kétségbe vonja a közösségi média forradalmi erejét: “You feel everyone’s really angry, you feel like you could go open the window and you would see protesters on the street," Mr Han said. “But once you open the window, you realise that there’s nothing there at all." Microblogging, he said, encouraged people to tune into a big story briefly, almost as entertainment, until the next big story comes along. It did not bring about “any real change or progress". (forrás) Szürke tények A társadalomtudományokban a nyolcvanas években jelent meg a statisztikai tartalomelemzés, ami tkp. egyes szövegek statisztikai vizsgálatát jelentette sokáig (szógyakoriság szövegen belül ill. eltérések egyes szövegek között). A kilencvenes és kétezres évekre a  technológia és a számítógépes nyelvészet fejlődése lehetővé tette sokkal szofisztikáltabb eljárások alkalmazását is. Ilyenek például az ún. topik modellek vagy LDA (egy adott dokumentumhalmaz csoportosítása témák szerint) és az entitáskinyerő-eszközök (named entity recognition - névvel rendelkező entitások automatikus felismerése). Ezzel párhuzamosan az internet elterjedésével hatalmas mennyiségű szöveges információ keletkezett.   A tartalomelemzés egyik úttörője Gray King (Harvard, Department of Government). King és társai kimutatták, hogy a kínai mikroblogokról a kollektív cselekvésre buzdító bejegyzéseket törlik a hatóságok. Így az internet egy amolyan szelep, ahol a polgárok kiereszthetik dühüket, de a cenzorok kényesen ügyelnek arra, hogy ezt ne kövesse tényleges cselekvés a való világban.   Rich Nielsen a Harvard Department of Goverment PhD hallgatója azt vizsgálja miért válnak radikálissá egyes muszlim vallás- és jogtudósok (ulema). Még nem publikált, de már elérhető tanulmánya a Jihadi Radicalization of Muslim Clerics remek példa arra, hogyan alkalmazható a számítógépes nyelvészet a társadalomtudományi tartalomelemzésben. Az interneten elérhető, ulemák által írt szövegek tartalomelemzésével állapította meg, hogy mely írások radikálisak és melyek nem. Majd megvizsgálta a szerzők társadalmi beágyazottságát és azt találta, hogy azok radikalizálódnak leginkább, akik kevésbé beágyazottak a vallási vezetők közösségébe. (Bővebben a kutatásról a The Economiston)   Trey Causey a University of Washington PhD hallgatója az autoriter államok médiáit vizsgálja empirikus alapon. Disszertációjában a 2010 és 2011 közötti arab médiában megjelent híreket elemzi és arra kíváncsi, hogy a hírekkel miképp próbáltak hatni a forradalmi eseményeket szemlélőkre. Talán nem meglepő, hogy az eredmények szerint az állami médiák inkább a "felforgató" tevékenységre hívták fel a figyelmet, míg a civil és független médiák foglalkoztak inkább az elnyomó rendszerek viselt dolgaival. Annál érdekesebb, hogy arra a következtetésre jut, hogy az autokraták célja egy olyan egyensúlyi állapot megtalálása, ami még kellő információval látja el a lakosságot, ahhoz hogy ne bénuljon le az élet, de nem éri el azt a kritikus tömeget, hogy tényleges akciót idézzen elő. Han Han biztosan egyetért Causey-val.  Optimista kívülállók Az új technológia lehetőségei a számítástudomány és egyéb "kemény", matematizált tudományok művelőt is megihlették. Egyre több cég (köztük olyan nagyok mint a Microsoft, Facebook, Yahoo!) nyit külön "computational social science" részleget és fog bele társadalmi kérdések vizsgálatába. Oboler, Welsh és Cruz felhívta a figyelmet arra, hogy a közösségi oldalak vagy akár egy jó indikátor (pl. mobiltelefonok) vizsgálata önmagában semmit sem ér. Minden elemzéshez ismerni kell azt a kontextust, amiben a megfigyelt jelenségek történnek - ehhez pedig jó társadalomtudományi háttér szükségeltetik. A Nature egyik cikke is óvatosságra int. Az adatok sok dologra megtaníthatnak minket,de nem helyettesíthetik az elméleteket. Granovetter a hetvenes években egyszerűen kiokoskodta az ún. "gyenge kapcsolatok" elméletét, amit felhasználva közvetlenül tudott adatokat gyűjteni. Ezt a régóta közismert elméletet az utóbbi években sok "tudós" újra felfedezte a közösségi hálózatok elemzése során...   Bővebben What Facebook Knows Manifesto of computational social science (PDF) Adatújságírás - vissza a gyökerekhez Társadalmi kísérletek és big data


2013. április 16. 12:00

Társadalmi kísérletek és big data

A közösségi médiának nagy jelentőséget tulajdonítanak mind a 2008-as, mind a 2012-es Obama kampányban. Számtalanszor megírták, hogy külön adatcsapat dolgozott a választási hadjárat során, de hogyan jutottak el az adatok elemzésétől a választók megszólításáig és hogyan vették rá őket a szavazásra? A győzelem bejelentése után készült tweet - ami lakonikusan jelentette be, hogy "Four more years" (azaz még négy év) egy képpel, melyen Obama nejét öleli át - lett minden idők legtöbbet megosztott közösségi média státusz frissítése, amiben az új eszközök diadalát látják sokan. Azonban ha mélyebbre nézünk, láthatjuk sokkal összetettebb dologról van szó, ami a társadalom- és viselkedéstudományok kísérleti módszereit ötvözi a nagy adatok (big data) elemzésével és az evidencia alapú politikacsinálással (evidence-based policy). Four more years. twitter.com/BarackObama/st… — Barack Obama (@BarackObama) November 7, 2012 A kísérleti módszer A természettudományokban bevett módszer megismételhető kísérletekre alapozni egy elméletet. Galilei híres kísérleteit többször is elvégezte, s ezzel bizonyította, hogy a lehulló testek sebessége független súlyuktól. A mai napig iskolások ezrei végzik ezt el és tanulják meg az összefüggést. A viselkedéstudományokban (pl. pszichológia, kognitív tudomány, szociálpszichológia, nyelvészet stb.) nem ilyen egyszerű kísérleteket végezni. A legenda szerint I. Pszammetikosz fáraó tudni szerette volna, melyik a legősibb nyelv, ezért arra utasította szolgáit, hogy két gyermeket minden emberi érintkezéstől elzárva neveljenek fel és figyeljék, milyen nyelven szólalnak először meg, ami állítólag a fríg volt végül (bővebben). Hasonló kísérleteket etikai megfontolások miatt nem végezhetünk, amikor az emberi viselkedést kutatjuk. Ezek helyett olyan módszerekkel élnek a kutatók, melyek megbízhatóan utalnak egy inger viselkedésre gyakorolt hatására, mint pl. a habituáció, azaz a megszokás. Pl. a gyermekek beszédhang megkülönböztető képességét szokták így vizsgálni. Ha egy adott hang meg van a gyermek nyelvében, azt folyamatosan lejátszva habituálódik hozzá. Ha egy idő után egy másik nagyon hasonló hangot játszunk le neki, akkor vagy nem veszi észre ezt a gyermek és nem változtat viselkedésén, vagy felfigyel erre és másképp viselkedik, így közvetett bizonyítékot tudunk szerezni. A társadalomtudományokban még nehezebb a helyzet. Hogyan lehetne eldönteni, hogy X gazdaságpolitika jobb-e, mint Y? Vegyünk két ugyanolyan társadalmat és egyikben X, másikban Y politikát vezessük be. Az a gazdaságpolitika jobb, amelyik nagyobb jóléthez vezet ötven év múltán. Persze sokan úgy érzik, mindannyian egy-egy ilyen kísérlet részesei vagyunk, de belátható, a gyakorlatban kivitelezhetetlenek az ilyen kísérletek. Ehelyett a társadalomtudósok matematikai modelleket használnak és a múltbeli adatokból próbálnak következtetéseket levonni, vagy a jelenben felvett adatokból tippelik meg a jövőt. Ilyenkor a megfigyelésekre támaszkodnak és nagyon nehéz oksági kapcsolatokat feltételezni, mivel nem kontrollálhatják a vizsgálat körülményeit. Get Out the Vote Wermer András, a magyar politikai marketing egyik atyja, híres mondása szerint a politika is olyan, mint a mosópor; el kell adni. Nem meglepő, hogy demokratikus államokban nagyon hamar elkezdték alkalmazni a modern marketing eszközeit a választók meggyőzésére és mozgósítására. A mondás szerint a marketing költségek fele kidobott pénz, csak nem tudjuk, hogy melyik fele. De talán ez nem teljesen igaz. A legegyszerűbb politikai marketing eszköz a direkt megkeresés (levél, e-mail, telefonhívás stb.) Ennek hatékonysága rendszerint nagyon alacsony, viszont alkalmazásával olcsón, sok embert elérhetnek hirdetők. Továbbá lehetőséget biztosítanak arra, hogy ún. A/B tesztelés keretében vizsgáljuk meg, milyen formátum a leghatékonyabb. Az eljárás lényege az online marketing szótár szerint "Klasszikus megoldás: készítünk kétféle kreatív anyagot és fogunk két random mintát, és egyiknek az egyik üzenetet, másiknak a másik üzenetet küldjük ki. Megnézzük melyik hatékonyabb, majd ezt követően a teljes listára már a hatékonyabb verziót küldjük ki." A politikai döntés azonban nem csak egy márka kiválasztása, hanem sok esetben egy döntési aktus is (gondoljunk pl. a különböző helyi, vagy hazánk NATO csatlakozásról tartott népszavazására). Hogyan lehet mozgósítani a szavazókat? Hogyan lehet rávenni őket arra, hogy végiggondolják magukban a döntést és leadják voksukat? Hogyan lehet elérni, hogy egy ügydöntő népszavazás előtt a polgárok meghallgassák a pro és kontra érveket? Harold Foote Gosnell a múlt század húszas éveiben Chicagoban kezdte meg empirikus kísérleteit. Alaposan tanulmányozta a város demográfiai adatait és többé-kevésbé hasonló körzeteket sikerült azonosítania. Így lehetősége nyílt arra, hogy ezek között végezhessen összehasonlító vizsgálatokat. Az A/B teszteléshez hasonlóan a demográfiailag hasonló kerületekben különböző csoportokat (nők, kisebbségek, bevándorlók stb.) más-más módszerrel szólított meg, hogy politikai cselekvésre (pl. szavazói regisztráció, részvétel politikai gyűlésen stb.)  bírja tagjaikat.  Donald P. Green és Alan S. Gerber vitte tökélyre Gosnell empirikus kutatásait. Módszerük lényege, hogy ún. randomizált, kontrollált terepkísérletezést (randomized controlled field experiment) bevezették a politikatudományba. Az ilyen kísérletekben hús-vér hétköznapi emberek valós viselkedését vizsgálják. Egyik kísérletükben engedélyt kaptak New Haven városától, hogy a területrendezési tervek megszavazása előtt tartott összejöveteleket használják fel adatgyűjtésre. Green és Gerber számára az volt a fő kérdés, hogy miképp vehetőek rá a passzív polgárok arra, hogy elmenjenek szavazni.  Mi bír nagyobb mozgósítóerővel, ha felszólítjuk őket éljenek állampolgári kötelességükkel, vagy ha tudomásukra adjuk, hogy szomszédjuk már élt jogaival? A választói jegyzéket használva véletlenszerűen rendelték az egyes embereket csoportokba, akiket aztán más-más módszerrel próbáltak aktivitásra bírni. Érdekes módon azt találták, hogy a legjobb módszer az enyhe nyomásgyakorlás, mint pl. felhívni a választó figyelmét arra, hogy szomszédja jó polgár volt és élt jogaival. Green, Gerber és tanítványaik rengeteg hasonló kísérletet végeztek azóta. Az úttörők a Get Out the Vote-ban összegezték eredményeiket a nagyközönség számára. A győzelem laboratóriuma A nyolcvanas évektől a politikai marketingbe is betört a számítástechnika és a számítógépes adatelemzés. Mivel egy demokráciában szinte folyamatosan vannak választások (pl. hazánkban az EP választások általában a parlamenti ciklus közepére esnek, az önkormányzati és az országgyűlési választások között pár hónap szokott eltelni, továbbá lemondások, halálozások stb. miatt rendszeresek az időközi referendumok) sok alkalom adódik a kísérletezésre. A marketing anyagok A/B tesztelését nagyon gyorsan tökéletesítették a szakemberek, de valahogy elégedetlenek voltak azzal, hogy minden kiküldött száz levél eredménye csak egy-két mozgósított ember lett. A politikai hirdetések hatékonyságának mérése, az aktivisták agitálásának eredményessége sokáig nyitott kérdés maradt. A kilencvenes években a mobilkommunikáció, az internet és a kábeltelevíziós hálózatok fejlődése azonban fordulópontot jelentett. Az aktivisták folyamatosan jelenthették mobiltelefonon tevékenységüket a kampányközpontoknak ahonnét aztán az adatok fényében a legmegfelelőbb helyre irányíthatták őket. Az internet megjelenése egyben az online marketing elterjedését is magával hozta és egyet jelentett a valós idejű analitika megszületésével. Az online és televíziós hirdetések körében megjelent a lokalizálhatóság. Így pl. egy adott város nyugdíjasok által preferált kerületében más reklámot vethetnek be, mint a fiatal egyedülállók által lakott részeken. A közösségi média tkp. nem a bevett módszert változtatta meg, hanem lehetőséget adott arra, hogy még jobban beleláthassanak az elemzők a kampányba. A választói névjegyzéket összekapcsolhatták Facebook profilokkal, ezzel láthatóvá vált  kiket érnek el az elkötelezett támogatók.  Lehetőség nyílt a reklámokkal kapcsolatos lakossági vélemények monitorozására (pl. a blogunkon már bemutatott Bluefin Labs-hez hasonló megoldásokkal) megvizsgálhatták kik az internetes véleményvezérek, kiket érnek el az aktivisták stb. A kezdeti egyszerű névjegyzékek és demográfiai adatok hirtelen kiegészültek sok-sok más adattal és megjelent a big data a politikában. Sasha Issenberg The Victory Lab: The Secret Science of Winnig Campaigns könyve olvasmányosan foglalja össze ezt a folyamatot. Evidencia alapú, racionális politika Az olyan mozgalmak mint az olasz M5S, vagy a racionálisak lázadása az Egyesült Államokban azt mutatják, hogy a hagyományos pártpolitikáról egyre inkább egyes ügyekre helyeződik át a hangsúly. Itt nagy szerepe van az ún. evidencia alapú politikacsinálásnak, azaz az empirikus felméréseken alapuló, hatástanulmányokkal alátámasztott döntéseknek. Ezek kapcsán egyre gyakrabban halljuk a pilot project, azaz a próba, vagy kísérleti projekt terminust. Ez annyit tesz, hogy egy-egy megoldást kicsiben tesztelnek először. Például csak bizonyos iskolákban vezetnek be egy új pedagógiai módszert, majd folyamatosan gyűjtik az adatokat és összevetik a "hagyományos" és az új eljárás eredményeit. A pilot végén jó esetben kellő mennyiségű és minőségű adat áll rendelkezésre a döntéshez. Napjainkban a polgároknak egyre több dologban kell dönteniük, amibe - legalábbis jelenleg - egyre nehezebb bevonni őket. A választók informálásában és aktivizálásában egyre nagyobb szerepe van az információtechnológiának. A kísérleti módszer lehet a befolyásolás és a politikai marketing eszköze, de az aktív állampolgárság és a részvételi demokrácia egyik pillére is. Bővebben: A More Perfect Union: How President Obama’s campaign used big data to rally individual voters, Part I. A More Perfect Union: How President Obama’s campaign used big data to rally individual voters Part II. A More Perfect Union: How President Obama’s campaign used big data to rally individual voters Part III.  Adatújságírás - vissza a gyökerekhez


2013. április 10. 8:00

A Precognox csatlakozott a LinguaPark Klaszterhez

A Precognox csatlakozott a LinguaPark Klaszterhez, mely fordítással, nyelv- és fordítástechnológiával, valamint kommunikációval foglalkozó vállalkozásokat és intézményeket fog össze. Cégünk nagyon büszke, hogy egy az Európai Unió által kiemelt szakterület prominens kutatóhelyeivel és cégeivel működhet együtt a jövőben.


2013. április 9. 12:00

Adatújságírás - csináld magad

Adatújságírásról szóló sorozatunk és az inkLink után sokakban merült fel, hogy miképp is vághatnának bele az adatújságírásba és/vagy adatelemzésbe. A legtöbb érdeklődőt az rettenti el, hogy azt hiszik, egyszerre kell programozóvá és statisztikussá válniuk. Ez azonban nem igaz! Az adatújságírás műveléséhez nincs szükség statisztikai képzettséghez és/vagy programozói diplomára. Simon Rogers, a The Guardian Datablog főszerkesztője szerint az adatújságírás az új punk mozgalom; mindenki művelheti. Alapvetően két fő összetevője van egy jó projektnek, adatok és egy eszköz ami segít az adatok mögé látni. School of Data Az Open Knowledge Foundation nemrég indította útjára a School of Data portált, ami rövid és mindenki számára érthető leckékben foglalja össze az alapokat, kezdve az adatok begyűjtésével és kitisztításával az összetettebb elemzésekig. Egy kis angoltudáson és egy elfogadható számítógépen és internetkapcsolaton kívül más nem is kell az alapok elsajátításához. Adatelemző eszközök Olyan ingyenesen használható eszközöket sorolunk fel, melyek általános digitális írástudáson kívül nem igényelnek más háttértudást. Google Fusion Tables - A Fusion Tables erőssége, hogy a Google Maps-en is könnyen megjeleníthetjük adatainkat segítségével. Tableau Public - A Fusion Tables-hez hasonló, de talán szebb megoldásokat produkáló eszköz. Az ingyenes változata is remekül használható, de lehetőség van előfizetni a szolgáltatásra ami sok bónusz eszközzel jár. Google Spreadsheets - A megszokott táblázatkezelőkhöz hasonló eszköz, használatával egyszerű grafikonokat készíthetünk. DataMarket - Sok adatot érhetünk el a DataMarket-en, ezek jelentős része ingyenes. Az adatokat rögtön meg is jeleníti a beépített ábrázoló eszköz. ManyEyes - Az első ingyenesen elérhető vizualizációs eszköz előnye, hogy sok felhasználó adatait és vizualizációit is böngészhetjük.   Hol az adat? Nehéz felsorolni az összes adatforrást, de az alábbi helyek jó indulópontok. KSH - A Központi Statisztikai Hivatal oldalain rengeteg magyar vonatkozású adatot érhetünk el. Eurostat - Az EU szervezetei és a tagállamok statisztikai hivatalai egyaránt jelentenek a Eurostat-nak, így érdemes itt kezdeni a keresést, ha európai viszonylatban vagyunk kíváncsiak valamire. IMF - a Valutaalap nagyon jó pénzügyi és gazdasági statisztikákkal rendelkezik. ENSZ adatbank - Az ENSZ szervezeteinek adatait tartalmazó adatbank. DataMarket - részben ingyenes adatok is találhatók az oldalon. Nagy előnye, hogy egy helyen gyűjt össze különböző forrásokat. Adat piac sorozatunkban bemutattuk a (részben) fizetős adatforrásokat is. Adat piac 1. rész - a Data Market és az InfoChimps bemutatása. Adat piac 2. rész - a Factual és az uberlic bemutatása. Adat piac 3. rész - a Kasabi és linked data adatforrások bemutatása. További olvasnivalók: Simon Roger: Facts are Sacred - ez a rövid Kindle Single összefoglalja az adatújságírás történetét, bemutatja napjaink módszereit és eszközeit a legizgalmasabb kurrens projekteken keresztül. A Számítógépes nyelvészeten részletesen is ismertettük a kötetet. Simon Rogers: Anyone can do it. Data journalism is the new punk Simon Rogers: Data visualization DIY: our top tools


2013. április 4. 9:27

inkLink 2013 - részletes program

Április 6-án (most szombaton) kerül megrendezésre az inkLink 2013, az első magyar adatújságírás-nap és hackday. Regisztrálni az eventbrite-on lehet - aki nem engedheti meg magának hogy támogatói jegyet vegyen, az kérjük jelezze részvételi szándékát a szervezőknek (a zoltan.varju(kukac)gmail.com címen) és értesítjük, ha felszabadul egy hely. A program: Szombaton rendhagyó NLP Meetup-ot is tartunk, mely keretében megismerkedhetnek az érdeklődők az Open Knowledge Foundation-nel. A meetupra külön is lehet regisztrálni az esemény oldalán.


2013. április 2. 12:00

Prismatic - hírolvasás Google Reader után

Ma már mindenki tudja, a Google hamarosan bezárja RSS olvasó szolgáltatását. Az okok között szerepel, hogy szeretnének jobban a közösségi média felé nyitni. Több mint egy éve elérhető már a Prismatic, ami egyszerre nyújtja a közösségi olvasás élményét és ügyel arra, hogy elkerüljük a filter bubble-t. Állítólag ez annyira jó dolog, hogy még a párkeresésben is segít. First dates are never easy. Prismatic is here to help. from Prismatic on Vimeo. A Prismatic tkp. arra az egyszerű ötletre épít, hogy a közösségi médiában rengeteg tartalmat osztunk meg. A regisztráció során összekapcsolhatjuk Twitter, Facebook és Google fiókjainkat a Prismatic-kel, beállíthatjuk milyen témák érdekelnek minket és persze követhetjük itt is ismerőseinket. Mindezt pedig egy nagyon minimalista, magazinszerű felületen prezentálják felénk. Nagyon sok alkalmazás van a piacon, ami hasonló elven működik (ilyenek pl. a blogunkon már bemutatott Wavii és bottlenose). A Prismatic megkülönböztetőjegye az, hogy a közösségi média forrásokat és a felhasználó preferenciáit vegyítve alakítja ki a személyre szabott tartalmat. A használat során egyszerűen tanítjuk a rendszert, pl. számon tartja mit olvastunk el, mit osztottunk meg másokkal, mit tettünk a kedvencek közé és mit töröltünk, mi érdektelen. A nyelvtechnológiai megoldásoknak köszönhetően a duplikátumok (ugyanarról a témáról szóló, szinte azonos tartalmú cikkek) száma elenyésző, viszont megdöbbentően jól szolgálja ki a felhasználó ízlését. A filter bubble elkerülése viszont kicsit esetlegesre sikeredett, néha úgy érzi az ember, hogy véletlenszerűen kapott egy cikket, máskor viszont teli találat és egy nekünk kedves nézettel szöges ellentétben álló véleménnyel szembesít minket. A Prismatic technológiai körökben avval vívott ki elismerést, hogy egy nagyon kis létszámú csapattal építette fel az egész szolgáltatást. Az alapító Bradford Cross a Flightcaster-el tette le névjegyét a big data fronton, majd teljesen kívülállóként vágott a hírek újragondolásába. Blogja a Measuring Measures legendás a szakmában (habár a szerző új cége indulásakor törölte) mivel itt jelentek meg először a big data termékfejlesztéssel kapcsolatos kérdések. Crossnak nagyon erős elképzelései vannak az adatvezérelt termékek fejlesztésével kapcsolatban, ezek egyike hogy egy kicsi, erősen és sokoldalúan képzett csapat sokkal hatékonyabb ilyen feladatokra. Ennek szellemében a Prismatic-nél mindenki a Berkeley vagy a  Stanford doktori fokozatával van felvértezve. A minimalista külső mögött komoly design megfontolások állnak. A Prismatic a tartalomra épít, az összegyűjtött híreket könnyen áttekinthető formában prezentálja a felhasználók felé és megkönnyíti a forráshoz navigálást. Ebben nagyon hasonlít a Google-re. A Prismatic célja egy általános felfedező motor (discovery engine) létrehozása, ami nem csak hírek felfedezésében segít. Habár a befektetők megnyerésével nincs gondja a cégnek, még nem sikerült megtalálni a bevételszerzés módját, de talán ahogy a fenti interjúban is elhangzik, a felhasználók célba juttatásáért kapott jutalék lehet ennek egyik módja.


2013. március 26. 12:00

Adatújságírás - vissza a gyökerekhez

Az adatújság megjelenése után sokan úgy gondolták, az új újságírók dolga az adatok gondozása (data curation) és elemzése lesz a jövőben, ahogy az a pénzügyi újságírásban már bevett évtizedek óta. Az adatokat valakik, valahol máshol, majd összegyűjtik szépen, legyenek azok kormányzati vagy éppen nemzetközi szervezetek, netán cégek. Az újságíró dolga annyi, hogy "emészthető" formában mondja el, mit rejtenek az adatok. De eljött 2011 és  az angliai zavargások! A The Guardian - hasonlóan sok más újsághoz - a kezdetektől nyomon követte a zavargásokat. A Datablog meglátta a Twitter-ben és egyéb közösségi oldalakban a potenciált és gyorsan el is kezdte elemezni milyen hírek terjednek a neten, hogyan reagálnak a zavargások résztvevői és a közvélemény az egyes eseményekre. Külön összeszedték az ilyenkor felröppenő álhíreket is és nagyon ötletesen vizualizálták ezeket. A lap kihasználta a modern technika lehetőségeit és a ma már megszokott módon kérte olvasóit, hogy tudósítsanak az általuk látott fejleményekről. Nagyon hamar rájöttek, ez csak arra jó, hogy egy hiányos leírását adják a történéseknek. Ennek legfőbb oka pedig az, hogy nem tudtak megfelelő adatokat szerezni. Részben maguk az elérhető adatok sem voltak megbízhatóak. Hiába bányászták akkurátusan a közösségi oldalakat az újságírók, ha a lázongók egymás között a Blackberry készülékek titkosított üzenetküldő szolgáltatását használták (mivel ez a funkció ingyenes a Balckberry tulajdonosok között, 2011-ben a gyártó készülékei a fiatal korosztályokban igen elterjedtek voltak) . Másrészt az egész brit társadalmat megrendítette az esemény és igazából senki sem értette miért törtek ki a zavargások, a közösségi oldalak státuszjelentéseiből a legelvakultabb szocmédia elemzők sem mernének mélyreható következtetéseket levonni. Nem maradt más választás, saját adatgyűjtésbe kezdett a Guardian, melyet Philip Meyer inspirált.  1967-ben zavargások törtek ki Detroitban. A városban már történt hasonló 1943-ban, de intenzitásában és az okozott kár értékében a hatvanhetesnek sikerült olyan kétes hírű rekordot felállítani, melyet csak a '92-es Los Angeles-i zavargások múltak felül. A fiatal Meyer épp a Harvard Egyetem Nieman fellowship éve után volt, mely során alapos társadalomtudományi és adatbáziskezelési képzésben részesült, nem csoda, hogy égett a vágytól, hogy frissen szerzett tudását kamatoztassa. A Detroit Free Press lap a zavargások során nagyon lelkiismeretesen tudósított a fejleményekről és nyitott volt Meyer új ötleteire is. A város és különböző alapítványok segítségével felállítottak egy újságírókból, társadalomtudósokból és önkéntesekből álló csoportot. Egy hét alatt megállapodtak az adatfelvétel metodikájáról és betanították az önkénteseket (főleg a környék fekete iskoláinak tanárait) a lekérdezésre. A második héten megtörtént az adatfelvétel. A harmadik héten már lyukkártyán voltak a lekérdezések eredményei és megindult az elemzői munka, mely végén megszületett a speciális lapszám. A vizsgálat eredményei megdöbbentőek voltak sokak számára. A közhiedelem szerint a zavargások résztvevői a déli államokból bevándorolt, iskolázatlan, mezőgazdasági vidékről érkező feketék voltak, de bebizonyosodott, a többé kevésbé integráltnak hitt feketék vettek részt a sajnálatos eseményekben. Szintén kiderült, hogy jócskán túlbecsülték a zavargók létszámát is. De ami a legmegdöbbentőbb volt az, hogy a magát toleránsnak gondoló észak is ellenségesen viselkedett a feketékkel szemben, ami komoly elégedetlenséghez vezetett köztük. A Guardian a London School of Economics-szal (LSE) fogott össze és egy ambiciózus 10 hónapos projekt keretében újságírók és társadalomtudósok boncolgatták az angliai zavargások okait. A Reading the Riots ma a legátfogóbb gyűjteménye a modern, adatvezérelt, oknyomozó újságírásnak és riportoknak. A kutatás első fázisában a zavargásokban résztvevő személyekkel készítettek interjúkat és vettek fel kérdőíveket. A második fázisban az intézkedő hatósági személyektől (rendőrök, bírók stb.) gyűjtöttek adatokat. Így olyan dolgok derültek ki mint például mennyire messze laktak az elkövetők az elkövetés helyétől és összefügg-e a szegénységgel a zavargás. Ehhez kapcsolódóan a zavargók legvalószínűbb útvonalait is feltérképezték. Külön összegyűjtötték a kutatók, hogy kik milyen büntetést kaptak a zavargások során elkövetett törvényszegésekért. Az LSE később összeállított összegző tanulmánya is elérhető online. Talán úgy tűnik, az adatújságírás felforgatta a médiát. Ez korántsem igaz. A print média válságban van, pár kivételtől eltekintve a példányszámok folyamatosan csökkennek. Az ingyenes online híroldalak is nehezen tudnak bevételre szert tenni. Az adatújságírás részben egy természetes reakció, amivel új utakat keres magának a szakma. A Kinght Foundation, a Knight-Mozilla OpenNews és a Nieman Journalism Lab olyan kezdeményezéseket karol fel, melyek új utakat mutatnak. A befektetők is egyre nagyobb fantáziát látnak az új utakra tévedő startupokban, mint pl. a Circa, a Silkapp és a Prismatic. Ugyanakkor megjelentek, az olyan hagyományos elemzőműhelyekre hasonlító vállalkozások (pl. a Quid és a Palantir), melyek az adatok begyűjtésére és elemzésére is nagy hangsúlyt fektetnek.


2013. március 19. 12:00

Mit mond az internet - NLP meetup március 27-én

Március 27-én tartjuk e havi meetupunkat. A rendezvény ingyenes, de arra kérünk mindenkit, hogy regisztráljon oldalunkon és jelezze részvételi szándékát. A program: Textplore https://www.textplore.org/ Előadásunkban bemutatjuk a Gazdaság- és Vállalkozáskutató Intézet által fejlesztett Textplore szövegelemző szoftver funkcióit és elemzési lehetőségeit, majd egy folyamatban levő kutatás előzetes eredményeit. Ennek során egy magyar és egy angol hírportálon megjelent, korrupcióval kapcsolatos cikkek jellegzetességeit vizsgáljuk. A cikkek szóhasználati sajátosságai segíthetnek feltárni, hogy az online média hogyan viszonyul a korrupcióhoz, mennyire tölti be azt a lehetséges szerepét, hogy a nyilvánosság erejével akadályozza a korrupció terjedését. Az előadók Tóth István János Közgazdász-szociológus, az MTA Közgazdaságtudományi Intézetének tudományos főmunkatársa, a Gazdaság- és Vállalkozáskutató Intézet ügyvezető igazgatója, a BCE Korrupciókutató-központjának társigazgatója. Fő érdeklődési területe a rejtett gazdasággal és a korrupcióval kapcsolatos jelenségek vizsgálata és a konjunktúrakutatás, továbbá szívesen foglalkozik a kvantitatív tartalomelemzés módszerével vizsgálható kérdésekkel. Czibik Ágnes közgazdász, a Gazdaság- és Vállalkozáskutató Intézet elemzője, a Budapesti Corvinus Egyetem Korrupciókutató Központjának munkatársa. Főként munkaerő-piaci kutatásokkal, a GVI által fejlesztett Textplore szövegelemző szoftver fejlesztésének irányításával, valamint a szoftver segítségével elemzések készítésével foglalkozik Social media monitoring - Replise http://replise.com Az prezentáció bemutat néhány, a közösségi média figyelés napi gyakorlatában felmerülő problémát. Szólok az adatok megkereséséről és begyüjtéséről, a releváns kérdések megfogalmazásáról és az eredmények bemutatásáról. Szó fog esni arról, mit lehet és mit nem lehet mérni, illetve arról is, mikor érdemes mérni, mikor pedig más technikát választani. Végül, röviden bemutatom a Replise rendszert. Tempfli Péter az ELTE BTK orosz szakán végzett, jelenleg a Budapest Corvinus Egyetem gazdasági informatika szakos hallgatója. Szociális méda elemző a Replise-nél, magyar, lengyel és orosz piacokkal foglalkozik.


2013. március 12. 12:00

Silk - indíts saját adatblogot

Szép a The Guardian Datablog-ja, de készíthetünk mi magunk valami hasonlót? Korábban már bemutattuk blogunkon a Silk-et, mely segítségével bárki elindíthatja saját adatblogját. A Silk a legtöbb nyilvánosan elérhető adatot tárolja (pl. a Wikipedia, linked data adatbázisok stb.) de lehetőséget biztosít arra is, hogy mi magunk vigyük fel azokat. Az adatbázisok könnyen szűrhetők is - pl. ha a  kétmilliónál nagyobb lakosságú európai városokat szeretnénk térképen megjeleníteni, akkor nem nekünk kell kézzel ezeket kikeresni. Az adatok szűrése és rendszerezése után egy egyszerű kezelőfelületen kiválaszthatjuk miképp szeretnénk megjeleníteni ezeket - mint korábbi posztunkban említettük, a megfelelő grafikon megtalálásához nem árt némi jártasság és a Silk itt nem nyújt segítséget. Ezután már csak  a kísérőszöveg megírása van hátra. A Silk egyre népszerűbb és sikeresen tud tőkét szerezni, valahogy mégsem tud igazán beindulni. Sokan a cég legnagyobb értékének a mögöttes technológiát tartják, ami nagyon közel áll a szemantikus web és a linked data ideájához. A szemantikus web alapötlete egyszerű; a weboldalak ne csak az emberileg olvasható és érthető információt tartalmazzák, hanem ezt tegyék elérhetővé szabványos, gépileg feldolgozható formában is. A honlapok felépítése egyszerű, egyrészt nem árt ha van mit olvasni egy oldalon,  ezt pedig a böngésző számára értelmezhető formába kell "becsomagolni" ami a html szabvány dolga,  ezt kiegészíti a külcsínért felelős CSS  és a JavaScript ami lehetővé teszi az interakciót is. Ehhez jön még hozzá az átlag felhasználó számára gyakran láthatatlan háttérben futó adatbázis és egyéb szerveroldali eszközök. Berners-Lee a tartalom és a forma (html) mellé kívánatosnak tartaná a jelentés (szemantika) beágyazását is az oldalakba - innét ered az elnevezés. A linked data - vagyis linkelt adatok - ennek egy visszafogottabb megvalósítása, ami az egyes adatelemek közötti kapcsolatokat is tartalmazza, pl. a Magyarország elem Budapesttel az "ország fővárosa", az Európai Unióval és a NATO-val a "tagállama" viszonyban áll egy ilyen adatbázisban. A Silk erőssége, hogy sok-sok ilyen adatbázist tartalmaz és kifejlesztett egy könnyen kezelhető lekérdezőfelületet ezekhez (szemben a nem szakmabeliek által nehezen elsajátítható standard SPARQL-lel). A felhasználók által létrehozott oldalak pedig további relációkkal gazdagítják az adatbázist, hiszen gyakran két adathalmazt kombinálnak. Aki kedvet kapott egy saját Datablog indításához, annak érdemes a Silk YouTube csatornáján körülnézni, pár példát áttekinteni és a tanulási segédleteket átfutni. Sok sikert minden adatbloggernek!


2013. március 6. 15:11

inkLink 2013 - adatújságírás-nap április 6-án

Alakul az inkLink programja és már kijelenthetjük, igazi nemzetközi esemény résztvevői lehetünk április 6-án. Az előadói teremben (Discussion Room) érdekes előadásokat hallgathatunk az adatújságírás és a modern digitális média kérdéseiről, a Hack Room ad teret a fejlesztőknek, az IdeaShop-on pedig kötetlen formában lehet megismerkedni mindenki által könnyen használható eszközökkel. A továbbiakban a programmal kapcsolatos információkat az inkLink blogján és a Nyelv és Tudományon találhatják meg az olvasók. A hackday-re a szervezők a zoltan.varju(kukac)gmail.com címre várják az érdeklődő fejlesztők jelentkezését egyénileg és csapatban. Szponzori megkeresésekkel Kincse Szabolcshoz fordulhatnak a kincse(kukac)nyest.hu e-mail címen.     Előadók  Stijn Debrouwere (OpenNews fellow @ The Guardian) Friedrich Lindenberg (OpenNews fellow @ Spiegel Online) Michael Bauer (Open Knowledge Foundation) Kristin Trethewey (Sourcefabric) Szekeres Péter (Neticle Technologies) Kiss Dániel (Ustream) Kovács Ildikó (Átlátszó.hu) IdeaShop résztvevők Ustream Sourcefabric  


2013. március 5. 12:00

Szól az autórádió

A barcelonai Mobile World Congress-en mutatta be a Ford új, hangvezérlésű autós szórakoztató és információs rendszerét. Az eszköz még korántsem teljes, jelenleg a Spotify streaming szolgáltatását lehet vele irányítani csupán. A Ford a Nuance-szal együttműködve vágott bele az autók vezérlésének újragondolásába. A beszédtechnológia meghatározó cége még 2011-ben vásárolta fel a svájci SVOX-ot, ami úttörő munkát végzett a nagy német autógyártókkal egy központi hangvezérlő rendszer kialakításában. Érdekes, hogy ennek eredményei végül a Fordokban jelennek meg. A hangvezérléstől a legtöbb felhasználó idegenkedik, de vezetés közben a legkézenfekvőbb megoldás a beszéd alapú interakció a vezető és a jármű szórakoztató és információs rendszere között. A Spotify integrációja remek első lépés, hiszen az autórádió használata bevett dolog és joggal remélhetik az együttműködő cégek, hogy sikerül sok felhasználót megnyerniük. Ha sikerül elfogadtatni a hangvezérlést a volánnál, akkor megnyílhat az út további fejlesztések előtt is. Az Egyesült Államokban forgalmazott Ford gépkocsikba ezentúl beépítik a Nuance hangvezérlő rendszerét és a Spotify alkalmazását. A Forbes cikke szerint más gyártók is hasonló megoldásokon törik a fejüket. Talán új terület fog születni és a jövőben autókra is lehet appokat írni?


2013. február 26. 12:00

Adatújságírás - mérföldkövek

Előző posztunkban bemutattuk, miképp hatottak az új IT trendek és társadalomtudományi kutatások az újságírásra és alakult ki az adatvezérelt irányzat. Az internet elterjedésével a nyomtatott sajtónak is számolnia kellett, megjelentek a híroldalak és minden valamire való lap saját oldallal jelentkezett a világhálón. Ekkor jelentek meg az ún. MVC (model-view-controller, model-nézet-kontroller) keretrendszerek, amik nagyon népszerűek lettek a hír- és tartalomiparban. A megoldás lényege, hogy elkülönítik az adatok reprezentálását (modell) és megjelenítését (nézet). Így egy modellhez, akár több nézet is tartozhat, amit a két egység között közvetítő kontroller határoz meg. 2005-ben az Egyesült Államok egy kansasi kisvárosában Lawrence-ben a Lawrence Journal megengedte fejlesztőinek, hogy saját MVC keretrendszert fejlesszenek ki , ezzel született meg a Django webprogramozási keretrendszer, amit a Pinterest és a Mozilla mellett olyan nagy híroldalak is használnak, mint a The Washington Times és a Public Broadcasting Service. A Django fejlesztői között akadt egy nagyon érdekes figura, Adrian Holovaty. Alig egy évvel a keretrendszer megalkotása után ő írta A fundamental way newspaper sites need to change (Ahogy a híroldalaknak alapvetően meg kell változniuk) című esszét, amit a modern adatújságírás manifesztumának tartanak. Az esszé lényegében a hírekre is kiterjeszti az MVC alapelvet. Mivel a narráció célja, hogy a tényadatokat (ki[k], mikor, hol és mit csináltak) kontextusba helyezze, érdemes külön is kigyűjteni az adatokat. Így pl. egy helyi lapnál minden egyes betörésről születhet egy cikk, de egyben bővül is az adatbázisa és az olvasók maguk is megnézhetik hol és mikor történtek betörések. Így lehetőség nyílik arra, hogy alaposabban megvizsgáljuk az adatokat és összevessük más tényezőkkel is azokat (pl. van-e rendőrőrs a betörések közelében, mekkora arrafelé a munkanélküliség, milyen más bűncselekmények történnek az adott környéken stb.) Holovaty alapított is egy startup-ot ötletére, az Everyblock-ot, amit sajnos új tulajdonosa hamarosan be fog zárni. Az esszé hatása azonban tovább él és sokakat inspirál (pl. a blogunkon nemrég bemutatott Circa is az esszé alapötletére épül). 2006-ban alapították lelkes aktivisták a WikiLeaks alapítványt és portált. A híres kiszivárogtatások nagy kihívás elé állították a szerkesztőségeket, hiszen a WikiLeaks első évében több mint 1.2 millió dokumentum került napvilágra különböző ügyekben. Ezek áttekintése és értelmezése szinte lehetetlen feladat lenne a modern technika vívmányai nélkül. A 2010-ben kiszivárogtatott Iraq War Logs (iraki hadi cselekmények jelentései) összefoglalója egy 92,201 soros táblázat, ami tartalmazza a harci cselekmény helyét, idejét és rövid leírását. Ennek egy része hagyományos módszerekkel is elemezhető, de a leírások áttekintéséhez be kellett vetni a nyelvtechnológiát is. Jonathan Stray (adatújságíró és programozó) az Associated Press-nél vezette a szöveges megjegyzések feldolgozására irányuló munkát és felismerte, hogy egy általános problémával került szembe. Nem csak a kiszivárogtatások során özönlenek a dokumentumok a szerkesztőségekre. Az ún. FOIA (információs szabadság törvények által biztosított jog) keretében kikért információt a hatóságok gyakran szeretik átadni sok lényegtelen kísérő dokumentummal. A törvényes, ám cseppet sem etikus eljárás célja, hogy minél később akadjon az információt kérő a számára fontos adatokra. Ám maguk a szerkesztőségek is sok adatot halmoztak fel archívumaikban, melyek "cikkekbe" vannak zárva. A nyelvtechnológia segít abban, hogy kinyerhessük a szükséges információt és Holovaty elveinek megfelelően külön eltárolhassuk az adatokat. Stray a Knight Foundation támogatásával elindította az ilyen problémák megoldására alkotott The Overview Project-et (amit egy korábbi írásunkban már bemutattunk). A technológia és az újságírás sikeresen egymásra talált a közelmúltban és sokan gondolták azt, hogy az adatok korában a társadalomtudományi ihletettségű ún. precíziós újságírás (precision journalism) pepecselős adatgyűjtése helyett, a nyílt és az ilyen-olyan módon megszerezhető adatok leveszik a kutatás terhét az újságírók válláról. A 2011-es angliai zavargások azonban rámutattak arra, hogy nem ilyen egyszerű a helyzet - sorozatunk következő részében erről számolunk be.


2013. február 22. 10:20

2013 a beszédtechnológia éve?

Még tavaly októberben Rick Rashid (Chief Research Officer, Microsoft) egy tajvani konferencián demonstrálta mire képes a beszédfelismerés és a gépi fordítás. A felvételen látható, Rashid beszédét valós időben szöveggé konvertálja a rendszer és a kivetítőn olvasható mit mond az előadó. 4:28-nál a feliratot a szoftver rögtön le is fordítja kínaira, majd 7:28-tól a kínai szöveget hallhatjuk is (állítólag Rashid hangjához hasonló gépi hang olvas fel, én nem fedeztem fel nagy hasonlóságot a két hang között). Mindezt az ún. neurális hálók technológiájában történt áttörésnek és az olcsó GPU egységek elterjedésének köszönhető. A Microsoft mellett a Google is széles körben alkalmazza ezt az eljárást, pl. a korábban már bemutatott beviteli eszközök kapcsán. A témában érdemes elolvasni a Wired cikkét, ami ezt a posztot is inspirálta.


2013. február 21. 12:00

Web Intelligence - NLP meetup február 28-án

Február 28-án tartjuk évadnyitó meetupunkat 18 órától a Colabs-ben (Budapest, Irányi utca 3.) A rendezvény továbbra is ingyenes, de kérünk minden kedves érdeklődőt, regisztráljon oldalunkon és részvételi szándékát jelezze (ezzel is segítve a szervezők munkáját). A tavaszi szezonban két angol meetup kerül megrendezésre, ebből az első rögtön a februári. A következő angol meetup április 6-án lesz, ami rendhagyó módon szombati nap. Az Open Knowledge Foundation látogat meg minket az inkLink 2013 keretében és egy rövid beszélgetésre ülünk össze. Reményeink szerint itthon is szárnyra kap az open data (nyílt adatok) mozgalom! Már erre az eseményre is lehet regisztrálni a megfelelő oldalon! Természetesen magyar meetupok is lesznek márciusban és májusban. Ezek programját is hamarosan feltöltjük. Az e havi meetup programja: Christophe Heintz: Web Epistemology Social phenomena, I will argue, are made of long cognitive causal chains that span several individuals, extend in the public environment, and possibly involve cognitive tools such as ICTs. Social scientists have issued great analyses of the the new practices and communities that are created by new ICTs, but the analysis of cognitive causal chains is especially adequate for specifying the causal role of ICTs in the making of social phenomena. I will illustrate this point with three examples: the distributed selection of relevant information via search engines, some IT aspects of contemporary finance, and recent uprising fostered by social media. Short bio:C. Heintz is an assistant professor of cognitive science at CEU, Budapest, Hungary. He is working on cultural evolution and its cognitive bases, with analyses in the history of science and mathematics, and in economics. C. Heintz studied mathematics and philosophy at the universities of Paris and Cambridge. He obtained his PhD from the School for Advanced Studies in the Social Sciences (EHESS, Paris). Zoltán Lehóczky: Associativy Associativy is a fully open knowledge graph platform for the web. Its components are based on the ASP.NET MVC-based Orchard CMS and they provide a toolbox for storing, searching, exploring and visualizing knowledge graphs. Graphs in Associativy store pieces of knowledge with the edges connecting them representing associative connections, in the human sense. The project's ultimate goal is to provide a system that can store knowledge similarly structured to how our mind works and what can be "asked" to "think" about associations. Short bio Loving technology ever since I'm a Computer Science and Engineering student at Óbuda University in Budapest. Web application development is my key skill, having been involved with PHP and ASP.NET MVC for years. I embrace open source and live it through the Orchard ASP.NET MVC-based content-management framework: I'm one of its developers, released dozens of open source modules to it and even do work with it. My interest in artificial intelligence, knowledge representation and machine learning lead me to the development of the Associativy graph platform.


2013. február 19. 12:00

Adatújságírás - a kezdetek

"Három rend van jelen a parlamentben de ott fönn, a Tudósítók Galériáján foglal helyet a Negyedik Rend, mely mindnyájuknál fontosabb." (Edmund Burke) Tavaly év végén jelent meg a New York Times Snow Fall riportsorozata, ami igazán látványos grafikákkal és multimédiás tartalmakkal nyűgözte le az olvasókat. A sorozattal a kiadó azt szerette volna jelezni, hogy az adatújságírás és a nyomtatott sajtó kora utáni média már felnőtt. Most dióhéjban megmutatjuk milyen utat kellett megtennie idáig. Az adatok gyűjtése és az értelmezésüket megkönnyítő grafikonok készítése korántsem új hóbort. Florence Nightingale a krími háború során ápolóként kísérte a brit csapatokat és felfigyelt arra, hogy mennyire magas a sérült katonák halandósága. A negyedik hatalmi ágat kihasználva lépett akcióba és a The Times-hoz fordult egy levéllel, melyben megírta milyen szegényes körülmények között is ápolják a sérült katonákat. Ennek eredményeképpen a brit parlament elkezdte vizsgálni a hadikórházak helyzetét és Nightingale a bizottság számára elkezdte híres jelentéseit készíteni (a fenti képen ennek egy híres oldala látható). A 18. és 19. század folyamán a legtöbb államban kialakultak a mai statisztikai hivataloknak megfelelő intézmények. A népszámlálási adatok nem csak a demokratikus berendezkedéshez elengedhetetlen választások lebonyolításához szükséges szavazókörzetek kialakításához nyújtottak információkat, hanem a gazdasági és politikai döntések előkészítéséhez és monitorozásához is. Kialakultak az adóztatáshoz és ágazati politikacsináláshoz (policy making) szükséges adatszolgáltatási kötelezettségek (pl. könyvelés, iskolai nyilvántartások stb.) valamint velük együtt fejlődtek a társadalomtudományok és a társadalomstatisztika is. Az első számítógépek egyike, Herman Hollerith tabulátora az USA népszámlálási hivatalának segített a cenzus adatainak feldolgozásában (később a gépet gyártó cégből IBM lett). 1969 fontos fordulópont az adatújságírás történetében. Ebben az évben Clarence Jones a The Miami Herald büntető igazságszolgáltatásról szóló cikkében komoly anomáliákra hívta fel a figyelmet, amelyek a helyi sheriff hivatalának menesztéséhez vezettek. A fiatal újságíró oknyomozása során számítógépes eljárásokat használt, melyek kimutatták, hogy a rend és igazság őrei megbotlottak. Ugyanebben az évben jelent meg Philip Meyer Precision Journalism című könyvének első kiadása. Meyer amellett érvel, hogy az újságírás (legalábbis annak egy jelentős része) számára elengedhetetlen a társadalomtudományok módszertanának átvétele, hiszen habár funkciójában más (célja a köz tájékoztatása, a problémák bemutatása és megvitatása, nem a mély elemzés és a megoldások keresése) vizsgálódási terepe nagyban hasonló. A közös metodológia központi magja az adatok gyűjtése és kezelése, a kötet későbbi kiadásaiban Meyer egyre inkább előtérbe helyezi ezt a szerepet. A nyolcvanas években a Meyer által lefektetett alapokon lassan felépült a társadalomtudományokhoz közelálló újfajta újságírás. David Weaver és Maxwell McCombs egy nagy hatású cikkben (a teljes hozzáféréshez jelszó szükséges) összegezte ezt a változást. Persze a társadalmi kérdésekre való nyitottság és a majdhogynem tudományos igényű elemzés sosem állt távol az újságírástól, de ezek sokkal inkább szociográfiai riportok voltak, hasonlóak Illyés Puszták népéhez. A nyolcvanas években a kvalitatív, megértésre és már-már irodalmi eszközökkel készített riportokra építő ún. posztmodern vagy narratív irányzat és a kvantitatív, empirikus adatokat használó és társadalomtudományi elméletekre alapozó irányzat végleg elvált egymástól. Az internet megjelenése életre hívta az open data, vagyis a nyílt adatok mozgalmát. A demokratikus országokban mára a legtöbb statisztikai hivatal által gyűjtött adat nyilvános és elérhető az interneten. A nagy nemzetközi szervezetek (Világbank, EU, ENSZ szervezetek) is elérhetővé teszik adataikat. Egyre több nemzeti archívum érhető el digitális formában (gondoljunk hazánkban a MEK-re és a DIA-ra). Intézményesített formája is van annak, ha olyan adatot szeretnénk elérni, ami nem nyilvános - erről szólnak a FOIA (Freedom of Information Act) törvények. Amennyiben egy hatóság nem tudja meggyőzni a bíróságot, hogy az általa gyűjtött és kezelt adatok titkosítása szükséges, akkor a kért információt nyilvánosságra kell hozni. Az internet nyújtotta infrastruktúra és az információhoz való hozzáférés új módja hívta életre az adatújságírást a kétezres évek derekán. Következő posztunkban erről fogunk beszámolni.


2013. február 12. 12:00

Reverb - a Wordnik nevet váltott

A mindenki kedvenc online szótárát készítő Wordnik nevet váltott és Reverb-re keresztelte át magát. A zászlóshajó termék továbbra is a Wordnik szótár, az új névvel szeretnék jelezni, hogy immár annak felhasználását helyezik előtérbe.  Talán a Reverb az egyetlen cég, amihez egy TED előadás adta az ötletet. Persze minden korpusznyelvész - joggal - úgy érzi, az általa összegyűjtött adatok aranyat érnek, de kevés lép a tettek mezejére. Minden startup számára nehéz megtalálni a megfelelő működési modellt, ezért viszonylag gyakran váltanak üzleti modellt (ezt nevezik pivot-nak). A mostani névváltás a második nagy pivot a cég életében. De ez most egyáltalán nem váratlan. Ahogy korábban már bemutattuk, a cég intenzíven kereste azt a területet, ahol hasznosulhatna a lassan már félelmetesen nagy szótára. Most úgy tűnik a tartalomajánló rendszerekben megtalálta a bevételt termelő főtevékenységet. A Reverb a Wordnik adataira alapozva kínál tartalomajánló szolgáltatást. Az olvasók oldalon tartása egyidős az internettel és máig nincs ideális megoldása. A leginkább elterjedt megoldása a tartalmak címkézésén alapuló ajánlás. A címkézés viszont szubjektív, a "cica" és a "macska" mind ugyanarra vonatkozhatnak, de ha csak az egyiket adja meg a tartalom gondozója, akkor az ajánlórendszer tehetetlen. A Wordnik szótár felhasználásával automatikusan megtalálhatók a példához hasonló kapcsolatok, ezáltal hatákonyabbá válik az ajánlás. A Reverb nem áll meg a szótára újrahasznosításánál. A cég álláshirdetései alapján látható, hogy az ún. topik modellek területén jártas kutatókat és fejlesztőket keres. Ebből arra következtethetünk, hogy a tartalmak mélyebb elemzése alapján is szeretne jobb ajánlásokat generálni ügyfeleinek. Reméljük az új modell sikeresnek bizonyul és sok korpusznyelvészt fog inspirálni a jövőben. Sok sikert Reverb!


2013. február 11. 8:32

Yahoo! Interest Graph

A Facebook Graph Search elindulásával kapcsolatos hírek között szinte elsikkadt, hogy a Yahoo! is valami hasonlóval próbálkozik. Marissa Mayer CEO a Bloomberg TV-nek adott interjú szerint a Yahoo! célja az érdeklődési gráf kialakításával az, hogy minél személyesebb mobil élményt nyújtson a felhasználóknak. Habár az interjú nagyon érdekes, érdemes megjegyezni, hogy az érdeklődési gráfok nem most jelentek meg. A leghíresebb talán a Hunch.com, ami 2009-ben indult és immár az eBay tulajdona. Ahogyan arról már korábban beszámoltunk, a mind a hagyományos, mind az e-kereskedelem szereplői intenzíven kutatnak és fejlesztenek ezen a területen. Ez nem is annyira meglepő, hiszen számukra létfontosságú egy jól működő ajánlórendszer. Az viszont már egy másik kérdés, hogy mennyire akarjuk magunkat (és a felhasználókat) bezárni egy érdeklődési burokba...


2013. február 7. 10:18

BlackBerry és az érintőképernyős szövegbevitel

Előző posztunkba nem fért bele a BlackBerry újítása. A kanadai céget nagyon megviselte az iPhone és az androidos készülékek elterjedése. A cég nevet is váltott, Research in Motion (RIM) helyett, immár termékei márkanevét viseli és a januárban bemutatott új készülékekbe vetette minden reményét (bővebben erről a The Economist-on). A Q10 a BlackBerry a cégtől megszokott fizikai billentyűzetét kapta, a Z10 viszont egy manapság elterjedtebb érintőképernyős készülék. Az alábbi videóban is elhangzik, a cég készülékeit az különbözteti meg a konkurensektől, hogy a leglehetetlenebb helyzetekben is biztosan és könnyen kezelhető a billentyűzetük. Az érintőképernyő esetében ezt ők a Nuance és a Google virtuális billentyűzetéhez hasonlóan működő kétszintű prediktív bevitellel oldották meg. Ellenben a bevitel nem folyamatos a Z10 esetében, hanem elkülönült mozdulatokkal kell "leütni" az egyes betűket. A folyamatos gesztusoknak a szöveg könnyű szerkesztésében jutott szerep, amit eddig mások eddig elhanyagolták, ezért üdvözlendő a fejlesztés. A Swype és a Gesture Keyboard tesztelése után viszont mi úgy gondoljuk, helye lenne egy BlackBerry készüléken is a folyamatos bevitelnek.  


2013. február 6. 9:10

A Twitter felvásárolta a Bluefin Labs-t

A Twitter felvásárolta a Bluefin Labs-t. Talán végre sikerül levetkőznie a cégnek a túlkoros startup imázsát és saját maga is ki tudja aknázni a csiripelők által nyújtott hatalmas adatmennyiséget. Ahogy korábban már hírt adtunk róla, a Bluefin nagyon ügyesen ötvözi a nyelvészet és a kognitív tudomány eredményeit a legmodernebb technológiával a közösségi és a hagyományos média elemzése során. Olvasóink figyelmébe ajánljuk a Technology Review felvásárlás hátterét taglaló írását. Az akvizíció is mutatja, ma kellően érett az ipar arra, hogy a gyakorlatba is átültesse a tudomány eredményeit. Reméljük sok hasonló sikertörténetről hallunk a jövőben. Az alábbi videóban Deb Roy tízpercben összefoglalja mivel is foglalkozik a Bluefin:


2013. február 5. 12:00

Mobil beviteli eszközök újragondolva

Ha hihetünk a technológiai jóslatoknak, az idei év tényleg a mobil éve lesz. A mobil nagy lehetőségeket rejt magában, de egyben nagyon nagy kihívások elé is állítja a fejlesztőket. Az okostelefonok még csupán az utóbbi öt-hat évben terjedtek el és nem alakultak ki az asztali és hordozható számítógépeken már megszokott standard felhasználói interakciók. A Nuance és a Google is újragondolja a bevett kereteket, kezdve a legegyszerűbb dologgal, a szövegbevitellel. A Swype alapítója Cliff Kushler nem mindennapi figura, hiszen azzal büszkélkedhet, hogy kétszer is megújította a mobil billentyűzetet és szövegbevitelt; először a kilencvenes években a T9 prediktív bevitel megalkotásával, majd a Swype-al, amit 2011-ben 100 millió dollárért vásárolt fel a Nuance. Ahogy a fenti bemutatón is látszik, a Swype virtuális billentyűzetén nem "nyomogatjuk" a betűket, hanem folyamatosan mozgatjuk ujjunkat a bevitel során. A Swype egyszerre figyeli milyen betűket viszünk be és azt, hogy milyen szavakat vittünk be eddig. Ez a kettős kontextus lehetővé teszi, hogy nagy pontossággal eltalálja mit is akarunk begépelni. Persze a statisztikai módszerek nem tökéletesek, de a beépített tanuló algoritmus alkalmazkodik a felhasználó szokásaihoz és nagyon hamar (tapasztalataink szerint már pár óra használat után) növekszik az app pontossága. A Nuance Mobile Life betekintést nyújt abba, hogyan képzeli el a beszédtechnológia óriása a mobil interakciót. A Swype a Dragon Go hangfelismerővel kiegészítve a mobil keresést könnyíti meg. A Dragon Dictation pedig a hosszabb szövegek bevitelét támogatja. A legösszetettebb Nuance megoldás kétségtelenül a Dragon Mobile Assistant, ami jelenleg Android platformra érhető el. Leginkább az Apple Siri-hez hasonlít, ami nem meglepő, hiszen a népszerű iPhone alkalmazás is a Nuance beszédtechnológiai megoldásait használja. Hasonló megoldásokkal ma már szinte minden mobil alkalmazás felruházható, mivel a Nuance szolgáltatás formájában elérhetővé tette beszédfelismerő rendszerét. A Google legújabb Nexus mobil és tábla készülékeinek kampánya az "Ask me anything", azaz a kérdezz tőlem bármit, szlogenre épít. A kereső óriás az olyan fejlesztésekkel, mint a Google Knowledge Graph megteremtette egy válaszkereső alapjait. Ezzel egyidőben az olyan új interfészek, mint a Google Voice Search és a Google Handwrite előre jelezték, hogy az új platform nyújtotta lehetőségek egyre jobban izgatják a cég fantáziáját. Shumin Zhai elismert ember-gép interakció kutató 2011-es "leigazolása" óta mindenki várta a mobil billentyűzet megújítását is. Zhai az IBM-nél fejlesztett ki a Swype-hoz hasonló ShapeWriter-t. Ennek továbbgondolása a Gesture Keyboard, ami a legújabb 4.2-es Android operációs rendszerben már elérhető. A Gesture Keyboard működése nagyon hasonlít a Swype-ra. A hagyományos "pötyögés" helyett akár egy ujjal is gyorsan, kényelmesen vihetünk be szöveget, ez az applikáció is egyszerre veszi figyelembe a kontextust a szavak és a betűk szintjén. Saját tesztünk alapján azonban semmilyen tanulási mechanizmust nem tapasztaltunk. A Nuance megoldásaival ellentétben, a Nexus eszközökön a különféle beviteli módok - hang, szöveg - közötti integráció igen csak gyerekcipőben jár. Ellenben a Swype és a különféle Dragon appok néha szörnyen belassulnak. A szöveges bevitel viszont mindkét cég termékeinek esetében nagyon meggyőző és meglepően jól működik. A mobil évére felkészültek a beviteli eszközök, a jövő kérdése, hogy a felhasználók életébe mennyire ivódnak bele ezek a megoldások.


2013. január 29. 12:00

Precognox - új név alatt folytatja a WebLib

Az új évet cégünk új néven kezdi; Precognox Informatikai Kft. Továbbra is szeretnénk a legmodernebb keresési és szövegbányászati megoldásokat, valamint professzionális J2EE szoftvereket szállítani partnereinknek. Angol nyelvű honlapunk már közvetlenül, a Precognox.com cím alatt érhető el. Szokásunktól eltérően nem szeretnénk nyelvészkedni, de a név alapötletét a Különvélemény című film körül érdemes keresni. Meggyőződésünk, hogy a múlt adataiban ott vannak valahol azok az információk, amelyek a jövő döntéseit segíthetik. Továbbra is szívesen segítünk hasonló problémákban. 2001 óta dolgozik együtt a 2008-ban alapított WebLib csapatának "keménymagja". Első megbízásaink (pl. a National Institute of Health ToxSeek toxikológiai keresője) a kereső technológia körébe tartoztak. Az iparban bekövetkezett fejlődésnek hála ez a terület egyre szorosabban fonódik össze az analitikával és napjaink hívószavával a big data-val. Munkatársaink a trendeknek megfelelően folyamatosan képzik magukat és több projekt során a gyakorlatban is elsajátították a szükséges képességeket. Az Internfish InfoHarvester termékünket használja, hogy a világ minden tájáról összegyűjtse és elérhetővé tegye a diákok számára meghírdetett pozíciókat. Az Analogy Dialogue intelligens szervezeti esetgyűjtemény és tudásmenedzsment rendszer kereső megoldásának fejlesztése során a hagyományos technológiákon túlmutató eszközöket ismerhettünk meg. Jelenlegi fejlesztéseinkben is összefonódnak a keresés és a nagy adathalmazok elemzésének kérdései, a jövőben pedig - legalábbis ha jól látjuk a jövőt - mégtöbb hasonló projekt vár ránk. A Precognox kiemelt hangsúlyt fektet a kutatás-fejlesztésre. Cégünk a tavaly indult Natural Language Processing Meetup főtámogatója, egyben munkatársunk a rendezvény főszervezője. Kollégáink rendszeres előadói és látogatói a hazai és nemzetközi tudományos és iparági konferenciáknak. A Kereső Világ blogon keresztül - amit a Goldenblog blogverseny két egymást követő évben is harmadiknak választott az IT kategóriában - szeretnénk a szélesebb közönség számára összegezni és érthetővé tenni az analitika, a keresés és a nyelvtechnológia újdonságait. A Számítógépes nyelvészet blog pedig a szakmai kérdések iránt érdeklődőknek szól. Több mint egy évtizedes tapasztalatunkra építve újultunk meg. Ennek eredménye, hogy ügyfeleinket még jobb, átfogóbb megoldásokkal szolgálhatjuk ki.


2013. január 26. 12:58

Yandex Wonder - ami a Facebook Graph Search szeretne lenni

Alig egy hete indult el a Facebook Graph Search. A hírre mindenki felkapta a fejét, van aki szereti, de jelen poszt szerzője inkább szkeptikus ezzekkel a hangokkal szemben. Mindeközben a Yandex Labs munkatársai elindították saját közösségi médiás keresőjüket, a Wonder-t. De mielőtt bárki ki is tudta volna élesben próbálni, az egyik Yandex kutató bejelntette, hogy a Facebook blokkolta az alkalmazást, pont akkor, amikor a Graph Search elérhetővé vált számára (a sors fintora?). Got Graph Search yesterday on my FB account (around the same time when wonder was blocked). Playing w/ it now — Maria Grineva (@mariagrineva) January 25, 2013 Az egészben a legérdekesebb, hogy a Wonder tkp. a Graph Search egy sokkal jobban végiggondolt megvalósítása a mobil internetezés korában. Érdemes három percet rászánni a bemutató video megtekintésére. Wonder by Yandex Labs from Maxim Grinev on Vimeo. A Wonder a Facebook és a Twitter mellett egyéb közösségi oldalakkal is - mint pl. Foursquare, Instagram,  Spotify, stb. - összekapcsolja a felhasználó profilját.Természetes nyelven kereshetünk ezután, akár gépelve, vagy   a beszédfelismerésnek hála saját hangunkat használva. Egyértelműen látszik, hogy a Nuance végzi a beszédfelismerést a rendszerben. (Erről bővebben lásd régebbi posztunkat) Az előre kibányászott témák az iPhone képernyőjén nagyon jól böngészhető sorokba halmozódnak (stack). Ha pl. egy ismerőseink által ajánlott étteremről szeretnénk több információt megtudni, a kiválsztás után egy informatív panelen láthatjuk róla a fontosabb információkat, ha asztalt szeretnénk foglalni, akkor rögvest hívhatjuk is a megjelenített számot. Az ismerőseink által hallgatott zenékről is egy szép összefoglaló jelenik meg, mely segítségével az belehallgathatunk az ingyenes kedvcsinálókba, vagy az iTunes-on meg is vásárolhatjuk a minket érdeklő számokat. A Yandex white paper alapján látható, nem egy monolitikus rendszert alkottak, hanem kreatívan használták az elérhető API-kat. A "varázslat" a természetes nyelvi query-k SQL lekérdezéssé formálásában rejlik, valamint a Graph Search-nél sokkal jobban átgondolt dizájnban. Természetesen a Facebook-nak mint cégnek joga van blokkolni a Yandex alkalmazását, habár ennek nincs sok értelme, mivel a cég bejelntése szerint csupán egy kísérletről van szó.A Facebook-kal szemben sokszor felhozzák, hogy nem tud mit kezdeni a mobil megjelenéssel, most inspirációt nyerhettek volna, de inkább megijedtek a verseny lehetőségétől.


2013. január 25. 11:33

Piackutatás és big data

A big data nem csak a technika nyújtotta lehetőségekről szól, hanem arról hogyan és mire tudjuk használni az adatokat. A Piackutatás blog egy remek sorozatban mutatja be a marketing szemszögéből a big data őrületet, Nagyon örülünk, hogy rátaláltunk erre a színvonalas blogra, mert számunkra izgalmas más szemszögből látni a területet. A Piackutatás bloghoz szorosan kötődik a Marketingkutató Magazin, mely számai pdf formátumban letölthetőek. A  2012-es téli szám big data mellékletét külön ajánljuk olvasóink figyelmébe. 


2013. január 22. 12:00

Circa - újság vagy app?

A Circa célja, hogy újragondolja a híreket. A cég érdekessége, hogy a kor divatjával szemben, nem törekednek teljes automatizálásra, hanem a szerkesztői munkát ötletesen ötvözik a technikai lehetőségekkel. Kicsit zavarban van az ember, amikor az appot teszteli, hiszen kicsit olyan, mint egy hagyományos újság, kicsit olyan, mint a sokadik hírolvasó alkalmazás. A Circa alapötlete Adrian Holovaty, az adatújságírás egyik atyja, megfigyelésén alapul, mely szerint minden cikknek van egy minimális tényszerű része (mikor, hol, kik és mit csinálnak). Pl. egy választásokról szóló cikksorozatban ezek jelentős része többször előfordul, ezzel párhuzamosan a cikkekben is sokszor ismétlődnek bizonyos elemek. A Circa szerkesztői és algoritmusai együtt dolgoznak azon, hogy egy adott téma hírfolyama ne tartalmazzon felesleges ismétlődéseket, a hírfolyamok a lehető legkarcsúbbak legyenek és a frissítések után ne kelljen mindenen újra átrágnia magát az olvasónak. Egy hír így tkp. egy folyamatosan frissülő csatorna. A Circa újragondolta a leader szövegek fogalmát is, nem egy ütős összefoglalóval nyit egy cikk, hanem a kibányászott tények összefoglalójával, kiemelve ezek közül az újdonságokat. Ez lehetővé teszi, hogy a tényeket mi magunk is felfedezzük, pl. a térképen rögtön megtekinthetünk egy földrajzi nevet, egy személy esetében a biográfiai adatokhoz ugorhatunk stb. A cég a közeljövőben kíván belépni az Android platformra. Habár a koncepció meggyőző, a tartalom, már csak a Circa amerikai volta miatt is, egy európai számára idegen. Külön kérdés, mennyire tartható fenn a költséges működési modell, mennyiben tudnak többet nyújtani, mint az olyan teljesen automatizált versenytársak, mint a Prismatic és a Wavii.


2013. január 16. 10:19

Facebook Graph Search

A Facebook elindította Graph Search szolgáltatását. Sajnos jelenleg még csak az Egyesült Államokban érhető el (ott is csak azoknak akik US English felületet használnak), reméljük hamarosan mi is használatba vehetjük. A TheVerge videója sokkal jobban megmutatja hogyan is működik ez az egész. Ahogy a fenti videón is látható, a keresés természetes nyelven (is) végezhető - amit mi mint a keresés és a nyelvtechnológia elkötelezett hívei csak üdvözölni tudunk. Talán egy laptopon ennek nem sok értelme van, de mobil eszközökön, egy jó beszédfelismerővel megtámogatva roppant hasznos lehet. Amellett, hogy barátanik között keresgélhetünk különböző szempontok szerint, a megosztott tartalmak is jobban hasznosulhatnak, mivel a Facebook adatbázisaiban ott lapul korunk egyik legfontosabb értéke, a kontextus. A Google-től elcsábított Lars Rasmussen és csapata szép munkát végzett, várjuk a folytatást! Látható, a Facebook nem tör a Google babérjaira, ezt a Microsoft-ra és a Bing-re bízza (hiszen az szolgáltatja az eredményeket továbbra is minden olyan esetben amikor a Search Graph nem ad találatot), inkább a speciális keresők piacát célozza. Az olyan cégeknek van félnivalója mint pl. a bitly és valós idejű keresője a rt.ly, a Blekko és a Weotta. 


2013. január 15. 12:00

Big data forradalom?

Ma már szinte korlátlanul tárolhatunk adatokat, ill. szerezhetünk be számunkra érdekes adatbázisokat. Ezek elemzése sokak szerint forradalmasítani fogja az üzleti világot. De tényleg ennyire mesés, szép, új világ vár ránk? A Harvard Business Review-n októberben jelent meg Adrew McAfee és Erik Brynjolfsson Big Data: The Management Revolution című tanulmánya (ingyenes regisztráció után teljes terjedelmében szabadon olvasható). A szerzőpáros remekül összefoglalja milyen szerepe van/lehet a big data-nak egy vállalat működésében és a döntéshozatali mechanizmusokban. Persze önmagában az adatokon alapuló döntésekben nincs semmi újdonság. Steve Lohr cikkében rámutat arra, hogy a legfontosabb különbség a "big data" és az üzleti intelligencia között az alkalmazott elemzési modellek szofisztikáltságában és az automatizáltság nagyobb fokában rejlik. Kérdés azonban, mennyire bízhatunk meg modelljeinkben? George E. P. Box híres mondása szerint "Essentially, all models are wrong, but some are useful", azaz alapvetően minden modell rossz, de pár hasznos. Nate Silver (a népszerű Five Thirty Eight New York Times blog szerzője) The Signal and the Noise: Why So Many Predictions Fail - but Some Don't című könyvét tkp. erre a mottóra építette. A statisztikai és valószínűségi modellek természetéhez tartozik, hogy nem egy telejós biztonságával jelentik ki, mi is fog történni a jövőben, hanem valamilyen valószínűséget rendelnek hozzá, sőt az óvatos tudósok szeretnek amolyan apróbetűs záradékban megemlékezni arról, hogy ez a valószínűség rendelkezésre álló adatokra épített modellre értendő. Ez annyit tesz, hogy az előrejelzés az adatok minőségétől és mennyiségétől függ, továbbá a valószínűség annyit jelent, hogy az adott modellben az adott előrejelzés "mellett szól a legtöbb érv". Ilyen megkötésekkel kell dolgoznia az elemzőknek, de ez sokszor jól működik, ill. nem okoz nagy zavart egy-egy hiba. Silver két területet emel ki, ahol a saját bőrünkön érezhetjük azt, amikor a modellek rosszak; a pénzügyek és a egészségügy. A pénzügyi modellek problémáinak következményeit senkinek sem kell ecsetelni és sajnos gyakran megesik, hogy egy gyógyszert visszahívnak a piacról, mert kiderül nem tesztelték elég alaposan. De hol is van ilyenkor a hiba? Silver könyvét Cathy O'Neil (a big data iránt érdeklődők körében népszerű mathbabe blog szerzője) kritizálta az O'Reilly Radaron (általában az IT és a big data iránt érdeklődők egyik legfontosabb igazodási pontja a világhalón). Az ellenérvek szerint egyrészt a hibák a rossz adatoknak köszönhetőek. A pénzügyi világban rossz statisztikák születtek (meghamisított jelentések pl.) az egészségügyben rossz adatfelvétel és egyéb problémák (szubjektív kérdőívezés, bizonyos páciensek kizárása a mintából stb.) Másrészt O'Neil szerint, ha rossz is egy modell, az csak jó! Ez nagyon nyakatekerten hangzik, de gondoljunk csak a saját kárán tanul mondásra, a hiba egyben visszajelzést is jelent, valami olyan, amiből jó esetben tanulhatunk. Karl Popper tudományfilozófus úgy gondolta, hogy minden elmélet arra vár, hogy megcáfolják. Minden tisztességes elmélet megadja megcáfolhatóságának feltételeit és a tudósok általában rendesen tesztelik is. Nagyon sokáig úgy tűnt pl. hogy David X. Li függvénye remekül működik a pénzügyi kockázatok elemzése során. Majd jött a pénzügyi válság és a modellbe vetett hit szertefoszlott. (Bővebben erről Felix Salmon Recepie for Disaster: The Formula That Killed Wall Street című cikkében olvashat a kedves olvasó, ami az American Statistical Society ismeretterjesztő díját is megnyerte anno.) Marije Meerman Quants: The Alchemists of Wall Street című dokumentumfilmje mutatja be a pénzügyi szakma vergődését a modellek bukása után. Hogy mit hoz a jövő azt még senki sem tudja pontosan. Két dolog biztos; új modellekre van szükségünk és sokkal szkeptikusabban kell minden modellhez viszonyulnunk. Rugaszkodjunk el a pénzügyektől és vizsgáljuk meg mit is szeretnének mérni a modern kor menedzserei! Egyrészt a hagyományos vállalatirányítási mérőszámokat, továbbá a cég életére hatással lévő külső tényezőket és a vásárlók releváns viselkedését. Hol húzzuk meg a határt? Minden cég egy adott régióban, országban működik, de egyben hat rá a globalizáció. Az ügyfelek viselkedéséből mi releváns? Földrajzi helyzet, nem, kor, böngészési előzmények, netán politikai beállítottság, szexuális irányultság, más márkák iránti hűség? A gyakorlat kiköveteli, hogy jelöljük ki a felhasználásra kerülő adatok körét. További megkötést jelent, hogy nem minden adatot használhatunk fel (szerencsére a jog ebben megköti a cégek kezét) és nem biztos, hogy az ami szabad, egyben etikus is (pl. kikövetkeztetni a felhasználók nemét, korát stb. kifejezett engedélyük nélkül). Ettől persze a big data még forradalmi eszköz, de érdemes fél szemmel a kudarcokra is figyelni és nem árt tisztában lenni határaival sem.


2013. január 14. 11:47

Ray Kurzweill a Google-nél

A mesterséges intelligencia és a nyelvtechnológia iránt érdeklődők körében nagyon jól ismert Ray Kurzweill neve, aki immár a Google-t erősíti mint director of engineering. Kurzweill kutatásai középontjában az optikai karakterfelismerés és a beszédtechnológia áll, továbbá híres futurológus és transzhumanista is (többször is kifejtette, nagy álma egy mesterséges agy, amire akár saját tudatunkat is átmenthetjük az örökkévalóságnak). Peter Norvig kutatási igazgató mellé is egy igazi nagyágyú került, ez mindenképpen jelzi a Google elköteleződését a nyelvtechnológia iránt, mi pedig izgatottan várjuk a laborból kikerülő újdonságokat. Addig is ajánljuk olvasóink figyelmébe az alábbi interjút, ami sejtetni enged ezt-azt a jövőből.


2013. január 14. 11:47

Ray Kurzweil a Google-nél

A mesterséges intelligencia és a nyelvtechnológia iránt érdeklődők körében nagyon jól ismert Ray Kurzweil neve, aki immár a Google-t erősíti mint director of engineering. Kurzweil kutatásai középontjában az optikai karakterfelismerés és a beszédtechnológia áll, továbbá híres futurológus és transzhumanista is (többször is kifejtette, nagy álma egy mesterséges agy, amire akár saját tudatunkat is átmenthetjük az örökkévalóságnak). Peter Norvig kutatási igazgató mellé is egy igazi nagyágyú került, ez mindenképpen jelzi a Google elköteleződését a nyelvtechnológia iránt, mi pedig izgatottan várjuk a laborból kikerülő újdonságokat. Addig is ajánljuk olvasóink figyelmébe az alábbi interjút, ami sejtetni enged ezt-azt a jövőből.


Az összes hír