Beállítás kezdőlapnak! Hozzáadás a kedvencekhez! Az összes hírt látni akarom!  
Nyitóoldal Autó-motor Blogok Bulvár Életmód, egészség Gazdaság Kultúra, művészet Női témák Politika, közélet Sport Technológia Tudomány Videó
 

Kereső Világ

2014. december 15. 7:25

Dec. 18. Évadzáró NLP meetup

Évadzáró meetupunkat csütörtökön (december 18-án) tartjuk, a szokott helyen (Colabs-Buda) 18:00-tól. Érdemes eljönni, mert februárig kell várni a következőre! A részvétel továbbra is ingyenes, de arra kérünk mindenkit, hogy regisztráljon az esemény oldalán. Az évad utolsó rendezvényén nyelvtechnológiai cégek mesélik el hogyan indultak, milyen nehézségekkel kellett szembenézniük és képet kaphatunk arról milyen is az az igazán nagybetűs élet ebben a világban. A bemutatkozók: Neticle Technologies Kilgray Translation Technologies Precognox


2014. december 12. 21:35

NLP nap a Precognoxnál - avagy mit is csinálunk mi?

Ma kutatói napot tartottunk, amin megbeszéltük az aktuális projekteket és jövő évi terveinket. Sokan szokták kérdezni, hogy mivel is foglalkozunk, hogyan dolgozunk - ami ebből nyilvános, azt megtaláljátok alábbi diáinkban (ígérjük, idén már nem lesz több slideos poszt!). Az idei év legfontosabb változása az, hogy immár egy komplett csapat foglalkozik NLP és gépi tanulás K+F projektekkel, őket láthatjátok a fenti képen (balról jobbra Szabó Martina, Kása Károly - akik a fejlesztési vezetőnk, Varjú Zoltán, Balogh Kitti, Morvay Gergő). A kutatói napon munkatársaink összefoglalták hogy milyen projekteken dolgoznak éppen.   Szabó Martina nyelvész szakértőnk 2014 márciusában csatlakozott csapatunkhoz és azóta már több projektünkben is aktívan részt vett. Fő kutatási területe a szentiment- és emócióelemzés , amiben Morvay Gergő gyakornokunk segíti őt. Martinának köszönhetően cégünk egyre gyakrabban jelenik meg tudományos konferenciákon és a szakma publikációiból is megismerheti ezen projektünket.   Balogh Kitti statisztikusunk 2014 márciusában csatlakozott csapatunkhoz és több projektben is bizonyított már cégünknél. Amennyire fontos a tesztelés a szoftverfejlesztésben, legalább annyira fontos a gépi tanulási algoritmusok kiértékelése. Célunk, hogy munkánk része legyen a kiértékelés és minden olyan projektünk esetében a használt modellek kiválasztásától kezdve a végtermék kiértékeléséig szigorú metodológia mentén járjunk el, Kitti ebben segíti munkánkat.   A politikai blogokkal kapcsolatos sorozatunkat lelkes olvasóink már ismerhetik. Kitti a tartalomelemzés és a linkanalízis összekapcsolását kitűző projektünkkel kapcsolatos terveit is ismertette.   2015-ben izgalmas feladatok várnak ránk, ígérjük mindenről beszámolunk majd (ami nyilvános).


2014. december 9. 8:26

A LingDokKonf 18. diái

A Szegedi Tudományegyetem Nyelvtudományi Doktori Iskolája minden évben meghirdeti a Nyelvészdoktoranduszok Országos Konferenciáját. A tizennyolcadik LingDok konferenciára 2014. november 20-án és 21-én került sor, az SZTE Bölcsészettudományi Karának Konferenciatermében.  A konferencián "A magyar nyelvű szövegek szentimentelemzésének dilemmái, különös tekintettel a szentimentsifterek kezelésére" címmel tartottam előadást, amelyben igyekeztem a szentimentelemzés NLP-feladatát a kardinális elméleti problémák felől is megvizsgálni. Az előadás diáit ebben a posztban közzé is tesszük. Továbbra is örömmel fogadunk minden észrevételt, kérdést és ötletet azoktól, akik hozzánk hasonlóan rendkívül izgalmas és nagy kihívást jelentő kutatási témának tekintik a szentimentek kivonatolását a magyar nyelvű szövegekből!   


2014. november 29. 11:19

A novemberi NLP meetup diái

A csütörtöki meetupon valószínűleg rekord látogatottságot értünk el, köszönet Recski Gábor szervezőnek, az előadóknak és persze nektek kedves tagok! A diákat megtaláljátok alább: Simon Eszter: A hun* eszközlánc szószintű feldolgozó eszközei  Simon Eszter: Szekvenciális elemzők: a hunner és a hunchunk     Miháltz Márton: Közösségimédia-szövegek feldolgozásához adaptált Hun* eszközök      Orosz György: Egy adaptálható morfológiai egyértelműsítő rendszer   Vincze Veronika: Nyelvi elemzők Szegedről: morfológia, szintaxis, tulajdonnevek és többszavas kifejezések    Farkas Richárd: Információk automatikus kiemelése magyar nyelvű szövegekből    Pólya Tibor: Regresszív Képzeleti Szótár - Narratív kategorikus tartalomelemzés  Szekeres Péter: Webes vélemények egyetlen grafikonba sűrítve     


2014. november 25. 7:42

NLP eszközök magyarra - Nov. 27. NLP meetup

November 27-én tartjuk következő meetupunkat, 18:00 kezdéssel, a megszokott Colabs-ben. Továbbra is ingyenes a rendezvény, de arra kérünk mindenkit, regisztráljon és jelezze részvételét meetup oldalunkon. Mivel sokan kérték, hogy mutassuk be a magyar nyelvre elérhető eszközöket, Recski Gábor szervezőtársam összeszedte ezeket nektek és készítőik ötperces bemutatókon keresztül ismertetik is ezeket. A program: Simon Eszter (MTA Nyelvtudományi Intézet): A hun* eszközlánc szószintű feldolgozó eszközei A hun* eszközláncot a BME MOKK fejlesztői hozták létre azzal a céllal, hogy segítségükkel természetes nyelvi szövegeket lehessen feldolgozni a legalapvetőbb lépésektől akár a magasabb szintű elemzésekig. Az előadásban bemutatjuk a huntokent, amely a bemenő szabad szöveget alapegységekre (szavakra és mondatokra) bontja. Aztán szó lesz a hunmorphról és a hunposról, amelyekkel a már szóként azonosított egységekhez komplett és egyértelmű morfológiai elemzést rendelhetünk, amely az olyan erősen ragozó nyelveknél, mint a magyar a következő nyelvfeldolgozó lépések fontos előfeltétele. Szekvenciális elemzők: a hunner és a hunchunk A címben szereplő eszközök a hun* eszközláncnak olyan elemei, amelyek nem szószintű elemzést hajtanak végre, hanem nyelvi elemek szekvenciáit azonosítják be. A háttérrendszer ugyanaz minden szekvenciális címkézési feladathoz, de eddig két területre alkalmaztuk: tulajdonnév-felismerésre (named entity recognition) és sekély szintaktikai elemzésre (chunking). Az előadásban elsősorban azt mutatjuk be, hogy a rendszer hogyan használható erre a két feladatra. Miháltz Márton (MTA Nyelvtudományi Intézet): Közösségimédia-szövegek feldolgozásához adaptált Hun* eszközök A Facebookon publikusan elérhető posztok és kommentek szövegei remek forrást nyújtanak véleményelemzéshez, viszont a sztenderd írott nyelvtől eltérő nyelvezet kihívás elé állítja az elérhető magyar NLP eszközöket. Bemutatjuk a huntoken, hunmorph és hunpos eszközökhöz készült, SM nyelvezetet támogató, szabadon bővíthető open source kiegészítéseinket.  Orosz György (PPKE Információs Technológiai és Bionikai Kar):Egy adaptálható morfológiai egyértelműsítő rendszer Magyar nyelv esetén szavak szófaji címkéinek megállapításán túl egy másik fontos előfeldolgozó lépés a szótövek meghatározása. Az előadásban ismertetjük a nyílt forráskódú PurePos rendszert, mely ezt az összetett feladatot oldja meg nagy pontossággal. Bemutatjuk még az eszköz rugalmas felépítését, mely által alkalmassá válhat különleges domének elemzésére is.  Vincze Veronika   (MTA-SZTE Mesterséges Intelligencia Kutatócsoport): Nyelvi elemzők Szegedről: morfológia, szintaxis, tulajdonnevek és többszavas kifejezések A magasabb rendű nyelvtechnológiai alkalmazások számára alapvető fontosságú a szövegek nyelvi (morfológiai és szintaktikai) elemzése. Ezen felül hasznos a tulajdonnevek felismerése és az ún. többszavas kifejezések azonosítása, melyek sajátos jelentésük és viselkedésük miatt speciális kezelést kívánnak meg számos alkalmazásban, például információkinyerésben vagy gépi fordításban. Előadásunkban bemutatjuk a szegedi NLP-csoport nyelvi elemző eszközeit: a magyarlanc nevű morfológiai és függőségi elemzőt, angol és magyar nyelvű tulajdonnév-azonosító rendszerünket, továbbá többszavas kifejezéseket több nyelven azonosító rendszerünket.Farkas Richárd (SZTE Számítógépes Algoritmusok és Mesterséges Intelligencia Tanszék): Információk automatikus kiemelése magyar nyelvű szövegekből Röviden bemutatjuk az információkinyerő rendszerünket, amely képes nagy méretű szöveghalmazokból automatikusan bizonyos célinformációkat (pl. ki, mikor, mit csinált) egy strukturált adatbázisba kiemelni. A feladat csak mély szintaktikai elemzés felhasználásával oldható meg. Pólya Tibor (MTA Természettudományi Kutatóközpont, Kognitív Idegtudományi és Pszichológiai Intézet, KRE BTK Pszichológiai Intézet): Regresszív Képzeleti Szótár A Regresszív Képzeleti Szótárt Colin Martindale dolgozta ki a szöveg keletkezésekor domináló gondolkodási mód azonosítására. Az elemzési eljárás pszichológiai validitását empirikus kutatások sora igazolja. A magyar változatot Pólya Tibor és Szász Levente Péter készítette el (MTA TTK KPI). Narratív kategorikus tartalomelemzés A NarrCat a történetek tartalmának és szerkezetének automatikus elemzésére kidolgozott eljárás. A NarrCatot számos kutatásban alkalmaztuk a személyes és a szociális identitás vizsgálatára. A NarrCatot az MTA TTK KPI Narratív Pszichológiai Kutatócsoportja és a PTE Pszichológiai Intézete dolgozta ki a Morphologic Kft., az MTA Nyelvtudományi Intézet Nyelvtechnológiai Kutatócsoportja és a SZTE Mesterséges Intelligencia Kutatócsoportja közreműködésével. Szekeres Péter (Neticle): Webes vélemények egyetlen grafikonba sűrítve A bemutatkozásban megnézzük, hogy hogyan lehet a social tartalomgyűjtés és az NLP ötvözésével 1 gombnyomásra legenerálható üzleti kimutatásokat készíteni a Neticle rendszerben. 


2014. november 24. 7:29

Data is everywhere - nov. 25. BOK meetup

November 25-én 18:30-kor indul a novemberi Budapest Open Knowledge meetup a Colabs-ben. Rendezvényünk a European Public Sector Infromation Platform Tour állomása is egyben, ennek keretében Martin Alvarez (ePSI advisory board) PSI reuse in Europe előadásával indul az este. Martin előadása után rövid szünetet tartunk, majd magyarul folytatjuk a programot. A részvétel ingyenes, de arra kérünk mindenkit, hogy regisztráljon meetup oldalunkon. A program: Martin Alvarez (ePSI Platform, W3C Spain): PSI Reuse in Europe   This talk will present different successful (and not too successful) Open Data and PSI reuse initiatives around Europe, exploring the opportunities and challenges for public bodies, organizations and individuals. Lebhardt Olviér - VS.hu  Lebhardt Olivér, VS.HU főszerkesztő arról fog beszélni, hogyan lehet nagy adattömegekből sztorit csinálni.  Varjú Zoltán: Open Knowledge Meetup és opendata.hu A magyar open data hub, az opendata.hu mellett szeretném felhívni a figyelmeteket arra, hogy rengeteg lehetőség van csatlakozni hozzánk. Ha van adatod, vagy szeretsz írni, szeretnél programozói tudásoddal hozzájárulni az ügyhöz vagy véredben van a szervezés, akkor köztünk a helyed! Az esemény a Norvég Civil Támogatási Alap támogatásával valósul meg.  


2014. november 21. 8:33

We have installed a large display in the office to show the state of the development and deployment processes for the developers

precognox készítette ezt a képet.


2014. november 20. 7:35

Színtelen zöld eszmék dühödten rappelnek - előadás @ conTEXT

Ma a conTEXT - szöveganalitika magyarul konferencián adok elő, a slide-okat megtaláljátok alább.  


2014. november 18. 8:45

NLP és termékfejlesztés előadás @ CEU MicroData

Ma a CEU MicroData kutatócsoport ebédjén veszek részt és a termékfejlesztés meg az NLP kérdéseiről  fogok beszélni. A csoporttal nagyon élveztük a közös munkát a kozbeszerzes.ceu.hu mögötti adatbázis elkészítésén és vendégeink voltak a szeptemberi meetupon is. Az általuk jegyzett Defacto blogot minden, a köz ügyei iránt érdeklődő olvasónknak ajánljuk. Fejlesztői blogjukat pythonisták és programozók fogják örömmel olvasni.     Előadásomban Hírelemző projektünkön keresztül szemléltetem hogyan néz ki egy rendes NLP termék, majd arról beszélek mi hogyan próbáljuk meg áthidalni a kutatók és fejlesztők eltérő szemléletmódját és a jövőben hogyan szeretnénk még jobbá tenni munkánkat. 


2014. november 11. 8:46

Nyelv, kultúra, társadalom konferencia előadás slide-ok

A korábbi beharangozónknak megfelelően november 4-én, a Nyelv, kultúra, társadalom címmel rendezett alkalmazott nyelvészeti konferencián két előadás keretében beszámoltunk a szentiment- és emócióelemzési projektjeink első eredményeiről. Az előadások prezentációs anyagait az alábbiakban tesszük közzé. Köszönjük mindenkinek, aki részvételével megtisztelte az előadásainkat, és továbbra is örömmel fogadunk minden kérdést és észrevételt!     


2014. november 8. 17:34

Magyar politikai blogszféra - webkonf slide-ok

Ma a Magyarországi Web Konferencián adtam elő a politikai blogokkal foglalkozó projektünkről.


2014. november 4. 8:33

We had the second software development meetup with 34 participants last night #softdevkapos

precognox készítette ezt a képet.


2014. november 4. 7:22

November 20. conTEXT - szöveganalitika magyarul

A Clementine idén is megrendezi a conTEXT szöveganalitikai konferenciát, ezt ajánljuk minden olvasónk figyelmébe. A programból külön kiemelném hogy az IBM Watson Group-tól is hallhatunk majd előadást! Természetesen a hazai szöveg- és hanganalitika java képviseli magát a konferencián, no meg mi is. Érdemes mindenkinek gyorsan megnézni a programot, azután pedig regisztrálni.


2014. november 2. 14:16

Legyél hatékony (ipari) kutató!

A rendes kutató naprakész, gyorsan és hatékonyan reagál az új eredményekre, az ipari kutató pluszban még rögtön tudja is alkalmazni az újdonságokat. A feladat nehéz és egyszerűen lehetetlen neki teljesen megfelelni. Ellenben lehet törekedni arra, hogy az ideális állapothoz közel jussunk.   1. Időgazdálkodás és projektmenedzsment A legfontosabb dolog az, hogy ne vesszünk el a részletekben. Egy rendes kutató tudja, egy életet leélhetne egy könyvtárban hogy egy terület ici-pici kis részproblémájának alapjait megismerhesse. Ez nem lehetséges, a feladatok mindig jönnek, konferenciák, céges kötelezettségek és egyéb elfoglaltságok szabdalják szét a munkaidőt, arról már ne is beszéljünk hogy vannak ünnep- és szabadnapok, amikor illik egy kicsit kiszakadni a munkából. A maradék idővel meg kell tanulni gazdálkodni.  Pomodoro módszer - a legegyszerűbb időgazdálkodási módszer a világon, az ember segítségével megtanulja, hogy egy adott feladatra koncentráljon 25 percig, azután pihenjen, majd folytassa a munkát. Gagyinak tűnik elsőre, de ha az ember használja egy ideig, annyit biztosan megtanul segítségével, hogy megtervezze a napjait, a feladatokat értelmes részfeladatokra bontsa, mérje és kövesse hogyan halad a munkával, megtanulja az új feladatok elvégzéséhez szükséges időt reálisan megbecsülni. A módszer a csoportos munkára is bevethető, sőt a szoftverfejlesztés agilis iskolájában is sokan alkalmazzák. Personal kanban - a feladatok megtervezése és nyomon követése a legegyszerűbben az ún. kanban táblával lehetséges. Elsőre nekem idióta dolognak tűnt felírni egy táblára hogy mivel is foglalkozom, de nagyon jó eszköz arra, hogy folyamatos visszajelzést kapjunk hogyan állunk a futó feladatokkal. Igazán akkor hasznos, ha hirtelen beesik valami és el kell döntenünk, hogy várunk-e az új feladattal, vagy valami mást teszünk félre. 2. Források kezelése Az olvasott tanulmányok, könyvek, posztok, videók stb. forrásait kezeld rendesen! Én a Zotero-t ajánlom erre, de a Mendeley-t is sokan használják. Nincs idegesítőbb annál, amikor az ember bibliográfiai adatok miatt túrja a netet! Maximum egy percet kell rászánni arra, hogy szépen elmentsük és a megfelelő metaadatokkal felcímkézzünk minden forrást, amit hasznosnak találtunk. 3. Jegyzetelj okosan! Akár gépen, akár telefonon, akár papíron, de jegyzetelj! A jegyzeteket érdemes archiválni és kezelni. A papír alapú jegyzeteket be lehet szkennelni, vagy telefonnal egy képet lehet készíteni róluk, így digitálisan is megőrizhetjük őket. Valamilyen eszközök közötti fájlmegosztó alkalmazással - pl. Dropbox - bárhol elérhetjük jegyzeteinket. De még jobb kifejezetten jegyzetek kezelésére létrehozott alkalmazást használni, az Evernote ebben nagyon jó, a lefotózott kézi jegyzeteket képes karakterfelismerés segítségével kereshetővé tenni (a fizetős változata persze), sőt a Moleskine szerelmeseinket külön papír jegyzetfüzeteket fejlesztettek ki erre.   4. Olvass okosan! A neten rengeteg forrás van, szakmai oldalak, blogok stb. Érdemes ezeket felkutatni és követni. Rendes ember ehhez RSS-olvasót használ. Sajnos sokan azt se tudják mi az az RSS, de aki sok forrást szeretne követni, az könnyen belátja, nehézkes minden oldalt egyesével felkeresni és megnézni milyen új infó került fel. Az RSS-olvasó megteszi ezt helyettünk és egy helyre összegyűjti az általunk követni kívánt oldalak új tartalmait. Én a feedly-t ajánlom, minden platformon (PC, tablet, mobil) szép a felülete, egyszerűen és logikusan használható. Az új tartalmak leader szövegeit könnyen átfuthatjuk, az érdekeseket elmenthetjük. Nagyon fontos, hogy az új tartalmakat szűrjük, ne akarjunk mindent elolvasni rögtön! Minden nap pár perc alatt átfuthatjuk az új leader szövegeket és elmenthetjük mi érdekel minket és a hétvégén az elmentet tartalmak közül elolvashatjuk azt, ami igazán lényeges.   5. Használd a közösség erejét! Meetup.com - Keresd meg a téged érdeklő meetupokat a környezetedben! Nem kell eljárnod minden eseményre, de az előadók neveivel megismerkedve megtudhatod kik a jelentősebb arcok a szakmában. Ha el tudsz jutni néha egy-egy meetupra, akkor személyesen is megismerkedhetsz a kollégáiddal és hidd el, könnyebb lesz az életed! Twitter - A legjobb közösségi média platform ipari arcoknak! Keresd meg a területed meghatározó figuráit és kövesd őket! Mivel használsz forrásmenedzsment alkalmazást és RSS-olvasót, oszd meg az általad érdekesnek talált tartalmakat! Előbb-utóbb lesznek követőid a világ minden szegletéből! Kövess vissza minden olyan embert, aki releváns a területeden és bekövetett téged! A Twitteren nagyon hamar megjelenik egy-egy új hír, konferencia felhívás, vagy egy tanulmány draft verziója! Nem kell minden nap órákon át lógni rajta, de heti két-három alkalommal pörgesd végig a feededet, ossz meg pár érdekes tartalmat! Szakmai beszélgetésre is jó a Twitter! Ha kialakul egy beszélgetés és érdemben hozzá is tudsz szólni, akkor ne fogd vissza magad! Merj kérdezni is! Legyenek kérdéseid, vannak rá válaszok! - A programozók kedvence a Stackoverflow oldal, ahol kérdéseket tehetünk fel és a kollégák megválaszolják ezt nekünk. Nagy valószínűséggel már valaki feltette a minket érdeklő kérdést, s eleve megtaláljuk azt a megfelelő válasszal az oldalon. A programozók mellett mára szinte minden területnek van hasonló oldala, pl én a Cross Validated oldalt szeretem, ahol statisztikai kérdésekre találunk minőségi válaszokat. Hasonló oldal, de minden területet igyekszik lefedni a Quora. Közösségi média - Érdemes lehet akár Facebook-on is követni egy-egy konferenciát vagy szakmai oldalt, csatlakozni egy szakmai csoporthoz. Az Academia.edu a kutatók Facebook-ja, érdemes létrehozni rajta egy profilt és bekövetni területünk kutatóit - ha másért nem, akkor azért mert sokan megosztják tanulmányaikat pdf formátumban az oldalon!!!! A LinkedIn is hasznos lehet, ha szakmai kapcsolati hálónkat akarjuk online menedzselni.   A fentiek persze csak tippek, nem biztos receptek! Saját tapasztalatom szerint a legfontosabb az időgazdálkodás és a projektmenedzsment kérdése, különösen ipari környezetben, ahol szoros határidőkkel kell dolgozni. Ha van tipped, kedvenc eszközöd, kommentben oszd meg velünk!


2014. október 30. 6:49

Valószínűleg valószínű vagy valószínűtlen a nyelv

"But it must be recognized that the notion of "probability of a sentence" is an entirely useless one, under any known interpretation of this term." (Chomsky) Az elmélet vége Chomsky manapság legtöbbet idézett mondatai mind a valószínűség ellen szólnak. Mindenki szereti idézni ezeket, mert hát annyira bejött az élet a statisztikai nlp-nek, hogy érthetetlen miért is gondolnánk arra, hogy generatív elméletekkel, vagy egyáltalán elméletekkel égessük magunkat. Chris Anderson híres The End of Theory cikkében olyan megállapításokra jut, hogy a tudományos módszernek vége: But faced with massive data, this approach to science  — hypothesize, model, test — is becoming obsolete. Ami helyette van az tkp. adatgyűjtés és korreláció az adatpontok között: Petabytes allow us to say: "Correlation is enough." We can stop looking for models. We can analyze the data without hypotheses about what it might show. We can throw the numbers into the biggest computing clusters the world has ever seen and let statistical algorithms find patterns where science cannot. Mit mondott az öreg Chomsky? Chomsky annyi mindent mondott már, hogy rajta kívül valószínűleg kevesen tudják követni elméletének fejlődését. Annyi azonban szinte bizonyos, hogy nem következetlen figura az öreg, pár nagyon alapvető elve már korai munkásságától kimutatható. Mivel mi nyelvtechnológiával foglalkozunk, ezért most kihagyjuk a szép szintaktikai fákat, alfát nem mozgatjuk, arra keressük a választ, miért idegenkedik annyira a valószínűségektől.   Kezdjük egy egyszerű kérdéssel: mi is egy nyelvelmélet? Az első, manapság egyre népszerűbb elképzelés szerint egy adott korpusz alapján kell megállapítani az adatokat generáló szabályokat (ez a fenti képen az első ábra). A másik elképzelés szerint egy nyelvelmélet célja, hogy egy szintaktikai szabályhalmazról egy korpusz segítségével ítéletet alkosson. Azonban Chomsky szerint ezen elképzelések túl ambiciózusak! Egy nyelvelmélet maximum arra jó, hogy egy korpusz segítségével eldöntse hogy két (vagy több) grammatika közül melyik bír nagyobb magyarázó erővel.   A grammatikák esetében a magyarázó erőt azonosíthatjuk azzal az egyszerű elvvel, hogy a helyes és helytelen mondatok közötti különbséget észleljük. A Mondattani szerkezetekben ezt így összegzi: Tulajdonképpen mi alapján fogunk hozzá a nyelvtanilag helyes és helytelen sorozatok különválasztásához? [...] Először is, nyilvánvaló, hogy a nyelvtanilag helyes mondatok halmaza nem azonosítható a megnyilatkozások egyetlen, a nyelvész által terepmunka során megszerzett korpuszával sem. Egy nyelv valamennyi nyelvtana a megfigyelt megnyilatkozások véges, és bizonyos fokig esetleges korpuszának tulajdonságait vetíti rá a nyelvtanilag helyes megnyilatkozások (feltehetően végtelen) halmazára. E tekintetben a nyelvtan a beszélő eljárását tükrözi, a beszélőét, aki a nyelvvel kapcsolatos véges és esetleges tapasztalata alapján végtelen számú új mondatot képes létrehozni és megérteni. Itt megjelenik az ún poverty of the stimulus, azaz az elégtelen mennyiségű inger érvelés. Minden embernek egy potenciálisan végtelen nyelvet kell véges időn belül elsajátítania és nagyon úgy tűnik, hogy negatív példák nélkül (magyarán nem szólunk a gyereknek hogy "figyelj, most mondok neked pár példát agrammatikus mondatokra"). Ezt szokás még Gold elméletével kiegészíteni, mely szerint a formális nyelvek nem tanulhatók meg negatív példa nélkül. Korpusznak itt nevezzünk egy egyszerű karaktersorozatot. Tanulónk egy gép, aminek ki kell találni hogy a szabályok egy halmazából melyek generálták a karaktersorozatot. Gold bebizonyította, hogy negatív példák bemutatása nélkül ez a feladat megoldhatatlan. (Johnson Gold's Theorem and Cognitive Science tanulmányát ajánlom az érdeklődő olvasóknak a témában!) Ebből a szempontból lényegtelen, hogy az egyes szabályok kategorikusak, vagy rendelünk hozzájuk valamilyen valószínűségi értéket! A lényeg az, hogy valahogy eleve adottnak kell lenniük a szabályoknak, méghozzá úgy, hogy nagyon hamar megtalálja egy gyermek az anyanyelvét generáló grammatikát. Gondoljunk bele, a nyelvelsajátítás ún. kritikus periódusa alatt 2-5 éves kor között kell megtalálni a korpuszhoz tartozó grammatikát! Chomsky ezért Occam borotváját használva a lehető legegyszerűbb elmélet mellett dönt, a nyelvelsajátítás képessége innát (velünk született) kell hogy legyen. Ezzel párhuzamosan érvel a valószínűségek ellen is. Korlátozott, gyakran ellentmondásos adatokból kellene következtetnünk egy általános rendszerre, ez felveti az indukció problémáját. Az adatok ellentmondásossága felveti annak problémáját is, hogy egy inkonzisztens halmazból bármi következhet, azaz ha egy korpuszban (igaz különböző frekvenciával) de találhatunk adatokat grammatikus és agrammatikus szerkezetekre is, akkor nagyon sokat kellene számolnunk a nyelvtanulás során.    A modern nyelvészet legnagyobbjához illő huszáros vágással intézi el Chomsky a fenti kérdést. A korpusz a nyelvhasználat, azaz a performancia lenyomata. E mögött ott van a kompetencia, azaz "helyes és helytelen sorozatokat" elválasztó grammatika, ami kategorikus és nem hibázik. A performancia tökéletlenségét a zavaró külső tényezők (pl. hogy elfáradunk, megoszlik figyelmünk, véges az elménk, stb.) okozzák. A nyelvelméletek számár a kompetencia az igazi terep, ott a valószínűségeknek nincs helye. Jungle Theory Never Dies! Nézzük meg Bog és tsai Probabilistic Linguistic-je (a valószínűség nyelvészeti alkalmazásának első hullámában megjelent tanulmánykötet) hogyan érvel a hagyományos nyelvészet ellen. 1) A variancia a nyelv minden szintjén jelen van 2) A nyelvi jelenségek frekvenciája (eloszlása) hatással van a nyelvre 3) Elmosódott határok a nyelvi kategóriák, a jólformáltság stb. területén 4) A nyelvek elsajátíthatósága Mielőtt elveszítenénk nem nyelvész olvasóinkat, inkább egy példával élnénk a az 1)-3) pontokra. Hallgassunk egy kis zenét!   Vessünk egy pillantást a dal szövegére is! Amennyiben az olvasó ismeri a patois nyelvet, akkor gondoljon egy magyar népdalra inkább! Amennyiben nem ismeri, de tud angolul, akkor már talán érti hogy a nyelv nem egy egyszerű dolog. A szöveg nagyon angolos, kb. középszintű nyelvtudással is érhető. Ellenben nem kapna ötöst az, aki angol órán így beszélne vagy írna. A jamaikai patois nem ragadható meg egyszerűen, mert az ún. post-kreol kontinuum állapotában van, ami nagyon tudománytalanul azt jelenti, hogy egyes verziói nem érthetőek az angol beszélő számára, még a másik véglet szinte az English Grammar in Use szabályai szerint formált mondatokból áll. Persze ez egy kontinuum, azaz nincs egy patois A, ami nagyon nem angol, és egy patois Z, ami meg a tökéletes oxfordi angol lenne. Sőt, egy adott beszélő is váltogatja a kontinuumon belül a pozícióját. Azaz varianciával van tele a nyelv, a kiejtéstől kezdve a szintaxisig. Ezt a varianciát erősen befolyásolja a nyelvi jelenségek frekvenciája - pl. otthon inkább patois A, iskolában, hivatalban patois Z, barátokkal, kollégákkal valahol a kettő között beszélget valaki. A szülőhelyükről elkerülő tájszólásban beszélők általános élménye, hogy otthon, hazai közegben vissza szoktak állni a tájszólásra, de amúgy nagyon hamar asszociálódnak. Ennek csak részben oka a megbélyegzés, prózaibb ok az, hogy a standard változattal magasabb gyakorisággal találkoznak, ez pedig hatással van rájuk. A jólformáltság, azaz hogy mit fogadunk el grammatikusnak is hasonlóan viselkedik! A 'eztet jól megcsináltad' valószínűleg kiakasztana egy tanítónénit, ellenben én nagyon gyakran találkozom vele. A 4) esetében már egy kicsit el kell merülnünk a korábban említett Gold-tételben. Láttuk, hogy ennek értelmében negatív példa nélkül nem tanulható meg egy nyelv. Ha az eredeti kritériumot egy kicsit enyhítjük s csak azt kérjük elméleti tanulónktól, hogy egy adott korpuszhoz tartozó grammatikákból zárja ki azokat, melyek tutira nem működnek, akkor viszont azt láthatjuk, bizony negatív evidencia nélkül is megtanulhatók a probabilisztikus grammatikák, mert ahogy Manning tömören összefoglalja (a Probabilistic Linguistics-ben): - egy probabilisztikus grammatika velejárója, hogy minden mondatnak van egy valószínűségi értéke, ha korpuszunkat egy ilyen grammatika generálta, akkor a mondatok frekvenciájában ez tükröződni fog - ez a valószínűségi eloszlás tkp. tekinthető negatív evidenciának is, minél kisebb a frekvencia, annál kisebb valószínűséget kell tulajdonítani az őt generáló szabálynak Mielőtt örülnénk! A fentiek feltételezik, hogy a tanuló egy stacionárous ergodikus forrásból származó korpusszal találkozik! Maga Manning is megjegyzi azonban, hogy a nyelv nem ilyen. Evvel Chomsky is tisztában van, hiszen a Mondattani szerkezetekben hivatkozik Shannon-ra (aki szintén kimondja, a nyelv nem stacionárius ergodikus forrás). A kedves olvasó ne adja fel, ezeket a nagy szavakat következő posztunkban a helyére fogjuk tenni mindegyiket!   Így vagy úgy, de generatívvá kell válnunk  Anderson víziója szerint az adatok majd mindent megoldanak. Nem véletlenül hivatkozik cikkében a Google-re, hiszen a keresőóriás kutatási igazgatója és két senior kutatója írta a big data programadó tanulmányát The Unreasonable Effectiveness of Data (sokak számára csak UED) címmel, ami máig a legolvasottabb írás a témában. A paper tkp. eseteket sorakoztat fel melyekben viszonylag "buta" statisztikai eljárások nagy adatmennyiségre ráeresztve jobban teljesítenek a szofisztikált modelleknél.    Peter Norvig, a tanulmány egyik szerzője és a Google kutatási igazgatója, Chomsky kritizálásában is élen jár! Sajnos On Chomsky and the Two Cultures of Statistical Modeling című esszéje nem lett annyira sikeres, mint a UED, pedig érdemes lenne követni gondolatait.   Norvig egyrészt egyet tud érteni Chomskyval abban, hogy minden elmélet lényege egy jelenség magyarázó erővel történő leírása, ami megnyitja az utat a predikció felé. A statisztikai megközelítésben két iskolát különíthetünk el, az egyik tkp. leírja a vizsgált adathalmazt, még a másik megpróbálja modellezni és általánosítani azt. Norvig szerint Chomskynak az első iskolával van baja igazából, amit el is fogad. De mi ezzel a gond?   Vizsgáljuk meg a kNN algoritmust egy kicsit! A kNN tkp. "megeszi" az összes tréningadatot, szépen elraktározza azt úgy ahogy van. Az eljárás ún. "lazy learning" mert semmilyen absztrakció nem történik benne, minden példát összevetünk a tréningadatokkal, hogy megnézzük a vektortérben melyekhez van a legközelebb - és ennyi. Maga az eljárás sokszor nagyon hatékony, de erőforrás-igényes nagy adathalmazokon futtatni és nem túl flexibilis. A gépi tanulás lényege, hogy a tréningadatokból vagy az adatokra alapozva egy hatékony és flexibilis modellt alkossunk, ami képes predikcióra, ezért a legtöbb esetben az adatok mögött meghúzódó disztribúcióra vonatkozó feltételezésekkel kell élnünk. Így a modell egy elmélet arra vonatkozólag, hogy miképp jöhetett létre adathalmazunk, azaz egy generatív elmélet. Győzött a statisztika? Az algoritmikus modellezés tehát nagyon hasonlít Chomsky grammatikákkal kapcsolatos elképzelésére, habár ezt Norvig ügyesen elhallgatja írásában. Ellenben megjelenik egy nagyon hatásosnak tűnő érv, mely szerint a nyelvtechnológiában és úgy általában az informatika és a telekommunikáció területén nagyon hasznos dolog az információelmélet (ami az algoritmikus modellezés szinonimája néhol az esszében), ellenben szegény Chomsky és társai alacsony bérért tengetik életüket az egyetemek elzárt világában. Válasszuk ketté ezt az érvet. Először vizsgáljuk meg, hogy a gyakorlati használhatóság tényleg érv-e egy elmélet nagyobb magyarázó ereje és érvényessége mellett, majd nézzük meg, hogy volt-e hatása a generatív grammatikának máshol is.   Az első kérdésre nagyon egyszerű válaszolni. A gyakorlati alkalmazás nem jelentheti egy elmélet felsőbbrendűségét. Gondoljunk csak bele, a newtoni fizika ma is nagyon jól használható mérnökök számára, lehet vele épületeket tervezni, lövedékek röppályáját kiszámítani stb. A közoktatásban is általában a klasszikus newtoni fizikával ismerkedünk meg és a relativitáselmélet meg a kvantumfizika csak érintőlegesen szerepel a tantervekben. Ez azt jelenti, hogy mivel nagyobb üzlet a klasszikus fizika (gondoljunk bele, az ipari forradalom óta használja az ipar, azóta rengeteg értéket teremtettek már vele) ezért jobb mint a kvantummechanika?   A generatív grammatika hatását megkérdőjelezni manapság hülyeség. Az elmúlt hatvan évben alig akadt olyan produktuma a kognitív tudományoknak, mely ne foglalt volna állást Chomsky-t illetően. Őt egyszerűen szeretni vagy gyűlölni kell ezen szakmákban. A nyelvtechnológia és a mesterséges intelligencia sem kivétel a szabály alól, ezért nyugodtan elmondhatjuk, megtermékenyítően hatottak a generatív iskola gondolatai az alkalmazott kutatásokra is, még az ipar is szeret leállni veszekedni velük.   Az elméletek tökéletlenek - s ez így van rendjén Korábban már írtunk arról, hogy az elméletek empirikusan aluldetermináltak, itt csak röviden szemléltetjük mit is jelent ez a gyakorlatban. Ha adott a megfigyeléseinket rögzítő adatok halmaza, akkor szeretnénk abból egy elméletet alkotni, ami lehetővé teszi, hogy predikciókat is tehessünk. Hiszen tök jó tudni pl. hogy eddig minden villámlást követett mennydörgés, de következik-e ebből az hogy, a következő viharban is lesznek villámok és dörögni fog az ég? Ez ismét az indukció problémája! Ahhoz, hogy túllépjünk adatainkon, fel kell vennünk olyan állításokat elméletünkbe, mely lehetővé teszi a még nem megfigyelt adatokra való állítások megtételét! Ezt tette Chomsky is és ezt teszi minden valószínűségi modellezéssel foglalkozó kutató. Jó okuk van erre, de be kell látni, hogy empirikusan sohasem igazolható minden elméleti előfeltevés, minden esetben ott a hiba lehetősége! Popper szerint azonban a tudomány lényege pontosan az, hogy artikulálni kell miképp bukhat el elméletünk, meg kell adni falszifikációs feltételeit. A tudomány lényege nem a megcáfolhatatlanság, hanem a nyíltság, a kritizálhatóság. Ennek rész, hogy egy elmélettel kapcsolatban felszínre kell hozni előfeltevéseit. Szerintünk Chomsky sokkal tisztességesebben jár el ezen a téren, mint Norvig. A Google kutatója ui. elfelejt két fontos dolgot: - maga Shannon is csak egy eszköznek tartotta az információelméletet a nyelv modellezésére, mivel szerinte a nyelv nem egy stacionárius ergodikus forrás - az algoritmikus modellezés nem lehet szigorúan empirista, mivel természete szerint egy absztrakt modell létrehozását célozva induktív lépést kell hogy tartalmazzon, ami pedig empirikusan aluldeterminált A Probabilistic Linguistics érvei nagyon meggyőzőek, de Norvig esszéjének kritikája alapján be kell látnunk, a szigorú empirizmus nem lehetséges. A nyelvi modellek ebből kifolyólag nem rendezhetőek sorba értékességük szerint. El kell fogadnunk, hogy a nyelvvel kapcsolatos gondolkodás területén nincs uralkodó paradigma. Ennek inkább örüljünk, hiszen nagyon unalmassá válna a világ, ha csak egy kereten belül gondolkodhatnánk!


2014. október 22. 11:28

Data Analysis with R

Manapság mindenki valamilyen MOOC kurzust hallgat éppen. Sokan már ún. verified certificate tracket választanak, azaz valamennyit áldoznak arra, hogy igazolva legyen, eredményesen elvégezték a kurzust. Szerencsés voltam és én ingyen vághattam bele a Udacity által kínált Data Analysis with R-ba, ennek tapasztalatait összegzem ebben a posztban. Az első és legfontosabb kérdés egy MOOC esetében, hogy miért fizetünk, ha már fizetünk. A Coursera, az EdX a FutureLearn és a Udacity (hogy csak a nagyobbakat említsem) egy dologban megegyezik; kurzusaik nem akkreditáltak! Mit jelent tehát az, ha verifikálják a tanulót? Azt, hogy megnézte a videókat, megcsinálta az online kvízeket és fizetett. A Udacity abban különleges, hogy habár együttműködik egyetemekkel, náluk a verified certificate teljesen mást jelent. Először szögezzük le, baromi drága, általában 200 USD/hó egy kurzus és minimum két hónap egy-egy MOOC elvégzése. Ellenben kötelező egyszer legalább Google Hangouts-on beszélni a tutorunkkal (mert kapunk ilyet), az egyes leckékben szereplő kvízek és feladatok nem számítanak bele a végső értékelésbe, a hitelesített "papír" megszerzéséhez egy projektet kell elkészítenünk, majd egy online interjú keretében beszélnünk is kell művünkről. Ha menet közben gondunk akad, akkor a tutorunkkal egyeztethetünk időpontot online beszélgetésre, vagy levelet küldhetünk, négy munkanapon belül köteles válaszolni. Ez a módszer szerintem sokkal gyakorlatiasabb és biztosítja, hogy a MOOC-on tanultakat legalább minimálisan képes használni a tanuló valós körülmények között is. A legtöbb Udacity kurzus érdekessége, hogy nem egyetemek ajánlják, de sok esetben nagy cégek (pl. Facebook, Cloudera, Google) kutatói vettek részt az anyag elkészítésében és ezek az arcok gyakran megjelennek a kurzusban is (általában amolyan pihenő videók formájában beszélnek a munkájukról két keményebb anyag között).   A Data Analysis with R nem egy hibátlan kurzus, de annak aki tanult már statisztikát és valamennyire ismeri az R-t ez egy remek anyag az ún. explorarory data analysis és a ggplot megismerésére. A videók mérte pont optimális, 30 másodperc és 10 perc között változik, ami nekem ideális volt, mert csak amolyan lopott percekben tudtam haladni vele. A feladatok már nem annyira jók. Gyakran tkp el kell olvasnunk egy-egy csomag, vagy függvény dokumentációját, a példákat módosítjuk és meg is oldottuk a feladatot. Sajnos általános feladattípus hogy fejezd be a kódot, majd nyomd meg a "Submit" gombot, de visszajelzést nem kapsz, a kódot nem futtathatod online, ha csak egy karaktert beír az ember, akkor is "Congratulations!" felkiáltással nyugtázza a Udacity ténykedésünket. A projekt igazán izgalmas dolog! Én a prosper dataset mellett döntöttem, mert érdekeltek a hitelek. A követelmények szerint egy felfedező részben pár változót kell megvizsgálni, majd többváltozós plotokkal a közöttük lévő összefüggéseket feltárni, végül három jellemző vizualizációval és egy rövid szöveges elemzéssel zárunk. Mindezt a nagyon egyszerű, kényelmesen használható knttr csomaggal kell végezni, ami egy remek kis html oldalba ágyazott riportot eredményez. Maga projekt kb 20-30 órát vesz igénybe, nem kell félni, ha visszadobják, akkor részletes megjegyzésekkel teszik és tkp. akárhányszor jelentkezhetünk a javított verzióval, a "bukásnak" nem marad semmi nyoma a Udacity-nál :D A projekt beküldése után hét munkanapon belül értesülünk eredményünkről és ha pozitív az értékelésünk, akkor foglalhatunk magunknak időpontot a projekt interjúra. A végső elbeszélgetés egyik célja, hogy igazoljuk, mi dolgoztunk a projekten, ezért nagyon kíváncsiak arra, hogy miért az adott adathalmazzal dolgozott az ember, hogy látja, mit lehetne javítani még a projekten stb. Ezután egy gyors elégedettségi kérdőív következik, mit szerettél a kurzusban, mit lehetne rajta javítani stb. Az egész nem több 25-30 percnél és a végén meg is mondják, hogy sikerült-e meggyőzni őket arról, hogy te dolgoztál a projekteden. Ezután kb. 5 perc és jön az email, hogy letöltheted a verified certificate-edet - papír nincs. Ellenben a ggplot alapjait, az eda alapelveit megtanulja az ember használni és még bizonyítani is tudja ezt a saját kis projektjével. Annak, aki megengedheti magának, csak ajánlani tudom a Udacity kurzusait, mivel ténylegesen használható tudást lehet megszerezni módszerükkel.


2014. október 17. 14:49

Design (és NLP?) - meetup slideok

Legutóbbi meetupunk előadóinak diáit találjátok alább. Következő meetupunkat november 27-én tartjuk, témánk: NLP eszközök magyarra. Borgulya Gergely: http://opp.io Rung András: Hangrobbanás András Ergománia blogját ajánlom figyelmetekbe.


2014. október 16. 8:41

This is what we got from our colleagues for the International boss day. Is there such thing at all?

precognox készítette ezt a képet.


2014. október 15. 7:45

A természetes nyelv leföldelése programnyelvekkel

A Tilburgi Egyetmere irt tézisem angol cime Grounded Learning for Source Code Component Retrieval és erről fogok mesélni röviden ebben a posztban. Az alapötlet a konzulensem Grzegorz Chrupala és előző tanitványa Jing Deng közös munkájából származik, ahol különböző szokatlan modelleket  alkalmaznak forráskód keresésre. Több poén is van a munkájukban. Az egyik az, hogy source code component-ek vagyis forráskód komponenesek között keresnek, ami újdonságnak számit, a másik pedig, hogy a keresést, mint forditási problémát fogják föl programnyelvről természetes nyelvre. Alapvetően két oldala van a történetnek: Egyrészt a cél az, hogy létrehozzunk egy kereső motort, ami forráskód komponensek között keres, másrészt, hogy fogjuk meg a természetes-nyelvi kifejezesék jelentését valamilyen formális nyelvvel jelen esetben forráskód komponensekkel.  Az első ponttal még egyet is lehet érteni, a kereső motorok jók, mert keresnek, de minek “belegroundolni" a természetes-nyelvi kifejezéseket forráskódba? A rövid válasz az, hogy fölösleges, de ha valakit érdekel a hosszabb magyarázat olvassa tovább a posztot.   A nyelvészet különböző szinteken elemzi a nyelveket: a fonológia foglalkozik a hangokkal, a morfológia nagyobb, hangokból álló és jelentéssel rendelkező egységeket kutat, a szintaxis több jelentéssel biró egységből - mondjuk szavakból - álló szerkezetekkel foglalkozik, a szemantika pedig a különböző nyelvi egységek jelentését kiséri meg leirni. A tézisem a szemantika témakörébe tartozik, hiszen a kifejezések jelentésével kapcsolatban barkácsolok. Eszméletlenül sok szemantikai elmélet irja le a jelentés különböző aspektusait, de alapvetően két fontos témát boncolgatunk már több ezer éve: 1.) Hogy kötődnek a nyelvi kiifejezéseknek a külvilághoz?, 2.)Milyen kapcsolatban állnak egymásal?     A disztribúciós szemantika a második kérdéssel foglalkozik. Már számtalan cikk jelent meg a disztibúciós technikákkal kapcsolatban a blogon, de az alap ötlet az, hogy a szavak jelentése a kontextus függvénye. Firth (1957): "You shall know a word by the company it keeps". A disztibúciós technikák nagy előnyei, hogy nem igényelnek annotációt, átlátható és elég általános matematikai modelleken nyugszanak, nem bonyolult az implementációjuk, rahedli könyvtár létezik hozzájuk, sokrétűen és hatékonyan használhatóak. A tézisem egyik fő problémája tulajdonképp az, hogy ezeket a modelleket, hogy lehet úgy csűrni-csavarni, hogy valamilyen módon az 1-es kérdésre adjanak választ.   A nyelvi kifejezéseket a szemantika hagyományosan a következőképp képezi le a nyelven kivüli valóságra: A kifejezéseket valamilyen logikai formulákkal reprezentálja és ezeket a formulákat matematikai modellekre értelmezi pl.: halmaz elmélet, kategória elmélet. Az ötlet Grzegorz Chrupala és Jing Deng munkájában az, hogy a logikai formulákat cseréljük le programnyelvi kifejezésekre, amik alatt amúgy is van modell és így tulajdonképp egy forditási problémára redukáltuk a természetes-nyelvi kifejezések megalapozását. A forditási problémákat pedig egy elég egyszerű ötlettel szokás megoldani: paralell-corpussal. A lényeg az, hogy keresünk egy corpust, ahol az X nyelven megfoglamazott gondolatok és azok Y nyelvi megfelelői össze vannak párositva. Egy ilyen paralell-corpuson megint csak a disztibuciós alapvetésünket vetjük be csak ez esetben nem nyelv-internálisan hanem nyelvek között tételezzük fel azt, hogy hasonló kontextusban szereplő szavak jelentése hasonló. Esetünkben olyan paralell-corpus kell találnunk, ami a természetes-nyelvi megnyilatkozások és azok programnyelvi megfelelőjét tartalmazza. Úgy gondoltuk, hogy erre a célra kifejezetten jó parallel-corpust nyújtana egy programnyelv különböző könyvtárainak dokumentációja. A Java Standard Library-t használtuk és az úgy nevezett method-signature-k szolgáltatták a programnyelvi kifejezéseket mig azok leirásai  az angol nyelvi megfelelőjüket. A szokásos előfeldolgozási lépesek után - pl.: stemming, funkciószavak kiszűrése - meg is volt a data set, amire lehet illeszteni egy modellt amely képes Java method-signature-ket angolra forditani. Grzegorz Chrupala és Jing Deng az IBM model 1-t és a PLDA modelleket alkalmazza forditó modellként, ami nem meglepő hisz az előbbi egy gépi-forditára mig az utóbbi nyelvek közti dokumentum keresésre alkotott model.   Chrupla és Deng munkájában tetszett, hogy ilyen un-orthodox módon forditással keresnek ráadásul ilyen fura dolgok között, de egy igaz magyar un-orthodox forditó modeleket is használ! Az én olvasatomban ez a "bag-of-words forditás" a regresszió probléma körébe tartozik, hiszen ha az angol leirásokat és azok method-signature megfelelőit tf*idf mátrixokban ábrázoljuk egyszerűen regressziós modelt illeszthetünk a két vektor-térre, ahol a bemenet a deskripció-vektor és a cél pedig a hozzá tartozó method-signature vektor. Több modellt is kipróbáltam, de a Ridge-regresszió teljesített a legjobban megverve a PLDA-t és azért viszonylag alul múlva az IBM model 1-t. Szerintem az alábbi táblázatban az Acc@10 a legfontosabb mutató, azt mondja meg, hogy az esetek mekkora részében adja vissza a rendszer megfelelő találatot az első kereső oldalon.     MRR Acc@1 Acc@10 Ridge 0.39 0.23 0.71 PLDA 0.35 0.24 0.56 IBM model 1 0.49 0.34 0.79     De mint emlitettem nem kizárolag az volt a cél, hogy irjak egy fura keresőmotort, hanem hogy hozzájáruljak a ma még gyerekcipőben járó Grounded Learning módszertanához. Arra voltam kiváncsi, hogy a Java terminusok mennyire tudják megragadni az angol kifejezések jelentését egy ilyen regressziós forditás során és hogy mindezt, hogy lehetne letesztelni. Végül úgy döntöttem, hogy neurális hálót használok a kísérletezgetéshez méghozzá több szintes neurális hálót azaz Multilayer Perceptront, ami a projektem szempontjából azért érdekes, mert a köztes (rejtett) szinteken érdekes absztrakt reprezentációt tanulhat a nyelvi adatokból.       Ahogy a fentiekben már ecseteltem a képen illusztrált neurális háló is tf*idf deskripció-vektorokból tanul meg jósolni tf*idf method-signature-vektorokat. Hogy szemléletes legyek a háló baloldalán van az Angol-tér a jobb oldalán a Java-tér és ott középen vagyunk a nyelvek között. Az volt az ötletem, hogy csinálok a deskripció összes szavához one-hot-encodinggal szó-vektort (jó sok 0 és egyetlen 1-es a szó indexének helyén) és ezekből kapott mátrixokat "beágyazom a háló közepébe". A poén az, hogy one-hot-encodinggal a szavak közti kapcsolatok nincsnek reprezentálva, de ha a tanulás során az angol kifejezések jelentését valamennyire megfogtuk Java terminusokkal, akkor a beágyazott szó-vektorok esetében azt várjuk, hogy a hasonló szavak vektora hasonló helyen helyezkedjen el (hasonló irányba mutasson) a beágyazott vektortérben. Szerencsére teljesült a kivánságom, alább mutatok pár példát az igy kapott szólistáimból.   zip currency cos true yyyy compressed symbol argument whether sep compression represent trigonometric boolean oct checksum territories cosine equality nov uncompressed countries angle false mm   Ahogy láthatjátok tényleg "összeklasztereződtek" a hasonló szavak, ami azt jelenti, hogy valamit elcsiptünk az angol szavak jelentéséből Java terminusokkal. Kicsit másképp megfogalmazva: a poén az, hogy a neurális hálóba ágyazott szó-vektorok egész reálisan reprezentálják az angol szavak egymásközti viszonyait, de ezt nem úgy értük el, hogy megfigyeltünk angol szövegeket, hanem azok viszonyát figyeltük meg rajtuk kivül eső dologhoz.   Ez mind tök király és cum laude is lett a vége, de nem árultam a poszt elején zsákbamacskát és igy a vége felé is nehéz lenne megmondanom, hogy valójában mi értelme volt az egész vállakozásnak. Amikor elkezdtem irni a szakdogát teljesen nyilvánvaló volt, hogy itt nagy dolgok vannak készülőben, kis idő távlatából azonban inkább egy ilyen "Rube Goldberg search engine avagy a keresőmotor a modern lélek tükre" cimű installációnak látom az Ernst múzeum egyik ingyenesen látogatható kiállitásán. Mindenki döntse el maga mit gondol. Az egész rendszer az adatokkal együtt elérhető egy publikus repóban, mert azért a reproducable research az igazi party.


2014. október 14. 8:50

Tartalomelemzés - a DE Bevezetés a digitális bölcsészetbe kurzusán tartott előadásom diái

Ma a Debreceni Egyetemen tartok előadást, Szekrényes István barátom Bevezetés a digitális bölcsészetbe kurzusán. A posztban megtalálhatjátok a kapcsolódó diákat és ajánlok pár korábbi posztot azoknak, akik jobban elmélyednének a témában. Mivel egy előadás kevés ahhoz, hogy a tartalomelemzéssel úgy igazán megismerkedjen valaki, ezért arra gondoltam, megmutatom hogy a legegyszerűbb módszerrel, szavak számolgatásával, mi mindenre lehet jutni. Bemelegítés Akár kideríthetjük egy ember nemét, korát és főbb pszichológiai jellemzőit is: Mit árul el rólad a Twitter-fiókod? Egyszerű szógyakoriság A legegyszerűbb szógyakorisági "viszgálat" az R-index, ami nagyon jól működik a válságok előrejelzésében. Ennek mintájára, sokan szeretnék tartalomelemzési technikákkal kiváltani az amúgy költséges fogyasztói bizalmi indexeket és egyéb mutatókat. Erről bővebben l. Fogyasztói hangulat mérése online szövegekre alapozva Történeti kutatásoknál a Google Ngram Viewer korpuszát érdemes használni, l. az alábbi posztokat Recesszió-index Google Ngram adatokra alapozva Pénzért mindent megkaphatunk? egy kis politikafilozófia és nyelvtechnológia Saját, az index.hu cikkeire alapozott R-indexünkkel kapcsolatos vizsgálódásainkról pedig a Válság index magyar adatokkal c. posztunkban olvashatsz. Az Egyenlőtlenség és keresési trendek irományban a GoogleTrends egy érdekes használatát mutatjuk be.  Szentiment- és emócióelemzés A polaritások szemléltetéséhez a példákat a Neticle rendszeréből vettem. A legjobb példa ma magyar nyelvű szentimentelemzéssel segített tartalomelemzésre, a Méltányossággal közösen folytatott Politikai véleményárfolyam riportjuk, melyet havonta adnak ki. A srácokkal erről beszélgettünk egy posztban: Politikai vélményárfolyam - avagy miről beszél az internet népe?  Az emócióelemzés elméleti hátteréről: Emócióelemzés, avagy Darwin és a nyelvtechnológia különös találkozása Emócióelemzés - avagy mi van a szöveg mögött A tökéletes rap slágert alábbi posztjainkban kutattuk: Rapháború I. Rapháború II. Rapháború III. Mutatjuk a fukkot A főpolgármester-jelöltekkel kapcsolatos emóciókat a Miért haragszanak annyira a twitterezők a főpolgármester-jelöltekre? c. posztunkban elemeztük. A jelenbecslésről többet alábbi írásainkból tudhatsz meg: Mi az a nowcasting? Gazdasági előrejelzés GoogleTrends használatával Saját, a Jobmonitor adataival végzett munkánkról a A munkanélküliség előrejelzése a jobmonitor adataival c. posztunkban olvashatsz.


2014. október 12. 10:43

Miért haragszanak annyira a twitterezők a főpolgármester-jelöltekre?

A vasárnapi önkormányzati választás előtt kíváncsiak voltunk, hogy a magyar twitterezők milyen gyakorisággal és milyen szövegkörnyezetben tesznek említést a főpolgármester-jelöltekről. Leginkább az a kérdés izgatott minket, hogy a jelölteket említő tweetek száma, polaritása és emóciója kapcsolatban áll-e a várható eredményekkel. Ehhez újra kipróbálhattuk a szentiment- és emóciószótárainkat, ahogy azt nemrég a politikai blogok vizsgálata közben is tettük, és valami egészen mást találtunk. Persze a magyar Twitter közösség nem tekinthető reprezentatívnak a magyar társadalom jellemzőire nézve, azonban egyre több példa adódik a hagyományos és online médiában megjelenő tartalmak társadalmi és gazdasági elemzési céllal történő sikeres felhasználására. Ennek egyik oka, hogy egy esemény médiabeli megjelenése egyszerre reflektál és hat a közönséghangulatra és az emberek véleményére. Ebben az oda-visszaható folyamatban az események és a vélemények várhatóan az érdeklődéssel arányosan kapnak visszhangot. Egy korábbi posztban már bemutattuk, hogy DiGrazia, McKelevy, Bollen és Rojas hogyan használták a 2010-es egyesült államokbeli választás során a tweetek gyakoriságát a választói viselkedés jelzőszámaként, melyet More Tweets, More Votes: Social Media as a Quantitative Indicator of Political Behavior c. tanulmányukban fejtenek ki. Azt állítják, hogy a választási eredményekkel való kapcsolat a polaritás mérése nélkül is erős. Ennek okát a pollyanna hipotézisben látják, mely szerint az emberek nagyobb gyakorisággal használnak pozitív szavakat és kifejezéseket, mint negatívakat és emiatt azokról a jelöltekről beszélnek szívesebben, akiket támogatnak. Az általunk talált adatok azonban eltérő képet mutatnak. Eredményeink különböznek attól, amit a politikai blogok vizsgálatánál találtunk, amely szerint a politikai blogokon meglepő módon az öröm a leggyakoribb érzelem. Ezzel összefüggésben a pollyanna hipotézis sem látszik beigazolódni. Az elemzésre használt tweeteket a választás előtti estén, 2014. október 11. 20 és 22 óra között gyűjtöttük be, és összesen 462 olyan bejegyzést találtunk, mely tartalmazta valamelyik főpolgármester-jelölt nevét az öt közül. Természetesen az elemszám felől is lehetnek kétségeink, hiszen a komolyabb kutatásokban több(száz)millió bejegyzéssel dolgoznak, de a hazai twitterező közönség ennyi tweetet termelt ki a témával kapcsolatban.   Tarlós Istvánt említő tweetek emóció szerinti szófelhője   A legtöbb bejegyzés Tarlós Istvánról szólt (210 db), de nem volt sokkal elmaradva a Bokros Lajost említő tweetek száma se (201). Staudt Gábor nevét 10, Csárdi Antalét 22, Bodnár Zoltán Györgyét pedig 19 alkalommal említették. Emóció és szentiment szerinti bontásban pedig a következőképp alakulnak a számok:   Tweetek gyakorisága emóció szerint Tarlós Bokros Staudt Csárdi Bodnár Düh 164 133 7 13 15 332 Szomorúság 6 6 1 1 1 15 Öröm 9 9 1 2 1 22 Félelem 1 0 0 0 0 1 Meglepődás 0 1 0 0 0 1 Undor 0 0 0 0 0 0 Ismeretlen 30 52 1 6 2 91 210 201 10 22 19 462   Tweetek gyakorisága szentiment szerint   Tarlós Bokros Staudt Csárdi Bodnár   Semleges 149 146 6 16 14 331 Pozitív 26 33 3 3 4 69 Negatív 35 22 1 3 1 62   210 201 10 22 19 462   Már ezekből a számokból is látszik, hogy Tarlós és Bokros neve uralja az általunk vizsgált posztok túlnyomó részét, és hogy a pozitív és negatív kifejezések használata nem igazán igazodik a pollyanna hipotézishez. Emellett feltűnően gyakori a haragot kifejező szavak és kifejezések használata (a tweetek kb. 72%-a), amely mellett eltörpül a többi érzelem gyakorisága, holott a szomorúság (3,2%) és az öröm (4,7%) is jellemző emóciója a vizsgált bejegyzéseknek. A nem felismert emóciójú posztok az összes poszt 19%-át teszik ki, ami bár nem csekély, de nem tudna belezavarni a harag emóció uralmába. Ha az egyes érzelmeket számítjuk 100%-nak, a fenti két táblázat a következőképpen néz ki:   Tweetek relatív gyakorisága emóció szerint Tarlós Bokros Staudt Csárdi Bodnár Düh 49,40% 40,06% 2,11% 3,92% 4,52% Szomorúság 40,00% 40,00% 6,67% 6,67% 6,67% Öröm 40,91% 40,91% 4,55% 9,09% 4,55% Félelem 100,00% 0,00% 0,00% 0,00% 0,00% Megelepődés 0,00% 100,00% 0,00% 0,00% 0,00% Undor 0,00% 0,00% 0,00% 0,00% 0,00% Ismeretlen 32,97% 57,14% 1,10% 6,59% 2,20% Minden 45,45% 43,51% 2,16% 4,76% 4,11%   Tweetek relatív gyakorisága szentiment szerint   Tarlós Bokros Staudt Csárdi Bodnár Semleges 45,02% 44,11% 1,81% 4,83% 4,23% Pozitív 37,68% 47,83% 4,35% 4,35% 5,80% Negatív 56,45% 35,48% 1,61% 4,84% 1,61%   Ezeket a százalékokat már össze tudjuk vetni a közvélemény-kutatók által becsült választási eredményekkel. Az Ipsos, a Nézőpont és a Medián adatai közül a Nézőpont Intézet adatait használom összehasonlításként, ugyanis ez a legfrissebb elérhető felmérés, valamint az intézet által közölt mintavételi adatok szerint ez tűnik a legmegbízhatóbbnak (a minta nemre és korra reprezentatív, a mintavételi hibahatár +/- 4,4%).     Nézőpont,    2014.10. 6-8., biztos szavazók (n=500) Minden Düh Szomorúság Öröm Seml. Poz. Neg. Tarlós István (Fidesz-KDNP)           52% 45,45% 49,40% 40,00% 40,91% 45,02% 37,68% 56,45% Bokros Lajos  (MoMa) 25% 43,51% 40,06% 40,00% 40,91% 44,11% 47,83% 35,48% Staudt Gábor (Jobbik) 6% 2,16% 2,11% 6,67% 4,55% 1,81% 4,35% 1,61% Csárdi Antal (LMP) 6% 4,76% 3,92% 6,67% 9,09% 4,83% 4,35% 4,84% Bodnár Zoltán György (MLP) 1% 4,11% 4,52% 6,67% 4,55% 4,23% 5,80% 1,61%   Ha a Nézőpont felmérésének becsült értékeitől vett eltérések négyzetösszegét vesszük (mean square error/ átlagos négyzetes hiba), a dühöt kifejező és a negatív tartalmú bejegyzések mutatják a Nézőpont eredményeihez leghasonlóbb képet. Tehát a pollyanna hipotézistől eltérő viselkedés nagyon is lényeges a jelenség esetében, az általunk vizsgált tweetekben ugyanis pont azok a kategóriák számítanak a választói viselkedés legjobb mutatószámainak, amelyek eltérnek a várt nyelvi viselkedéstől. Ez az eredmény azt támasztja alá, hogy igenis érdemes polaritást és szentimentet vizsgálni a politikai magatartás elemzésekor. Nade mit jelentenek az adatok és miért pont a düh határozza meg ennyire a választói viselkedést? A negatív tweetek pozitívakéval hasonló mértékű használata a nagyobb információtartalom elérése miatt lehet, amiről már szintén írtunk egyszer. Mivel a nyelvhasználatunkban a pozitív töltetű szavak gyakorisága magasabb, ezért azok kevesebb információtartalommal bírnak, míg a negatív töltetű szavak fontosabbnak tűnnek számunkra. A Twitteren jellemzően rövid és tömör kiírásokkal találkozhatunk, így nem lenne meglepő, ha az emberek intuitívan is, de negatív tartalmú mondatokat használnának az informatívabb megnyilatkozás és a nagyobb hatás elérésének érdekében. Egy másik olvasata a jelenségnek az lehet, hogy a budapesti Twitter közösség tagjai, akik aktívan foglalkoznak az főpolgármester választással, túlnyomórészt baloldali ill. liberális kötődésűek, de legalábbis ellenzékiek. Ezt jelzi egyrészt a dühöt kifejező tweetek többiekéhez alacsony százaléka Bokros és Csárdi esetében, valamint a pozitív tweetek nagyobb százaléka Bokros, Staudt és Bodnár esetében. Ezzel összhangban a Tarlóst érintő posztok feltűnően nagy hányada fejez ki dühöt és a negatív polaritású bejegyzések hányada is az ő esetében a legmagasabb, közel másfélszerese a pozitívakénak. Az is alátámasztja ezt a feltételezést, hogy egyedül Tarlóssal kapcsolatban jelent meg a félelem mint emóció, míg a meglepődés csakis a Bokrost említő tweetek között bukkant fel. A megszokottól eltérő negativitás és düh pedig talán a politikai életben való csalódottsággal is összefügg. Az említett közvélemény-kutatások kb. 10%-os bizonytalan baloldali szavazóbázissal számolnak a biztosan szavazók között, akik a felmérések idején nem tudtak választani a jelöltek közül, de biztosan elmennek szavazni. Elképzelhető, hogy a baloldali jelöltek visszalépésének és a megfelelő alternatíva hiányának következtében ilyen negatív és dühös a tweetek hangulata.   Azonban az kiderült, hogy még közel 500 bejegyzés alapján is érdemes lehet megvizsgálni a polaritást és az emóciókat, mivel a választók nyelvi viselkedése egészen jól tükrözi a politikai viselkedésüket, és az eredmények hasonló képet mutatnak a közvélemény-kutatók által mért adatokkal. Azt pedig mindenképpen ki kell emelni, hogy figyeljünk oda a negatív tartalmakra, mivel meglepően jó indikátorai lehetnek a vizsgálni kívánt jelenségeknek.   Bokros Lajost említő tweetek emóció szerinti szófelhője  


2014. október 10. 8:00

Egy igazi metaforamasina a Yossarian?

Hogy miért pont A 22-es csapdájának szereplőjéről Yossarianról kapta a nevét a londoni metafora kereső, az talány, ahogyan az is hogy mire lehet egyáltalán használni. Ellenben elindult, működik és ki is lehet próbálni. Teszteljük hát le a Yossarian-t! Elvileg metaforákat, gyakorlatilag inkább asszociációkat kereshetünk a Yossarian segítségével. Sőt, igazából egy kereső kifejezéshez találunk képi asszociációkat. Természetesen nem hiányozhat az oldalról a "social" funkció sem, habár megléte nem igazán tűnik indokoltnak. Elvileg a Yossarian-t kreatív csapatok használják, s ezt nem csak saját "Pro" szolgáltatásuk promóciója, hanem a Fast Company cikke is megerősíti. Ebből kiindulva arra gondoltunk tesztünk során megnézzük hogy olyan alaptermék reklámozásához mint pl. a sör milyen képeket asszociál nekünk a metaforakereső. A találatokkal nem igazán tudunk mit kezdeni, hacsak nem az "igyunk munkahelyen" vagy "milyen jó lesz az egy nap megfeszített mosolygás után végre inni" asszociációkra gondolunk. A találatokat elmenthetjük és ha nagyon rendesek vagyunk, akkor segíthetünk a Yossariannak azzal, hogy eláruljuk miért kedveljük az adott találatot.   Hogy ne legyünk igazságtalanok, más szavakkal is végeztünk keresést, pl. a "nice" és a "beautiful" esetében éreztük hogy a találatok tök jók, ellenben pl. a "toothbrush" és egyéb hétköznapi tárgyak beírása csak az időnket rabolta. Emésztgettük egy ideig az alkalmazást mielőtt úgy döntöttünk, írunk róla. Nem akarunk igazságtalanok lenni, lehet egyszerűen nem mi vagyunk a Yossarian célközönsége, de egyszerűen nem látjuk hogy mire is használható. Ellenben maga a technológia nagyon izgalmas és reméljük, ahogy a cég fejlődik, úgy előbukkannak majd még értelmes felhasználási területek is.


2014. október 9. 12:28

Real 5d, samebug and tresorit talking about their first steps at Forbes Flow conf

precognox készítette ezt a képet.


2014. október 9. 8:00

Október 15: Design és NLP

Októberi meetupunkat október 15-én, szerdán tartjuk a Colabsben (1016 Budapest, Krisztina krt. 99.) 18 órától. Két izgalmas előadást hallhatnak a résztvevők a design és az nlp kapcsolatáról, vagy éppen arról, hogy a józan ész segítségével a nyelvtechnológiai csodák alkalmazása is megspórolható. A részvétel továbbra is ingyenes, de arra kérünk mindenkit hogy regisztráljon az esemény oldalán. Borgulya Gergely: http://opp.io  Az opp.io egy alkalmazás, amely egybe gyúrja az üzenetküldést és a feladatszervezést. Hogyan oldjuk meg, hogy egy kötetlen üzenetből kiderüljön a tömör lényeg: ki mit tegyen? Hogyan adjunk nyelvi kontextusba illő tömör, feldolgozható választ, mint pl “megtettem"? Az előadás ezekre a kérdésekre keresi nyelvi és technológiai szemszögből a választ. Borgulya Gergely az opp.io társalapítója és fejlesztője. Korábban az MTA SZTAKI kutatója volt, később a Graphisoft fejlesztője majd marketingeseként dolgozott. Okleveles építészmérnöki diplomáját 2006-ban szerezte a BME-n, MBA tanulmányait jelenleg fejezi be a Budapesti Corvinus Egyetemen.    Rung András: Hangrobbanás - a következő nagy dobás az interface-ek világában A magyar nyelvű gépi felolvasás és szövegértés is eljutott arra szintre, hogy beépíthető legyen alkalmazásokba. Ennek az áttörésnek köszönhetően az adatok akkor is kezelhetőek és áttekinthetőek lesznek, amikor felhasználónknak nem szabadak a kezei vagy nem tudja tekintetét a mobilképernyőn tartani. A hangvezérlés és a gépi felolvasás lehetővé teszi, hogy ilyen helyzetekben is használható legyen alkalmazásunk. Rung András előadásában megmutatja, hogy ha alkalmazásunkba hangvezérlést kívánunk beépíteni, akkor milyen kihívásoknak kell megfelelnünk. Hogyan tehetjük meg az első lépéseket, hogy megelőzzük konkurenciánkat és új piacokat érjünk el pl. ha a felhasználó. Ennek kapcsán kitér a legsikeresebb kezdeményezések bemutatására és ezek problémáira is. Az előadásban kitér a legfontosabb tervezési alapelvekre is.    Rung András 2002 óta foglalkozik használhatósággal és felhasználói élmény tervezéssel. A Felhasználóbarát honlapoknak, az első magyar internethasználhatósággal foglalkozó könyvnek a társszerzője. Cikkei a nemzetközileg is jelentős Smashing magazinban is megjelentek. Kis- és nagyvállalatoknak tervez weblapokat és alkalmazásokat, hogy üzleti céljaikat hatékonyan elérhessék, és befektetett pénzüket jól kamatoztassák.


2014. október 8. 8:00

Pénzért mindent megkaphatunk? Egy kis politikafilozófia és nyelvtechnológia

Michael J. Sandel korunk egyik legmeghatározóbb politikafilozófusa What Money Can't Buy című könyvében a piacok határait járja körül. Mielőtt az olvasó megkérdezné, de mi köze ennek a nyelvtechnológiához, gyorsan eláruljuk, érvelésében a Google Ngram Viewer-re is hivatkozik, ezzel megvalósítva minden digitális bölcsész álmát, az új technológia az egyik leghagyományosabb bölcsész szakmát is elérte! Dióhéjban, Sandel elmélete szerint az utóbbi harminc évben a piaci kapitalizmust felváltotta a piaci társadalom. A közgazdaságtani érvelést az élet minden területére kiterjesztettük lassan és nem igazán beszélünk alapvető értékeinkről. Mielőtt bárki azt hinni, Sandel a "régen minden jobb volt" iskola híve és csak szidja a jelent, gyorsan eláruljuk hogy szerzőnk fő céljának inkább azt tekinti, hogy gondoljuk át mit teszünk, artikuláljuk a pro és kontra érveket, amikor valamit a piac logikájának vetünk alá és vegyük észre, hogy ez sokszor megváltoztatja azt, miképp viszonyulunk az adott dologhoz. Mindenkinek csak ajánlani tudjuk a kötetet, vagy a kötet alapjául szolgáló előadás ingyenesen elérhető változatát (de sajnos az 1998-as, ezért még nincs benne szó Google Ngram-okról).   Térjünk vissza a nyelvtechnológiához. Sandel a viselkedési közgazdaságtan (behavioral economics) és a modern ökonómia egyik kedvenc szavának, az "incentive", gyakoriságát megvizsgálva azt találta, hogy az a nyolcvanas években hirtelen megugrott a neoliberális fordulatnak köszönhetően. Nem bírtuk megállni, hogy az R ngramr csomagjának segítségével ne ellenőrizzük le Sandel állítását és ne gondolkozzunk el azon, hogy a technológia segítségével egy kicsit mélyebbre is nézhetünk-e egy-két jellemző szó gyakoriságánál. Sandel az "incentive" mellett még az "incentivise/incentivize" szavakat is vizsgálta és az Ngram Viewer mellett a LexisNexis-t is bevetette és természetesen az eredmények igazolták elméletét. A kiváló politikafilozófus a trendről megállapítja, hogy azért veszélyes, mert a piac logikája racionálisnak, amorálisnak (de nem immorálisnak) tünteti fel magát, holott minden társadalmi kérdés egyben etikai is, s a közgazdasági gondolkodás elválaszthatatlan a morális problémáktól. Vajon mit mondanak erről az n-grammok?   A One Lookup segítségével könnyen megtalálhatjuk mely szavakhoz kapcsolódik leginkább egy adott kifejezés. A szolgáltatás hasonló a régen nagyon népszerű Google Sets-hez. Az "incentive"-re adott találatok közül teljesen önkényesen kiválasztottunk hatot, melyek saját (igen limitált) közgazdasági ismereteink szerint kötődnek a piacokkal kapcsolatos gondolkodáshoz napjainkban, majd megnéztük ezek gyakoriságát a Google Ngram korpuszon. A "moral force" (motiváció, erkölcsi parancs) a One Lookup szótárakon alapuló korpusza alapján a "incentive" környezetében szokott előfordul a definíciókban, annak hiponímiája. De jelentése sokkal közelebb áll a motivációhoz, amihez nem tapad annyira a gazdasági ösztönzés képzete. A "moral force" gyakoriságának csökkenése amúgy párhuzamba állítható az "incentive" frekvenciájának emelkedésével is, illetve a "motivation" említésgyakorisága is egy időben ugrik meg vele valamikor a nagy gazdasági világválság idején. Ekkor még Keynes volt divatban, ám a nyolcvanas években látható hogy nem hiába volt Hayek Thatcher és sok más államfő egyik kedvenc szerzője. Érdekes látni, hogy az eszmetörténeti érvelésben is teljesen természetesen jelenik ma már meg egy pár éve még nem is létező eszköz. Reméljük pár év és nem lesz külön digitális bölcsészet, csak szimpla bölcsészet ami használja a technológia lehetőségeit.


2014. október 7. 8:00

Beharangozó

Kedves Szentimentális és Emocionális Olvasóink! Nagy örömünkre szolgál hírül adni, hogy 2014. november 4-én bemutatkozunk a magyar nyelvű szövegek automatikus szentiment- és emócióelemzését célzó projektünk első eredményeivel. Fáradhatatlanul dolgozunk, és a munka során számos elméleti nyelvészeti és nyelvtechnológiai problémával találtuk már szembe magunkat. Mindezeket a kérdéseket szeretnénk feltárni és megvitatni a Kodolányi János Főiskola, az ELTE BTK Alkalmazott Nyelvészeti Tanszéke és a Tinta Könyvkiadó által közösen szervezett Nyelv, kultúra, társadalom című tudományos konferencián (2014. november 3-4.) a Kodolányi János Főiskola budapesti épületében (Budapest XIII. Frangepán u. 50-56.), két előadás keretében,12 órai kezdettel.  Előadásaink absztraktjaival igyekszünk kedvet csinálni a prezentációkhoz:   Minden érdeklődőt szeretettel várunk, és köszönjük, ha észrevételeikkel, javaslataikkal és kérdéseikkel támogatják a munkánkat. Találkozzunk november 4-én a Nyelv, kultúra, társadalom konferencián!


2014. október 6. 8:00

A szakítás koreográfiája a közösségi médiában

Ahogy arról már korábban is beszámoltunk, a Facebook tudja kivel kavarunk, akkor is ha nem jelöljük a profilunkon. A kutatók számára sajnálatos módon - ha nem a Facebook alkalmazottai - a személyes interakciók nem hozzáférhetőek, de szerencsére sokan a nyilvános Twitter-t használják személyes kommunikációra. Ez bepillantást enged abba, hogy a szakítás hogyan változtatja meg egy-egy felhasználó viselkedését a közösségi médiában.   Garimella és tsai From "I love you babe" to "leave me alone" - Romantic Relationship Breakups on Twitter című tanulmányukban 661 szakító és "kitartó" pár online életét követték nyomon 2013 novembere és 2014 áprilisa között. Kiindulási adatuk a Gnip ingyenes Twitter korpusza volt, ezt crowdsourcing segítségével elemezve azonosítottak heteroszexuális, angol nyelvterületen élő párokat. Fontos megjegyezni, az adatok nem reprezentatívak, a tinik aránya a mintában igen magas. Sietősök számára hat pontban összefoglaljuk mit találtak a kutatók.   1. Minél tovább járnak a párok, annál kisebb a szakítás valószínűsége  2. A profilok radikálisan megváltoznak a szakítás után Sokan szeretik Twitter profiljukban megemlíteni kedvesüket. Ám értelem szerűen a szakítás után a profil átalakításra szorul. 3. Az egymás közötti üzenetekben a szerelem kifejezését átveszi a másik kritizálása a szakítás után 4. A szakítás előtt és után csökken az egymás közötti üzenetváltások száma és növekszik a másokkal folytatott beszélgetés aránya 5. A szakítással a közös barátok egy részét is elveszítik a felhasználók A tanulmány szerzői szerint ez az egyik legmeglepőbb eredményük. Ha az említett Facebook tanulmányt is figyelembe vesszük, akkor azonban érthető, hiszen a az új kapcsolat általában két csoport között hoz létre ún. "weak tie"-t  és ez a szakítással megszűnik. Amúgy pedig az offline életből sokan rendelkezünk hasonló tapasztalatokkal...  6. A depresszióra utaló nyelvhasználat a szakítás előtt megjelenik Pennebaker LIWC pszichológiai tartalomelemző szoftverét bevetve arra jutottak kutatóink, hogy a depresszív   szóhasználat megemelkedik a kapcsolat megromlásakor. Fontos megjegyezni, hogy a rendelkezésre álló adatok alapján nem lehet eldönteni, hogy ez oka vagy következménye a szakításnak!   Zseniális, hogy szabadon hozzáférhető adatokra alapozva, egyszerű eszközökkel végezték vizsgálatukat a tanulmány szerzői! A Facebook vizsgálatai etikai kérdéseket vetnek fel, hiszen sok felhasználó abban a hiszemben használja az oldalt, hogy személyes kommunikációja titkos. Ellenben a Twitteren mindenki tisztában van azzal, hogy alapból mindenki számára nyilvánosak üzenetei (vagy egy szűk kör számára hozzáférhetőek), így a csiripek elemzése nem veti fel a privát szféra megsértésének kérdését. 


2014. október 2. 13:28

Our CEO is listening David Chappel speaking about Public Cloud

precognox készítette ezt a képet.


2014. szeptember 30. 18:27

Könyvajánló: The Language of Food

Hogyan lehet megmondani csak az étlap alapján, hogy olcsón megússzuk az ebédünket vagy mélyen a zsebünkbe kell nyúlni? Hogyan befolyásolják a választásunkat a chipses zacskón található feliratok? Mi köze a szexnek a sushi tekercsekhez? Miként terjedt el az Óperzsa Birodalomban kedvelt sikbāj nevű halétel az évszázadok alatt, milyen történelmi-kulturális folyamatok során lett belőle a spanyol escabeche, a francia aszpik, a dél-amerikai ceviche, a japán tempura és a brit fish and chips? Milyen hatással van ránk az ételmárkák hangszimbolikája? Dan Jurafsky, a Stanford Egyetem oktatója ilyen és hasonló kérdéseken töprengett az utóbbi években, és amire jutott, le is írta legújabb The Language of Food: A Linguist Reads the Menu c. könyvében.   Dan Jurafsky sokak számára ismerős lehet, ugyanis James H. Martinnal közösen ők a népszerű Speech and Language Processing: An Introduction to Natural Language Processing, Speech Recognition, and Computational Linguistics c. tankönyv szerzői. Jurafsky tudományos munkája során természetes nyelvfelismeréssel, társalgás- és párbeszédelemzéssel, valamint az NLP viselkedés- és társadalomtudományi alkalmazásaival foglalkozik. Emellett szabad- és munkaidejének egy részét évek óta egy speciális tudományos hobbijának, az ételek nyelvészetének szenteli. Az idén megjelent The Language of Food c. könyvében tizenhárom izgalmas történeten keresztül osztja meg ezt a szenvedélyét a nagyközönséggel. A könyv műfajilag is eltér Jurafsky eddigi írásaitól, a The Language of Food ugyanis amolyan ételekről szóló szórakoztató tudományos ponyva a bestsellerré válás minden hajlamával. Jurafsky tudományos igénnyel mutatja be az "ételek nyelvét", azonban nem viszi túlzásba a módszerek és elméletek ismertetését, ami mindenki számára fogyaszthatóvá és élvezhetővé teszi a könyvet. Arról nem is beszélve, hogy egy manapság közkedvelt témáról, az ételekről ír, amivel egy olyan társadalmi-kulturális közegben, ahol az emberekbe nap mint nap a tudatos és egészséges táplálkozás és életmód fontosságát sulykolják, nem hibázhat. (Ezt a fajta önreflexiót kicsit hiányolhatjuk is.) De nem csak ezzel nyerheti el a könyv az emberek tetszését. Egy mit sem sejtő olvasó a cím alapján valószínűleg azt hinné, hogy egy kifejezetten nyelvészeti megközelítésű könyvet tart a kezében, azonban már az első fejezetnél kellemes meglepetés fogja érni. Jurafsky könnyedén vegyíti a nyelvészeti elemzést a történelmi, pszichológiai, szociológiai és kulturális antropológiai aspektusokkal. Különböző korokon, tájakon, kultúrákon keresztül utaztat minket a könyvben, miközben Grice maximáival, Bourdieu és Simmel fogyasztáselméletével, a Pollyanna elmélettel, Wolfgang Köhler pszichológus egyik alakkísérletével, Pennebaker és társainak funkciószavas vizsgálatával és sok egyéb érdekes dologgal ismerkedhetünk meg. Az érintett tudományokban jártasabb személyeket talán nem elégíti ki a különböző tudományos elméletek és vizsgálatok szűkszavú ismertetése, azonban ennek orvoslásaként a könyv további olvasnivalóhoz irányítja át az érdeklődőket. Ami talán még zavarhatja az olvasókat, azok olyan stílusjellemzők, mint a bensőséges hangvétel, ami néhol furán keveredik a tárgyilagos tudományos részekkel, valamint a szájbarágós, a tanulságot a fejezet végén mindenáron összefoglalni akaró szentenciák. Ámde a sztorizgatás és a szájbarágás is sajátosságai ennek a műfajnak, amit mindenki el tud dönteni magának, hogy kedvel-e vagy sem. Mindent egybevetve a könyv eléri a kívánt hatást. Fenntartja az érdeklődést, szórakoztat, olvastatja magát, sokféle új tudásmaggal lát el, és csak annyira, hogy az ne legyen túl megterhelő. Megfelelő olvasmány egy megerőltető nap után, mikor az ember már nem akarja tovább kínozni az agyát, de nem is akarja sorvadni hagyni. Emellett olyan döbbenetes dolgokra lehet a könyv olvasása közben rájönni, minthogy a Star Trekes ételreplikátorból lehet, hogy nem csak az alkotók ötletszegénysége miatt kérhetik a dolgozók ugyanazokat az emberi ételeket, mint amit egy ma élő amerikai eszik, hanem az időn és téren átívelő kulturális hasonlóságok, valamint a közös szociális és kognitív emberi jellegzetességek miatt. Bár ez még nem oldja meg, hogy más fajok miért esznek a földihez nagyon hasonló ételeket.


2014. szeptember 30. 8:43

András, our architect teaches the team about some issue @precognox

precognox készítette ezt a képet.


2014. szeptember 29. 8:00

Learning by doing: Írjunk és teszteljünk saját nyelvtant

Gerő Dávid Péter vendégposztja, az Egyszerű magyar mondatok kezelése NLTK környezetben című szakdolgozatának témájából. Az írásom célja, hogy kedvet és lelkesedést ébresszek a próbálkozás utáni tanulás iránt egy számítógépes nyelvfeldolgozó keretrendszer bemutatásával. Megmutatni egy eszközrendszert és az eszközrendszeren egy magyar nyelvészeti probléma megoldását, amely alkalmas arra, hogy a diákok a felsőoktatásban elsajátított vagy éppen tanult ismeretanyagokat lefordíthassák a számítógép által is értelmezhető formába. A célhoz eszköz kell. A választás a Python programozási nyelven megvalósított Natural Language Toolkit-re (NLTK) esett. Mind a programozási nyelv, mind a számítógépes eszközrendszer könnyű elsajátíthatósága miatt. Az előttünk álló probléma a magyar nyelvű névelő egyeztetés és a választott nyelvészeti keretek pedig a generatív nyelvtan és megszorítás alapú nyelvtan. Miről is beszélek most egyáltalán? Ugorjunk a példára. ember, kutya, egy ember, egy kutya, *a ember, az ember, a kutya, *az kutya   Tehát a nyelvünk ábécéje: e, egy, a, az, ember, kutya Az ábécé feletti halmazunk: az ábécé permutációja (az ábécé hat elemű, így ennek faktoriálisát vesszük: 6! = 720 elemű.) Tehát a nyelvünk (L) 720 mondatból áll. Nekünk pedig az a szerény feladatunk, hogy ebből a 720 mondatból kiválasszuk azt a hat elemet, amelyek a magyar nyelv része. - Ez utóbbit nevezzük LM-nek, amely LM teljes részhalmaza a magyar nyelvnek. Fogalmazzuk újra a problémát! Generatív nyelvtan alapján az feladatunk, hogy egy olyan transzformációs szabályhalmazt adjuk, amely a megadott ábécé alapján csak és kizárólag a keresett hat elemű halmazt (LM-et) generálja. Megszorítás alapú nyelvtan szempontjából pedig az a feladatunk, hogy olyan megszorítás alapú szabalyokat adjuk, amely az L halmazból kizárólag a keresett hat elemű halmazt (LM-et) választja ki. Most már minden tiszta. Szerencsére. Fordítsuk először képletre aztán kódra a gondolatot és vizsgáljuk meg a működését! Generatív nyelvtannal A G=(N, T, S, H) rendezett négyest generatív nyelvtannak (vagy generatív grammatikának) nevezzük. (Pontos definíció: www.inf.unideb.hu/~nbenedek/FormNyelvAutom/chunks/ch03s02.xhtml ) A problémánk mentén N, a nemterminális szimbólumok halmaza { S, DP, D, DhatN, DhatP, DmghP, DmghN, NmghP, NmghN }A T a terminális szimbólumok halmaza { e, egy, a, az, ember, kutya } A H, a helyettesítési szabályok halmaza. { S → DP, DP → D , D → DhatM, D → DhatP , DhatM → e N, DhatM → egy N , DhatP → DmghP NmghP, DhatP → DmghM NmghM , DmghP → az , DmghM → a , N → NmghP, N → NmghM ,NmghP → ember, NmghM → kutya }Míg az S, a kitüntetett egy elemű halmaz, a kezdőszimbólum. { S } Néhány munkadefiníció magyarázatra szorul. A DhatM nemterminális szimbólum azokat a determinánsokat jelöli, amelyek határozottsági jegye mínusz értéket vesz fel. Míg a DhatP azon determinánsokat jelölik, amelyekt határozottsági jegye pozitív. A DmghM és DmghP a magánhangzóval kezdődő alaknak a nemterminális szimbóluma. Abbéli csodálkozásunkban, hogy sikerült egy ilyen kis képletbe ilyen sok szimbólumot beillesztenünk... Fordítsuk gyorsan kódra a működést. Mit érdemes észrevennünk? A nyelvtani fájlt érdemes megfigyelnünk. A nyelvtani fájlban nem definiáltuk külön a nemterminális és termininális szimbólumok halmazát. Csupán felállítottuk a transzformációs szabályokat... és mégis működik. Az NLTK amellett, hogy egy könnyű szintaxist biztosíts a számunkra saját nyelvtanunk definiálására meg van az a nagyszerű lehetősége, hogy a terminális és nemterminális szimbólumok halmazát automatikusan, a szabályhalmazból következteti ki.Ezért a generatív grammatika definiciójára hivatkozva: nekünk elegentő helyettesítő szabályok halmazát felírnunk és ebből a szabályhalmazból automatikusan létrehozza számunkra a rendszer a terminális, nemterminális és a kezdőszimbólum halmazát. Megszorítás alapú nyelvtannal Végezetül álljon itt egy példa a keresett nyelv megszorítás alapú leírására.Megszorítás alapú nyelvtan szempontjából az a feladatunk, hogy olyan megszorításokat adjuk, amely az L halmazból kizárólag a keresett hat elemű halmazt (LM-et) választják ki. Összegzés Egy egyszerű nyelvtant szerkesztettük, amely a névelők és főnevek egyeztetését hivatott modellezni magyar nyelven. Se maga a nyelvtan, se annak informatikai megvalósítása nem teljes. Sőt nyelvészeti szempontból megkérdőjelezhető is. Ennek ellenére a nyelvtanok, a különböző nyelvtani keretrendszerekben működnek és pontosan az általunk keresett helyes magyar mondatokat generálják vagy fogadják el. A célunknak megfelelően könnyen áttekinthető példák, amelyek azt szorgalmazzák, hogy a saját nyelvtan szerkesztése és a saját nyelvtannak a számítógép által értelmezhető formában való megjelenítése és megvalósítása nem egy ördöngős informatikai feladat. Ha olyan eszközrendszer áll a rendelkezésünkre, mint a példák során felhasznált NLTK. Jó játékot! Gerő Dávid Péter (@davidpgero), a Szegedi Tudományegyetem magyar-nyelvtechnológus hallgatójaként végzett 2014-ben. Jelenleg szoftverfejlesztőként tevékenykedik és nem szereti a mazsolát.


2014. szeptember 26. 8:39

Meetup slideok

A tegnapi NLP meetuphoz kapcsolódó anyagok.   Koren Miklós: kozbeszerzes.ceu.hu Miháltz Márton: TrendMiner   A Slamby honlapját itt találjátok.   Merész Gergő: Tudománymetriai adatok elemzése   Gergő előadáshoz kapcsolódó github repoja itt található.


2014. szeptember 25. 20:12

At young entrepreneur rolemodels club www.peldakep.hu

precognox készítette ezt a képet.


2014. szeptember 23. 9:24

Shrine of Jura: The best friend of our developers

precognox készítette ezt a képet.


2014. szeptember 23. 8:44

The team learns about lazy loading in todays fast workshop

precognox készítette ezt a képet.


2014. szeptember 22. 8:00

MOOC ajánló: Corpus Linguistics: Method, Analysis, Interpretation

Már csak hét nap és indul a Future Learn Corpus Linguistics: Method, Analysis, Interpretation kurzusa! Az ajánló szerint elvégzéséhez nem kell más mint "an interest in the study of language, there are no requirements to join this course" - ezért bátran ajánlhatjuk mindenkinek, akit érdekel a nyelv statisztikai leírása. Nem mellesleg McEnry-től, a szakma legjobbjától sajátíthatjuk el az alapokat!!!!   A tematika alapján kb. fele-fele arányban lesz klasszikus korpusznyelvészet (technikai és metodológiai alapok) és alkalmazott korpusznyelvészet (a diskurzuselemzés és az igazságügyi nyelvészet kifejezetten izgalmasnak ígérkezik). Week 1: An Introduction to Corpus LinguisticsWeek 2: A Look at Language - Some Key Methods in Corpus LinguisticsWeek 3: Compare and Contrast - Corpus-Based Discourse AnalysisWeek 4: Build a CorpusWeek 5: Looking at Social Issues Through Corpora: Forensic LinguisticsWeek 6: Textbook and Dictionary ConstructionWeek 7: Language Learning and Corpus LinguisticsWeek 8: Speech - a Swearing Extravaganza Az előadó neve garancia arra, hogy naprakész tananyaggal találkozhatunk a kurzus során. McEnry a legjobb tankönyvek szerzője (vagy társszerzője) a területen, személyes kedvencemet tőle máshol már ajánlottam is.   Habár a programozás manapság elválaszthatatlan a korpusznyelvészettől, sajnos a kurzus nem vállalkozik arra, hogy foglalkozzon ezzel a témával is. Ez nem feltétlenül baj, hiszen két terület összekapcsolása lehet csak nehezítené az anyag megértését. Remélem sokan fognak kedvet kapni a nyelvi adatok felfedezéséhez a kurzus elvégzése után, nekik nem marad más választásuk; meg kell tanulniuk programozni! A kurzus után, vagy ha már tisztában van valaki a nyelvészeti alapokkal akár helyett, a további lépésekben a Satistics and R for Linguists - a reading list nyújthat segítséget.


2014. szeptember 19. 14:25

Október 16: e-Kormányzat Műhelykonferencia és Budapest Open Knowledge Meetup

A W3C Magyar Iroda e-Kormányzat témában műhelykonferenciát rendez 2014. október 16-án, 14.00-től az MTA SZTAKI-ban (1111 Budapest, Kende u. 13-17.). További részletek itt. A részvétel ingyenes, de regisztrációhoz kötött! A konferencia után Budapest Open Kowledge Meetup-ot tartunk, amire pedig itt lehet regisztrálni, szintén ingyen :D


2014. szeptember 18. 13:22

Vendégposzt: Slamby, világklasszis értelmező technológia

Tóth László írása A világon naponta, átlagosan 2,5 milliárd gigabájtnyi adat termelődik, aminek 75%-a strukturálatlan írott szöveg vagy hang és videofelvétel. A Slamby küldetése az, hogy ezt a strukturálatlan írott adatmennyiséget értelmezze, és a cégek számára felhasználható formájúvá tegye. A Slamby text adatok értelmezését teszi lehetővé, és az értelmezés eredményétől függően képes feladatok végrehajtására. Mindezt automatikusan, öntanuló technológiával és nyelvfüggetlenül. Mit is jelent ez? Képzeljünk el egy olyan call centert, ügyfélközpontot, ahová az egy központi címre naponta beérkező több tízezer email-t képesek vagyunk 1 századmásodperc alatt automatikusan elolvasni, értelmezni és azt a megfelelő ügyfélszolgálatos kollégának továbbítani, vagy akár automatikusan megválaszolni. Így az ügyfélszolgálat reakcióideje 1 napról akár pár percre vagy órára csökkenhet. Egy ideges és mérges ügyfél kezelésénél ez nem egy elhanyagolható előny. Sőt, menjünk tovább, és képzeljük el, hogy van egy olyan speach recorder, ami a telefonbeszélgetéseket írott szöveggé alakítja. Senki nem képes a telefonbeszélgetéseket elemezni, de ha le van írva, akkor a Slamby igen. Képes arra, hogy megmondja melyik kolléga kezelte hatékonyan vagy kevésbé hatékonyan az ügyfelet, ki az, akinek sikerült a problémáját hibátlanul megoldani, ki az akinek nem, vagy épp ki beszélt nem elfogadható hangnemben (értsd anyázott) az ügyféllel. De a telefonbeszélgetések és beérkező email-ek elemzése alapján az is megmondható, hogy a felhasználóknak valós időben milyen problémáik vannak, amiket a cégnek sürgősen meg kell oldania. Ez jelenleg csak akkor lenne lehetséges, ha egy ember naponta minden beérkező email-t és telefonbeszélgetést elolvasna, értelmezne, kivonatolva, összesítene, jah, és nem felejtené el mit olvasott 3425 dokumentummal azelőtt aznap... De ez csak egy példa volt. A text adatok (text big data?) feldolgozásában, értelmezésében, és a vállalatok szolgálatába állításában hihetetlenül nagy lehetőségek rejlenek. A Slamby technológiájával eddig az alábbi problémákra sikerült megoldást szállítanunk, az utóbbi fél évben:● Egy nagyvállalat üzleti titkainak, adatainak szivárogtatását gátló szoftvert szállítottunk, mely arra is képes, hogy a kikerült adatok alapján megtalálja ki lehetett a szivárogtató● Egy egyetemi könyvtár számára a beérkező írott dokumentumok szortírozására, dolgozatok automatikus címkézésére adunk megoldást, illetve egy plágium detektáló szoftvert is készítünk a technológiával. A Slamby célja, hogy egyre több nagyvállalat text data-val kapcsolatos problémáját oldja meg, és tegye hatékonyabbá, eredményesebbé a működésüket.


2014. szeptember 17. 15:57

Menta 2014: the Hungarian ICT Association yearly conference

precognox készítette ezt a képet.


2014. szeptember 16. 8:00

Szeptember 25: NLP meetup

Szeptember 25-én indul az NLP meetup őszi szezonja. Első találkozónkon a nyelvtechnológia két érdekes alkalmazásáról hallhatnak előadást az érdeklődők. A rendezvény ingyenes, de arra kérünk mindenkit, hogy regisztráljon az esemény oldalán.  Témáink: Koren Miklós: kozbeszerzes.ceu.hu Miháltz Márton: TrendMiner


2014. szeptember 15. 8:42

Our CTO talks at the first day of the next sprint.

precognox készítette ezt a képet.


2014. szeptember 15. 7:01

Our New meetup already has 38 members #softdevkapos

precognox készítette ezt a képet.


2014. szeptember 10. 9:00

Rapháború III. - Hogyan írjunk rap slágert tudományos alapokon?

Régóta keressük a választ arra, hogy mitől lesz népszerű egy rap előadó. Félretettünk olyan kérdéseket mint a zene minősége, az előadó mögötti marketinggépezet működése és egyéb tényezők. A rap elvégre elvileg szövegcentrikus, kell hogy legyen valami köze a tartalomnak a népszerűséghez!  Lássuk mi a helyzet! Tanácsok dalszövegíróknak, tanulságok a szentiment- és emócióelemzés kapcsolatáról - mindez egy posztban!!!!   Mire ügyeljünk dalszövegünk megírása közben? Korábban már megállapítottuk, hogy a beszélt nyelvhez közeli lexikai diverzitással rendelkező szövegek előadó számíthatnak nagyobb népszerűségre. Bármennyire is egyediek akarunk lenni, a homofília nyelvi preferenciáinkban is érvényesül. Korábbi posztunkból az is kiderül, hogy a YouTube nézettség és a Facebook lájkoltság erősen összefügg, ezért mi most maradunk a lájkok számánál. Úgy tűnik nem túl pozitív a legtöbb előadó, de itt is érvényesül a középre húzás; az extrém negativitás nem annyira népszerű. Nézzük mely emóciók megjelenítés korrelál a népszerűséggel! Ha már mindenképpen negatív rap dal szeretnénk írni, akkor témánk a bánat legyen! Ha dühösek vagyunk, semmiképen se öntsük dalba érzéseinket!!! Vizsgálódásaink azt mutatják, hogy viszonylag erős negatív korreláció (-0.55) mutatható ki a dühöt kifejező szavak aránya és a népszerűség között!!!!!   A meglepődés kifejezése, a dühvel ellentétben, pozitívan hathat népszerűségünkre. Több tanáccsal sajnos nem szolgálhatunk azoknak, akik tudományos alapon közelítenék meg a hip-hop előadói pályát. Úgy tűnik, sajnos a zenére és egyéb zavaró tényezőkre is figyelni kell a szöveg mellett... Lexikai diverzitás és érzelmeink A lexikai diverzitással és a pozitív szavak aránya közötti korrelációt mérve 0.31-et kaptunk eredményül. Az emóciókat vizsgálva azt találtuk, hogy a düh és az öröm egyáltalán nem korrelál a lexikai diverzitással, ellenben a bánat, félelem és undor emóciókkal összevetve -0.44, -0.43 és -0.42 értékeket kaptunk. A meglepődéssel is hasonló a helyzet, -0.33 értéket kapunk a korrelációra. Külön érdekes, hogy a pozitív szótárunk feleannyi szót tartalmaz mint negatív párja! A bánat, undor, félelem listák hosszában nincs különbség (kb. 200 elemet tartalmaz mindegyik átlagosan), a meglepődés kifejezetten rövid (úgy 50 elem), az öröm háromszor hosszabb mint egy átlagos emóciós szólista (kb. 600 elem). Csak spekulálni tudunk, de talán azért is csökken a lexikai diverzitás negatív érzelmi állapotban mert a beszélő nehezebben hívja elő a szavakat. A Pollyanna hipotézis kapcsán megemlítettük, hogy a magyar webkorpuszt vizsgálva is kimutatható a pozitív érzelmi töltetet hordozó szavak magasabb gyakorisága. Feltehetjük hogy a magasabb gyakoriság könnyebb előhívással is járhat, a negatív érzelmek pedig megnehezítik a lexikai elemek előhívását előadóinknál. Az emóció az nem szentiment! Megnéztük, találunk-e korrelációt a szentiment score-ok és az egyes emóciók között, de nem jutottunk sokra. Ezért külön vizsgáltuk a pozitív és negatív szavak és az egyes érzelmeket kifejező szavak arányai közötti összefüggéseket. Érdemleges eredményről csak a pozitív szentiment és az öröm (0.78), továbbá a negatív szentiment és a düh (0.65) között tudunk beszámolni.    Aki sorozatunkon felbuzdulva megírja a következő rap slágert, azt ügyvédeink keresni fogják a jogdíjak ügyében. Mindenki mást figyelmeztetünk, csak saját felelősségére használja fel az olvasottakat! Reméljük továbbá, hogy sikerült meggyőzni legalább pár olvasót arról, hogy a szentiment- és az emócióelemzés két külön terület.


2014. szeptember 9. 8:36

Játék az érzelmekkel!

Játékot hirdetünk kedves olvasóink számára! A nyeremény egy, azaz egy kávé velem - nyilván nem ez fog megmozgatni titeket, de érdekes a kérdésünk! A politikai blogokat vizsgálva begyűjtöttük a magyar nyelvű oldalakat és mivel már rendelkezünk szótárakkal a szentiment- és emócióelemzéshez, elkezdtünk vizsgálódni ezen a téren. Összesen 1644 url-t azonosítottunk nyelvazonosítással mint magyar nyelvű írás, amihez egyértelműen tudunk dátumot rendelni. A gyűjtésből kizártuk a Wikipedia, a Facebook és egyéb webkettes tartalmakat.   Szabó Martina és Morvay Gergely kollégák lelkes munkájának hála már vannak szótáraink szentiment- és emócióelemzésre is. Nem tudtuk megállni, hogy ne vessük be ezeket, ha már van egy korpuszunk.   A fenti ábrán minden hónapra a vizsgált oldalak átlagos szentimentértékét láthatjuk. A szentimentelemzés azt mutatja, hogy ritkán kapunk negatív értéket! Ennek részben az az oka, hogy a blogok szeretnek híroldalakra linkelni s ezek semleges hangvétele kiegyenlíti a görbénket. Játékunk az emóciókhoz kapcsolódik! A fenti ábra a hat alapvető érzelmet kifejező szavak átlagos gyakoriságát jeleníti meg. Nem véletlenül hiányzik a magyarázat a plotról! Kérdésünk az, hogy a kék görbe melyik érzelmet takarja!   Segítségül ajánljuk alábbi posztjainkat: Pollyanna a magyar weben Emócióelemzés - avagy ami a szöveg mögött van Emócióelemzés, avagy Darwin és a nyelvtechnológia különös találkozása A megfejtéseket kommentben a blogon, vagy Facebookon várjuk, de ér tweetben is rám írni (@varjuzoli) egészen holnap reggel 9-ig.


2014. szeptember 9. 8:28

Headed to the meet up after party, which was either some beer or lemonade. Kaposvar is a beautiful city indeed #softdevkapos

precognox készítette ezt a képet.


2014. szeptember 9. 8:00

Állás: Java + NLP

Örömmel közöljük az alábbi álláshirdetést, melyben Java fejlesztőt keresnek NLP feladatokra: Natural Language Processing területre keresünk tapasztalt Java fejlesztőt. Megbízó cégünk egy nemzetközi vállalat, amely Budapesten egy kis irodával működik az V. kerületben. A cég egy online működtetett keresőmotort fejleszt, az általa kiadott találatok szövegeinek értelmezése, feldolgozása a program célja. Jelentkezés, vagy további kérdés esetén kérem írjanak az it@exactsolutions.hu­ email címre.


2014. szeptember 8. 20:39

The meetup was a great success. Guys are still talking about stuff #softdevkapos

precognox készítette ezt a képet.


2014. szeptember 8. 18:07

The very first Software Development Meetup in Kaposvar just started. Full house

precognox készítette ezt a képet.


2014. szeptember 8. 9:07

This is how we want to work. You can see this at the entrance of our office.

precognox készítette ezt a képet.


2014. szeptember 8. 8:00

Szeptember 15: Budapest Open Knowledge Meetup

Szeptember 15-én indul a Budapest Open Knowledge Meetup, ami a hazai open knowledge, open data és open science gyűjtőhelye szeretne lenni. Az első meetupon arra keressük a választ, hogy mi az az open knowledge és mire jó, a rendezvény ingyenes, de az előzetes regisztráció, a helyszín korlátozott befogadóképessége miatt, erősen ajánlott.  Témáink: Micsik András: Open data Arató Bence: DataKind Pethő András: Adatvezérlet újságírás Szeretettel várunk mindenkit! Aki szeretne csatlakozni hozzánk, vagy előadna valamelyik meetupon, az keresse emailben a szervezőket (Le Mariettát a le.marietta[kukac]k-monitor.hu és/vagy Varjú Zoltánt a zoltan.varju[kukac]gmail.com címen)!


2014. szeptember 5. 8:00

Szeptember 8: Első Kaposvári Szoftverfejlesztő Meetup

A JustDoo és a Precognox szervezésében elindult a Kaposvári Szoftverfejlesztő Meetup. Cégünk elkötelezett a térség iránt, hiszen Kaposváron található főhadiszállásunk. A rendezvény ingyenes, de arra kérünk mindenkit, hogy előzetesen regisztráljon az esemény oldalán. Témák: 1. Szoftverbiztonság legfontosabb kérdései - Tóth Balázs, Citi Bank információ biztonsági szakértője 2. Agilis szoftverfejlesztés előnyei. Mit old meg? Mit nem? - Kása Károly, Precognox 3. ExtJS javascript framework. Berzsán Gyula, Infocentrum 4. Mire (ne) használd Drupalt? Gazdag András, LIA Alapítványi Iskola


2014. szeptember 3. 8:00

Plotly - kollaboratív interaktív adatvizualizáció

A Plotly az egyik legérdekesebb próbálkozás a közös adatelemzés és annak eredményeinek bemutatására létrehozott alkalmazások között. Gyakran végeláthatatlan email áradatot eredményez a közös munka, sok-sok csatolmánnyal, tovább bonyolítja a helyzetet, hogy mindenkinek megvan a maga kedvenc nyelve a munkára. A Plotly a legtöbb bevett nyelvhez (Python, R, Julia, Matlab) nyújt könyvtárat, mely segítségével pár sort kell beszúrnunk kódunkba ahhoz, hogy megoszthassuk elemzésünket.  Az eredmény egy nagyon szép online felület, ami a vizualizációt, az adatokat és a kódot is tartalmazza. A grafikonok ggplot-szerűen jelennek meg, de a háttérben a D3.js dolgozik. Az adatokat táblázatos formában jeleníti meg a Plotly. A grafikont generáló kódot több nyelven is elérhetjük, a felület alsó részén arról is tudósít minket a Plotly, hogy eredetileg mivel készítették a plotot. A legtöbb kód (még a generált kódok is) úgy jelenik meg, mint egy szerkesztőben.   Aki szeretne jobban megismerkedni a Plotly-val, annak a Bad Hessian posztját ajánljuk a témában. Az egyszerű használhatóság, a legtöbb nyelv támogatása és az ingyenesség miatt mindenkinek ajánlani tudjuk ezt a remek eszközt! Reméljük funkcionalitásában hamarosan felveszi a versenyt az R-használók körében egyre népszerűbb Shiny-val is.


2014. szeptember 1. 9:41

Egyenlőtlenség és keresési trendek

Ahogy korábban is írtuk már, a nowcasting szépsége az, hogy a hagyományos adatfelvétel gyors és olcsó alternatívája lehet - persze csak akkor ha tudjuk, mivel helyettesíthetjük szokásos adatainkat. A The Upshot az Egyesült Államokban vizsgálata az életminőségben tapasztalható területi egyenlőtlenségeket, majd a GoogleCorrelate segítségével megtalálták mely keresési kifejezések jelzik jól előre a hagyományos indikátorokat. A What Are the Hardest Places to Live in the U.S.? minden megyére kiszámított egy hat mutatóból (oktatás, jövedelem, munkanélküliség, fogyatékossági ráta, várható élettartam, elhízottság) álló indexet.   A GoogleCorrelate segítségével megvizsgálták, mely keresési kifejezések korrelálnak az indexben szereplő adatokkal, erről a In One America, Guns and Diet. In the Other, Cameras and ‘Zoolander.’ posztban számoltak be. Fontos megjegyezni, hogy a keresések nem abszolút trendet jelentenek, hanem az adott területen megfigyelhető kapcsolatot az indexet alkotó változók és a keresési kifejezések között. Érdekes, hogy a jóléti térségben a digitális kamerák, utazási desztinációk, a bébimasszázs és társaik, a leszakadó régiókban a betegségekkel, fegyverekkel és szociális ellátással kapcsolatos kifejezések jó prediktorok. Érdekes lenne megvizsgálni, hogy egy adott régióban tapasztalható társadalmi változások előrejelezhetőek-e a Google keresési trendjeire alapozva...


2014. augusztus 28. 8:00

Szeptember 3-án R and C++ a BURN meeutpon

A BURN meetup ismét remek témával örvendezteti meg az R iránt érdeklődő közönséget! Szeptember 3-án Romain Francois az R és a C++ egyre népszerűbb kombinálásáról tart előadást, a rendezvény ingyenes, de a szervezők arra kérnek mindenkit, hogy az esemény oldalán regisztráljon.  A leírás alapján igazi hardcore fejlesztői élményben lehet része a résztvevőknek: Romain Francois is a well-know R developer, R Enthusiast and R/C++ hero beside being an occasional stand up comedian. This suggests that we will have a wonderful time at the next R User Group. Romain will talk about his Rcpp11 package: R and C++ is an increasingly popular mix. I will talk about past, present and future of this combination.  Integrating R and C++ has been facilitated by R packages around Rcpp for several years now, we will review some of the key features of Rcpp and discuss some successful packages that have been using Rcpp.  The last part of the talk will be dedicated to the future of R and C++. For that purpose I will introduce Rcpp11, a new implementation that focuses on the last C++ standard. Beyond C++11, we will discuss directions for future work in R and C++. 


2014. augusztus 27. 8:03

De miért nem doménfüggetlen? A nyúl miatt!

Az egyik leggyakoribb kérdés a nyelvtechnológiai megoldásokkal kapcsolatban az, hogy miért nem doménfüggetlenek. Idegesítő, hogy ami működik a tudományos cikkek feldolgozása során, az a közösségi média tartalmait elemezve egyszerűen elvérzik, arról már ne is beszéljünk hogy mennyi pénzt, időt és erőforrást visz el egy-egy doménre adaptálni egy eszközt.   Legutóbb a Why Sentiment Analysis Engines Need Customization című írás futott körbe a neten a témában, ami lényegre törően magyarázza el, hogy a kontextus miatt változhat egy-egy szó szentimentértéke. Habár mi is úgy gondoljuk, hogy a kontextus mindent visz és a technika fejlődésének hála hamarosan ezt is egyre jobban tudjuk majd kezelni, tisztában kell lennünk azzal, hogy a nyelv nem egy könnyű dió. Hogy miért? Wittgensteint hívjuk segítségül, kinek híres város hasonlata segít megérteni a helyzetet. [...] azt is kérdezd meg magadtól, hogy vajon a mi nyelvünk teljes-e; - hogy teljes volt-e, mielőtt a kémiai szimbólumokat és az infintezimáljeleket bekebelezte; mert ezek, mondhatni nyelvünk elővárosai. (És hány háztól, utcától fogva város egy város?) Nyelvünket olybá tekinthetjük, mint egy régi várost: mint zegzugos térséget utcácskákkal és terekkel, régi és új házakkal, meg olyan házakkal, amelyekhez különböző korokban építettek hozzá; s az egészet egy csomó előváros öleli körül, egyenes és szabályos utcákkal és egyforma házakkal. (Wittgenstein: Filozófiai vizsgálódások 18.) Ahhoz, hogy tudjunk tájékozódni a városban egy térképre van szükségünk. Egy ilyen szép, szabályos utcákból álló helyen igazából nem is kell nagyon a térképet böngésznünk. Ellenben az "óvárosban" hiába bogarásszuk percenként a térképet, szükségünk van jellegzetes viszonyítási pontokra a tájékozódáshoz. Egy jó GPS persze hasznunkra lehet, de nem árt észben tartani, a városok folyamatosan változnak, új utak és házak épülnek, a régieket átalakítják, egyes részek pedig kihalnak. Ha a városok esetében lépést is tud tartani a technológia ezzel, a nyelv végtelensége miatt nem készíthetünk tökéletes térképet. Van azonban egy nagyon erős ismeretelméleti probléma is, ami arra int minket, hogy szkeptikusak legyünk a doménfüggetlen megoldásokkal szemben. Képzeljük magunkat egy antropológus bőrébe, aki egy eddig ismeretlen törzshöz kerül. Nem beszéljük a törzs nyelvét, de szeretnénk azt megtanulni és leírni. Elindulunk a törzs vadászaival az erdőbe, amikor egy nyúl fut át előttünk és egyikük rámutatva felkiált "gavagai". Gondosan lejegyezzük noteszünkbe; "a nyúl láttán azt mondta az egyik alany hogy >>gavagaigavagai


2014. augusztus 25. 13:06

Kvantumfizika és nyelvészet

A nyelvtechnológia jelentős része az ún. normál tudomány körébe tartozik, azaz bevett eszközökkel próbálunk megoldani rejtvényeket, minden úgy működik ahogy az "a nagykönyvben meg van írva". A kilencvenes évekig ez a szabályalapú, logikai módszerek alkalmazását jelentette, Charniak könyvének megjelenése óta pedig a statisztikai és gépi tanulási módszerek egyeduralomra jutottak. Napjainkban jelent meg egy új irányzat az Oxford University kutatócsoportjának hála, amely megpróbálja közös nevezőre hozni a két irányzatot a szemantikában, azaz a kompozícionális és a disztribúciós elméleteket és ehhez a kvantumfizikát hívták segítségül! A Quantum Physics and Linguistics egy tanulmánykötet, szerzői a Quantum Group-hoz kötődnek így vagy úgy. A témák egészen vegyesek, a kvantumszámítástól a kompozícionális-disztributív szemantikáig sok dologgal találkozhatunk benne s gyanítom hogy kevés ember akad a földön aki képes megérteni minden érintett téma hátterét. Az biztos, hogy akinek nem dereng egy kicsit a kategóriaelmélet, a kvantumlogika és a disztribúciós szemantika (vagy a vektorterek) egy kicsit, az inkább bele se kezdjen az olvasgatásába (nekik ajánljuk Widdows Geometry and Meaning könyvét)!   Nagyon dióhéjban a kvantumfizika azért keveredik a szemantikához, mert abban is fellelhető hogy a makroszinten más törvények (kompozícionalitás) uralkodnak mint a mikroszinten (disztribúció). Nagyon úgy tűnik, a fizikusok számára eme kettősség kezelésére a kategóriaelmélet kézenfekvő volt, szerencsére ez a matematikai nyelvészettől és a logikától sem idegen dolog. A kötetből én az alábbi tanulmányokat ajánlom kezdésnek ennek szellemében: Michael Müger: Modular Categories Dion Coumans and Bart Jacobs: Scalars, Monads, and Categories Peter Hines: Types and forgetfulness in categorical linguistics and quantum mechanics Stephen Pulman: Distributional Semantic Models Stephen Clark: Type-Driven Syntax and Semantics for Composing Meaning Vectors Mielőtt bárki azt hinné, ez csak üres elméleti bűvészkedés ne felejtsük el, hogy a Google nem is olyan régen vette magának kvantumszámítógépeket a D-Wave cégtől és a kereső óriás rengeteg energiát fektetett már a disztribúciós szemantikába (csak ők információkinyerésnek hívják, mint rendes számítástudósok), aminek lassan elérkezünk a korlátaihoz s ezért saját Quantum AI Group-ot alapított. Aki pedig a pénzhajhászokat hurrogná le, hogy "no de hol marad az elme modellezése?", azoknak érdemes Loewenstein Physics in Mind: A Quantum View of the Brain című könyvét elolvasniuk.


2014. augusztus 22. 8:00

Nyelvészet mindenkinek 3.

Az egyik legnépszerűbb olvasói kérdésünk, hogy mit olvasson az ember ha érdekli a nyelvtechnológia, de magával a nyelvvel még nem nagyon foglalkozott. Korábban már ajánlottunk kifejezetten ilyen embereknek írott könyvet és a legjobb magyar nyelvészeti tudományos ismeretterjesztő könyvet is bemutattuk blogunkon. Még az előbbit sokan "túl keménynek", az utóbbit "túl lazának" tartják, ezért most az örök klasszikust, A nyelv és a nyelvek című tankönyvet ajánljuk mindenkinek. A kötet először 1984-ben jelent meg, legutóbbi, hatodik kiadása pedig 2011-ben. Az elmúlt harminc évben a könyv folyamatosan bővült és természetesen a kor követelményeinek megfelelően frissítették a tartalmát. A mű kb. egy rendes, akadémikus, de mégis könnyed bevezetés a nyelvtudományba. Túllép az ismeretterjesztésen, de nem merül el a részletkérdésekben, "csak" egy rendes, átfogó képet próbál adni a nyelv tudományos vizsgálatáról. Ebben a könyvben tényleg mindenről olvashat az ember, ami a nyelvvel kapcsolatos; a klasszikus szemantika, nyelvtan, morfológia, hangtan témákon túl egy-egy fejezet foglalkozik a nyelvelsajátítással, a nyelv idegrendszeri alapjaival, az írással, a számítógépes nyelvészettel, a pszicholingvisztikával és még a nyelvfilozófia sem maradt ki. Az egyes fejezetek nyelvezete kifejezetten jól érthető kb. egy érdeklődő középiskolásnak is felfogható módon próbálnak fogalmazni a szerzők. Szerencsére példákat is találunk, nem csak unalmas leírásokat olvashatunk arról mi hogyan működik elvileg a nyelvben. Minden fejezet végén találunk feladatokat, a kötet honlapja további feladatokat tartalmaz (meg az összes feladat megoldását). Egyetlen problémám van csupán a könyvvel, néhol annyira kerülni próbálják a szakzsargont a szerzők, hogy nagyon megnehezítik annak a dolgát, aki tovább keresgélne egy-egy témában.


2014. augusztus 18. 9:05

Emócióelemzés - avagy ami a szöveg mögött van

Kutatócsoportunk egyik legújabb, s egyben talán az egyik legnagyobb kihívást jelentő vállalkozása az érzelmek, másképpen emóciók automatikus detektálásának hatékony megoldása magyar nyelvű szövegekben. Amint arra már az Emócióelemzés, avagy Darwin és a nyelvtechnológia különös találkozása című bejegyzésben is utaltunk, bár az emócióelemzés, szövegbányászati céljait és metodológiai sajátságait tekintve több hasonlóságot mutat a szentimentelemzéssel, a két megoldás alkalmazási területe, s ezzel összefüggésben elméleti háttere teljesen eltér egymástól. Mivel a szentimentelemzésről korábban már számos alkalommal szóltunk, itt csupán az emóciódetektálás problémáit vesszük górcső alá. De miért is szükséges az információkinyerés feladatkörét az emóciókra kiterjeszteni? Tulajdonképpen miért is fontos számunkra az, hogy képessé váljunk az emóciók, az érzelmek szövegbeni feldolgozására? A feladat jelentőségének megértéséhez vegyük fontolóra az alábbi  két sajátságot: Egyrészt, az érzelmek olyan tényezőkre adott reakciók, amelyek fontosnak tűnnek számunkra boldogulásunk, jólétünk szempotjából. Másrészt, az érzelmek gyakran olyan gyorsan jelentkeznek, hogy nem is vagyunk tudatában magának az érzelmet kiváltó oknak, illetve az érzelmi folyamatok pontos alakulásának (vö. Ekman 2007). Ha mindezt meggondoljuk, beláthatjuk, hogy az emóciótartalom feldolgozása eleddig rejtve maradt, értékes információkat hozhat a felszínre, s ezek az információk számos szövegbányászati feladatban (pl. vásárlóihangulat-mérés) jelentős haszonnal szolgálhatnak. Az elmondottak az automatikus emócióelemzés mihamarabbi hatékony megoldását sürgetik. Az emócióelemzés viszonylag új keletűnek tekinthető a szövegbányászati projektek palettáján. Bár az emóciók bizonyos tudományos diszciplínákban, így a pszichológiában és a viselkedéstudományban kiemelt figyelmet kapnak, a természetesnyelv-feldolgozást illetően csupán az utóbbi idők termése között találni vonatkozó publikációkat (vö. Strapparava-Mihalcea 2008: 1). Az elmondottakkal összefüggésben, az emóciók automatikus kezelése kísérleti szakaszában jár, és önálló, kidolgozott megoldások híján csupán a szentiment- és szubjektivitáselemzés területein elért tudományos eredményekre támaszkodhat (vö. Mulcrone 2012: 1). Ami a magyar nyelvű szövegek információkinyerését célzó kutatásokat illeti, jelenleg nincs tudomásunk olyan projektről, amely kifejezetten az emóciótartalmak szűrésére és feldolgozására törekedne. Kutatómunkánkkal e hiányt igyekszünk pótolni. A magyar nyelvű szövegek automatikus emócióelemzéséhez mindenekelőtt számos elméleti kérdés alapos meggondolására van szükség. A legalapvetőbb feladatokat a következőkben állapíthatjuk meg: a) az emóció fogalmának pontos meghatározása; b) az emócióelemzés feladatkörének pontos meghatározása, annak elhatárolása más, információkinyerési feladatköröktől; c) a feladat megoldási menetének pontos kidolgozása, valamint az ahhoz kapcsolódó elméleti problémák feltárása és orvoslása. Az alábbiakban az itt említett feladatok mentén néhány kérdés részbeni tárgyalására vállalkozunk. Amint azt Péter (1991: 35) részletesen taglalja, az emberi cselekvés mozgatórugóját a különböző szükségletek alkotják; a szükségletek motiválják az egyént a cselekedetek végrehajtására. Ezzel összefüggésben, érzelmeink szoros kapcsolatban állnak a szükségletek és a motiváció szférájával. Az érzelmeink arról a viszonyról tanúskodnak, amely az egyes szükségletek és azok kielégítése, illetve kielégítésének lehetősége között fennáll (vö. Szimonov (Симонов 1975: 89) alapján Péter (1991: 35)). Amennyiben ez a viszony kedvező, úgy pozitív, amennyiben kedvezőtlen, úgy negatív érzelmeket vált ki az egyénből. Leontyjev (1979: 181) az érzelmeket a "belső élmény", az "átélés" fogalmával jellemzi. Péter (1991: 35-36) ugyanakkor felhívja a figyelmet arra, hogy "ha a belső élmény a szükségletek és kielégítésük lehetősége közötti viszonyt tükrözi, úgy magának az élménynek is tartalmaznia kell e viszony értékelésének kognitív mozzanatát. [...] Az érzelemből tehát nem «vonható ki» teljességgel a gondolkodás, mint ahogy megfordítva, a gondolkodás is magában foglal érzelmi mozzanatot." Péter (1991: 35-36) fentebb idézett sorai kiválóan mutatják be azt a problémát, amellyel az emócióknak a szentimentkifejezésektől való különválasztását illetően szembe kell néznünk. Az emócióelemzés keretében ugyanis - mint már említettük - a "puszta" érzelmeket kívánjuk a szöveg szintjén tetten érni, a kognitív értékelő folyamatokat a szentimentelemzés tárgykörébe utalva. Az elmondottak alapján azonban belátható, hogy az emóciók és a szentimentek nyelvi kifejezőeszközei bizonyos esetekben nem, vagy csupán nehezen különíthetőek el egymástól.        Emócióelemzési projektünk megvalósításához a feladat tárgyát és célját a következőképpen igyekeztünk meghatározni: a szövegekből kiszűrünk egyrészt minden olyan elemet, amely az adott emóció nyelvi kifejezőeszközeként számba vehető, másrészt minden olyan elemet is, amely az adott emóció kialakulására, illetve meglétére utalhat. Ennek megfelelően például a düh emóció szövegszintű jelének tekintjük a begurul ige mellett a káromkodik és a belepofázik kifejezéseket is, tekintve, hogy a káromkodás gyakori kiváltó oka a düh érzete, a belepofázik igét pedig általában akkor használjuk valakivel kapcsolatban, ha annak hozzászólásai a harag érzetét keltik bennünk. Az emóciókifejezések osztályozásához Ekman és Friesen (1969) érzelemkategorizálási rendszerét alapul véve a következő hat alapemóciót különítettük el: bánat, düh, félelem, meglepődés, öröm és undor. Bár gyakorta találkozni azzal a megközelítési móddal, hogy a fentebbi kategóriákat a két nagy, a szentimentelemzésben bevettnek számító negatív és pozitív csoportba sorolják, Ekman (2007) alapján ezt a megoldást nem követjük. A neves pszichológus amellett érvel ugyanis, hogy az érzelmek polaritása, azaz negatív vagy pozitív értéke számos emóció esetében egyénfüggő. Bizonyos emberek például pozitívnak értékelik a félelmet, ezért extrém sportokat űznek, míg mások gondosan kerülnek minden olyan szituációt, amelyben akár csak a legkisebb veszély is leselkedhet rájuk. Az emóciókat tehát nem, vagy csupán csekély mértékben lehetséges a polaritási skála mentén kezelni. A fentebbi hat emóciócsoport kiválasztását alapos megfontolás indokolta. Mindenekelőtt arra törekedtünk, hogy annyi és olyan kategóriát válasszunk, amely viszonylag könnyen elkülöníthető egymástól, egyszerűsítve ezzel az emóciókifejezések csoportokba rendezését. Bár a vonatkozó kutatások között találni olyanokat, amelyek nyolc vagy akár több emóciócsoporttal dolgoznak (vö. Mulcrone 2012), e megoldások áttekintése alapján úgy véltük, azok átvétele esetén a szólisták rendezésekor számos kérdéses esettel kellene megbirkóznunk. Ekman és Friesen (1969) vizsgálati eredményeire támaszkodva azt a hat alapérzelmet vettük fel projektünk megvalósításához, amelyeknek arckifejezései, illetve azok azonosítása kultúrafüggetlennek mutatkozik.   A hat alapérzelem - a harag, a félelem, az undor, a meglepődés, az öröm és a szomorúság - megnyilvánulása különböző arcokon. Forrás: paulekman.com   Ugyanakkor fel kell hívnunk a figyelmet arra, hogy az egyes emóciókifejezések érzelemcsaládokba történő rendezése rendkívül bonyolult, számos elméleti problémát felvető vállakozás. Gyakorta előforduló jelenség ugyanis, hogy két - esetleg több - alapérzelem is összekapcsolódik egy adott emócióban. Gondoljuk meg például, hogy a gyűlölet érzete akár a dühvel, akár az undorral is kapcsolatban állhat, sőt e kettő fúziója éppúgy lehetséges. Amikor pedig elégedetlenek vagyunk, akkor egyaránt érezhetünk bánatot, de akár dühöt is valamely ki nem elégített szükségletünk okán. Nem beszélve arról a sajátságról, miszerint gyakran egy adott emóció váltja ki egy másik emóció létrejöttét (vö. Ekman 2007). Haragra gerjedhetünk például saját félelmünk miatt, vagy élhetünk át szorongást attól való félelmünkben, hogy vajon hosszan tartó nyomott hangulatunk, depressziónk elmúlik-e valaha. Mindezen túlmenően, az érzelmek változása gyakorta úgy történik, hogy a kiváltó emóciónak nem is, csupán a reakcióként jelentkező érzelmünknek vagyunk tudatában. Nyilvánvaló tehát, hogy az emóciók e rendkívül bonyolult rendszere az írott nyelvi produktumokra is hatást gyakorol, amely jelentősen megnehezíti az érzelmek szövegszintű feldolgozását. Jelenleg emóciószótárunk hatékonyságának tesztelésén és fejlesztésén, valamint egy kézzel annotált emóciókorpusz létrehozásán dolgozunk. Eredményeinkről, tapasztalatainkról hamarosan újabb bejegyzésekben számolunk be.     IRODALOM Ekman P. 2007. Emotions revealed: recognizing faces and feelings to improve communication and emotional life. Revised edition. New York, St. Martin's Griffin. Ekman, P.-Friesen, W.V. 1969. The repertoire of nonverbal behavior: Categories, origins, usage, and coding. Semiotica 1. 49-98. Leontyjev, A.N. 1979. Tevékenység, tudat, személyiség. Budapest, Gondolat Kossuth. Az eredeti munka: Леонтьев, А.Н. 1977. Деятельность. Сознание. Личность. 2-е изд.Москва, Политиздат. Mulcrone, K. 2012. Detecting Emotion in Text. UMM CSci Senior Seminar Conference. Morris, MN.[https://wiki.umn.edu/pub/UmmCSciSeniorSeminar/Spring2012Talks/KaitlynMulcrone.pdf] Paul Ekman Group [http://www.paulekman.com/] Péter, M. 1991. A nyelvi érzelemkifejezés eszközei és módjai. Budapest, Tankönyvkiadó. Strapparava, C.-Mihalcea, R 2008. Learning to identify emotions in text. SAC 2008. [http://web.eecs.umich.edu/~mihalcea/papers/strapparava.acm08.pdf] Симонов, П.В. 1975. Высшая нервная деятельность человека. Мотивационно-эмоциональные аспекты. Москва, Наука.  


2014. augusztus 15. 7:52

Twitter dialektológia

A legtöbb dialektológiai kutatás sajnos nagyon kevés adatközlővel készült/készül, de szerencsére napjainkban a technológiának hála akár 50 millió (!) beszélőtől is lehet adatokat beszerezni, ahogyan Bruno Gonçalves David Sánchez Crowdsourcing Dialect Characterization through Twitter című tanulmányukban arról beszámoltak. A kutatók az elmúlt két esztendő spanyol nyelvű, geolokációs meta-adatokkal ellátott tweetjeit elemezte. Az adatok földrajzi eloszlását mutatja be a fenti ábra. A kutatók elgondolása szerint a közösségi média nyelvhasználata közel áll a mindennapi beszélt nyelvhez, ezért alkalmas lehet a dialektusok tanulmányozására is (bővebben l. Milyen is az internet nyelve c. korábbi posztunkat). A kutatás egyik részében a hagyományos kutatásokat felhasználva a szókincsbeli eltéréseket vizsgálták. Majd következett a gépi tanulás bevetése. Ötvenmillió tweet csak egy nagyon, de nagyon nagy dokumentum mátrixba fér bele, aminek sok-sok dimenziója lesz, ezért főkomponens-elemzéssel szépen leredukálták azt. Ezután jöhetett a klasszifikáció legegyszerűbb módszere, a k-NN. Ennek eredménye két szuper-dialektus lett, az egyik a nagyvárosokra jellemző szóhasználat, a másik pedig a vidékiek spanyolja - mindez kontinensektől függetlenül! A vidéki spanyolt tovább vizsgálva pedig a klasszikus dialektológia által leírt főbb nyelvjárások képe rajzolódik ki, miképp a fenti ábra is mutatja.   A "Big Data" lassan olyan területeket is elér, ahol úgy gondolnánk nem sok keresnivalója akad. Kíváncsian várjuk a következő érdekes bevetését!


2014. augusztus 12. 9:34

Jobb szentimentelemzés deep learning használatával

A legtöbb mai szentimentelemző rendszer valahol a 80%-os pontosság környékén mozog manapság, ami nem rossz, de "van hely a javulásra". A Stanford Deeply Moving: Deep Learning for Sentiment Analysis projektje 85% felé viszi a pontosságot a deep learning bevetésével, érdemes egy kicsit közelebbről is megvizsgálni módszerüket. A jelenleg elérhető szentimentelemző megoldások vagy valamilyen klasszifikációs (általában bayesiánus) megoldást használnak, vagy pedig szótárakat vetnek be. Mindkét irányzat figyelmen kívül hagyja a nyelvtani szerkezetet. A szótári módszernél manapság egyre gyakrabban vetik be az ún. shiftereket, azaz a módosítók (pl. negáció) figyelését is, de ez ritkán lép túl a pár soros szóláncokon. Továbbra is komoly gondot jelent a szentiment tárgyának azonosítása, az irónia és a metaforák kezelése. Úgy tűnik, ezen problémák megoldásához a nyelvtani szerkezet, sőt a szemantika vizsgálata is elengedhetetlen.   A stanfordi kutatók abból indulnak ki, hogy a nyelv kompozícionális, azaz egy kijelentés jelentése függ tagjainak jelentésétől és az összetétel módjától. Ezért megoldásuk a mondatok szerkezeti szinten történő szentimentelemzésére épít. A Rotten Tomatoes mozi kritikákat tartalmazó adatbázisát dolgozták fel annotátorok segítségével. Az egyes mondatokat a Stanford CoreNLP-vel parsolták (szintaktikailag elemezték) és a Mechanical Turk-ön toborzott felhasználók segítségével az elemzési fák egyes elemeihez szentimentértékeket rendeltek. Érdekes, hogy a mondatrészek hosszának növekedésével csökken a neutrális elemek száma, illetve a szélsőséges (nagyon pozitív, nagyon negatív) értékek aránya minden hossz esetében viszonylag alacsony. A szentimentértékekkel annotált treebank (azaz a szintaktikailag elemzett és szentimentinformációval is felcímkézett mondatok halmaza) tréningadatul szolgált több gépi tanulási algoritmusnak. Az ún. recursive neural tensor network (egy, a neurális hálókból származtatott eljárás) lett a legjobb ezek közül, ami az ötfokú szentimentelemzési feladatokban 80, a pozitív-negatív besorlás során 85.4 százalékos pontosságú eredményeket produkált.   Az eredmények tükrében úgy tűnik, a nyelvtechnológiába is megérkezett a deep learning! A magyar deep learner szentimentelemzők hivatalos dala pedig ez lesz:  


2014. augusztus 11. 7:33

Nyelvazonosítás

A nyelvazonosítás problémája elsőre nem tűnik nehéznek. Az ember egyszerűen felismeri hogy különböző nyelveket hall vagy éppen olvas, még akkor is, ha nem ismeri ezen nyelveket. De mi a helyzet a gépekkel? Mivel politikai blogokat elemző projektünk során felmerült a magyar tartalmak azonosításának problémája alaposabban megvizsgáltuk az elérhető eszközöket az R és Python nyelvekben is.   A fenti számban tökéletesen el tudjuk különíteni a francia és a bambara nyelvet, de hogy miért, azt már nagyon nehezen tudjuk megmagyarázni. A nyelvre - legnagyobb sajnálatunkra - jellemző, hogy tudása ösztönösen, magától jön, ezért a nyelvtechnológus sokszor inkább valamilyen gyors megoldást keres és nem a nyelvtudást modellezi. A nyelvazonosítás során is így járnak el a modern eszközök, melyek a TextCat program köpönyegéből bújtak ki.   A TextCat első között szakított azzal hogy bármilyen nyelvészeti információt próbáljon megtudni az elemzett szövegről. Ehelyett ún. n-gram karakter modellekkel dolgozott, azaz egy-egy nyelvből korpuszok segítségével előállították  az n hosszúságú karaktersorok eloszlását. A kapott nyelvmodellhez hasonlít a program minden inputot és megpróbálja megtalálni melyik eloszláshoz közelít.   textcat - a state-of-the-art algoritmus R-ben van implementálva A textcat (így csupa kisbetűvel) a jelenleg elérhető legjobb nyelvazonosító könyvtár. A hagyományos karakter alapú nyelvmodellek készítését gondolták újra megalkotói, illetve a korral haladva jelentősen megnövelték a modell nagyságát is, s evvel igen nagy hatékonyságot értek el. A textcat mögötti elméleti megfontolásokról a készítők tanulmányából lehet többet is megtudni, mi itt csak azt emeljük ki, hogy viszonylag nehéz "megfektetni" az eszközt. Miképp az alábbi ábra is mutatja, külön nyelvtudományi vita tárgya lehetne hogy a serb-horvát-bosnyák hármas keverése hibának tekinthető-e, vagy a skandináv nyelvekkel mit kezdjünk.  A szerzők hierarchikusan klaszterezték hogy a modellek összevetése során miképp alakulnak a tippek, ebben látható hogy a valenciai és a katalán pl. nagyon hamar kerül egymás mellé. A tudománytalan nyelvrokonítási kísérletek híveinek pedig ajánlom a magyar-breton és magyar-baszk rokonság megfontolását, karakter n-gramokra alapozva lehet mellette érvelni! langid.py - a pythonisták válasza a nyelvazonosításra  A langid.py alkotói a hagyományos megoldást választották, de nagy gondot fordítottak a tréningadatokra és arra, hogy sok nyelvet legyen képes felismerni eszközük. A kiértékelés során nagyon szép eredményeket ért el a langid.py Az, hogy 97 nyelvet képes felismerni, igazi, rögtön bevethető könyvtárrá teszi, amit minden pythonista tud használni, előzetes nyelvtechnológiai ismeretek nélkül is. Akit érdekel hogyan készült az eszköz, az mindenképpen olvassa el megalkotóinak tanulmányát!   Verdiktet nem mondunk. Mindkét eszköz nagyon jó - hogy ki melyiket használja, az ízlés és megszokás kérdése.


2014. augusztus 7. 8:00

Magyar politikai blogszféra - általános jellemzők

Előző posztunkban bemutattuk az adatok beszerzését és az egyszerűsített gráf főbb jellemzőit, ezért végre rátérhetünk a rendes, irányított gráfnak a bemutatására. A posztban a gráfok csomópontjait nem címkéztük, a felcímkézett gráfok nagyobb felbontásban megtalálhatók itt, az url-ek kódjait pedig ezen táblázat segítségével oldhatja fel a kedves olvasó. Az irányított gráfnak 1002 csomópontja van, ezek között 3190 link található. Mivel gráfunk irányított, az A-ból B-be és a B-ből A-ba mutató kapcsolatok között különbséget teszünk. Fontos kiemelni, hogy jelen esetben a linkelés az oldalon található főszövegben történő hivatkozást jelent. A legrövidebb utak átlagos hossza 3.609506, a gráf átmérője pedig 7. A gráf ki- és befokszámainak eloszlását az alábbi ábrák szemléltetik. Gráfunk nem összekapcsolt, azaz nem érhető el egy adott pontból bármelyik másik pont. Az alábbi ábrán is láthatjuk, akadnak elszigetelt részei a gráfnak. Az egyes csomópontok mérete itt a HITS algoritmus alapján számítottuk érték adja, ami tkp. azt jelenti hogy az élek mentén mennyire jelentős egy adott csomópont, milyen "továbbjutási lehetőségeket" biztosít. Látható, hogy ezek a hubok középen, nagyon sűrűen helyezkednek el, továbbá a gráf nagy része egy összefüggő egészet alkot, ez az "óriási összefüggő komponens", ami 997 csomópontot és 3188 élt foglal magában, legrövidebb utainak átlagos hossza 3.609511, átmérője pedig 7. A HITS algoritmussal súlyozott csomópontokat megjelenítő ábránk most így néz ki:   A forgalmas csomópontokat a magas be-fokszám jellemzi. Hasonló képet kapunk, ha a HITS továbbfejlesztett változatát a PageRank-et alkalmazzuk. Látható, hogy a gráf legtöbb elemét a HITS és/vagy a PageRank algoritmus alapján magasra értékelt csomópontok kötik össze, ezek az ún artikulációs pontok, melyeket ha eltávolítunk a gráfból, akkor egy nagyon elszigetelt világot kapunk, amiben alig vannak kapcsolatok (865 csomópont között csupán 76 él!). Az artikulációs pontok megkeresését többek között arra szokták használni, hogy egy hálózat gyenge pontjait megtalálják, mivel ezek kiiktatásával megszakítható a legtöbb csomópont között az összeköttetés. Esetünkben ezek a pontok azok a források, amikre sokan hivatkoznak, úgy tűnik ezek az oldalak tematizálják a közbeszédet és miképp az alábbi ábra mutatja, egy összefüggő, rendesen összekapcsolt hálózatot alkotnak.  Az artikulációs pontok száma csupán 132 és 784 kapcsolat található közöttük. A legrövidebb utak hosszának átlaga 2.686464, a gráf átmérője pedig 5. Az artikulációs pontok listája megtalálható itt.   Természetesen az artikulációs pontok jelentős része ún tipikus "linktemető", azaz olyan oldal, amire szeretünk hivatkozni, pl a Wikipedia, Google, főbb híroldalak. Ezek egy jelentős része inkább mint hivatkozási pont szolgál a politikai blogok esetében, kérdés viszont hogy a többi oldal mint artikulációs pont tényleg felel-e az információ áramlásáért, képes-e hatni a hálózatban megjelentő topikokra. Ennek megválaszolásához a tartalomelemzést fogjuk segítségül hívni!


2014. augusztus 3. 17:59

Magyar politikai blogszféra - adatok

Az utóbbi hetekben szorgosan készülünk a magyar politikai blogok elemzésére. Elkészült egy kis crawler, ami begyűjtötte nekünk az adatokat, majd rávetettük magunkat gráfokra és a rengeteg szövegre, tekintsük ezt tesztüzemnek, amiről be is számolunk kedves olvasóinknak. Az adatok begyűjtése Crawler-ünk Toby Segaran Programming Collective Intelligence c. könyvének negyedik fejezete alapján készült Pythonban. Mivel a kötet már hét éves és azóta történt egy-két dolog a Python nyelvvel és a használt SQLite adatbázissal is, kénytelenek voltunk leporolni egy kicsit a kódot, ill saját igényeinek megfelelően módosítottunk is rajta. Pl. nem egy egész oldalt szedünk le, hanem csak a tartalmilag releváns részt (vizsgálódásunk ebben tér el leginkább a "hagyományos" webes tanulmányoktól, minket ugyanis csak az érdekel mire hivatkoznak a bloggerek és a politikai témákban érintett egyéb szerzők, az egész oldalt nem vizsgáljuk) és elmentjük a linkek szövegkörnyezetét is (hogy később megvizsgáljuk milyen ezen hivatkozások polaritása, emóciója, stb). Egy ötven, magyar politikai blogot tartalmazó ún. seed lista alapján indult el crawlerünk és hármas mélységben gyűjtött be minden linkelt oldalt. A gyűjtés eredménye 10785 oldal, melyek között 155182 link található.   Az adtok előkészítése Az 10785 oldal egyedi url-t takar, ezeket top-level domain-re (tld) normalizálva az egyes doménekbe tartozó oldalak eloszlása azt mutatja, itt is érvényesül a webes topológiára jellemző hatványfüggvény eloszlás. A legtöbb oldalt tartalmazó tld-kről az alábbi ábra ad egy kis infót. Az eredeti gráfunkat nem irányítottként elemezve a legrövidebb utak átlagos hossza 8.024154, a gráf átmérője pedig 31. Természetesen a gráf nem összefüggő.   Mivel a tld nem túl informatív (a blog.hu takarja például a számunkra legérdekesebb blogokat), az ún. pay-level domain-re (pld) normalizáltuk az url-eket. (Pl. blogunk a http://keres.blog.hu tld-je a blog.hu, a pld-je pedig a kereses.blog.hu) Az alábbi grafikon mutatja mely pld-kről származik a legtöbb url. Az adatok begyűjtését és normalizálását Python-ban végeztük, majd az igraph által is olvasható gráf formátumra konvertáltuk azokat, hogy az általunk megszokott R környezet segítségével végezhessük elemzésünket. Az url-ek normalizálása után 1002 pld-ből és a közöttük lévő 1835 kapcsolatból álló gráfot kaptunk, ami nem összefüggő, a legrövidebb utak átlagos hossza 3.609506, átmérője pedig 7. A pld-k kódja megtalálható ebben a táblázatban.   A normalizált gráf főbb jellemzői Jelen posztban a gráfot mint egy nem-irányított gráf jellemezzük, azaz nem teszünk különbséget az A-ból B-be és vissza mutató linkek között.   Az egyes oldalak fokszáma alacsony, a legtöbb egy és tíz közöttivel rendelkezik. Logaritmikus skálán talán jobban érzékelhető hogy a legtöbb oldal fokszáma alacsony. A szomszédosság foka (azaz hogy hány másik oldalhoz kapcsolódik az adott oldal) és a fokszám log plotja is a szakirodalomban megszokott képet rajzolja ki. Topológia A nem-irányított gráffal elsődleges célunk csupán az egyes vizualizációs lehetőségek kipróbálása volt, de ez is egy kis betekintést enged az adatok mögötti struktúrába. Az egyes képek nagyobb, a csomópontokhoz tartozó kódokat is megjelenítő változatai itt találhatók (a kódokat pedig a fentebb említett táblázat segítségével tudja feloldani).   A HITS algoritmus segítségével a "legforgalmasabb" csomópontokat tudjuk azonosítani egy gráfban, azaz azokat, melyek olyan élek mentén fekszenek, amik sok más csomópont felé nyújtanak elérést (amúgy ez a módszer a PageRank elődje!)   A HITS-hez hasonló módszer az ún. edge betweenness segítségével próbáltuk meg klasszifikálni az egyes csomópontokat. Majd a walktrap módszerrel is tettünk egy próbát. Kérdések, tanulságok Habár a 10785 oldal soknak tűnik, sajnos nagyon kevés a magyar nyelvű tartalom rajtuk. Minden linket megvizsgálva azt találtuk, hogy csupán 3877 darab azonosítható úgy mint magyar. A linkek struktúrája azt mutatja, hogy nagyon hamar eljuthatunk külföldi oldalakhoz, ezért a crawler mélységét növelni nem célszerű (no meg arról nem is beszélve, hogy ezzel a linkek száma exponenciálisan nőne), marad tehát a seed lista bővítése.   Kapott gráfunkat már most is nagyon szeretjük, de a puszta deskriptív jellemzésénél többre vágyunk. Szeretnénk összekapcsolni a hálózatelemzést a tartalomelemzéssel. Eltér-e a nyelvezete a baloldali bloggernek a jobbosétól? Milyen témákkal/topikokkal foglalkoznak a blogok? Időben és térben hogyan jelennek meg az egyes topikok a blogokon? Nagy kérdések, könnyen lehet hogy megválaszolatlanok maradnak, de azon vagyunk hogy olvasóinknak beszámoljunk kalandozásainkról. Hamarosan foly.köv.!


2014. július 21. 15:26

25 év Tankcsapda dalainak topik eloszlása

Az ún topics over time módszer egy egyszerűsített változatával megnéztük hogyan alakul az lda-val kinyert topikok aránya a Tankcsapda elmúlt 25 évben megjelent stúdióalbumainak szövegeiben. Egy kis webes alkalmazásban elérhetővé is tettük eredményeinket itt. Az egyes topikok eloszlása a dokumentumok között elérhető ebben a táblázatban, a topikokhoz tartozó szavak pedig ebben. Az alkalmazás Eric Rochester Mastering Clojure Data Analysis c. könyvének harmadik fejezete alapján készült, a kód minimális változtatásával. A szövegeket a http://www.zeneszoveg.hu/ oldalról vettük.


2014. július 19. 16:30

A politikai blogszféra I.

Reméljük olvasóink elnézik nekünk hogy hanyagoltuk a posztolást mostanában. Van mentségünk! A magyar politikai blogokról kiindulva crawlerünk rengeteg oldalt gyűjtött be, mi pedig ezeket elkezdtük elemezgetni. Ebben a posztban csak ízelítőt adunk, az eredményekről hamarosan bővebben is beszámolunk.  A linkek struktúráját vizsgálva látszik, erre a világra is érvényes a csokornyakkendő elrendeződés. A wikipedia domainről gyűjtöttük be a legtöbb oldalt, mert oda mutat a legtöbb link - ellenben minden másra jóval kevesebb link mutat. A wikipedia után jön a blog.hu, az hvg és az index, majd a Facebook és a Youtube és pár hazai és külföldi online lap. A crawler által vizsgáld oldalak szövegeit begyűjtöttük, tuti ami fix már egy LDA elemzést is futtattunk rajtuk.   Sorozatunkban megpróbáljuk leírni a magyar politikai blogszféra topológiáját, megnézzük mennyire kapcsolódik össze a blogokról induló linkek struktúrája, milyen érzelmi viszonyulással linkelik egymást az oldalak  stb. Hamarosan folyt.köv.!


2014. július 7. 19:00

Összekuszált szavak, gráfok, no meg a Ludwig

Már régóta keresek egy kivonatoló/összegző megoldást és régi restanciám hogy találjak alternatív megoldásokat a kulcsszókinyeréshez is. Szerencsére eddig is meg tudtuk oldani ezen feladatokat, sikerült olyan nem-felügyelt eljárást találnom, ami egyrészt gyönyörű, másrészt van valamennyi nyelvészeti relevanciája is - de természetesen jelenlegi formájában még messze van az ipari bevetéstől. Ellenben egy keresőkkel foglalkozó cégnél nagyon cool, hogy a PageRank algoritmus egy változatáról beszélhetünk! Legózzunk!   Van a nyelv, annak meg vannak szavai. Felmerül a kérdés, ha valaki megtanulja egy nyelv szótárát, akkor tudja is x nyelvet? Naiv elképzelésnek tűnik, mégis van benne valami, Wittgenstein is Szent Ágostont idézi ezzel kapcsolatban, persze meg is jegyzi rögvest hogy ez nem a legjobb irány: 1."Ha a felnőttek valamilyen tárgyat megneveztek, és közben felé fordultak, úgy ezt én érzékeltem, és felfogtam,hogy a hangok, amelyeket kiejtettek, a tárgyat jelölik, minthogy rá akartak utalni." 5. Ha az 1.§-ban szereplő példát vesszük szemügyre, akkor talán sejthető lesz, hogyan burkolja a szójelentés általános fogalma a nyelv működését olyan ködfelhőbe, amely lehetetlenné teszi, hogy tisztán lássunk Wittgenstein ehelyett a szavakra úgy tekint, mint szerszámokra:   Gondolj a szerszámokra egy szerszámosládában: van benne kalapács, harapófogó, fűrész, csavarhúzó, mérőrúd, enyvesfazék, enyv, s vannak szögek és csavarok. - Amilyen különböző ezeknek a tárgyaknak a funkciója, olyan különböző a szavaké is. (És itt-ott vannak hasonlóságok.) Összezavar persze bennünket a szavak megjelenésének egyformasága, amikor kimondva vagy írásban, illetve nyomtatásban szembekerülünk velük. A használatuk ugyanis nem áll ilyen világosan előttünk. Különösen akkor nem, ha filozofálunk. (Wittgenstein: Filozófiai vizsgálódások, 11.§.)   Ha Ludwig ma írná a fenti sorokat, biztos vagyok benne hogy a Lego jutna eszébe! Vannak speciális lego-elemek, amikből keveset kell csak gyártani, vannak általánosan használt elemek, amiket gyakran használunk, de valahogy mind összeilleszthető. A szavakkal is így vagyunk kb.   Lego helyett gráfok! Fauconnier és Turner remek tanulmánya óta a nyelvészetben is lehet olyan szexi szavakat használni mint hálózatok, meg gráfok. A kognitív nyelvészek azért is szeretik ezeket, mert az agy működését is konnekcionista modellekkel szokás leírni, inófsoknak neurális hálók, hipstereknek deep learning néven lehet ez ismerős. Minket most ez csupán annyira érdekel, hogy a szavak más szavakkal járnak, ez pedig remek alkalom arra, hogy felrajzoljunk egy gráfot, melynek csomópontjai maguk a szavak, az élek pedig az egymást követő előfordulásokat reprezentálják (ezeket a gyakorisággal súlyozhatjuk).   A TextRank algoritmus a PageRank-hez hasonlóan arra épít, hogy bizonyos szavaknak nagyobb a "népszerűsége", több szóval fordulnak elő együtt és ez alapján rangsorolhatjuk őket. Így egy remek módszer kerül a kezünkbe, mely segítségével egy adott szöveghez kulcsszavakat rendelhetünk, de azt is megnézhetjük, mely mondatok tartalmazzák a leginkább centrális szavakat s ezen mondatok nagy valószínűséggel jól összefoglalják a szöveget. A hivatkozott tanulmány nagy szépen leírja az algoritmust és egy kis guglizással mindenki megtalálhatja implementálását kedvenc nyelvén (ha csak nem valami egzotikus nyelven szeret kódolni), ezért nézzük milyen eredményeket várhatunk a TextRank-től!   Amikor a TextRank nem olyan jó Kedvenc ismeretterjesztő oldalunkról, a nyest.hu-ról a Léghajóról a finnugorok című cikket vizsgáltuk. Ennek szógráfját Gephi-ben is megjelenítettük vizualizációt kedvelő olvasók miatt. Ezt kaptuk: Kulcsszavaink nem a legjobbak: jegyeinekSziktivkar Jakutszkbudapesti finnugormonstrumolimpiaiSzamojlovicsot SzamojlovicsinternetenPetrozavodszknyugalmazottlovagrend mamelukot Ahogy látszik, nem vetettünk be semmilyen nlp-trükköt, nincs szótövezés, normalizálás és egyéb bevett megoldás. Ennek oka naivitásunk; reménykedtünk hogy ezek nélkül is kaphatunk jó eredményt. A cikk összefoglalója már valamivel jobb, de nem az igazi.   Tallinn ‒ a Graf Zeppelin és a Niguliste kirik (Miklós-templom) (Forrás: www.netikka.net) A Graf Zeppelin Tallinn és Helsinki fölött Az LZ 127-es 1930 őszén körbejárta a Baltikumot és Skandináviát.A Graf Zeppelin építése Friedrichshafenban (Forrás: www.airships.net) 1928-ban készült el az LZ 127 jelű léghajó, a Graf Zeppelin .A Graf Zeppelin utaskabinjának alaprajza (Forrás: www.airships.net) A Graf Zeppelin Budapesten 1929 őszén az LZ 127-es a Balkánra indult.A Graf Zeppelin 1931 szeptemberében, északi felfedező útja során is átlebegett Tallinn és Helsinki egén.A Parlament fölött (Forrás: www.fortepan.hu) A Graf Zeppelin világkörüli útja 1929 augusztusában az amerikai Lakehurstből indulva az LZ 127-es körbelebegte a világot. Van remény! Az index.hu A láthatatlan sejk, akitől retteg a világ című írását a TextRank sokkal jobban elemzi. Kezdjük a szógráffal! A kulcsszavak már jobbak, de még nem az igaziak (nem fogjuk megúszni az nlp-magic bevetését...). mindenkinyugaton csoportokkalelfoglalt elfoglaltmuszlimokatmuszlimokmuszlimoknak harcosokatkeresztre amerikaiakegyiptomihadseregbeduinok Az összefoglaló is egész tűrhető: Az al-Kaida vezetője, az egyiptomi származású, eredetileg szemsebész Ajman al-Zavahiri azt várta volna al-Bagdaditól, hogy maradjon ki a szír konfliktusból, és csak Irakban tevékenykedjen, de Bagdadi dacolt állítólagos főnökével, így a szervezetét engedetlensége miatt végül ki is zárták az al-Kaidából februárban.Iszlám Gigaállam: az előző részek tartalmából Az Abu Bakr al-Bagdadi-vezette dzsihádista ISIS (Iraki és Levantei Iszlám Állam, újabban egyszerűen Iszlám Állam) önálló iszlám kalifátus létrehozását jelentette be Irak és Szíria területén, a szíriai Aleppo és az iraki Dijála kormányzóság közötti területen, ami egyébként kétszer akkora, mint Izrael.De még ha össze is omlana az iraki vezetés, esélytelen, hogy az ország síita többsége elfogadja, hogy egy dzsihádista állam kikiáltotta magát az ország északi részén.A kalifátus kikiáltásának egyértelmű az üzenete: al-Bagdadi Mohamed próféta utódjának és ezáltal az iszlám világ egyetemes vezetőjének tartja magát, akit minden muszlimnak kötelessége követni.Ajman al-Zavahiri Bagdadi nem csak kegyetlenségéről és radikalizmusáról ismert: nagyon jó szervezőnek és stratégának tartják, fiatalsága révén is imponál sok fiatal dzsihádistának, akik az óvatos és kevéssé karizmatikus al-Zavahirit túl öregnek tartják, és akár még kamaszok sem voltak a szeptember 11-ei merénylet idején.   Ez van! A TextRank mint nem-felügyelt módszer a kivonatolás során meglepően jól teljesít! Még akkor is elfogadható kivonatokat készít, ha nem vetjük be az nlp fegyvertárat. Ugyanakkor a kulcsszavazás során nagyon rossz eredményeket kaptunk, ezért már az első körben a TextRank paper-t követve szűrtünk főnevekre és melléknevekre - és még ekkor sem muzsikált szépen az eljárás. A a hatékonyságot nagyban növeli a szótövezés bevetése, de használhatósága így is korlátozott marad a kinyert kulcsszavaknak.   Érdekes, hogy a TextRank - a pár magyar példán bevetve - is azt mutatja, a szavak és a mondatok önmagukban csak dolgok, egymáshoz való viszonyaikban léteznek. Sajnos úgy viszonyulnak össze-vissza a különböző szintek, hogy csak nehezen tudjuk őket megérteni és algoritmikusan kezelni....


2014. július 2. 13:27

Good Math - logika, számításelmélet és matek érdekesen tálalva

Mik is azok a számok, mi az a Turing-gép, milyen problémákat tudunk számítógépek segítségével eldönteni? Megannyi nehéz kérdés, melyekre egy rövid könyvben találjuk meg a válaszokat. Mielőtt azt hinné valaki, hogy ez bizony nehéz olvasmány lesz, megnyugtatunk mindenkit; józan paraszti észnél több nem kell ahhoz, hogy ezen problémákon elgondolkodjunk a Good Math, A Geek's Guide to the Beauty of Numbers, Logic, and Computation segítségével. Akit szimplán csak érdekel a számítástudomány és a matematika kapcsolata, az nem fog csalódni! Mark Chu-Carrol Good Math, Bad Math blogjának olvasói azonban tudják, a szerző szereti kódokkal is megtámogatni mondandóját, s a kötetben sincs ez másképp. Nincs minden fejezetben kód, sőt, alig-alig akad benne ilyen, de ahol van, ott nagyon jól illeszkedik a tartalomhoz. Persze azok akik nem szeretnek, vagy nem tudnak programozni nyugodtan átugorhatják azt a néhány kódolós részt, nem veszítenek semmit. És ez a legjobb a kötetben! Egyrészt olvasható úgyis, mint egy ismeretterjesztő könyv. Másrészt egy amolyan útmutató a manapság divatos témák között, típuselmélet, lambda kalkulus, Turing-gépek, véges állapotú automaták és a bestiárium összes alakja felsorakozik benne, de egyáltalán nem rémisztő alakban. Az egyes fejezetek alig pár oldalasak, könnyen olvashatóak, azonban mint minden matek/technikai könyv esetében illik időt szánni a felvetett problémák megemésztésére.   A funkcionális nyelvek iránt érdeklődőknek ez a könyv kötelező darab, mindenki másnak pedig remek szórakozást jelenthet eltölteni vele pár órát. Egyedül a Kindle verzióval van problémám, ami nem barátja a matematikai képleteknek, kódrészleteknek és a nagyobb ábráknak. Ajánlott az elektronikus verziót közvetlenül a kiadótól megvásárolni, mivel nem kérnek külön pénzt a különböző formátumokért.


2014. július 2. 13:00

Sikeres előrejelzés a jobmonitor.hu keresési adataival

Egy korábbi posztban beszámoltunk róla, hogy a munkanélküliség jelenbecslésével kísérletezgetünk a jobmonitor.hu álláskereső oldal adataival kiegészített modellekkel. Ezúttal már "élesben" teszteltük a 2014. február-áprilisi időszakra, méghozzá nem kis sikerrel. A Központi Statisztikai Hivatal május 29-én közölte a 2014. február-áprilisi adatokat, mely szerint hazánkban a munkanélküliek száma tovább csökkent 360 500 főre. Ez mind az előző havi (369 700 fő), mind az előző évi adathoz (476 200 fő) képest csökkenést jelent. A legutóbbi poszt óta tovább finomítottuk a modelleket figyelembe véve, hogy az álláskereső tevékenység megelőzi a munkába állást. Többféle modellt kipróbáltunk, melyek közül kettő bizonyult statisztikailag szignifikánsnak a vizsgált időszak alatt. A két modell a munkanélküliség adott 3 hónapra eső számát közelíti egyrészt a munkanélküliek előző időszakban mért számával, másrészt az előző időszak utolsó, illetve az adott időszak első hetében történt jobmonitoros keresésekkel. A jobmonitor keresési adatokkal kiegészített modelleken kívül másféle módszereket is bevetettünk a munkanélküliek február-áprilisi átlagos számának előrejelzésére, melyek összehasonlítási alapul szolgáltak a jobmonitor modellek eredményességének ellenőrzéséhez. Az utóbbi időszakban a Holt-féle simítás tűnt az általunk kipróbált módszerek közül a legsikeresebbnek a jelenség közelítésében és előrejelzésében. Ez nem meglepő, hiszen 2013 januárjától a munkanélküliség szezonális mozgása megszűnt és folyamatosan csökkent a munkanélküliek száma. Azonban nem maradtak el sokkal a jobmonitor adatokkal kibővített modelljeink se, melyek a legutóbbi február-áprilisi időszakra még a Holt-féle simításnál is sikeresebb becslést adtak. Az előző időszak utolsó hetével becslő modell 1192 főt, az adott időszak első hetével becslő modell pedig csupán 831 főt tévedett. Ennél a többi módszer (Holt-féle simítás, egyszeres exponenciális simítás, megfelelő ARIMA modell, más beágyazott modellek) előrejelzései mind többel lőttek félre február-áprilisra. A becsléseket visszanézve (2013. augusztus - 2014. április) a jobmonitor modellek és a Holt-simítás nagyjából egyenlő hibával jelezték előre a munkanélküliek számát. Az átlagos abszolút eltérése mindegyiknek 7000 fő körül mozog, tehát körülbelül ennyivel tértek el átlagosan a tényleges értéktől ebben az időszakban, valamint az átlagos négyzetes eltérésük is nagyjából egyenlőnek bizonyult. A nagy kérdés azonban, hogy meddig csökkenhet még tovább a munkanélküliek száma. Ugyanis ha ez bekövetkezik, a Holt-féle simítás felmondja a szolgálatot és a jobmonitor.hu keresési adataival beágyazott modellektől megbízhatóbb előrejelzéseket várhatunk majd.


2014. június 29. 17:31

NLP matiné slideok

A héten zártuk a meetup szezont, szeptemberig most elvonulunk pihenni. Addig pedig itt vannak az NLP matiné slideok, tessék szépen átnézni ezeket, sok cégnél akad nyitott pozíció!!!!!   Gravity R&D Zrt.  Meltwater   Precognox   MTA-PPKE Magyar Nyelvtechnológiai Kutatócsoport    Neticle    Radoop (RapidMiner)  


2014. június 23. 8:00

Quixey - kereső a mobil-kornak

Lassan három éve, hogy beszámoltunk a Quixey appkeresőjéről, azóta a cég terméke szépen kiforrott és úgy tűnik új utakat keres magának a lelkes csapat. A Technology Reiew cikke szerint a cél immáron a mobilok uralta net kereshetővé tétele. Ja, hogy erre ott a Google? Nem feltétlenül! Van mit keresni még ezen a piacon!   Ma már mindenre van app, a Quixey pont egy olyan app ami a több között segít keresni. A mobil net apposodásának köszönhetően azonban az információ silósodik, egyedi alkalmazásokban tárolódnak el információk és amikor keresni akarunk, lehet hogy ezek egyvelege jelentené a megoldást. Mi van ha keresünk egy kellemes könyvesboltot, jó kávézóval a közelben? A GoogleMaps biztos tud ajánlani egyet (ha kellően nagy városban vagyunk), de milyen jó lenne tudni, hogy barátaink mit gondolnak az adott helyről! Böngésszük végig a Twitter-t és a Facebook-ot egyaránt érte? Elmentettünk egy cikket a helyi könyvesboltokról kedvenc lapunk appjában, ez rémlik, de azóta még ezer meg egy cikket megjelöltünk, hogyan hívjuk elő? Az appkeresésben szerzett tapasztalatára építve itt szeretne a Quixey belépni a képbe. Sajnos nem olyan egyszerű hozzáférni az appokban tárolt információkhoz, ezért a Quixey fejlesztői szeretnék, ha az appok írói ún. deep linkek segítségével elérhetővé tennék számukra ezeket. Ehhez innét kívánunk sok szerencsét, látva, hogy a szemantikus web fantasztikus ötlete 15 éve nem terjedt el, pedig az is csak pár kód beszúrását kéri a fejlesztőktől. A nehézségek ellenére annyi biztos, hogy remekül azonosítottak a fejlesztők egy problémát és mindenki (legalábbis a felhasználóknak biztosan) érdeke, hogy a web továbbra is kereshető maradjon - a mobilok korában pedig az apposodás ennek lehet akadálya, de akár támogatója is.


2014. június 18. 14:43

Rapháború II.

Miről beszélnek a rapháború hősei? Sorozatunk első részéből kiderült, a lexikai diverzitásnak a népszerűséghez nem sok köze van, az átlagosat szeretik a népek. Egy kis kitérőt tettünk nagy kedvencünk Mr. Busta munkásságának elemzésével a szövegek vizualizációja felé, amikor rájöttünk, valahogy a szövegek tartalmát fel kellene fedezni és eltöprengtünk azon, hogyan haladjon tovább projektünk. Valami ilyesmire jutottunk, részletek a videó után.   Vizsgálódásaink során arra jutottunk hogy három irányban érdemes nézelődni: mennyire tér el a hétköznapi nyelvtől (vagy éppen mennyire közelíti) egy előadó szövegvilága milyen emóciók jelennek meg a szövegekben milyen témák népszerűek Az első kérdést Har politikai beszédeket elemző vizsgálatai nyomán merült fel, melyek kimutatták, hogy a magas ún. commonality tone-t (átlagos, hétköznapi beszédstílus) használó politikusok üzenetei sikeresebben érnek célba. Mi is azt találtuk, hogy az átlagos entrópiájú szövegek népszerűek, ezért érdemes lenne megvizsgálni ezek mennyiben térnek el az átlagos nyelvhasználattól (vagy éppen követik azt).   Gyanítjuk, hogy a kedvelt számok általában vidám, bulizós témákkal foglalkoznak. Ezért egyrészt LDA módszerrel vizsgáljuk milyen topikokba tartoznak ezek. A vizsgálatok egy későbbi fázisában szeretnénk megvizsgálni milyen emóciók jelennek meg az egyes szövegekben.   Munkának megkönnyítendő R-ben készítettünk egy kis alkalmazás, ami segít felfedezni az egyes topikokat, erről készült a fenti videó. Pár perc alatt elkészítheti mindenki a maga kis alkalmazását a mallet és az LDAtools csomagokkal, érdemes kipróbálni mit tudnak!


2014. június 16. 8:00

swirl - interaktív környezet a statisztika és az R elsajátításához

A John Hopkins University Biostatistics Department kutatói és oktatói nagyon komolyan veszik hivatásukat. Ők indították a Simply Statistics blogot, majd a Coursera keretein belül indítottak R kurzusokat és mostanra egy egész "Specialization track" is elvégezhető a manapság divatos data science néven ezekből. De ez mind nem elég, megalkottak egy olyan csomagot is ami interaktív módon oktatja az R-t és a statisztikát. És igen, a swirl egy R-t oktató csomag az R nyelvhez. A swirl az ún. koan hagyományt követi. A koan eredetileg amolyan kérdezz-felelek a zen hagyományban, a programozóknál meg egy nyelv gyakorláson keresztüli elsajátításához létrehozott strukturált feladatok sorát jelenti. A swirl megalkotó a koanokat tovább is gondolták, hiszen nem mindenki úgy lép be a R és a statisztika világába, hogy már mindent tud a második naptól. Kis 10-20 perc alatt feldolgozható interaktív feladatokkal lehet dolgozni, melyek nem igényelnek különösebb előképzettséget. Ellenben nem árt, ha legalább annyira járatosak vagyunk a számítógépek világába, hogy az R nyelvet és a RStudio IDE-t telepíteni tudjuk gépünkre. Ha ez megvan, akkor indulhat a móka, amit az alábbi videó szemléltet.   Nem állítom, hogy valaki R programozó vagy éppen data scientist lesz a swirl feladatainak elvégzésétől. Annyi azonban biztos, hogy megtanulja használni és értékelni a read-eval-print loop nyújtotta előnyöket, nem fog félni a szkriptek megírásától és tudni fogja mi az az IDE . Nem rossz ez azért, ha figyelembe vesszük, a swirl egy open source projekt! Meg kell jegyezni, hogy a swirl csak egy éves a kezdeményezés, nem csodálkozunk azon hogy még nem teljesen kiforrottak a feladatok és témakörök. Szerencsére egyre többen készítenek swirl tananyagokat, ami nagyon fontos a projekt jövőjére nézve. A lényeg: nincs mentség, R-t és statisztikát tanulni ingyen is lehet!


2014. június 13. 9:07

Nine Algorithms That Changed the Future - közérthetően elmagyarázva

Mindennapjainkat a számítógépek között éljük; okostelefonon intézzük ügyeinket, laptopon dolgozunk, táblagéppel szórakozunk, ha veszünk egy sört, a pénztárgép rögtön küldi tovább az adatokat a NAV-nak. Teljesen természetesnek vesszük, hogy működnek a dolgok, sokan bele sem gondolnak abba, milyen elméleti és technológiai innováció szükségeltetik a modern hétköznapok működtetéséhez. John MacCormic könyve a legalapvetőbb és ránk legnagyobb hatást gyakorló algoritmusokat mutatja be, mégpedig közérthető formában.  Ideális nyári olvasmány mindenkinek! A kötet címe kicsit félrevezető, nem csak klasszikus értelemben vett algoritmusokról olvashatunk ugyanis a könyvben, főleg nem kilencről. Az internetes keresőkről - pontosabban ez a Google és a híres PageRank működése lenne - két fejezet is szól, a másodikban matching és ranking kérdéseit mutatja be a szerző, a harmadikban pedig a PageRank-et. A negyedik fejezet a publikus kulccsal történő titkosítás rejtelmeibe vezeti be az olvasót és megtudhatjuk miképp fizethetünk biztonságosan online. Az ötödik fejezet a hibajavító kódolást mutatja be, szubjektív véleményünk szerint ez sikerült a leggyengébbre. A hatodik fejezet a mintázatfelismerés, menőbb nevén a gépi tanulás, mégmenőbben a data science három legfontosabb algoritmusát mutatja be, a nearest neighbor, a döntési fák és a neurális hálók alapjait. A hetedik fejezet a tömörítés kérdésével foglalkozik és megtudhatjuk, hogy olyan helyeken is használják, ahol nem is gondoljuk, továbbá kiderül hogy a hatalmas online tárhelyet kínáló alkalmazások előszeretettel élnek ezen algoritmusokkal. A nyolcadik fejezet a modern relációs adatbázisokat mutatja be, az azt követő pedig a digitális aláírással foglalkozik.    A kötetből kilóg két fejezet. Az első tulajdonképpen egy felesleges magyarázkodás a cím miatt és a választott témák megindoklása. Az utolsó, tizedik fejezet kitekintés lenne az algoritmusok és a számítástudomány mélyebb összefüggéseire, de kicsit suta. Mindezek ellenére a könyvet csak ajánlani tudjuk minden érdeklődő laikusnak és szakiknak is!


2014. június 9. 15:36

Pepper, az érzelmes robot

A szentiment- és emócióelemzés sikere részben annak is köszönhető, hogy egyre inkább belátjuk, az ember nem csak egy racionális lény. A viselkedésökonómia talán a legnépszerűbb terület, ami szereti ezt kihangsúlyozni, de az affective computing irányzat szerint is kulcsfontosságú az ember-gép kommunikációban az érzelmek felismerése és megfelelő kezelése. A francia Aldebaran Robotics Pepper nevű robotja nem más, mint egy "társas robot", ami képes alkalmazkodni a vele interakcióba lépő emberek érzelmi állapotához - tehát nem porszívóz, főz, mos vagy takarít helyettük, csak társalog!   Pepper 1.2m magas és mindössze 28 kg. Képes gesztikulálni és szemkontaktust is tud tartani beszélgetőpartnerével! Hogy mire való igazából, az nem derül ki - elvileg öregeknek ajánlják magányosság ellen és üzletekbe információs segítőnek. Mivel a cég hamarosan megnyitja a platform API-ját a külső fejlesztők előtt is, várhatóan sok hasznos és teljesen agyatlan alkalmazás is meg fog jelenni rá.  Pepper 1900 USD árával a Lego Mindstorms vagy a Sony Aibo hobbi robotoknál drágább, de még éppen elérhető, s ezért megjelenése bizonyára segíteni fog a robotika elfogadásában. Azonban kérdéses, hogy tényleg kell-e nekünk egy robot ami csak társalogni képes...


2014. június 5. 8:00

A társalgás pszichológiája - pragmatika mindenkinek!

Bizonyára mindenki volt már mérges a számítógépére, mobiljára, mert az nem "értette meg" mit is akar a kedves tulajdonosa tőle. A lelke mélyén mindenki imád különböző felhasználói felületeket kritizálni és nevetni a beszédfelismerők és természetes nyelvi keresők hiányosságain. Legalább ennyire érdekes, hogy miért van az, hogy megértjük egymást bizonyos emberekkel, másokkal meg nem. Mivel az ember-gép kommunikáció során az emberek közötti kommunikáció során szerzett tapasztalatainkra támaszkodunk, nem árt ezt a területet jobban megismerni! Pléh Csaba A társalgás pszichológiája című könyve mindenki számára élvezetes bevezetést nyújt a kommunikáció világába és segít ezen kérdéseket egy kicsit jobban megérteni. Ahogy az alábbi videóban maga a mester is elmondja, a kötet mindenkinek ajánlható - és jelen esetben a marketinges szövegnek igaza is van! Maga könyv érdemi része úgy 370 oldal, ellenben kicsi, tehát jól hordozható. A stílusa valahol a tankönyvek és az ismeretterjesztők között van, sok ábrával és - ami szerintem a legjobb - sok ötlettel saját kutatási projektekhez. Habár az epilógusban oldalakon keresztül sorolja a szerző mi minden maradt ki a kötetből, témában nincs hiány! A nyelvfilozófiai kezdetektől az udvariasságon át a társalgás klinikumáig rengeteg izgalmas témával találkozhat az olvasó. Kifejezettem ajánlom azoknak, akik még soha nem foglalkoztak nyelvészettel, pragmatikával, pszichológiával, vagy éppen filozófiával, mivel mindenből pont annyi tartalmaz a könyv, ami segít megérteni és tovább is gondolni a felvetett problémákat. Az ember-gép kommunikáció iránt érdeklődőknek alap kell hogy legyen a mű, mivel a kommunikációt segít kontextusba helyezni és megérteni a felhasználók igényeit. A nyelvtechnológia szerelmeseinek inkább egy megoldásra váró problémahalmazt tartalmaz és a jelenlegi technológiák korlátaira hívja fel a figyelmüket olvasás közben. A lényeg, hogy itt a nyár és egy hosszú hétvégére a legjobb program A társalgás pszichológiájának elolvasása!


2014. június 4. 8:00

NLP matiné - mutasd meg magad!

Június 25-én zárjuk az évadot az NLP matinével. A szokásos meetupoktól eltérően most nem egy-egy érdekes projektet mutatnak be az előadók, hanem cégek és intézmények mutatkoznak be öt percben a nagyérdeműnek. Továbbra is várjuk a jelentkezőket a zoltan.varju(kukac)precognox.com címre! A rendezvény ingyenes! Arra kérünk mindenkit, részvételi szándékát jelezze az esemény oldalán. A program szervezés alatt, eddig a következő előadók jelezték részvételüket: Radoop Meltwater Precognox MTA-PPKE Magyar Nyelvtechnológiai Kutatócsoport   


2014. június 3. 8:00

A Bletchley Park titkos élete - minden geek kötelező nyári olvasmánya

Alan Turing ma már nem csak a számítástudomány, de az adattudomány atyja is egyben, hiszen az első fizikai formában is megvalósult számítógépek a német Engima kódok feltörésére lettek megalkotva. Turingon kívül természetesen még sok ezer ember dolgozott a rejtjelek megfejtésén, Sinclair McKay könyve, A Bletchley Park titkos élete, minden technikai részletet mellőzve mutatja be Bletchley Park, a kódfejtők központjának történetét és mindennapjait.  Mindenki ámuldozik a Google, vagy hogy hazai példát mondjunk a Prezi laza hangulatú irodáin. A kötetből azonban kiderül, hogy ha összeeresztünk több ezer okos embert, adunk nekik egy komoly feladatot (a szabad világ megmentése egész nagy dolognak hangzik), akkor nem tehetünk mást, mint hagyjuk őket dolgozni. Nagyon úgy tűnik, hogy Bletchley Parkban fittyet hánytak a katonai szabályzatokra, de mégis a work hard, play hard elvet érvényesítették. A veteránok mind úgy emlékeznek vissza a háborús évekre, mint ha a legjobb magániskolába kerültek volna, ahol komoly tudósokkal dolgoztak le egy műszakot, majd belevetették magukat a különféle klubok életébe (tánc, kórus, zenekar, stb). Persze a kemény munka mellett volt intrika, szerelem és a politika is beleszólt az életükbe.   McKay nagyon élvezetes stílusban mutatja be a park történetét és állít emléket az ott dolgozóknak. Persze senki ne várjon mély magyarázatokat! A kötet nem megy bele technikai részletekbe és a háborús eseményekkel is csak annyira foglalkozik, amennyire azok befolyásolták a park életét. Szóval igazi könnyed ismeretterjesztésre készüljön fel, aki elolvassa a könyvet! Nyárra a legjobb választás minden geek számára!


2014. május 29. 13:24

NLP meetup slideok

A tegnapi meetup előadásainak diát közkívánatra közöljük. Nagyon köszönjük mindenkinek a részvételt! Igazi hősök vagytok, hogy kibírtatok másfél órát a pici tárgyalóban amit kaptunk! Balogh Kitti (Precognox): A munkanélküliség jelenbecslése Kovács-Ördög Zita (Clementine Consulting): Digitális testbeszéd Petykó Márton (MTA NyI - ELTE): Milyenek a trollok


2014. május 27. 15:57

Mutatjuk a fukkot!

Mr. Busta művészete Petra grannatikon megjelent írásának köszönhetően vált ismerté számomra. A 444 Rapháború sorozata óta tudom, a nagyszerű művész egyben jeles ember is, akit nem könnyű megérteni. Mivel életműve fiatal kora ellenére már most hatalmas, kiválasztottam az előadó Mindenre kész vagyok című albumát, s ezek szövegeit elemeztem.   Habár nagyon nem szeretem a szófelhőket, nem tudtam kihagyni hogy készítsek egyet a szövegekből. Ezen látszik milyen szavakat szeret használni Mr. Busta, ami önmagában sokat elárul mondandójáról.  Láthatjuk, a művész szabadon szárnyal, ki mer mondani olyan szavakat, melyeket mások még egyedül is csak félve ejtenek ki a szájukon. De tudjuk, ez nem lehet öncélú káromkodás! Identifying the Pathways for Meaning Circulation using Text Network Analysis c. tanulmányban leírnak egy érdekes módszer, hogy azonosítsunk egymáshoz kapcsolódó szavakat. Dióhéjban; négy szónyi távolságon belül megszámoljuk a közös előfordulások gyakoriságát, majd erre alapozva készítünk egy gráfot és mehet az egész a Gephi-be, ami ilyen szép gráfot adott nekem: Az ábrán minél nagyobb egy szó, annál több szóval van kapcsolatban. Itt most mellőzném a szitokszavakat, vagy a "tud" és a "lát" központi helyét. Figyeljünk inkább arra, mennyire romantikus a szerző, hiszen a női testrészek a "lélek" és a "szép" gyönyörű hálózatot alkotnak a gráf felső részének közepén. Köszönhető ez részben olyan csodás számoknak, mint a Csajozós 1, 2, 3, 4, 5 és 6.   De rugaszkodjunk el a szómágiától. Az LDA segítségével nézzük milyen topikok foglalkoztatják Mr. Busta alkotó energiáit. Öt topikba soroltuk az album számait, ezek közül csak kettőt mutatunk be, mivel blogunk nem korhatáros. A hármas topik a "zűrös fiúk és a rap" cimkével irható le leginkább:       words    weights 1    csibész 0.04914550 2        lát 0.03586652 3  gengszter 0.02789913 4      igazi 0.01860385 5     szeret 0.01594805 6      ember 0.01329226 7       róla 0.01329226 8      kutya 0.01329226 9       mond 0.01329226 10    gyerek 0.01196436   A négyes számú topik láthatóan a zenélés és a pénz kapcsolatáról szól:    words    weights 1    pénz 0.03494886 2     jön 0.02892527 3     idő 0.02290168 4     fog 0.02169697 5  hogyha 0.02049225 6     ért 0.02049225 7   minek 0.01928753 8     rap 0.01808281 9    rapp 0.01687809 10   szem 0.01567338 A többi topik top 10 szava, a topikok eloszlása az egyes topikok között és a dokumentum id-k feloldása megtalálható ebben a Google doksiban (szigorúan csak 18 éven felülieknek!). Van ezekben rendszer! Ha a hierarchikus klaszterezés bevetjük, látszik is rögtön!   Látható, Mr. Busta az automatikus tartalomelemzés próbáját is kiállja, maradunk hű rajongói továbbra is!!!


2014. május 24. 17:05

Elindult az r-projekt.hu

Végre van már oldala a magyar R közösségnek is! Az r-projekt.hu oldalon mindent megtalálhatnak a magyar felhasználók. A Q&A oldalt tartom a legfontosabbnak, hiszen egy kezdőnek (de sokszor profiknak is) jelentős könnyebbség, ha anyanyelvén beszélheti meg problémáit a többiekkel. Emellett sok segédanyag található az oldalon és magyar nyelven írott R-rel kapcsolatos írások is gyűjtik a szerkesztők. Természetesen az r-projekt.hu mögött is az Easysats, a Rapporter fejlesztői és a hazai R meetup, a BURN szervezői állnak - köszönjük srácok hogy ennyi mindent megtesztek a hazai R közösségért!!!


2014. május 23. 19:13

Rapháború I.

“Minket egy ami vezérel, hogy egyező hévvel legyünk egy a nyelvészettel, nem számít ki mit érvel." De miért éppen a magyar rap? Gyakornokaink a kibontakozó nagy magyar rapháborút igyekeznek eldönteni!   A zeneszövegek alapvetően az írott szöveg kategóriába sorolhatóak, akár a versek vagy az újságcikkek. A rapzenét az teszi különlegessé (egy nyelvész számára legalábbis), hogy rendelkezik élőbeszédbeli sajátosságokkal és sokkal spontánabb tud lenni. Az első feladat a korpuszépítés volt, ami a zeneszoveg.hu oldalról történt. Tizennégy előadó (A.K.E.Z.D.E.T.P.H.I.A.I., Animal Cannibals, Anonim Mc, Beerseewalk, Belga, Dopeman, Essem, Fankadeli, Fluor, Halott Pénz, Hősök, Mr. Busta, Punnany Massif, Wanted Razo) tíz-tíz darab dalszövegét vizsgáltuk. A négy fő mutató a lexikai diverzitás, az entrópia, a youtube nézettség és az előadó facebookos rajongói oldalának száma volt. Eközött a két-két dolog között szerettünk volna kapcsolatot találni a kutatás során. Ezen felül szerettünk volna találni egy olyan tényezőt, aminek segítségével megjósolható az adott dal népszerűsége.A lexikai diverzitás egy mérőszám, ami az adott szöveg választékosságát jellemzi, azaz a kutya lehet eb, blöki és házőrző megnevezésű is. Annál szofisztikáltabb a szöveg, minél nagyobb ez a mérőszám 1 és 0 között. Támpontot jelenthet a megértésben a szépirodalom és az online cikkek is, így a rapszövegek mellé József Attila 10 versét is leelemeztük és 0.54-es, az index.hu-s cikkek elemzése pedig 0.46-os eredményt adott.   Feltételezésünk az volt, hogy a választékosság több embert vonz, de ez a sejtésünk nem igazolódott be. Fluor tartja toronymagasan a nézettségi rekordokat a csoportban, ettől függetlenül a középmezőnyben helyezkedik el a lexikai diverzitás versenyében. Ugyanilyen szakadék húzódik ellenben az A.K.K.E.Z.D.E.T.P.H.I.A.I. és Belga illetve az összes többi versenyző között. Nem is volt várható más, hiszen Závada Péter (Újonc) és Süveg Márk (Saiid) szövegei teljesen megállnák a helyüket versként is, mindenféle zenei aláfestés nélkül. A Belga igen sajátos szövegei pedig egyszerűen abszurdak és néha kevés kohéziót mutatnak (pl.: “puputeve hozzád képest reggeli/ szólj anyádnak, a csigavért köpjed ki"), ettől függetlenül lexikailag kifinomultak a dalszövegeik.   Az entrópia egy rendszer rendezetlenségi fokát jellemzi, ezt szintén össze lehet vetni a lexikai diverzitással, az eredmények a következőek lettek:    A lexikai diverzitás tengelyén nem lett változás, viszont jól látszik hogy a most is élvonalban lévő előadók mögé felzárkózott az Animal Cannibals is. A szavak gyakoriságát szófelhők segítségével szemléltetjük, az adatok itt érhetőek el. Természetesen az elemzés előtt stopszavakat gyűjtöttünk, ilyen volt az igen gyakran előforduló ha, de a hogy, úgy és a miért is ezek közé tartozott. A stopszavak nem releváns adatok, így azok nyugodtan kiszűrhetőek voltak az elemzésből.     A kapott adatok ebben az elemzésben nem mutattak kapcsolatot a megjósolhatósággal, így nem lehet kijelenteni, hogy a rapszövegek szofisztikáltsága az, ami mérvadó a közönségnél. Tehát sem a facebook oldal kedveléseinek száma, sem a youtube-os nézettség nem jósolható meg előre a szövegek minőségét tekintve. Így további elemzésekre lesz szükség, mind nyelvi, mind szociológiai szempontból. A projektben közreműködött Balogh Kitti, Szabó Martina és Papp Petra Anna. Adatok (Google Spreadsheet) Facebook oldalunkon vizsgált előadók dalaiból készitett szófelhőket és pár érdekes grafikont is találhatsz. // Post by Kereső Világ.    


2014. május 21. 8:00

A karakterkódolás problematikája és a Unicode

Karakterkódolási rendszer az az informatikában amikor a számok, betűk és más hasonló adatok megjelenítése, aminek az alapja az, hogy minden karakterhez egy-egy egyedi szám van hozzárendelve. Hasonlóan a Morzekódhoz, ahol a távbillenytű hosszú vagy rövid lenyomásának kombinációi határoztak meg egy karaktert. Ez a fajta kódrendszer a latin ábécé betűit és az arab számokat tartalmazta. Az 1963-as fejlesztésű ASCII 7 bites rendszerrel rendelkezett, ám ezek egy idő után beteltek és nem tudtak az új szimbólumokhoz egyedi számsorozatot rendelni, ez pedig szükséges lett volna a Kelet Ázsiai nyelvek írásszimbólumainak implementálásához. Tehát jól látszik, hogy egy-egy ilyen kódrendszer hibája lehet az, hogy a sokféle szimbólumoknak (például: cirill, héber, kínai, japán, koreai írásjelek) csak egy csoportját képes reprezentálni. Ehhez közel álló probléma a latin ábécé betűivel író, de írásban az 'ss' hangjának leírásához használatos ligatúrát, a scharfes s-t (ß) használó német nyelv esete, ahol ezt a szimbólumot csak a Unicode nevű karakterkódolás tudja kezelni.     Néhány kínai és indiai nyelv írásbeli sajátosságai szintén problémát jelentenek a karakterkódolással foglalkozó informatikusok számára. Jelölhet hangsúlyt vagy magasabb illetve mélyebb hangon való kiejtést is, egy adott betű mellékjele. De hasonló problémát jelent a csak konszonánsokat (mássalhangzókat) író arab és héber nyelvek is, ahol magánhangzókat, ezzel együtt az adott szó jelentését is, a kontextus határozza meg, így egy szimbólumsornak akár egymástól eltérő jelentései és kiejtései is lehetnek más-más kontextusokban, amit jelölhetnek mellékjelekkel is akár. Mellékjelből pedig millió fajta lehetséges, ráadásul a karaktereket a mellékjeleikkel együtt teljesen felesleges új számsorral ellátni. A következő problémát a szótagíró nyelvek jelentik, ahol szintén a mellékjelezés az, ami döntő lehet a jelentéssel kapcsolatban, ráadásul ezek a mellékjelek bárhol megjelenhetnek az alapkarakter körül. Az igazi nehézséget mégis a kínai jelenti, hiszen egy karakterben egyszerre reprezentálódik a jelentése és a kiejtése is. A koreai írás pedig egyszerre ötvözi a betű és szótagírást is, azaz egyfajta hibrid az írásfajták közül.  Unicode, a szabványosítás Visszatérve az ASCII-hez, ezeket a sokrétű szimbólumrendszereket már nem tudta befogdani. Ezek után több fajta karakterkódolást is írtak, de ezek is csak egy-egy rendszert tudtak reprezentálni. Az ISO-8859-7 a görög betűkhöz, az ISO-8859-8 pedig a héberhez volt megfelelő. Ezek hátránya az volt, hogy sokszor használtak ugyanahoz a karakterhez több számsort vagy éppen fordítva. A Unicode ezt a problémát küszöbölte ki. Közel 109 ezer karaktert képes reprezentálni, azaz egy nemzetközi szabványt állított fel az egységes karakterkódolással. A szabvány 16 biten tárolt síkokra osztja ezt a közel 109 ezer karaktert, így a legtöbbet használt karaktereink már az első 64 ezres síkban megtalálhatóak, akkora kapacitással rendelkezik.  


2014. május 16. 8:54

Negatív a média?

Korábban már foglalkoztunk azzal, hogy miért nem kérdez pozitívan a média, de most Hírelemző alkalmazásunk segítségével elkezdtük vizsgálni, hogy főbb híroldalakon megjelenő cikkek szentimentje milyen. Arra jutottunk, hogy a hírek esetében is áll, hogy jelentős részük semleges!   Alkalmazásunk 2014 januárja óta gyűjti a cikkeket. A OpinHuBank felhasználásával készített bayesiánus klasszifikációt alkalmazó szentimentelemző minden cikk minden mondatát elemzi, majd a kapott értékek összegét rendeli az egyes írások mellé. Jelenleg az adatokat az alábbiak jellemzik. Ha az összes adatot vizsgáljuk, akkor az alábbi képet kapjuk. Látható, vannak extrémen negatív és pozitív cikkek is, de a többségük a nulla körüli értéket veszi fel. Ha kizárjuk az extremitásokat (amik nagyon kis részét képviselik az adatoknak), akkor sokkal jobban kirajzolódik a trend. Látható, hogy egy kicsit több cikk vesz fel -5 és 0 közötti értéket, mint 0 és +5 közöttit, de a különbség nem eget verő. A sajtó elvileg objektivitásra törekszik, de egyben kritikus is szeretne lenni, ezért az enyhe negativitás természetes.


2014. május 14. 8:00

Az adattudomány sötét titka

Hilary Mason a bitly kutatója az egyik legismertebb data scientist manapság. Rövid előadásában felhívja a figyelmet arra, hogy a manapság nagyon divatos adattudomány nem a semmiből nőtt ki, olyan egzotikus helyeken űzik már évtizedek óta mint az asztrofizika és a pénzügyi modellezés. Chris Anderson víziójával ellentétben Mason úgy gondolja, hogy az adattudomány lényege hogy értelmezzük is mit művelünk, az adatok nem beszélnek magukért. Érdemes 13 percet rászánni az előadásra! Egyrészt kb helyre teszi a data science, big data fogalmakat, másrészt az eszköz fetisizmusra is hat egy kicsit.  


2014. május 12. 8:00

NLP meetup május 28-án: Viselkedünk a neten

Nem kell sokat aludni következő meetupunkig! Május 28-án 18:00-tól várjuk az érdeklődőket a budai Colabs-ben! Meg tudhatjuk mit mond a kognitív nyelvészet az internetes trollokról, hogyan segítenek a Jobmonitor keresési adatai a munkanélküliség előrejelzésében és milyen a digitális testbeszéd. A rendezvény továbbra is ingyenes, de kérünk mindenkit, jelezze részvételi szándékát az esemény oldalán.  Az alábbi előadásokkal várunk mindenkit: Petykó Márton (MTA NYI): Milyenek a trollok? (bővebben l. Márton Az internetes troll mint identitás kialakítása politikai blogok diskurzusaiban c. tanulmányát) Balogh Kitti (Precognox): A munkanélküliség előrejelzése a jobmonitor keresési adataival (bővebben l. korábbi Kereső Világ írásunkat) Clementine Consulting: A digitális testbeszéd (bővebben a Clementine oldalán)


2014. május 7. 8:00

NLP matiné júniusban

Júniusban ismét NLP matinét tartunk! Két évvel ezelőtt volt ilyen, ideje hát megismételni! Várjuk cégek, intézmények, kutatóhelyek és érdekes projektek jelentkezését a zoltan.varju(kukac)precognox.com email címre! Az időpont június 25. A rendezvény továbbra is ingyenes, de arra kérünk mindenkit, regisztráljon az esemény oldalán. Szeretnénk alkalmat biztosítani arra, hogy a hazai kutatóhelyek, oktatási intézmények és az ipar szereplői kötetlen formában megismerhessék egymást. De ha akad egy érdekes projekted, azt is nyugodtan bemutathatod. Mindenki szigorúan öt percet kap arra, hogy elmondja mivel foglalkozik, milyen együttműködési lehetőségek érdeklik, keres-e új munkatársakat stb. Ez az az esemény, ahová nyugodtan hozhattok magatokkal egy raklapnyi marketing anyagot, névjegyet, stb.!!!!! 


2014. május 6. 8:00

Bízzunk a gépekben?

Életünk egyre több területén döntenek a gépek. Algoritmusok, gépi tanulási módszerek hoznak gyors döntéseket, melyek kihatnak életünkre. Kapunk-e hitelt, mennyit biztosítási díjat fizetünk, van-e kóros elváltozás egy szövetmintában, milyen filmeket ajánl nekünk kedvenc on-demand szolgáltatónk? Lassan megemésztjük, hogy a statisztikai módszer nem jár százszázalékos eredménnyel, de legalább amit csinál egy gép, azt csinálja akkor jól és konzisztensen. A gépek hatással vannak ránk, jó lenne tudni bízhatunk-e bennük... Az ún. négyszín-tétel a Wikipedia szerint "azt állítja, hogy egy tetszőleges régiókra osztott síkot, akár egy politikai térképet egy ország megyéiről, ki lehet úgy színezni legfeljebb négy szín felhasználásával, hogy ne legyen két azonos színű szomszédos régió." Amennyire egyszerűnek tűnik a kérdés, annyira nehéz volt bizonyítani! Appel és Haken bizonyítása alaposan felkavarta az elméleti matematika világát, mivel számítógépek végezték a munka jelentős részét. Sőt a bizonyítás korrektségének ellenőrzéséhez is számítógépe szükségeltetik, amiért a matematika filozófiájával foglalkozók közül sokan nem is tekintik igazán bizonyítottnak a tételt, mások szerint ezzel a lépéssel a matematika elmozdult a természettudományok irányába (l. bővebben Tymoczko remek tanulmányát).A lényeg, hogy a bizonyítás majdnem 1500 konfigurációt vizsgál meg, hogy induktív módon "megmutassa" minden esetben elegendő a négy szín a trékép színezéséhez. A gépi tanulás során általában az adatok alapján az algoritmus létrehoz egy absztrakciót, mely segítségével generalizálhat más, még nem látott esetekre. Ahogyan a négyszín-tétel bizonyítása sem fogható fel emberi ésszel, a gépi tanulás lépései is követhetetlenek egy ember számára. Egyik esetben sem arról van szó, hogy nem érthetőek! Formálisan definiált lépésekről van szó, a dolog "logikáját" értjük, csak nem tudjuk mi magunk elvégezni a szükséges lépéseket (különösen nem nagy számban, egymás után, gyorsan). Ahhoz, hogy meggyőződjünk arról, hogy ezen algoritmusok jól működnek, egyrészt formális bizonyítások szükségeltetnek (általában gépi úton végzik ezt is), illetve alaposan tesztelni kell a rendszereket. A tesztelés tkp. a tudományos módszer alkalmazása a fejlesztésben. Karl Popper tette népszerűvé a falszifikáció fogalmát, ami annyit tesz, hogy egy rendes elmélet megadja cáfolhatóságának kritériumait. Egy rendes fejlesztés során nem csak arra ügyelnek, hogy mit kell tudnia egy szoftvernek, meg kell próbálni megcáfolni a működését is. A gépekben is csak annyira bízhatunk, mint a tudományban! Azonban manapság a tudománynál nincs jobban működő, transzparens, saját hibáinak kijavítását szem előtt tartó dolog a világon! A gépek hibázni fognak, kételkedni kell bennünk, ellenben tanulnak hibáikból és fejlődnek!


2014. május 5. 8:00

Nincs rossz reklám...

... csak beszéljenek rólad. Hihetetlennek hangzik, de talán van benne valami. A több csirip, több szavaz elv sokakat megdöbbentett és próbáltak magyarázatot találni arra, hogy amikor működik, akkor miért is működik. Az eddigi legjobb ötlet a pollyanna hipotézis volt, miszerint a pozitív érzelmi töltetű szavak gyakorisága magasabb, ezért a magasabb említésgyakorisággal együtt kell hogy járjon a pozitív polaritás is. A Neticle a választások előtt vizsgálta a magyar webet és meglepő eredményre jutott: a több csirip elv nagyon jól működik, de nincs mögötte a pollyanna jelenség! Ahogy a fenti ábrán is látható, az említésgyakoriság sokkal jobban közelíti a tényleges választási eredményeket. Persze a pozitív említések aránya se kutya, de nézzük a következő ábrát! Ez az ábra a közvéleménykutatók és a Neticle említésgyakoriságon ill. pozitív említéseken alapuló eredményeinek a tényleges választási arányoktól való eltérését mutatja. Látható, hogy a puszta említésgyakoriság közelíti a legjobban  a valós számokat, a pozitív említések ellenben rosszul muzsikáltak!   Látható, maga a more tweets, more votes elv a magyar adatok tükrében megerősítést nyert. Az is igaz, hogy a legmagasabb említést elérő polaritása a leginkább pozitívabb, ellenben a szentiment megoszlása eltér az említésekétől (l. a Kormányváltás és a Jobbik adatait!). A legkézenfekvőbb magyarázat az ún. puszta kitettség (mere exposure) effektus lehet, azaz a magasabb említésgyakoriság ismertebbé, s ezáltal pozitívabbá teszi a szereplőket, de csak bizonyos említésszám felett. Persze ez csak spekuláció a részünkről, kommentben nyugodtan lehet tippeket adni a jelenség magyarázatára!   (Köszönjük Szekeres Péternek, a Neticle vezető kutatójának az ábrákat!)


2014. május 3. 18:40

Nyelvészet mindenkinek 2

Emily M. Bender könyvét bemutató posztunk kapcsán sokan panaszkodtak, hogy a kötet nem éppen könnyen hozzáférhető az átlag magyar közönség számára. Nem kell elkeseredni, van olyan magyar könyv is a piacon, ami minden jobb könyvtárban megtalálható és még a nyelvészet alapjait is megismerheti belőle a kedves olvasó! Szilágy N. Sándor Világunk, a nyelv c. könyvét ajánljuk Bender könyve helyett/mellett mindenkinek! A kötet józan paraszti észnél nem igényel többet. Alapvetően nem tesz mást, mint szépen végigvezeti az olvasót a hagyományos nyelvészeti témákon (de nem a bevett sorrendben, a hangtantó a jelentéstanig, hanem egy kicsit kalandozva). Nem törekszik olyan formalizmusra mint Bender, de ez inkább előnye, mint hátránya. Mivel rövid és olvasmányos, hamar el is lehet olvasni és ha mást nem, annyit mindenképpen tanul az ember belőle hogy a nyelv csodálatos dolog és bizony nem egyszerű megfejteni. Ezzel nem árt tisztában lenni a nyelvtechnológiában is! A szemlélet sokat segíthet a további szakirodalom befogadásában és a felmerülő problémák értelmezése során is - ami pár óra olvasgatást igazán megér. Hajrá!


Az összes hír