Beállítás kezdőlapnak! Hozzáadás a kedvencekhez! Az összes hírt látni akarom!  
Nyitóoldal Autó-motor Blogok Bulvár Életmód, egészség Gazdaság Kultúra, művészet Női témák Politika, közélet Sport Technológia Tudomány Videó
 

Kereső Világ

2014. szeptember 23. 9:24

Shrine of Jura: The best friend of our developers

precognox készítette ezt a képet.


2014. szeptember 23. 8:44

The team learns about lazy loading in todays fast workshop

precognox készítette ezt a képet.


2014. szeptember 22. 8:00

MOOC ajánló: Corpus Linguistics: Method, Analysis, Interpretation

Már csak hét nap és indul a Future Learn Corpus Linguistics: Method, Analysis, Interpretation kurzusa! Az ajánló szerint elvégzéséhez nem kell más mint "an interest in the study of language, there are no requirements to join this course" - ezért bátran ajánlhatjuk mindenkinek, akit érdekel a nyelv statisztikai leírása. Nem mellesleg McEnry-től, a szakma legjobbjától sajátíthatjuk el az alapokat!!!!   A tematika alapján kb. fele-fele arányban lesz klasszikus korpusznyelvészet (technikai és metodológiai alapok) és alkalmazott korpusznyelvészet (a diskurzuselemzés és az igazságügyi nyelvészet kifejezetten izgalmasnak ígérkezik). Week 1: An Introduction to Corpus LinguisticsWeek 2: A Look at Language - Some Key Methods in Corpus LinguisticsWeek 3: Compare and Contrast - Corpus-Based Discourse AnalysisWeek 4: Build a CorpusWeek 5: Looking at Social Issues Through Corpora: Forensic LinguisticsWeek 6: Textbook and Dictionary ConstructionWeek 7: Language Learning and Corpus LinguisticsWeek 8: Speech - a Swearing Extravaganza Az előadó neve garancia arra, hogy naprakész tananyaggal találkozhatunk a kurzus során. McEnry a legjobb tankönyvek szerzője (vagy társszerzője) a területen, személyes kedvencemet tőle máshol már ajánlottam is.   Habár a programozás manapság elválaszthatatlan a korpusznyelvészettől, sajnos a kurzus nem vállalkozik arra, hogy foglalkozzon ezzel a témával is. Ez nem feltétlenül baj, hiszen két terület összekapcsolása lehet csak nehezítené az anyag megértését. Remélem sokan fognak kedvet kapni a nyelvi adatok felfedezéséhez a kurzus elvégzése után, nekik nem marad más választásuk; meg kell tanulniuk programozni! A kurzus után, vagy ha már tisztában van valaki a nyelvészeti alapokkal akár helyett, a további lépésekben a Satistics and R for Linguists - a reading list nyújthat segítséget.


2014. szeptember 19. 14:25

Október 16: e-Kormányzat Műhelykonferencia és Budapest Open Knowledge Meetup

A W3C Magyar Iroda e-Kormányzat témában műhelykonferenciát rendez 2014. október 16-án, 14.00-től az MTA SZTAKI-ban (1111 Budapest, Kende u. 13-17.). További részletek itt. A részvétel ingyenes, de regisztrációhoz kötött! A konferencia után Budapest Open Kowledge Meetup-ot tartunk, amire pedig itt lehet regisztrálni, szintén ingyen :D


2014. szeptember 18. 13:22

Vendégposzt: Slamby, világklasszis értelmező technológia

Tóth László írása A világon naponta, átlagosan 2,5 milliárd gigabájtnyi adat termelődik, aminek 75%-a strukturálatlan írott szöveg vagy hang és videofelvétel. A Slamby küldetése az, hogy ezt a strukturálatlan írott adatmennyiséget értelmezze, és a cégek számára felhasználható formájúvá tegye. A Slamby text adatok értelmezését teszi lehetővé, és az értelmezés eredményétől függően képes feladatok végrehajtására. Mindezt automatikusan, öntanuló technológiával és nyelvfüggetlenül. Mit is jelent ez? Képzeljünk el egy olyan call centert, ügyfélközpontot, ahová az egy központi címre naponta beérkező több tízezer email-t képesek vagyunk 1 századmásodperc alatt automatikusan elolvasni, értelmezni és azt a megfelelő ügyfélszolgálatos kollégának továbbítani, vagy akár automatikusan megválaszolni. Így az ügyfélszolgálat reakcióideje 1 napról akár pár percre vagy órára csökkenhet. Egy ideges és mérges ügyfél kezelésénél ez nem egy elhanyagolható előny. Sőt, menjünk tovább, és képzeljük el, hogy van egy olyan speach recorder, ami a telefonbeszélgetéseket írott szöveggé alakítja. Senki nem képes a telefonbeszélgetéseket elemezni, de ha le van írva, akkor a Slamby igen. Képes arra, hogy megmondja melyik kolléga kezelte hatékonyan vagy kevésbé hatékonyan az ügyfelet, ki az, akinek sikerült a problémáját hibátlanul megoldani, ki az akinek nem, vagy épp ki beszélt nem elfogadható hangnemben (értsd anyázott) az ügyféllel. De a telefonbeszélgetések és beérkező email-ek elemzése alapján az is megmondható, hogy a felhasználóknak valós időben milyen problémáik vannak, amiket a cégnek sürgősen meg kell oldania. Ez jelenleg csak akkor lenne lehetséges, ha egy ember naponta minden beérkező email-t és telefonbeszélgetést elolvasna, értelmezne, kivonatolva, összesítene, jah, és nem felejtené el mit olvasott 3425 dokumentummal azelőtt aznap... De ez csak egy példa volt. A text adatok (text big data?) feldolgozásában, értelmezésében, és a vállalatok szolgálatába állításában hihetetlenül nagy lehetőségek rejlenek. A Slamby technológiájával eddig az alábbi problémákra sikerült megoldást szállítanunk, az utóbbi fél évben:● Egy nagyvállalat üzleti titkainak, adatainak szivárogtatását gátló szoftvert szállítottunk, mely arra is képes, hogy a kikerült adatok alapján megtalálja ki lehetett a szivárogtató● Egy egyetemi könyvtár számára a beérkező írott dokumentumok szortírozására, dolgozatok automatikus címkézésére adunk megoldást, illetve egy plágium detektáló szoftvert is készítünk a technológiával. A Slamby célja, hogy egyre több nagyvállalat text data-val kapcsolatos problémáját oldja meg, és tegye hatékonyabbá, eredményesebbé a működésüket.


2014. szeptember 17. 15:57

Menta 2014: the Hungarian ICT Association yearly conference

precognox készítette ezt a képet.


2014. szeptember 16. 8:00

Szeptember 25: NLP meetup

Szeptember 25-én indul az NLP meetup őszi szezonja. Első találkozónkon a nyelvtechnológia két érdekes alkalmazásáról hallhatnak előadást az érdeklődők. A rendezvény ingyenes, de arra kérünk mindenkit, hogy regisztráljon az esemény oldalán.  Témáink: Koren Miklós: kozbeszerzes.ceu.hu Miháltz Márton: TrendMiner


2014. szeptember 15. 8:42

Our CTO talks at the first day of the next sprint.

precognox készítette ezt a képet.


2014. szeptember 15. 7:01

Our New meetup already has 38 members #softdevkapos

precognox készítette ezt a képet.


2014. szeptember 10. 9:00

Rapháború III. - Hogyan írjunk rap slágert tudományos alapokon?

Régóta keressük a választ arra, hogy mitől lesz népszerű egy rap előadó. Félretettünk olyan kérdéseket mint a zene minősége, az előadó mögötti marketinggépezet működése és egyéb tényezők. A rap elvégre elvileg szövegcentrikus, kell hogy legyen valami köze a tartalomnak a népszerűséghez!  Lássuk mi a helyzet! Tanácsok dalszövegíróknak, tanulságok a szentiment- és emócióelemzés kapcsolatáról - mindez egy posztban!!!!   Mire ügyeljünk dalszövegünk megírása közben? Korábban már megállapítottuk, hogy a beszélt nyelvhez közeli lexikai diverzitással rendelkező szövegek előadó számíthatnak nagyobb népszerűségre. Bármennyire is egyediek akarunk lenni, a homofília nyelvi preferenciáinkban is érvényesül. Korábbi posztunkból az is kiderül, hogy a YouTube nézettség és a Facebook lájkoltság erősen összefügg, ezért mi most maradunk a lájkok számánál. Úgy tűnik nem túl pozitív a legtöbb előadó, de itt is érvényesül a középre húzás; az extrém negativitás nem annyira népszerű. Nézzük mely emóciók megjelenítés korrelál a népszerűséggel! Ha már mindenképpen negatív rap dal szeretnénk írni, akkor témánk a bánat legyen! Ha dühösek vagyunk, semmiképen se öntsük dalba érzéseinket!!! Vizsgálódásaink azt mutatják, hogy viszonylag erős negatív korreláció (-0.55) mutatható ki a dühöt kifejező szavak aránya és a népszerűség között!!!!!   A meglepődés kifejezése, a dühvel ellentétben, pozitívan hathat népszerűségünkre. Több tanáccsal sajnos nem szolgálhatunk azoknak, akik tudományos alapon közelítenék meg a hip-hop előadói pályát. Úgy tűnik, sajnos a zenére és egyéb zavaró tényezőkre is figyelni kell a szöveg mellett... Lexikai diverzitás és érzelmeink A lexikai diverzitással és a pozitív szavak aránya közötti korrelációt mérve 0.31-et kaptunk eredményül. Az emóciókat vizsgálva azt találtuk, hogy a düh és az öröm egyáltalán nem korrelál a lexikai diverzitással, ellenben a bánat, félelem és undor emóciókkal összevetve -0.44, -0.43 és -0.42 értékeket kaptunk. A meglepődéssel is hasonló a helyzet, -0.33 értéket kapunk a korrelációra. Külön érdekes, hogy a pozitív szótárunk feleannyi szót tartalmaz mint negatív párja! A bánat, undor, félelem listák hosszában nincs különbség (kb. 200 elemet tartalmaz mindegyik átlagosan), a meglepődés kifejezetten rövid (úgy 50 elem), az öröm háromszor hosszabb mint egy átlagos emóciós szólista (kb. 600 elem). Csak spekulálni tudunk, de talán azért is csökken a lexikai diverzitás negatív érzelmi állapotban mert a beszélő nehezebben hívja elő a szavakat. A Pollyanna hipotézis kapcsán megemlítettük, hogy a magyar webkorpuszt vizsgálva is kimutatható a pozitív érzelmi töltetet hordozó szavak magasabb gyakorisága. Feltehetjük hogy a magasabb gyakoriság könnyebb előhívással is járhat, a negatív érzelmek pedig megnehezítik a lexikai elemek előhívását előadóinknál. Az emóció az nem szentiment! Megnéztük, találunk-e korrelációt a szentiment score-ok és az egyes emóciók között, de nem jutottunk sokra. Ezért külön vizsgáltuk a pozitív és negatív szavak és az egyes érzelmeket kifejező szavak arányai közötti összefüggéseket. Érdemleges eredményről csak a pozitív szentiment és az öröm (0.78), továbbá a negatív szentiment és a düh (0.65) között tudunk beszámolni.    Aki sorozatunkon felbuzdulva megírja a következő rap slágert, azt ügyvédeink keresni fogják a jogdíjak ügyében. Mindenki mást figyelmeztetünk, csak saját felelősségére használja fel az olvasottakat! Reméljük továbbá, hogy sikerült meggyőzni legalább pár olvasót arról, hogy a szentiment- és az emócióelemzés két külön terület.


2014. szeptember 9. 8:36

Játék az érzelmekkel!

Játékot hirdetünk kedves olvasóink számára! A nyeremény egy, azaz egy kávé velem - nyilván nem ez fog megmozgatni titeket, de érdekes a kérdésünk! A politikai blogokat vizsgálva begyűjtöttük a magyar nyelvű oldalakat és mivel már rendelkezünk szótárakkal a szentiment- és emócióelemzéshez, elkezdtünk vizsgálódni ezen a téren. Összesen 1644 url-t azonosítottunk nyelvazonosítással mint magyar nyelvű írás, amihez egyértelműen tudunk dátumot rendelni. A gyűjtésből kizártuk a Wikipedia, a Facebook és egyéb webkettes tartalmakat.   Szabó Martina és Morvay Gergely kollégák lelkes munkájának hála már vannak szótáraink szentiment- és emócióelemzésre is. Nem tudtuk megállni, hogy ne vessük be ezeket, ha már van egy korpuszunk.   A fenti ábrán minden hónapra a vizsgált oldalak átlagos szentimentértékét láthatjuk. A szentimentelemzés azt mutatja, hogy ritkán kapunk negatív értéket! Ennek részben az az oka, hogy a blogok szeretnek híroldalakra linkelni s ezek semleges hangvétele kiegyenlíti a görbénket. Játékunk az emóciókhoz kapcsolódik! A fenti ábra a hat alapvető érzelmet kifejező szavak átlagos gyakoriságát jeleníti meg. Nem véletlenül hiányzik a magyarázat a plotról! Kérdésünk az, hogy a kék görbe melyik érzelmet takarja!   Segítségül ajánljuk alábbi posztjainkat: Pollyanna a magyar weben Emócióelemzés - avagy ami a szöveg mögött van Emócióelemzés, avagy Darwin és a nyelvtechnológia különös találkozása A megfejtéseket kommentben a blogon, vagy Facebookon várjuk, de ér tweetben is rám írni (@varjuzoli) egészen holnap reggel 9-ig.


2014. szeptember 9. 8:28

Headed to the meet up after party, which was either some beer or lemonade. Kaposvar is a beautiful city indeed #softdevkapos

precognox készítette ezt a képet.


2014. szeptember 9. 8:00

Állás: Java + NLP

Örömmel közöljük az alábbi álláshirdetést, melyben Java fejlesztőt keresnek NLP feladatokra: Natural Language Processing területre keresünk tapasztalt Java fejlesztőt. Megbízó cégünk egy nemzetközi vállalat, amely Budapesten egy kis irodával működik az V. kerületben. A cég egy online működtetett keresőmotort fejleszt, az általa kiadott találatok szövegeinek értelmezése, feldolgozása a program célja. Jelentkezés, vagy további kérdés esetén kérem írjanak az it@exactsolutions.hu­ email címre.


2014. szeptember 8. 20:39

The meetup was a great success. Guys are still talking about stuff #softdevkapos

precognox készítette ezt a képet.


2014. szeptember 8. 18:07

The very first Software Development Meetup in Kaposvar just started. Full house

precognox készítette ezt a képet.


2014. szeptember 8. 9:07

This is how we want to work. You can see this at the entrance of our office.

precognox készítette ezt a képet.


2014. szeptember 8. 8:00

Szeptember 15: Budapest Open Knowledge Meetup

Szeptember 15-én indul a Budapest Open Knowledge Meetup, ami a hazai open knowledge, open data és open science gyűjtőhelye szeretne lenni. Az első meetupon arra keressük a választ, hogy mi az az open knowledge és mire jó, a rendezvény ingyenes, de az előzetes regisztráció, a helyszín korlátozott befogadóképessége miatt, erősen ajánlott.  Témáink: Micsik András: Open data Arató Bence: DataKind Pethő András: Adatvezérlet újságírás Szeretettel várunk mindenkit! Aki szeretne csatlakozni hozzánk, vagy előadna valamelyik meetupon, az keresse emailben a szervezőket (Le Mariettát a le.marietta[kukac]k-monitor.hu és/vagy Varjú Zoltánt a zoltan.varju[kukac]gmail.com címen)!


2014. szeptember 5. 8:00

Szeptember 8: Első Kaposvári Szoftverfejlesztő Meetup

A JustDoo és a Precognox szervezésében elindult a Kaposvári Szoftverfejlesztő Meetup. Cégünk elkötelezett a térség iránt, hiszen Kaposváron található főhadiszállásunk. A rendezvény ingyenes, de arra kérünk mindenkit, hogy előzetesen regisztráljon az esemény oldalán. Témák: 1. Szoftverbiztonság legfontosabb kérdései - Tóth Balázs, Citi Bank információ biztonsági szakértője 2. Agilis szoftverfejlesztés előnyei. Mit old meg? Mit nem? - Kása Károly, Precognox 3. ExtJS javascript framework. Berzsán Gyula, Infocentrum 4. Mire (ne) használd Drupalt? Gazdag András, LIA Alapítványi Iskola


2014. szeptember 3. 8:00

Plotly - kollaboratív interaktív adatvizualizáció

A Plotly az egyik legérdekesebb próbálkozás a közös adatelemzés és annak eredményeinek bemutatására létrehozott alkalmazások között. Gyakran végeláthatatlan email áradatot eredményez a közös munka, sok-sok csatolmánnyal, tovább bonyolítja a helyzetet, hogy mindenkinek megvan a maga kedvenc nyelve a munkára. A Plotly a legtöbb bevett nyelvhez (Python, R, Julia, Matlab) nyújt könyvtárat, mely segítségével pár sort kell beszúrnunk kódunkba ahhoz, hogy megoszthassuk elemzésünket.  Az eredmény egy nagyon szép online felület, ami a vizualizációt, az adatokat és a kódot is tartalmazza. A grafikonok ggplot-szerűen jelennek meg, de a háttérben a D3.js dolgozik. Az adatokat táblázatos formában jeleníti meg a Plotly. A grafikont generáló kódot több nyelven is elérhetjük, a felület alsó részén arról is tudósít minket a Plotly, hogy eredetileg mivel készítették a plotot. A legtöbb kód (még a generált kódok is) úgy jelenik meg, mint egy szerkesztőben.   Aki szeretne jobban megismerkedni a Plotly-val, annak a Bad Hessian posztját ajánljuk a témában. Az egyszerű használhatóság, a legtöbb nyelv támogatása és az ingyenesség miatt mindenkinek ajánlani tudjuk ezt a remek eszközt! Reméljük funkcionalitásában hamarosan felveszi a versenyt az R-használók körében egyre népszerűbb Shiny-val is.


2014. szeptember 1. 9:41

Egyenlőtlenség és keresési trendek

Ahogy korábban is írtuk már, a nowcasting szépsége az, hogy a hagyományos adatfelvétel gyors és olcsó alternatívája lehet - persze csak akkor ha tudjuk, mivel helyettesíthetjük szokásos adatainkat. A The Upshot az Egyesült Államokban vizsgálata az életminőségben tapasztalható területi egyenlőtlenségeket, majd a GoogleCorrelate segítségével megtalálták mely keresési kifejezések jelzik jól előre a hagyományos indikátorokat. A What Are the Hardest Places to Live in the U.S.? minden megyére kiszámított egy hat mutatóból (oktatás, jövedelem, munkanélküliség, fogyatékossági ráta, várható élettartam, elhízottság) álló indexet.   A GoogleCorrelate segítségével megvizsgálták, mely keresési kifejezések korrelálnak az indexben szereplő adatokkal, erről a In One America, Guns and Diet. In the Other, Cameras and ‘Zoolander.’ posztban számoltak be. Fontos megjegyezni, hogy a keresések nem abszolút trendet jelentenek, hanem az adott területen megfigyelhető kapcsolatot az indexet alkotó változók és a keresési kifejezések között. Érdekes, hogy a jóléti térségben a digitális kamerák, utazási desztinációk, a bébimasszázs és társaik, a leszakadó régiókban a betegségekkel, fegyverekkel és szociális ellátással kapcsolatos kifejezések jó prediktorok. Érdekes lenne megvizsgálni, hogy egy adott régióban tapasztalható társadalmi változások előrejelezhetőek-e a Google keresési trendjeire alapozva...


2014. augusztus 28. 8:00

Szeptember 3-án R and C++ a BURN meeutpon

A BURN meetup ismét remek témával örvendezteti meg az R iránt érdeklődő közönséget! Szeptember 3-án Romain Francois az R és a C++ egyre népszerűbb kombinálásáról tart előadást, a rendezvény ingyenes, de a szervezők arra kérnek mindenkit, hogy az esemény oldalán regisztráljon.  A leírás alapján igazi hardcore fejlesztői élményben lehet része a résztvevőknek: Romain Francois is a well-know R developer, R Enthusiast and R/C++ hero beside being an occasional stand up comedian. This suggests that we will have a wonderful time at the next R User Group. Romain will talk about his Rcpp11 package: R and C++ is an increasingly popular mix. I will talk about past, present and future of this combination.  Integrating R and C++ has been facilitated by R packages around Rcpp for several years now, we will review some of the key features of Rcpp and discuss some successful packages that have been using Rcpp.  The last part of the talk will be dedicated to the future of R and C++. For that purpose I will introduce Rcpp11, a new implementation that focuses on the last C++ standard. Beyond C++11, we will discuss directions for future work in R and C++. 


2014. augusztus 27. 8:03

De miért nem doménfüggetlen? A nyúl miatt!

Az egyik leggyakoribb kérdés a nyelvtechnológiai megoldásokkal kapcsolatban az, hogy miért nem doménfüggetlenek. Idegesítő, hogy ami működik a tudományos cikkek feldolgozása során, az a közösségi média tartalmait elemezve egyszerűen elvérzik, arról már ne is beszéljünk hogy mennyi pénzt, időt és erőforrást visz el egy-egy doménre adaptálni egy eszközt.   Legutóbb a Why Sentiment Analysis Engines Need Customization című írás futott körbe a neten a témában, ami lényegre törően magyarázza el, hogy a kontextus miatt változhat egy-egy szó szentimentértéke. Habár mi is úgy gondoljuk, hogy a kontextus mindent visz és a technika fejlődésének hála hamarosan ezt is egyre jobban tudjuk majd kezelni, tisztában kell lennünk azzal, hogy a nyelv nem egy könnyű dió. Hogy miért? Wittgensteint hívjuk segítségül, kinek híres város hasonlata segít megérteni a helyzetet. [...] azt is kérdezd meg magadtól, hogy vajon a mi nyelvünk teljes-e; - hogy teljes volt-e, mielőtt a kémiai szimbólumokat és az infintezimáljeleket bekebelezte; mert ezek, mondhatni nyelvünk elővárosai. (És hány háztól, utcától fogva város egy város?) Nyelvünket olybá tekinthetjük, mint egy régi várost: mint zegzugos térséget utcácskákkal és terekkel, régi és új házakkal, meg olyan házakkal, amelyekhez különböző korokban építettek hozzá; s az egészet egy csomó előváros öleli körül, egyenes és szabályos utcákkal és egyforma házakkal. (Wittgenstein: Filozófiai vizsgálódások 18.) Ahhoz, hogy tudjunk tájékozódni a városban egy térképre van szükségünk. Egy ilyen szép, szabályos utcákból álló helyen igazából nem is kell nagyon a térképet böngésznünk. Ellenben az "óvárosban" hiába bogarásszuk percenként a térképet, szükségünk van jellegzetes viszonyítási pontokra a tájékozódáshoz. Egy jó GPS persze hasznunkra lehet, de nem árt észben tartani, a városok folyamatosan változnak, új utak és házak épülnek, a régieket átalakítják, egyes részek pedig kihalnak. Ha a városok esetében lépést is tud tartani a technológia ezzel, a nyelv végtelensége miatt nem készíthetünk tökéletes térképet. Van azonban egy nagyon erős ismeretelméleti probléma is, ami arra int minket, hogy szkeptikusak legyünk a doménfüggetlen megoldásokkal szemben. Képzeljük magunkat egy antropológus bőrébe, aki egy eddig ismeretlen törzshöz kerül. Nem beszéljük a törzs nyelvét, de szeretnénk azt megtanulni és leírni. Elindulunk a törzs vadászaival az erdőbe, amikor egy nyúl fut át előttünk és egyikük rámutatva felkiált "gavagai". Gondosan lejegyezzük noteszünkbe; "a nyúl láttán azt mondta az egyik alany hogy >>gavagaigavagai


2014. augusztus 25. 13:06

Kvantumfizika és nyelvészet

A nyelvtechnológia jelentős része az ún. normál tudomány körébe tartozik, azaz bevett eszközökkel próbálunk megoldani rejtvényeket, minden úgy működik ahogy az "a nagykönyvben meg van írva". A kilencvenes évekig ez a szabályalapú, logikai módszerek alkalmazását jelentette, Charniak könyvének megjelenése óta pedig a statisztikai és gépi tanulási módszerek egyeduralomra jutottak. Napjainkban jelent meg egy új irányzat az Oxford University kutatócsoportjának hála, amely megpróbálja közös nevezőre hozni a két irányzatot a szemantikában, azaz a kompozícionális és a disztribúciós elméleteket és ehhez a kvantumfizikát hívták segítségül! A Quantum Physics and Linguistics egy tanulmánykötet, szerzői a Quantum Group-hoz kötődnek így vagy úgy. A témák egészen vegyesek, a kvantumszámítástól a kompozícionális-disztributív szemantikáig sok dologgal találkozhatunk benne s gyanítom hogy kevés ember akad a földön aki képes megérteni minden érintett téma hátterét. Az biztos, hogy akinek nem dereng egy kicsit a kategóriaelmélet, a kvantumlogika és a disztribúciós szemantika (vagy a vektorterek) egy kicsit, az inkább bele se kezdjen az olvasgatásába (nekik ajánljuk Widdows Geometry and Meaning könyvét)!   Nagyon dióhéjban a kvantumfizika azért keveredik a szemantikához, mert abban is fellelhető hogy a makroszinten más törvények (kompozícionalitás) uralkodnak mint a mikroszinten (disztribúció). Nagyon úgy tűnik, a fizikusok számára eme kettősség kezelésére a kategóriaelmélet kézenfekvő volt, szerencsére ez a matematikai nyelvészettől és a logikától sem idegen dolog. A kötetből én az alábbi tanulmányokat ajánlom kezdésnek ennek szellemében: Michael Müger: Modular Categories Dion Coumans and Bart Jacobs: Scalars, Monads, and Categories Peter Hines: Types and forgetfulness in categorical linguistics and quantum mechanics Stephen Pulman: Distributional Semantic Models Stephen Clark: Type-Driven Syntax and Semantics for Composing Meaning Vectors Mielőtt bárki azt hinné, ez csak üres elméleti bűvészkedés ne felejtsük el, hogy a Google nem is olyan régen vette magának kvantumszámítógépeket a D-Wave cégtől és a kereső óriás rengeteg energiát fektetett már a disztribúciós szemantikába (csak ők információkinyerésnek hívják, mint rendes számítástudósok), aminek lassan elérkezünk a korlátaihoz s ezért saját Quantum AI Group-ot alapított. Aki pedig a pénzhajhászokat hurrogná le, hogy "no de hol marad az elme modellezése?", azoknak érdemes Loewenstein Physics in Mind: A Quantum View of the Brain című könyvét elolvasniuk.


2014. augusztus 22. 8:00

Nyelvészet mindenkinek 3.

Az egyik legnépszerűbb olvasói kérdésünk, hogy mit olvasson az ember ha érdekli a nyelvtechnológia, de magával a nyelvvel még nem nagyon foglalkozott. Korábban már ajánlottunk kifejezetten ilyen embereknek írott könyvet és a legjobb magyar nyelvészeti tudományos ismeretterjesztő könyvet is bemutattuk blogunkon. Még az előbbit sokan "túl keménynek", az utóbbit "túl lazának" tartják, ezért most az örök klasszikust, A nyelv és a nyelvek című tankönyvet ajánljuk mindenkinek. A kötet először 1984-ben jelent meg, legutóbbi, hatodik kiadása pedig 2011-ben. Az elmúlt harminc évben a könyv folyamatosan bővült és természetesen a kor követelményeinek megfelelően frissítették a tartalmát. A mű kb. egy rendes, akadémikus, de mégis könnyed bevezetés a nyelvtudományba. Túllép az ismeretterjesztésen, de nem merül el a részletkérdésekben, "csak" egy rendes, átfogó képet próbál adni a nyelv tudományos vizsgálatáról. Ebben a könyvben tényleg mindenről olvashat az ember, ami a nyelvvel kapcsolatos; a klasszikus szemantika, nyelvtan, morfológia, hangtan témákon túl egy-egy fejezet foglalkozik a nyelvelsajátítással, a nyelv idegrendszeri alapjaival, az írással, a számítógépes nyelvészettel, a pszicholingvisztikával és még a nyelvfilozófia sem maradt ki. Az egyes fejezetek nyelvezete kifejezetten jól érthető kb. egy érdeklődő középiskolásnak is felfogható módon próbálnak fogalmazni a szerzők. Szerencsére példákat is találunk, nem csak unalmas leírásokat olvashatunk arról mi hogyan működik elvileg a nyelvben. Minden fejezet végén találunk feladatokat, a kötet honlapja további feladatokat tartalmaz (meg az összes feladat megoldását). Egyetlen problémám van csupán a könyvvel, néhol annyira kerülni próbálják a szakzsargont a szerzők, hogy nagyon megnehezítik annak a dolgát, aki tovább keresgélne egy-egy témában.


2014. augusztus 18. 9:05

Emócióelemzés - avagy ami a szöveg mögött van

Kutatócsoportunk egyik legújabb, s egyben talán az egyik legnagyobb kihívást jelentő vállalkozása az érzelmek, másképpen emóciók automatikus detektálásának hatékony megoldása magyar nyelvű szövegekben. Amint arra már az Emócióelemzés, avagy Darwin és a nyelvtechnológia különös találkozása című bejegyzésben is utaltunk, bár az emócióelemzés, szövegbányászati céljait és metodológiai sajátságait tekintve több hasonlóságot mutat a szentimentelemzéssel, a két megoldás alkalmazási területe, s ezzel összefüggésben elméleti háttere teljesen eltér egymástól. Mivel a szentimentelemzésről korábban már számos alkalommal szóltunk, itt csupán az emóciódetektálás problémáit vesszük górcső alá. De miért is szükséges az információkinyerés feladatkörét az emóciókra kiterjeszteni? Tulajdonképpen miért is fontos számunkra az, hogy képessé váljunk az emóciók, az érzelmek szövegbeni feldolgozására? A feladat jelentőségének megértéséhez vegyük fontolóra az alábbi  két sajátságot: Egyrészt, az érzelmek olyan tényezőkre adott reakciók, amelyek fontosnak tűnnek számunkra boldogulásunk, jólétünk szempotjából. Másrészt, az érzelmek gyakran olyan gyorsan jelentkeznek, hogy nem is vagyunk tudatában magának az érzelmet kiváltó oknak, illetve az érzelmi folyamatok pontos alakulásának (vö. Ekman 2007). Ha mindezt meggondoljuk, beláthatjuk, hogy az emóciótartalom feldolgozása eleddig rejtve maradt, értékes információkat hozhat a felszínre, s ezek az információk számos szövegbányászati feladatban (pl. vásárlóihangulat-mérés) jelentős haszonnal szolgálhatnak. Az elmondottak az automatikus emócióelemzés mihamarabbi hatékony megoldását sürgetik. Az emócióelemzés viszonylag új keletűnek tekinthető a szövegbányászati projektek palettáján. Bár az emóciók bizonyos tudományos diszciplínákban, így a pszichológiában és a viselkedéstudományban kiemelt figyelmet kapnak, a természetesnyelv-feldolgozást illetően csupán az utóbbi idők termése között találni vonatkozó publikációkat (vö. Strapparava-Mihalcea 2008: 1). Az elmondottakkal összefüggésben, az emóciók automatikus kezelése kísérleti szakaszában jár, és önálló, kidolgozott megoldások híján csupán a szentiment- és szubjektivitáselemzés területein elért tudományos eredményekre támaszkodhat (vö. Mulcrone 2012: 1). Ami a magyar nyelvű szövegek információkinyerését célzó kutatásokat illeti, jelenleg nincs tudomásunk olyan projektről, amely kifejezetten az emóciótartalmak szűrésére és feldolgozására törekedne. Kutatómunkánkkal e hiányt igyekszünk pótolni. A magyar nyelvű szövegek automatikus emócióelemzéséhez mindenekelőtt számos elméleti kérdés alapos meggondolására van szükség. A legalapvetőbb feladatokat a következőkben állapíthatjuk meg: a) az emóció fogalmának pontos meghatározása; b) az emócióelemzés feladatkörének pontos meghatározása, annak elhatárolása más, információkinyerési feladatköröktől; c) a feladat megoldási menetének pontos kidolgozása, valamint az ahhoz kapcsolódó elméleti problémák feltárása és orvoslása. Az alábbiakban az itt említett feladatok mentén néhány kérdés részbeni tárgyalására vállalkozunk. Amint azt Péter (1991: 35) részletesen taglalja, az emberi cselekvés mozgatórugóját a különböző szükségletek alkotják; a szükségletek motiválják az egyént a cselekedetek végrehajtására. Ezzel összefüggésben, érzelmeink szoros kapcsolatban állnak a szükségletek és a motiváció szférájával. Az érzelmeink arról a viszonyról tanúskodnak, amely az egyes szükségletek és azok kielégítése, illetve kielégítésének lehetősége között fennáll (vö. Szimonov (Симонов 1975: 89) alapján Péter (1991: 35)). Amennyiben ez a viszony kedvező, úgy pozitív, amennyiben kedvezőtlen, úgy negatív érzelmeket vált ki az egyénből. Leontyjev (1979: 181) az érzelmeket a "belső élmény", az "átélés" fogalmával jellemzi. Péter (1991: 35-36) ugyanakkor felhívja a figyelmet arra, hogy "ha a belső élmény a szükségletek és kielégítésük lehetősége közötti viszonyt tükrözi, úgy magának az élménynek is tartalmaznia kell e viszony értékelésének kognitív mozzanatát. [...] Az érzelemből tehát nem «vonható ki» teljességgel a gondolkodás, mint ahogy megfordítva, a gondolkodás is magában foglal érzelmi mozzanatot." Péter (1991: 35-36) fentebb idézett sorai kiválóan mutatják be azt a problémát, amellyel az emócióknak a szentimentkifejezésektől való különválasztását illetően szembe kell néznünk. Az emócióelemzés keretében ugyanis - mint már említettük - a "puszta" érzelmeket kívánjuk a szöveg szintjén tetten érni, a kognitív értékelő folyamatokat a szentimentelemzés tárgykörébe utalva. Az elmondottak alapján azonban belátható, hogy az emóciók és a szentimentek nyelvi kifejezőeszközei bizonyos esetekben nem, vagy csupán nehezen különíthetőek el egymástól.        Emócióelemzési projektünk megvalósításához a feladat tárgyát és célját a következőképpen igyekeztünk meghatározni: a szövegekből kiszűrünk egyrészt minden olyan elemet, amely az adott emóció nyelvi kifejezőeszközeként számba vehető, másrészt minden olyan elemet is, amely az adott emóció kialakulására, illetve meglétére utalhat. Ennek megfelelően például a düh emóció szövegszintű jelének tekintjük a begurul ige mellett a káromkodik és a belepofázik kifejezéseket is, tekintve, hogy a káromkodás gyakori kiváltó oka a düh érzete, a belepofázik igét pedig általában akkor használjuk valakivel kapcsolatban, ha annak hozzászólásai a harag érzetét keltik bennünk. Az emóciókifejezések osztályozásához Ekman és Friesen (1969) érzelemkategorizálási rendszerét alapul véve a következő hat alapemóciót különítettük el: bánat, düh, félelem, meglepődés, öröm és undor. Bár gyakorta találkozni azzal a megközelítési móddal, hogy a fentebbi kategóriákat a két nagy, a szentimentelemzésben bevettnek számító negatív és pozitív csoportba sorolják, Ekman (2007) alapján ezt a megoldást nem követjük. A neves pszichológus amellett érvel ugyanis, hogy az érzelmek polaritása, azaz negatív vagy pozitív értéke számos emóció esetében egyénfüggő. Bizonyos emberek például pozitívnak értékelik a félelmet, ezért extrém sportokat űznek, míg mások gondosan kerülnek minden olyan szituációt, amelyben akár csak a legkisebb veszély is leselkedhet rájuk. Az emóciókat tehát nem, vagy csupán csekély mértékben lehetséges a polaritási skála mentén kezelni. A fentebbi hat emóciócsoport kiválasztását alapos megfontolás indokolta. Mindenekelőtt arra törekedtünk, hogy annyi és olyan kategóriát válasszunk, amely viszonylag könnyen elkülöníthető egymástól, egyszerűsítve ezzel az emóciókifejezések csoportokba rendezését. Bár a vonatkozó kutatások között találni olyanokat, amelyek nyolc vagy akár több emóciócsoporttal dolgoznak (vö. Mulcrone 2012), e megoldások áttekintése alapján úgy véltük, azok átvétele esetén a szólisták rendezésekor számos kérdéses esettel kellene megbirkóznunk. Ekman és Friesen (1969) vizsgálati eredményeire támaszkodva azt a hat alapérzelmet vettük fel projektünk megvalósításához, amelyeknek arckifejezései, illetve azok azonosítása kultúrafüggetlennek mutatkozik.   A hat alapérzelem - a harag, a félelem, az undor, a meglepődés, az öröm és a szomorúság - megnyilvánulása különböző arcokon. Forrás: paulekman.com   Ugyanakkor fel kell hívnunk a figyelmet arra, hogy az egyes emóciókifejezések érzelemcsaládokba történő rendezése rendkívül bonyolult, számos elméleti problémát felvető vállakozás. Gyakorta előforduló jelenség ugyanis, hogy két - esetleg több - alapérzelem is összekapcsolódik egy adott emócióban. Gondoljuk meg például, hogy a gyűlölet érzete akár a dühvel, akár az undorral is kapcsolatban állhat, sőt e kettő fúziója éppúgy lehetséges. Amikor pedig elégedetlenek vagyunk, akkor egyaránt érezhetünk bánatot, de akár dühöt is valamely ki nem elégített szükségletünk okán. Nem beszélve arról a sajátságról, miszerint gyakran egy adott emóció váltja ki egy másik emóció létrejöttét (vö. Ekman 2007). Haragra gerjedhetünk például saját félelmünk miatt, vagy élhetünk át szorongást attól való félelmünkben, hogy vajon hosszan tartó nyomott hangulatunk, depressziónk elmúlik-e valaha. Mindezen túlmenően, az érzelmek változása gyakorta úgy történik, hogy a kiváltó emóciónak nem is, csupán a reakcióként jelentkező érzelmünknek vagyunk tudatában. Nyilvánvaló tehát, hogy az emóciók e rendkívül bonyolult rendszere az írott nyelvi produktumokra is hatást gyakorol, amely jelentősen megnehezíti az érzelmek szövegszintű feldolgozását. Jelenleg emóciószótárunk hatékonyságának tesztelésén és fejlesztésén, valamint egy kézzel annotált emóciókorpusz létrehozásán dolgozunk. Eredményeinkről, tapasztalatainkról hamarosan újabb bejegyzésekben számolunk be.     IRODALOM Ekman P. 2007. Emotions revealed: recognizing faces and feelings to improve communication and emotional life. Revised edition. New York, St. Martin's Griffin. Ekman, P.-Friesen, W.V. 1969. The repertoire of nonverbal behavior: Categories, origins, usage, and coding. Semiotica 1. 49-98. Leontyjev, A.N. 1979. Tevékenység, tudat, személyiség. Budapest, Gondolat Kossuth. Az eredeti munka: Леонтьев, А.Н. 1977. Деятельность. Сознание. Личность. 2-е изд.Москва, Политиздат. Mulcrone, K. 2012. Detecting Emotion in Text. UMM CSci Senior Seminar Conference. Morris, MN.[https://wiki.umn.edu/pub/UmmCSciSeniorSeminar/Spring2012Talks/KaitlynMulcrone.pdf] Paul Ekman Group [http://www.paulekman.com/] Péter, M. 1991. A nyelvi érzelemkifejezés eszközei és módjai. Budapest, Tankönyvkiadó. Strapparava, C.-Mihalcea, R 2008. Learning to identify emotions in text. SAC 2008. [http://web.eecs.umich.edu/~mihalcea/papers/strapparava.acm08.pdf] Симонов, П.В. 1975. Высшая нервная деятельность человека. Мотивационно-эмоциональные аспекты. Москва, Наука.  


2014. augusztus 15. 7:52

Twitter dialektológia

A legtöbb dialektológiai kutatás sajnos nagyon kevés adatközlővel készült/készül, de szerencsére napjainkban a technológiának hála akár 50 millió (!) beszélőtől is lehet adatokat beszerezni, ahogyan Bruno Gonçalves David Sánchez Crowdsourcing Dialect Characterization through Twitter című tanulmányukban arról beszámoltak. A kutatók az elmúlt két esztendő spanyol nyelvű, geolokációs meta-adatokkal ellátott tweetjeit elemezte. Az adatok földrajzi eloszlását mutatja be a fenti ábra. A kutatók elgondolása szerint a közösségi média nyelvhasználata közel áll a mindennapi beszélt nyelvhez, ezért alkalmas lehet a dialektusok tanulmányozására is (bővebben l. Milyen is az internet nyelve c. korábbi posztunkat). A kutatás egyik részében a hagyományos kutatásokat felhasználva a szókincsbeli eltéréseket vizsgálták. Majd következett a gépi tanulás bevetése. Ötvenmillió tweet csak egy nagyon, de nagyon nagy dokumentum mátrixba fér bele, aminek sok-sok dimenziója lesz, ezért főkomponens-elemzéssel szépen leredukálták azt. Ezután jöhetett a klasszifikáció legegyszerűbb módszere, a k-NN. Ennek eredménye két szuper-dialektus lett, az egyik a nagyvárosokra jellemző szóhasználat, a másik pedig a vidékiek spanyolja - mindez kontinensektől függetlenül! A vidéki spanyolt tovább vizsgálva pedig a klasszikus dialektológia által leírt főbb nyelvjárások képe rajzolódik ki, miképp a fenti ábra is mutatja.   A "Big Data" lassan olyan területeket is elér, ahol úgy gondolnánk nem sok keresnivalója akad. Kíváncsian várjuk a következő érdekes bevetését!


2014. augusztus 12. 9:34

Jobb szentimentelemzés deep learning használatával

A legtöbb mai szentimentelemző rendszer valahol a 80%-os pontosság környékén mozog manapság, ami nem rossz, de "van hely a javulásra". A Stanford Deeply Moving: Deep Learning for Sentiment Analysis projektje 85% felé viszi a pontosságot a deep learning bevetésével, érdemes egy kicsit közelebbről is megvizsgálni módszerüket. A jelenleg elérhető szentimentelemző megoldások vagy valamilyen klasszifikációs (általában bayesiánus) megoldást használnak, vagy pedig szótárakat vetnek be. Mindkét irányzat figyelmen kívül hagyja a nyelvtani szerkezetet. A szótári módszernél manapság egyre gyakrabban vetik be az ún. shiftereket, azaz a módosítók (pl. negáció) figyelését is, de ez ritkán lép túl a pár soros szóláncokon. Továbbra is komoly gondot jelent a szentiment tárgyának azonosítása, az irónia és a metaforák kezelése. Úgy tűnik, ezen problémák megoldásához a nyelvtani szerkezet, sőt a szemantika vizsgálata is elengedhetetlen.   A stanfordi kutatók abból indulnak ki, hogy a nyelv kompozícionális, azaz egy kijelentés jelentése függ tagjainak jelentésétől és az összetétel módjától. Ezért megoldásuk a mondatok szerkezeti szinten történő szentimentelemzésére épít. A Rotten Tomatoes mozi kritikákat tartalmazó adatbázisát dolgozták fel annotátorok segítségével. Az egyes mondatokat a Stanford CoreNLP-vel parsolták (szintaktikailag elemezték) és a Mechanical Turk-ön toborzott felhasználók segítségével az elemzési fák egyes elemeihez szentimentértékeket rendeltek. Érdekes, hogy a mondatrészek hosszának növekedésével csökken a neutrális elemek száma, illetve a szélsőséges (nagyon pozitív, nagyon negatív) értékek aránya minden hossz esetében viszonylag alacsony. A szentimentértékekkel annotált treebank (azaz a szintaktikailag elemzett és szentimentinformációval is felcímkézett mondatok halmaza) tréningadatul szolgált több gépi tanulási algoritmusnak. Az ún. recursive neural tensor network (egy, a neurális hálókból származtatott eljárás) lett a legjobb ezek közül, ami az ötfokú szentimentelemzési feladatokban 80, a pozitív-negatív besorlás során 85.4 százalékos pontosságú eredményeket produkált.   Az eredmények tükrében úgy tűnik, a nyelvtechnológiába is megérkezett a deep learning! A magyar deep learner szentimentelemzők hivatalos dala pedig ez lesz:  


2014. augusztus 11. 7:33

Nyelvazonosítás

A nyelvazonosítás problémája elsőre nem tűnik nehéznek. Az ember egyszerűen felismeri hogy különböző nyelveket hall vagy éppen olvas, még akkor is, ha nem ismeri ezen nyelveket. De mi a helyzet a gépekkel? Mivel politikai blogokat elemző projektünk során felmerült a magyar tartalmak azonosításának problémája alaposabban megvizsgáltuk az elérhető eszközöket az R és Python nyelvekben is.   A fenti számban tökéletesen el tudjuk különíteni a francia és a bambara nyelvet, de hogy miért, azt már nagyon nehezen tudjuk megmagyarázni. A nyelvre - legnagyobb sajnálatunkra - jellemző, hogy tudása ösztönösen, magától jön, ezért a nyelvtechnológus sokszor inkább valamilyen gyors megoldást keres és nem a nyelvtudást modellezi. A nyelvazonosítás során is így járnak el a modern eszközök, melyek a TextCat program köpönyegéből bújtak ki.   A TextCat első között szakított azzal hogy bármilyen nyelvészeti információt próbáljon megtudni az elemzett szövegről. Ehelyett ún. n-gram karakter modellekkel dolgozott, azaz egy-egy nyelvből korpuszok segítségével előállították  az n hosszúságú karaktersorok eloszlását. A kapott nyelvmodellhez hasonlít a program minden inputot és megpróbálja megtalálni melyik eloszláshoz közelít.   textcat - a state-of-the-art algoritmus R-ben van implementálva A textcat (így csupa kisbetűvel) a jelenleg elérhető legjobb nyelvazonosító könyvtár. A hagyományos karakter alapú nyelvmodellek készítését gondolták újra megalkotói, illetve a korral haladva jelentősen megnövelték a modell nagyságát is, s evvel igen nagy hatékonyságot értek el. A textcat mögötti elméleti megfontolásokról a készítők tanulmányából lehet többet is megtudni, mi itt csak azt emeljük ki, hogy viszonylag nehéz "megfektetni" az eszközt. Miképp az alábbi ábra is mutatja, külön nyelvtudományi vita tárgya lehetne hogy a serb-horvát-bosnyák hármas keverése hibának tekinthető-e, vagy a skandináv nyelvekkel mit kezdjünk.  A szerzők hierarchikusan klaszterezték hogy a modellek összevetése során miképp alakulnak a tippek, ebben látható hogy a valenciai és a katalán pl. nagyon hamar kerül egymás mellé. A tudománytalan nyelvrokonítási kísérletek híveinek pedig ajánlom a magyar-breton és magyar-baszk rokonság megfontolását, karakter n-gramokra alapozva lehet mellette érvelni! langid.py - a pythonisták válasza a nyelvazonosításra  A langid.py alkotói a hagyományos megoldást választották, de nagy gondot fordítottak a tréningadatokra és arra, hogy sok nyelvet legyen képes felismerni eszközük. A kiértékelés során nagyon szép eredményeket ért el a langid.py Az, hogy 97 nyelvet képes felismerni, igazi, rögtön bevethető könyvtárrá teszi, amit minden pythonista tud használni, előzetes nyelvtechnológiai ismeretek nélkül is. Akit érdekel hogyan készült az eszköz, az mindenképpen olvassa el megalkotóinak tanulmányát!   Verdiktet nem mondunk. Mindkét eszköz nagyon jó - hogy ki melyiket használja, az ízlés és megszokás kérdése.


2014. augusztus 7. 8:00

Magyar politikai blogszféra - általános jellemzők

Előző posztunkban bemutattuk az adatok beszerzését és az egyszerűsített gráf főbb jellemzőit, ezért végre rátérhetünk a rendes, irányított gráfnak a bemutatására. A posztban a gráfok csomópontjait nem címkéztük, a felcímkézett gráfok nagyobb felbontásban megtalálhatók itt, az url-ek kódjait pedig ezen táblázat segítségével oldhatja fel a kedves olvasó. Az irányított gráfnak 1002 csomópontja van, ezek között 3190 link található. Mivel gráfunk irányított, az A-ból B-be és a B-ből A-ba mutató kapcsolatok között különbséget teszünk. Fontos kiemelni, hogy jelen esetben a linkelés az oldalon található főszövegben történő hivatkozást jelent. A legrövidebb utak átlagos hossza 3.609506, a gráf átmérője pedig 7. A gráf ki- és befokszámainak eloszlását az alábbi ábrák szemléltetik. Gráfunk nem összekapcsolt, azaz nem érhető el egy adott pontból bármelyik másik pont. Az alábbi ábrán is láthatjuk, akadnak elszigetelt részei a gráfnak. Az egyes csomópontok mérete itt a HITS algoritmus alapján számítottuk érték adja, ami tkp. azt jelenti hogy az élek mentén mennyire jelentős egy adott csomópont, milyen "továbbjutási lehetőségeket" biztosít. Látható, hogy ezek a hubok középen, nagyon sűrűen helyezkednek el, továbbá a gráf nagy része egy összefüggő egészet alkot, ez az "óriási összefüggő komponens", ami 997 csomópontot és 3188 élt foglal magában, legrövidebb utainak átlagos hossza 3.609511, átmérője pedig 7. A HITS algoritmussal súlyozott csomópontokat megjelenítő ábránk most így néz ki:   A forgalmas csomópontokat a magas be-fokszám jellemzi. Hasonló képet kapunk, ha a HITS továbbfejlesztett változatát a PageRank-et alkalmazzuk. Látható, hogy a gráf legtöbb elemét a HITS és/vagy a PageRank algoritmus alapján magasra értékelt csomópontok kötik össze, ezek az ún artikulációs pontok, melyeket ha eltávolítunk a gráfból, akkor egy nagyon elszigetelt világot kapunk, amiben alig vannak kapcsolatok (865 csomópont között csupán 76 él!). Az artikulációs pontok megkeresését többek között arra szokták használni, hogy egy hálózat gyenge pontjait megtalálják, mivel ezek kiiktatásával megszakítható a legtöbb csomópont között az összeköttetés. Esetünkben ezek a pontok azok a források, amikre sokan hivatkoznak, úgy tűnik ezek az oldalak tematizálják a közbeszédet és miképp az alábbi ábra mutatja, egy összefüggő, rendesen összekapcsolt hálózatot alkotnak.  Az artikulációs pontok száma csupán 132 és 784 kapcsolat található közöttük. A legrövidebb utak hosszának átlaga 2.686464, a gráf átmérője pedig 5. Az artikulációs pontok listája megtalálható itt.   Természetesen az artikulációs pontok jelentős része ún tipikus "linktemető", azaz olyan oldal, amire szeretünk hivatkozni, pl a Wikipedia, Google, főbb híroldalak. Ezek egy jelentős része inkább mint hivatkozási pont szolgál a politikai blogok esetében, kérdés viszont hogy a többi oldal mint artikulációs pont tényleg felel-e az információ áramlásáért, képes-e hatni a hálózatban megjelentő topikokra. Ennek megválaszolásához a tartalomelemzést fogjuk segítségül hívni!


2014. augusztus 3. 17:59

Magyar politikai blogszféra - adatok

Az utóbbi hetekben szorgosan készülünk a magyar politikai blogok elemzésére. Elkészült egy kis crawler, ami begyűjtötte nekünk az adatokat, majd rávetettük magunkat gráfokra és a rengeteg szövegre, tekintsük ezt tesztüzemnek, amiről be is számolunk kedves olvasóinknak. Az adatok begyűjtése Crawler-ünk Toby Segaran Programming Collective Intelligence c. könyvének negyedik fejezete alapján készült Pythonban. Mivel a kötet már hét éves és azóta történt egy-két dolog a Python nyelvvel és a használt SQLite adatbázissal is, kénytelenek voltunk leporolni egy kicsit a kódot, ill saját igényeinek megfelelően módosítottunk is rajta. Pl. nem egy egész oldalt szedünk le, hanem csak a tartalmilag releváns részt (vizsgálódásunk ebben tér el leginkább a "hagyományos" webes tanulmányoktól, minket ugyanis csak az érdekel mire hivatkoznak a bloggerek és a politikai témákban érintett egyéb szerzők, az egész oldalt nem vizsgáljuk) és elmentjük a linkek szövegkörnyezetét is (hogy később megvizsgáljuk milyen ezen hivatkozások polaritása, emóciója, stb). Egy ötven, magyar politikai blogot tartalmazó ún. seed lista alapján indult el crawlerünk és hármas mélységben gyűjtött be minden linkelt oldalt. A gyűjtés eredménye 10785 oldal, melyek között 155182 link található.   Az adtok előkészítése Az 10785 oldal egyedi url-t takar, ezeket top-level domain-re (tld) normalizálva az egyes doménekbe tartozó oldalak eloszlása azt mutatja, itt is érvényesül a webes topológiára jellemző hatványfüggvény eloszlás. A legtöbb oldalt tartalmazó tld-kről az alábbi ábra ad egy kis infót. Az eredeti gráfunkat nem irányítottként elemezve a legrövidebb utak átlagos hossza 8.024154, a gráf átmérője pedig 31. Természetesen a gráf nem összefüggő.   Mivel a tld nem túl informatív (a blog.hu takarja például a számunkra legérdekesebb blogokat), az ún. pay-level domain-re (pld) normalizáltuk az url-eket. (Pl. blogunk a http://keres.blog.hu tld-je a blog.hu, a pld-je pedig a kereses.blog.hu) Az alábbi grafikon mutatja mely pld-kről származik a legtöbb url. Az adatok begyűjtését és normalizálását Python-ban végeztük, majd az igraph által is olvasható gráf formátumra konvertáltuk azokat, hogy az általunk megszokott R környezet segítségével végezhessük elemzésünket. Az url-ek normalizálása után 1002 pld-ből és a közöttük lévő 1835 kapcsolatból álló gráfot kaptunk, ami nem összefüggő, a legrövidebb utak átlagos hossza 3.609506, átmérője pedig 7. A pld-k kódja megtalálható ebben a táblázatban.   A normalizált gráf főbb jellemzői Jelen posztban a gráfot mint egy nem-irányított gráf jellemezzük, azaz nem teszünk különbséget az A-ból B-be és vissza mutató linkek között.   Az egyes oldalak fokszáma alacsony, a legtöbb egy és tíz közöttivel rendelkezik. Logaritmikus skálán talán jobban érzékelhető hogy a legtöbb oldal fokszáma alacsony. A szomszédosság foka (azaz hogy hány másik oldalhoz kapcsolódik az adott oldal) és a fokszám log plotja is a szakirodalomban megszokott képet rajzolja ki. Topológia A nem-irányított gráffal elsődleges célunk csupán az egyes vizualizációs lehetőségek kipróbálása volt, de ez is egy kis betekintést enged az adatok mögötti struktúrába. Az egyes képek nagyobb, a csomópontokhoz tartozó kódokat is megjelenítő változatai itt találhatók (a kódokat pedig a fentebb említett táblázat segítségével tudja feloldani).   A HITS algoritmus segítségével a "legforgalmasabb" csomópontokat tudjuk azonosítani egy gráfban, azaz azokat, melyek olyan élek mentén fekszenek, amik sok más csomópont felé nyújtanak elérést (amúgy ez a módszer a PageRank elődje!)   A HITS-hez hasonló módszer az ún. edge betweenness segítségével próbáltuk meg klasszifikálni az egyes csomópontokat. Majd a walktrap módszerrel is tettünk egy próbát. Kérdések, tanulságok Habár a 10785 oldal soknak tűnik, sajnos nagyon kevés a magyar nyelvű tartalom rajtuk. Minden linket megvizsgálva azt találtuk, hogy csupán 3877 darab azonosítható úgy mint magyar. A linkek struktúrája azt mutatja, hogy nagyon hamar eljuthatunk külföldi oldalakhoz, ezért a crawler mélységét növelni nem célszerű (no meg arról nem is beszélve, hogy ezzel a linkek száma exponenciálisan nőne), marad tehát a seed lista bővítése.   Kapott gráfunkat már most is nagyon szeretjük, de a puszta deskriptív jellemzésénél többre vágyunk. Szeretnénk összekapcsolni a hálózatelemzést a tartalomelemzéssel. Eltér-e a nyelvezete a baloldali bloggernek a jobbosétól? Milyen témákkal/topikokkal foglalkoznak a blogok? Időben és térben hogyan jelennek meg az egyes topikok a blogokon? Nagy kérdések, könnyen lehet hogy megválaszolatlanok maradnak, de azon vagyunk hogy olvasóinknak beszámoljunk kalandozásainkról. Hamarosan foly.köv.!


2014. július 21. 15:26

25 év Tankcsapda dalainak topik eloszlása

Az ún topics over time módszer egy egyszerűsített változatával megnéztük hogyan alakul az lda-val kinyert topikok aránya a Tankcsapda elmúlt 25 évben megjelent stúdióalbumainak szövegeiben. Egy kis webes alkalmazásban elérhetővé is tettük eredményeinket itt. Az egyes topikok eloszlása a dokumentumok között elérhető ebben a táblázatban, a topikokhoz tartozó szavak pedig ebben. Az alkalmazás Eric Rochester Mastering Clojure Data Analysis c. könyvének harmadik fejezete alapján készült, a kód minimális változtatásával. A szövegeket a http://www.zeneszoveg.hu/ oldalról vettük.


2014. július 19. 16:30

A politikai blogszféra I.

Reméljük olvasóink elnézik nekünk hogy hanyagoltuk a posztolást mostanában. Van mentségünk! A magyar politikai blogokról kiindulva crawlerünk rengeteg oldalt gyűjtött be, mi pedig ezeket elkezdtük elemezgetni. Ebben a posztban csak ízelítőt adunk, az eredményekről hamarosan bővebben is beszámolunk.  A linkek struktúráját vizsgálva látszik, erre a világra is érvényes a csokornyakkendő elrendeződés. A wikipedia domainről gyűjtöttük be a legtöbb oldalt, mert oda mutat a legtöbb link - ellenben minden másra jóval kevesebb link mutat. A wikipedia után jön a blog.hu, az hvg és az index, majd a Facebook és a Youtube és pár hazai és külföldi online lap. A crawler által vizsgáld oldalak szövegeit begyűjtöttük, tuti ami fix már egy LDA elemzést is futtattunk rajtuk.   Sorozatunkban megpróbáljuk leírni a magyar politikai blogszféra topológiáját, megnézzük mennyire kapcsolódik össze a blogokról induló linkek struktúrája, milyen érzelmi viszonyulással linkelik egymást az oldalak  stb. Hamarosan folyt.köv.!


2014. július 7. 19:00

Összekuszált szavak, gráfok, no meg a Ludwig

Már régóta keresek egy kivonatoló/összegző megoldást és régi restanciám hogy találjak alternatív megoldásokat a kulcsszókinyeréshez is. Szerencsére eddig is meg tudtuk oldani ezen feladatokat, sikerült olyan nem-felügyelt eljárást találnom, ami egyrészt gyönyörű, másrészt van valamennyi nyelvészeti relevanciája is - de természetesen jelenlegi formájában még messze van az ipari bevetéstől. Ellenben egy keresőkkel foglalkozó cégnél nagyon cool, hogy a PageRank algoritmus egy változatáról beszélhetünk! Legózzunk!   Van a nyelv, annak meg vannak szavai. Felmerül a kérdés, ha valaki megtanulja egy nyelv szótárát, akkor tudja is x nyelvet? Naiv elképzelésnek tűnik, mégis van benne valami, Wittgenstein is Szent Ágostont idézi ezzel kapcsolatban, persze meg is jegyzi rögvest hogy ez nem a legjobb irány: 1."Ha a felnőttek valamilyen tárgyat megneveztek, és közben felé fordultak, úgy ezt én érzékeltem, és felfogtam,hogy a hangok, amelyeket kiejtettek, a tárgyat jelölik, minthogy rá akartak utalni." 5. Ha az 1.§-ban szereplő példát vesszük szemügyre, akkor talán sejthető lesz, hogyan burkolja a szójelentés általános fogalma a nyelv működését olyan ködfelhőbe, amely lehetetlenné teszi, hogy tisztán lássunk Wittgenstein ehelyett a szavakra úgy tekint, mint szerszámokra:   Gondolj a szerszámokra egy szerszámosládában: van benne kalapács, harapófogó, fűrész, csavarhúzó, mérőrúd, enyvesfazék, enyv, s vannak szögek és csavarok. - Amilyen különböző ezeknek a tárgyaknak a funkciója, olyan különböző a szavaké is. (És itt-ott vannak hasonlóságok.) Összezavar persze bennünket a szavak megjelenésének egyformasága, amikor kimondva vagy írásban, illetve nyomtatásban szembekerülünk velük. A használatuk ugyanis nem áll ilyen világosan előttünk. Különösen akkor nem, ha filozofálunk. (Wittgenstein: Filozófiai vizsgálódások, 11.§.)   Ha Ludwig ma írná a fenti sorokat, biztos vagyok benne hogy a Lego jutna eszébe! Vannak speciális lego-elemek, amikből keveset kell csak gyártani, vannak általánosan használt elemek, amiket gyakran használunk, de valahogy mind összeilleszthető. A szavakkal is így vagyunk kb.   Lego helyett gráfok! Fauconnier és Turner remek tanulmánya óta a nyelvészetben is lehet olyan szexi szavakat használni mint hálózatok, meg gráfok. A kognitív nyelvészek azért is szeretik ezeket, mert az agy működését is konnekcionista modellekkel szokás leírni, inófsoknak neurális hálók, hipstereknek deep learning néven lehet ez ismerős. Minket most ez csupán annyira érdekel, hogy a szavak más szavakkal járnak, ez pedig remek alkalom arra, hogy felrajzoljunk egy gráfot, melynek csomópontjai maguk a szavak, az élek pedig az egymást követő előfordulásokat reprezentálják (ezeket a gyakorisággal súlyozhatjuk).   A TextRank algoritmus a PageRank-hez hasonlóan arra épít, hogy bizonyos szavaknak nagyobb a "népszerűsége", több szóval fordulnak elő együtt és ez alapján rangsorolhatjuk őket. Így egy remek módszer kerül a kezünkbe, mely segítségével egy adott szöveghez kulcsszavakat rendelhetünk, de azt is megnézhetjük, mely mondatok tartalmazzák a leginkább centrális szavakat s ezen mondatok nagy valószínűséggel jól összefoglalják a szöveget. A hivatkozott tanulmány nagy szépen leírja az algoritmust és egy kis guglizással mindenki megtalálhatja implementálását kedvenc nyelvén (ha csak nem valami egzotikus nyelven szeret kódolni), ezért nézzük milyen eredményeket várhatunk a TextRank-től!   Amikor a TextRank nem olyan jó Kedvenc ismeretterjesztő oldalunkról, a nyest.hu-ról a Léghajóról a finnugorok című cikket vizsgáltuk. Ennek szógráfját Gephi-ben is megjelenítettük vizualizációt kedvelő olvasók miatt. Ezt kaptuk: Kulcsszavaink nem a legjobbak: jegyeinekSziktivkar Jakutszkbudapesti finnugormonstrumolimpiaiSzamojlovicsot SzamojlovicsinternetenPetrozavodszknyugalmazottlovagrend mamelukot Ahogy látszik, nem vetettünk be semmilyen nlp-trükköt, nincs szótövezés, normalizálás és egyéb bevett megoldás. Ennek oka naivitásunk; reménykedtünk hogy ezek nélkül is kaphatunk jó eredményt. A cikk összefoglalója már valamivel jobb, de nem az igazi.   Tallinn ‒ a Graf Zeppelin és a Niguliste kirik (Miklós-templom) (Forrás: www.netikka.net) A Graf Zeppelin Tallinn és Helsinki fölött Az LZ 127-es 1930 őszén körbejárta a Baltikumot és Skandináviát.A Graf Zeppelin építése Friedrichshafenban (Forrás: www.airships.net) 1928-ban készült el az LZ 127 jelű léghajó, a Graf Zeppelin .A Graf Zeppelin utaskabinjának alaprajza (Forrás: www.airships.net) A Graf Zeppelin Budapesten 1929 őszén az LZ 127-es a Balkánra indult.A Graf Zeppelin 1931 szeptemberében, északi felfedező útja során is átlebegett Tallinn és Helsinki egén.A Parlament fölött (Forrás: www.fortepan.hu) A Graf Zeppelin világkörüli útja 1929 augusztusában az amerikai Lakehurstből indulva az LZ 127-es körbelebegte a világot. Van remény! Az index.hu A láthatatlan sejk, akitől retteg a világ című írását a TextRank sokkal jobban elemzi. Kezdjük a szógráffal! A kulcsszavak már jobbak, de még nem az igaziak (nem fogjuk megúszni az nlp-magic bevetését...). mindenkinyugaton csoportokkalelfoglalt elfoglaltmuszlimokatmuszlimokmuszlimoknak harcosokatkeresztre amerikaiakegyiptomihadseregbeduinok Az összefoglaló is egész tűrhető: Az al-Kaida vezetője, az egyiptomi származású, eredetileg szemsebész Ajman al-Zavahiri azt várta volna al-Bagdaditól, hogy maradjon ki a szír konfliktusból, és csak Irakban tevékenykedjen, de Bagdadi dacolt állítólagos főnökével, így a szervezetét engedetlensége miatt végül ki is zárták az al-Kaidából februárban.Iszlám Gigaállam: az előző részek tartalmából Az Abu Bakr al-Bagdadi-vezette dzsihádista ISIS (Iraki és Levantei Iszlám Állam, újabban egyszerűen Iszlám Állam) önálló iszlám kalifátus létrehozását jelentette be Irak és Szíria területén, a szíriai Aleppo és az iraki Dijála kormányzóság közötti területen, ami egyébként kétszer akkora, mint Izrael.De még ha össze is omlana az iraki vezetés, esélytelen, hogy az ország síita többsége elfogadja, hogy egy dzsihádista állam kikiáltotta magát az ország északi részén.A kalifátus kikiáltásának egyértelmű az üzenete: al-Bagdadi Mohamed próféta utódjának és ezáltal az iszlám világ egyetemes vezetőjének tartja magát, akit minden muszlimnak kötelessége követni.Ajman al-Zavahiri Bagdadi nem csak kegyetlenségéről és radikalizmusáról ismert: nagyon jó szervezőnek és stratégának tartják, fiatalsága révén is imponál sok fiatal dzsihádistának, akik az óvatos és kevéssé karizmatikus al-Zavahirit túl öregnek tartják, és akár még kamaszok sem voltak a szeptember 11-ei merénylet idején.   Ez van! A TextRank mint nem-felügyelt módszer a kivonatolás során meglepően jól teljesít! Még akkor is elfogadható kivonatokat készít, ha nem vetjük be az nlp fegyvertárat. Ugyanakkor a kulcsszavazás során nagyon rossz eredményeket kaptunk, ezért már az első körben a TextRank paper-t követve szűrtünk főnevekre és melléknevekre - és még ekkor sem muzsikált szépen az eljárás. A a hatékonyságot nagyban növeli a szótövezés bevetése, de használhatósága így is korlátozott marad a kinyert kulcsszavaknak.   Érdekes, hogy a TextRank - a pár magyar példán bevetve - is azt mutatja, a szavak és a mondatok önmagukban csak dolgok, egymáshoz való viszonyaikban léteznek. Sajnos úgy viszonyulnak össze-vissza a különböző szintek, hogy csak nehezen tudjuk őket megérteni és algoritmikusan kezelni....


2014. július 2. 13:27

Good Math - logika, számításelmélet és matek érdekesen tálalva

Mik is azok a számok, mi az a Turing-gép, milyen problémákat tudunk számítógépek segítségével eldönteni? Megannyi nehéz kérdés, melyekre egy rövid könyvben találjuk meg a válaszokat. Mielőtt azt hinné valaki, hogy ez bizony nehéz olvasmány lesz, megnyugtatunk mindenkit; józan paraszti észnél több nem kell ahhoz, hogy ezen problémákon elgondolkodjunk a Good Math, A Geek's Guide to the Beauty of Numbers, Logic, and Computation segítségével. Akit szimplán csak érdekel a számítástudomány és a matematika kapcsolata, az nem fog csalódni! Mark Chu-Carrol Good Math, Bad Math blogjának olvasói azonban tudják, a szerző szereti kódokkal is megtámogatni mondandóját, s a kötetben sincs ez másképp. Nincs minden fejezetben kód, sőt, alig-alig akad benne ilyen, de ahol van, ott nagyon jól illeszkedik a tartalomhoz. Persze azok akik nem szeretnek, vagy nem tudnak programozni nyugodtan átugorhatják azt a néhány kódolós részt, nem veszítenek semmit. És ez a legjobb a kötetben! Egyrészt olvasható úgyis, mint egy ismeretterjesztő könyv. Másrészt egy amolyan útmutató a manapság divatos témák között, típuselmélet, lambda kalkulus, Turing-gépek, véges állapotú automaták és a bestiárium összes alakja felsorakozik benne, de egyáltalán nem rémisztő alakban. Az egyes fejezetek alig pár oldalasak, könnyen olvashatóak, azonban mint minden matek/technikai könyv esetében illik időt szánni a felvetett problémák megemésztésére.   A funkcionális nyelvek iránt érdeklődőknek ez a könyv kötelező darab, mindenki másnak pedig remek szórakozást jelenthet eltölteni vele pár órát. Egyedül a Kindle verzióval van problémám, ami nem barátja a matematikai képleteknek, kódrészleteknek és a nagyobb ábráknak. Ajánlott az elektronikus verziót közvetlenül a kiadótól megvásárolni, mivel nem kérnek külön pénzt a különböző formátumokért.


2014. július 2. 13:00

Sikeres előrejelzés a jobmonitor.hu keresési adataival

Egy korábbi posztban beszámoltunk róla, hogy a munkanélküliség jelenbecslésével kísérletezgetünk a jobmonitor.hu álláskereső oldal adataival kiegészített modellekkel. Ezúttal már "élesben" teszteltük a 2014. február-áprilisi időszakra, méghozzá nem kis sikerrel. A Központi Statisztikai Hivatal május 29-én közölte a 2014. február-áprilisi adatokat, mely szerint hazánkban a munkanélküliek száma tovább csökkent 360 500 főre. Ez mind az előző havi (369 700 fő), mind az előző évi adathoz (476 200 fő) képest csökkenést jelent. A legutóbbi poszt óta tovább finomítottuk a modelleket figyelembe véve, hogy az álláskereső tevékenység megelőzi a munkába állást. Többféle modellt kipróbáltunk, melyek közül kettő bizonyult statisztikailag szignifikánsnak a vizsgált időszak alatt. A két modell a munkanélküliség adott 3 hónapra eső számát közelíti egyrészt a munkanélküliek előző időszakban mért számával, másrészt az előző időszak utolsó, illetve az adott időszak első hetében történt jobmonitoros keresésekkel. A jobmonitor keresési adatokkal kiegészített modelleken kívül másféle módszereket is bevetettünk a munkanélküliek február-áprilisi átlagos számának előrejelzésére, melyek összehasonlítási alapul szolgáltak a jobmonitor modellek eredményességének ellenőrzéséhez. Az utóbbi időszakban a Holt-féle simítás tűnt az általunk kipróbált módszerek közül a legsikeresebbnek a jelenség közelítésében és előrejelzésében. Ez nem meglepő, hiszen 2013 januárjától a munkanélküliség szezonális mozgása megszűnt és folyamatosan csökkent a munkanélküliek száma. Azonban nem maradtak el sokkal a jobmonitor adatokkal kibővített modelljeink se, melyek a legutóbbi február-áprilisi időszakra még a Holt-féle simításnál is sikeresebb becslést adtak. Az előző időszak utolsó hetével becslő modell 1192 főt, az adott időszak első hetével becslő modell pedig csupán 831 főt tévedett. Ennél a többi módszer (Holt-féle simítás, egyszeres exponenciális simítás, megfelelő ARIMA modell, más beágyazott modellek) előrejelzései mind többel lőttek félre február-áprilisra. A becsléseket visszanézve (2013. augusztus - 2014. április) a jobmonitor modellek és a Holt-simítás nagyjából egyenlő hibával jelezték előre a munkanélküliek számát. Az átlagos abszolút eltérése mindegyiknek 7000 fő körül mozog, tehát körülbelül ennyivel tértek el átlagosan a tényleges értéktől ebben az időszakban, valamint az átlagos négyzetes eltérésük is nagyjából egyenlőnek bizonyult. A nagy kérdés azonban, hogy meddig csökkenhet még tovább a munkanélküliek száma. Ugyanis ha ez bekövetkezik, a Holt-féle simítás felmondja a szolgálatot és a jobmonitor.hu keresési adataival beágyazott modellektől megbízhatóbb előrejelzéseket várhatunk majd.


2014. június 29. 17:31

NLP matiné slideok

A héten zártuk a meetup szezont, szeptemberig most elvonulunk pihenni. Addig pedig itt vannak az NLP matiné slideok, tessék szépen átnézni ezeket, sok cégnél akad nyitott pozíció!!!!!   Gravity R&D Zrt.  Meltwater   Precognox   MTA-PPKE Magyar Nyelvtechnológiai Kutatócsoport    Neticle    Radoop (RapidMiner)  


2014. június 23. 8:00

Quixey - kereső a mobil-kornak

Lassan három éve, hogy beszámoltunk a Quixey appkeresőjéről, azóta a cég terméke szépen kiforrott és úgy tűnik új utakat keres magának a lelkes csapat. A Technology Reiew cikke szerint a cél immáron a mobilok uralta net kereshetővé tétele. Ja, hogy erre ott a Google? Nem feltétlenül! Van mit keresni még ezen a piacon!   Ma már mindenre van app, a Quixey pont egy olyan app ami a több között segít keresni. A mobil net apposodásának köszönhetően azonban az információ silósodik, egyedi alkalmazásokban tárolódnak el információk és amikor keresni akarunk, lehet hogy ezek egyvelege jelentené a megoldást. Mi van ha keresünk egy kellemes könyvesboltot, jó kávézóval a közelben? A GoogleMaps biztos tud ajánlani egyet (ha kellően nagy városban vagyunk), de milyen jó lenne tudni, hogy barátaink mit gondolnak az adott helyről! Böngésszük végig a Twitter-t és a Facebook-ot egyaránt érte? Elmentettünk egy cikket a helyi könyvesboltokról kedvenc lapunk appjában, ez rémlik, de azóta még ezer meg egy cikket megjelöltünk, hogyan hívjuk elő? Az appkeresésben szerzett tapasztalatára építve itt szeretne a Quixey belépni a képbe. Sajnos nem olyan egyszerű hozzáférni az appokban tárolt információkhoz, ezért a Quixey fejlesztői szeretnék, ha az appok írói ún. deep linkek segítségével elérhetővé tennék számukra ezeket. Ehhez innét kívánunk sok szerencsét, látva, hogy a szemantikus web fantasztikus ötlete 15 éve nem terjedt el, pedig az is csak pár kód beszúrását kéri a fejlesztőktől. A nehézségek ellenére annyi biztos, hogy remekül azonosítottak a fejlesztők egy problémát és mindenki (legalábbis a felhasználóknak biztosan) érdeke, hogy a web továbbra is kereshető maradjon - a mobilok korában pedig az apposodás ennek lehet akadálya, de akár támogatója is.


2014. június 18. 14:43

Rapháború II.

Miről beszélnek a rapháború hősei? Sorozatunk első részéből kiderült, a lexikai diverzitásnak a népszerűséghez nem sok köze van, az átlagosat szeretik a népek. Egy kis kitérőt tettünk nagy kedvencünk Mr. Busta munkásságának elemzésével a szövegek vizualizációja felé, amikor rájöttünk, valahogy a szövegek tartalmát fel kellene fedezni és eltöprengtünk azon, hogyan haladjon tovább projektünk. Valami ilyesmire jutottunk, részletek a videó után.   Vizsgálódásaink során arra jutottunk hogy három irányban érdemes nézelődni: mennyire tér el a hétköznapi nyelvtől (vagy éppen mennyire közelíti) egy előadó szövegvilága milyen emóciók jelennek meg a szövegekben milyen témák népszerűek Az első kérdést Har politikai beszédeket elemző vizsgálatai nyomán merült fel, melyek kimutatták, hogy a magas ún. commonality tone-t (átlagos, hétköznapi beszédstílus) használó politikusok üzenetei sikeresebben érnek célba. Mi is azt találtuk, hogy az átlagos entrópiájú szövegek népszerűek, ezért érdemes lenne megvizsgálni ezek mennyiben térnek el az átlagos nyelvhasználattól (vagy éppen követik azt).   Gyanítjuk, hogy a kedvelt számok általában vidám, bulizós témákkal foglalkoznak. Ezért egyrészt LDA módszerrel vizsgáljuk milyen topikokba tartoznak ezek. A vizsgálatok egy későbbi fázisában szeretnénk megvizsgálni milyen emóciók jelennek meg az egyes szövegekben.   Munkának megkönnyítendő R-ben készítettünk egy kis alkalmazás, ami segít felfedezni az egyes topikokat, erről készült a fenti videó. Pár perc alatt elkészítheti mindenki a maga kis alkalmazását a mallet és az LDAtools csomagokkal, érdemes kipróbálni mit tudnak!


2014. június 16. 8:00

swirl - interaktív környezet a statisztika és az R elsajátításához

A John Hopkins University Biostatistics Department kutatói és oktatói nagyon komolyan veszik hivatásukat. Ők indították a Simply Statistics blogot, majd a Coursera keretein belül indítottak R kurzusokat és mostanra egy egész "Specialization track" is elvégezhető a manapság divatos data science néven ezekből. De ez mind nem elég, megalkottak egy olyan csomagot is ami interaktív módon oktatja az R-t és a statisztikát. És igen, a swirl egy R-t oktató csomag az R nyelvhez. A swirl az ún. koan hagyományt követi. A koan eredetileg amolyan kérdezz-felelek a zen hagyományban, a programozóknál meg egy nyelv gyakorláson keresztüli elsajátításához létrehozott strukturált feladatok sorát jelenti. A swirl megalkotó a koanokat tovább is gondolták, hiszen nem mindenki úgy lép be a R és a statisztika világába, hogy már mindent tud a második naptól. Kis 10-20 perc alatt feldolgozható interaktív feladatokkal lehet dolgozni, melyek nem igényelnek különösebb előképzettséget. Ellenben nem árt, ha legalább annyira járatosak vagyunk a számítógépek világába, hogy az R nyelvet és a RStudio IDE-t telepíteni tudjuk gépünkre. Ha ez megvan, akkor indulhat a móka, amit az alábbi videó szemléltet.   Nem állítom, hogy valaki R programozó vagy éppen data scientist lesz a swirl feladatainak elvégzésétől. Annyi azonban biztos, hogy megtanulja használni és értékelni a read-eval-print loop nyújtotta előnyöket, nem fog félni a szkriptek megírásától és tudni fogja mi az az IDE . Nem rossz ez azért, ha figyelembe vesszük, a swirl egy open source projekt! Meg kell jegyezni, hogy a swirl csak egy éves a kezdeményezés, nem csodálkozunk azon hogy még nem teljesen kiforrottak a feladatok és témakörök. Szerencsére egyre többen készítenek swirl tananyagokat, ami nagyon fontos a projekt jövőjére nézve. A lényeg: nincs mentség, R-t és statisztikát tanulni ingyen is lehet!


2014. június 13. 9:07

Nine Algorithms That Changed the Future - közérthetően elmagyarázva

Mindennapjainkat a számítógépek között éljük; okostelefonon intézzük ügyeinket, laptopon dolgozunk, táblagéppel szórakozunk, ha veszünk egy sört, a pénztárgép rögtön küldi tovább az adatokat a NAV-nak. Teljesen természetesnek vesszük, hogy működnek a dolgok, sokan bele sem gondolnak abba, milyen elméleti és technológiai innováció szükségeltetik a modern hétköznapok működtetéséhez. John MacCormic könyve a legalapvetőbb és ránk legnagyobb hatást gyakorló algoritmusokat mutatja be, mégpedig közérthető formában.  Ideális nyári olvasmány mindenkinek! A kötet címe kicsit félrevezető, nem csak klasszikus értelemben vett algoritmusokról olvashatunk ugyanis a könyvben, főleg nem kilencről. Az internetes keresőkről - pontosabban ez a Google és a híres PageRank működése lenne - két fejezet is szól, a másodikban matching és ranking kérdéseit mutatja be a szerző, a harmadikban pedig a PageRank-et. A negyedik fejezet a publikus kulccsal történő titkosítás rejtelmeibe vezeti be az olvasót és megtudhatjuk miképp fizethetünk biztonságosan online. Az ötödik fejezet a hibajavító kódolást mutatja be, szubjektív véleményünk szerint ez sikerült a leggyengébbre. A hatodik fejezet a mintázatfelismerés, menőbb nevén a gépi tanulás, mégmenőbben a data science három legfontosabb algoritmusát mutatja be, a nearest neighbor, a döntési fák és a neurális hálók alapjait. A hetedik fejezet a tömörítés kérdésével foglalkozik és megtudhatjuk, hogy olyan helyeken is használják, ahol nem is gondoljuk, továbbá kiderül hogy a hatalmas online tárhelyet kínáló alkalmazások előszeretettel élnek ezen algoritmusokkal. A nyolcadik fejezet a modern relációs adatbázisokat mutatja be, az azt követő pedig a digitális aláírással foglalkozik.    A kötetből kilóg két fejezet. Az első tulajdonképpen egy felesleges magyarázkodás a cím miatt és a választott témák megindoklása. Az utolsó, tizedik fejezet kitekintés lenne az algoritmusok és a számítástudomány mélyebb összefüggéseire, de kicsit suta. Mindezek ellenére a könyvet csak ajánlani tudjuk minden érdeklődő laikusnak és szakiknak is!


2014. június 9. 15:36

Pepper, az érzelmes robot

A szentiment- és emócióelemzés sikere részben annak is köszönhető, hogy egyre inkább belátjuk, az ember nem csak egy racionális lény. A viselkedésökonómia talán a legnépszerűbb terület, ami szereti ezt kihangsúlyozni, de az affective computing irányzat szerint is kulcsfontosságú az ember-gép kommunikációban az érzelmek felismerése és megfelelő kezelése. A francia Aldebaran Robotics Pepper nevű robotja nem más, mint egy "társas robot", ami képes alkalmazkodni a vele interakcióba lépő emberek érzelmi állapotához - tehát nem porszívóz, főz, mos vagy takarít helyettük, csak társalog!   Pepper 1.2m magas és mindössze 28 kg. Képes gesztikulálni és szemkontaktust is tud tartani beszélgetőpartnerével! Hogy mire való igazából, az nem derül ki - elvileg öregeknek ajánlják magányosság ellen és üzletekbe információs segítőnek. Mivel a cég hamarosan megnyitja a platform API-ját a külső fejlesztők előtt is, várhatóan sok hasznos és teljesen agyatlan alkalmazás is meg fog jelenni rá.  Pepper 1900 USD árával a Lego Mindstorms vagy a Sony Aibo hobbi robotoknál drágább, de még éppen elérhető, s ezért megjelenése bizonyára segíteni fog a robotika elfogadásában. Azonban kérdéses, hogy tényleg kell-e nekünk egy robot ami csak társalogni képes...


2014. június 5. 8:00

A társalgás pszichológiája - pragmatika mindenkinek!

Bizonyára mindenki volt már mérges a számítógépére, mobiljára, mert az nem "értette meg" mit is akar a kedves tulajdonosa tőle. A lelke mélyén mindenki imád különböző felhasználói felületeket kritizálni és nevetni a beszédfelismerők és természetes nyelvi keresők hiányosságain. Legalább ennyire érdekes, hogy miért van az, hogy megértjük egymást bizonyos emberekkel, másokkal meg nem. Mivel az ember-gép kommunikáció során az emberek közötti kommunikáció során szerzett tapasztalatainkra támaszkodunk, nem árt ezt a területet jobban megismerni! Pléh Csaba A társalgás pszichológiája című könyve mindenki számára élvezetes bevezetést nyújt a kommunikáció világába és segít ezen kérdéseket egy kicsit jobban megérteni. Ahogy az alábbi videóban maga a mester is elmondja, a kötet mindenkinek ajánlható - és jelen esetben a marketinges szövegnek igaza is van! Maga könyv érdemi része úgy 370 oldal, ellenben kicsi, tehát jól hordozható. A stílusa valahol a tankönyvek és az ismeretterjesztők között van, sok ábrával és - ami szerintem a legjobb - sok ötlettel saját kutatási projektekhez. Habár az epilógusban oldalakon keresztül sorolja a szerző mi minden maradt ki a kötetből, témában nincs hiány! A nyelvfilozófiai kezdetektől az udvariasságon át a társalgás klinikumáig rengeteg izgalmas témával találkozhat az olvasó. Kifejezettem ajánlom azoknak, akik még soha nem foglalkoztak nyelvészettel, pragmatikával, pszichológiával, vagy éppen filozófiával, mivel mindenből pont annyi tartalmaz a könyv, ami segít megérteni és tovább is gondolni a felvetett problémákat. Az ember-gép kommunikáció iránt érdeklődőknek alap kell hogy legyen a mű, mivel a kommunikációt segít kontextusba helyezni és megérteni a felhasználók igényeit. A nyelvtechnológia szerelmeseinek inkább egy megoldásra váró problémahalmazt tartalmaz és a jelenlegi technológiák korlátaira hívja fel a figyelmüket olvasás közben. A lényeg, hogy itt a nyár és egy hosszú hétvégére a legjobb program A társalgás pszichológiájának elolvasása!


2014. június 4. 8:00

NLP matiné - mutasd meg magad!

Június 25-én zárjuk az évadot az NLP matinével. A szokásos meetupoktól eltérően most nem egy-egy érdekes projektet mutatnak be az előadók, hanem cégek és intézmények mutatkoznak be öt percben a nagyérdeműnek. Továbbra is várjuk a jelentkezőket a zoltan.varju(kukac)precognox.com címre! A rendezvény ingyenes! Arra kérünk mindenkit, részvételi szándékát jelezze az esemény oldalán. A program szervezés alatt, eddig a következő előadók jelezték részvételüket: Radoop Meltwater Precognox MTA-PPKE Magyar Nyelvtechnológiai Kutatócsoport   


2014. június 3. 8:00

A Bletchley Park titkos élete - minden geek kötelező nyári olvasmánya

Alan Turing ma már nem csak a számítástudomány, de az adattudomány atyja is egyben, hiszen az első fizikai formában is megvalósult számítógépek a német Engima kódok feltörésére lettek megalkotva. Turingon kívül természetesen még sok ezer ember dolgozott a rejtjelek megfejtésén, Sinclair McKay könyve, A Bletchley Park titkos élete, minden technikai részletet mellőzve mutatja be Bletchley Park, a kódfejtők központjának történetét és mindennapjait.  Mindenki ámuldozik a Google, vagy hogy hazai példát mondjunk a Prezi laza hangulatú irodáin. A kötetből azonban kiderül, hogy ha összeeresztünk több ezer okos embert, adunk nekik egy komoly feladatot (a szabad világ megmentése egész nagy dolognak hangzik), akkor nem tehetünk mást, mint hagyjuk őket dolgozni. Nagyon úgy tűnik, hogy Bletchley Parkban fittyet hánytak a katonai szabályzatokra, de mégis a work hard, play hard elvet érvényesítették. A veteránok mind úgy emlékeznek vissza a háborús évekre, mint ha a legjobb magániskolába kerültek volna, ahol komoly tudósokkal dolgoztak le egy műszakot, majd belevetették magukat a különféle klubok életébe (tánc, kórus, zenekar, stb). Persze a kemény munka mellett volt intrika, szerelem és a politika is beleszólt az életükbe.   McKay nagyon élvezetes stílusban mutatja be a park történetét és állít emléket az ott dolgozóknak. Persze senki ne várjon mély magyarázatokat! A kötet nem megy bele technikai részletekbe és a háborús eseményekkel is csak annyira foglalkozik, amennyire azok befolyásolták a park életét. Szóval igazi könnyed ismeretterjesztésre készüljön fel, aki elolvassa a könyvet! Nyárra a legjobb választás minden geek számára!


2014. május 29. 13:24

NLP meetup slideok

A tegnapi meetup előadásainak diát közkívánatra közöljük. Nagyon köszönjük mindenkinek a részvételt! Igazi hősök vagytok, hogy kibírtatok másfél órát a pici tárgyalóban amit kaptunk! Balogh Kitti (Precognox): A munkanélküliség jelenbecslése Kovács-Ördög Zita (Clementine Consulting): Digitális testbeszéd Petykó Márton (MTA NyI - ELTE): Milyenek a trollok


2014. május 27. 15:57

Mutatjuk a fukkot!

Mr. Busta művészete Petra grannatikon megjelent írásának köszönhetően vált ismerté számomra. A 444 Rapháború sorozata óta tudom, a nagyszerű művész egyben jeles ember is, akit nem könnyű megérteni. Mivel életműve fiatal kora ellenére már most hatalmas, kiválasztottam az előadó Mindenre kész vagyok című albumát, s ezek szövegeit elemeztem.   Habár nagyon nem szeretem a szófelhőket, nem tudtam kihagyni hogy készítsek egyet a szövegekből. Ezen látszik milyen szavakat szeret használni Mr. Busta, ami önmagában sokat elárul mondandójáról.  Láthatjuk, a művész szabadon szárnyal, ki mer mondani olyan szavakat, melyeket mások még egyedül is csak félve ejtenek ki a szájukon. De tudjuk, ez nem lehet öncélú káromkodás! Identifying the Pathways for Meaning Circulation using Text Network Analysis c. tanulmányban leírnak egy érdekes módszer, hogy azonosítsunk egymáshoz kapcsolódó szavakat. Dióhéjban; négy szónyi távolságon belül megszámoljuk a közös előfordulások gyakoriságát, majd erre alapozva készítünk egy gráfot és mehet az egész a Gephi-be, ami ilyen szép gráfot adott nekem: Az ábrán minél nagyobb egy szó, annál több szóval van kapcsolatban. Itt most mellőzném a szitokszavakat, vagy a "tud" és a "lát" központi helyét. Figyeljünk inkább arra, mennyire romantikus a szerző, hiszen a női testrészek a "lélek" és a "szép" gyönyörű hálózatot alkotnak a gráf felső részének közepén. Köszönhető ez részben olyan csodás számoknak, mint a Csajozós 1, 2, 3, 4, 5 és 6.   De rugaszkodjunk el a szómágiától. Az LDA segítségével nézzük milyen topikok foglalkoztatják Mr. Busta alkotó energiáit. Öt topikba soroltuk az album számait, ezek közül csak kettőt mutatunk be, mivel blogunk nem korhatáros. A hármas topik a "zűrös fiúk és a rap" cimkével irható le leginkább:       words    weights 1    csibész 0.04914550 2        lát 0.03586652 3  gengszter 0.02789913 4      igazi 0.01860385 5     szeret 0.01594805 6      ember 0.01329226 7       róla 0.01329226 8      kutya 0.01329226 9       mond 0.01329226 10    gyerek 0.01196436   A négyes számú topik láthatóan a zenélés és a pénz kapcsolatáról szól:    words    weights 1    pénz 0.03494886 2     jön 0.02892527 3     idő 0.02290168 4     fog 0.02169697 5  hogyha 0.02049225 6     ért 0.02049225 7   minek 0.01928753 8     rap 0.01808281 9    rapp 0.01687809 10   szem 0.01567338 A többi topik top 10 szava, a topikok eloszlása az egyes topikok között és a dokumentum id-k feloldása megtalálható ebben a Google doksiban (szigorúan csak 18 éven felülieknek!). Van ezekben rendszer! Ha a hierarchikus klaszterezés bevetjük, látszik is rögtön!   Látható, Mr. Busta az automatikus tartalomelemzés próbáját is kiállja, maradunk hű rajongói továbbra is!!!


2014. május 24. 17:05

Elindult az r-projekt.hu

Végre van már oldala a magyar R közösségnek is! Az r-projekt.hu oldalon mindent megtalálhatnak a magyar felhasználók. A Q&A oldalt tartom a legfontosabbnak, hiszen egy kezdőnek (de sokszor profiknak is) jelentős könnyebbség, ha anyanyelvén beszélheti meg problémáit a többiekkel. Emellett sok segédanyag található az oldalon és magyar nyelven írott R-rel kapcsolatos írások is gyűjtik a szerkesztők. Természetesen az r-projekt.hu mögött is az Easysats, a Rapporter fejlesztői és a hazai R meetup, a BURN szervezői állnak - köszönjük srácok hogy ennyi mindent megtesztek a hazai R közösségért!!!


2014. május 23. 19:13

Rapháború I.

“Minket egy ami vezérel, hogy egyező hévvel legyünk egy a nyelvészettel, nem számít ki mit érvel." De miért éppen a magyar rap? Gyakornokaink a kibontakozó nagy magyar rapháborút igyekeznek eldönteni!   A zeneszövegek alapvetően az írott szöveg kategóriába sorolhatóak, akár a versek vagy az újságcikkek. A rapzenét az teszi különlegessé (egy nyelvész számára legalábbis), hogy rendelkezik élőbeszédbeli sajátosságokkal és sokkal spontánabb tud lenni. Az első feladat a korpuszépítés volt, ami a zeneszoveg.hu oldalról történt. Tizennégy előadó (A.K.E.Z.D.E.T.P.H.I.A.I., Animal Cannibals, Anonim Mc, Beerseewalk, Belga, Dopeman, Essem, Fankadeli, Fluor, Halott Pénz, Hősök, Mr. Busta, Punnany Massif, Wanted Razo) tíz-tíz darab dalszövegét vizsgáltuk. A négy fő mutató a lexikai diverzitás, az entrópia, a youtube nézettség és az előadó facebookos rajongói oldalának száma volt. Eközött a két-két dolog között szerettünk volna kapcsolatot találni a kutatás során. Ezen felül szerettünk volna találni egy olyan tényezőt, aminek segítségével megjósolható az adott dal népszerűsége.A lexikai diverzitás egy mérőszám, ami az adott szöveg választékosságát jellemzi, azaz a kutya lehet eb, blöki és házőrző megnevezésű is. Annál szofisztikáltabb a szöveg, minél nagyobb ez a mérőszám 1 és 0 között. Támpontot jelenthet a megértésben a szépirodalom és az online cikkek is, így a rapszövegek mellé József Attila 10 versét is leelemeztük és 0.54-es, az index.hu-s cikkek elemzése pedig 0.46-os eredményt adott.   Feltételezésünk az volt, hogy a választékosság több embert vonz, de ez a sejtésünk nem igazolódott be. Fluor tartja toronymagasan a nézettségi rekordokat a csoportban, ettől függetlenül a középmezőnyben helyezkedik el a lexikai diverzitás versenyében. Ugyanilyen szakadék húzódik ellenben az A.K.K.E.Z.D.E.T.P.H.I.A.I. és Belga illetve az összes többi versenyző között. Nem is volt várható más, hiszen Závada Péter (Újonc) és Süveg Márk (Saiid) szövegei teljesen megállnák a helyüket versként is, mindenféle zenei aláfestés nélkül. A Belga igen sajátos szövegei pedig egyszerűen abszurdak és néha kevés kohéziót mutatnak (pl.: “puputeve hozzád képest reggeli/ szólj anyádnak, a csigavért köpjed ki"), ettől függetlenül lexikailag kifinomultak a dalszövegeik.   Az entrópia egy rendszer rendezetlenségi fokát jellemzi, ezt szintén össze lehet vetni a lexikai diverzitással, az eredmények a következőek lettek:    A lexikai diverzitás tengelyén nem lett változás, viszont jól látszik hogy a most is élvonalban lévő előadók mögé felzárkózott az Animal Cannibals is. A szavak gyakoriságát szófelhők segítségével szemléltetjük, az adatok itt érhetőek el. Természetesen az elemzés előtt stopszavakat gyűjtöttünk, ilyen volt az igen gyakran előforduló ha, de a hogy, úgy és a miért is ezek közé tartozott. A stopszavak nem releváns adatok, így azok nyugodtan kiszűrhetőek voltak az elemzésből.     A kapott adatok ebben az elemzésben nem mutattak kapcsolatot a megjósolhatósággal, így nem lehet kijelenteni, hogy a rapszövegek szofisztikáltsága az, ami mérvadó a közönségnél. Tehát sem a facebook oldal kedveléseinek száma, sem a youtube-os nézettség nem jósolható meg előre a szövegek minőségét tekintve. Így további elemzésekre lesz szükség, mind nyelvi, mind szociológiai szempontból. A projektben közreműködött Balogh Kitti, Szabó Martina és Papp Petra Anna. Adatok (Google Spreadsheet) Facebook oldalunkon vizsgált előadók dalaiból készitett szófelhőket és pár érdekes grafikont is találhatsz. // Post by Kereső Világ.    


2014. május 21. 8:00

A karakterkódolás problematikája és a Unicode

Karakterkódolási rendszer az az informatikában amikor a számok, betűk és más hasonló adatok megjelenítése, aminek az alapja az, hogy minden karakterhez egy-egy egyedi szám van hozzárendelve. Hasonlóan a Morzekódhoz, ahol a távbillenytű hosszú vagy rövid lenyomásának kombinációi határoztak meg egy karaktert. Ez a fajta kódrendszer a latin ábécé betűit és az arab számokat tartalmazta. Az 1963-as fejlesztésű ASCII 7 bites rendszerrel rendelkezett, ám ezek egy idő után beteltek és nem tudtak az új szimbólumokhoz egyedi számsorozatot rendelni, ez pedig szükséges lett volna a Kelet Ázsiai nyelvek írásszimbólumainak implementálásához. Tehát jól látszik, hogy egy-egy ilyen kódrendszer hibája lehet az, hogy a sokféle szimbólumoknak (például: cirill, héber, kínai, japán, koreai írásjelek) csak egy csoportját képes reprezentálni. Ehhez közel álló probléma a latin ábécé betűivel író, de írásban az 'ss' hangjának leírásához használatos ligatúrát, a scharfes s-t (ß) használó német nyelv esete, ahol ezt a szimbólumot csak a Unicode nevű karakterkódolás tudja kezelni.     Néhány kínai és indiai nyelv írásbeli sajátosságai szintén problémát jelentenek a karakterkódolással foglalkozó informatikusok számára. Jelölhet hangsúlyt vagy magasabb illetve mélyebb hangon való kiejtést is, egy adott betű mellékjele. De hasonló problémát jelent a csak konszonánsokat (mássalhangzókat) író arab és héber nyelvek is, ahol magánhangzókat, ezzel együtt az adott szó jelentését is, a kontextus határozza meg, így egy szimbólumsornak akár egymástól eltérő jelentései és kiejtései is lehetnek más-más kontextusokban, amit jelölhetnek mellékjelekkel is akár. Mellékjelből pedig millió fajta lehetséges, ráadásul a karaktereket a mellékjeleikkel együtt teljesen felesleges új számsorral ellátni. A következő problémát a szótagíró nyelvek jelentik, ahol szintén a mellékjelezés az, ami döntő lehet a jelentéssel kapcsolatban, ráadásul ezek a mellékjelek bárhol megjelenhetnek az alapkarakter körül. Az igazi nehézséget mégis a kínai jelenti, hiszen egy karakterben egyszerre reprezentálódik a jelentése és a kiejtése is. A koreai írás pedig egyszerre ötvözi a betű és szótagírást is, azaz egyfajta hibrid az írásfajták közül.  Unicode, a szabványosítás Visszatérve az ASCII-hez, ezeket a sokrétű szimbólumrendszereket már nem tudta befogdani. Ezek után több fajta karakterkódolást is írtak, de ezek is csak egy-egy rendszert tudtak reprezentálni. Az ISO-8859-7 a görög betűkhöz, az ISO-8859-8 pedig a héberhez volt megfelelő. Ezek hátránya az volt, hogy sokszor használtak ugyanahoz a karakterhez több számsort vagy éppen fordítva. A Unicode ezt a problémát küszöbölte ki. Közel 109 ezer karaktert képes reprezentálni, azaz egy nemzetközi szabványt állított fel az egységes karakterkódolással. A szabvány 16 biten tárolt síkokra osztja ezt a közel 109 ezer karaktert, így a legtöbbet használt karaktereink már az első 64 ezres síkban megtalálhatóak, akkora kapacitással rendelkezik.  


2014. május 16. 8:54

Negatív a média?

Korábban már foglalkoztunk azzal, hogy miért nem kérdez pozitívan a média, de most Hírelemző alkalmazásunk segítségével elkezdtük vizsgálni, hogy főbb híroldalakon megjelenő cikkek szentimentje milyen. Arra jutottunk, hogy a hírek esetében is áll, hogy jelentős részük semleges!   Alkalmazásunk 2014 januárja óta gyűjti a cikkeket. A OpinHuBank felhasználásával készített bayesiánus klasszifikációt alkalmazó szentimentelemző minden cikk minden mondatát elemzi, majd a kapott értékek összegét rendeli az egyes írások mellé. Jelenleg az adatokat az alábbiak jellemzik. Ha az összes adatot vizsgáljuk, akkor az alábbi képet kapjuk. Látható, vannak extrémen negatív és pozitív cikkek is, de a többségük a nulla körüli értéket veszi fel. Ha kizárjuk az extremitásokat (amik nagyon kis részét képviselik az adatoknak), akkor sokkal jobban kirajzolódik a trend. Látható, hogy egy kicsit több cikk vesz fel -5 és 0 közötti értéket, mint 0 és +5 közöttit, de a különbség nem eget verő. A sajtó elvileg objektivitásra törekszik, de egyben kritikus is szeretne lenni, ezért az enyhe negativitás természetes.


2014. május 14. 8:00

Az adattudomány sötét titka

Hilary Mason a bitly kutatója az egyik legismertebb data scientist manapság. Rövid előadásában felhívja a figyelmet arra, hogy a manapság nagyon divatos adattudomány nem a semmiből nőtt ki, olyan egzotikus helyeken űzik már évtizedek óta mint az asztrofizika és a pénzügyi modellezés. Chris Anderson víziójával ellentétben Mason úgy gondolja, hogy az adattudomány lényege hogy értelmezzük is mit művelünk, az adatok nem beszélnek magukért. Érdemes 13 percet rászánni az előadásra! Egyrészt kb helyre teszi a data science, big data fogalmakat, másrészt az eszköz fetisizmusra is hat egy kicsit.  


2014. május 12. 8:00

NLP meetup május 28-án: Viselkedünk a neten

Nem kell sokat aludni következő meetupunkig! Május 28-án 18:00-tól várjuk az érdeklődőket a budai Colabs-ben! Meg tudhatjuk mit mond a kognitív nyelvészet az internetes trollokról, hogyan segítenek a Jobmonitor keresési adatai a munkanélküliség előrejelzésében és milyen a digitális testbeszéd. A rendezvény továbbra is ingyenes, de kérünk mindenkit, jelezze részvételi szándékát az esemény oldalán.  Az alábbi előadásokkal várunk mindenkit: Petykó Márton (MTA NYI): Milyenek a trollok? (bővebben l. Márton Az internetes troll mint identitás kialakítása politikai blogok diskurzusaiban c. tanulmányát) Balogh Kitti (Precognox): A munkanélküliség előrejelzése a jobmonitor keresési adataival (bővebben l. korábbi Kereső Világ írásunkat) Clementine Consulting: A digitális testbeszéd (bővebben a Clementine oldalán)


2014. május 7. 8:00

NLP matiné júniusban

Júniusban ismét NLP matinét tartunk! Két évvel ezelőtt volt ilyen, ideje hát megismételni! Várjuk cégek, intézmények, kutatóhelyek és érdekes projektek jelentkezését a zoltan.varju(kukac)precognox.com email címre! Az időpont június 25. A rendezvény továbbra is ingyenes, de arra kérünk mindenkit, regisztráljon az esemény oldalán. Szeretnénk alkalmat biztosítani arra, hogy a hazai kutatóhelyek, oktatási intézmények és az ipar szereplői kötetlen formában megismerhessék egymást. De ha akad egy érdekes projekted, azt is nyugodtan bemutathatod. Mindenki szigorúan öt percet kap arra, hogy elmondja mivel foglalkozik, milyen együttműködési lehetőségek érdeklik, keres-e új munkatársakat stb. Ez az az esemény, ahová nyugodtan hozhattok magatokkal egy raklapnyi marketing anyagot, névjegyet, stb.!!!!! 


2014. május 6. 8:00

Bízzunk a gépekben?

Életünk egyre több területén döntenek a gépek. Algoritmusok, gépi tanulási módszerek hoznak gyors döntéseket, melyek kihatnak életünkre. Kapunk-e hitelt, mennyit biztosítási díjat fizetünk, van-e kóros elváltozás egy szövetmintában, milyen filmeket ajánl nekünk kedvenc on-demand szolgáltatónk? Lassan megemésztjük, hogy a statisztikai módszer nem jár százszázalékos eredménnyel, de legalább amit csinál egy gép, azt csinálja akkor jól és konzisztensen. A gépek hatással vannak ránk, jó lenne tudni bízhatunk-e bennük... Az ún. négyszín-tétel a Wikipedia szerint "azt állítja, hogy egy tetszőleges régiókra osztott síkot, akár egy politikai térképet egy ország megyéiről, ki lehet úgy színezni legfeljebb négy szín felhasználásával, hogy ne legyen két azonos színű szomszédos régió." Amennyire egyszerűnek tűnik a kérdés, annyira nehéz volt bizonyítani! Appel és Haken bizonyítása alaposan felkavarta az elméleti matematika világát, mivel számítógépek végezték a munka jelentős részét. Sőt a bizonyítás korrektségének ellenőrzéséhez is számítógépe szükségeltetik, amiért a matematika filozófiájával foglalkozók közül sokan nem is tekintik igazán bizonyítottnak a tételt, mások szerint ezzel a lépéssel a matematika elmozdult a természettudományok irányába (l. bővebben Tymoczko remek tanulmányát).A lényeg, hogy a bizonyítás majdnem 1500 konfigurációt vizsgál meg, hogy induktív módon "megmutassa" minden esetben elegendő a négy szín a trékép színezéséhez. A gépi tanulás során általában az adatok alapján az algoritmus létrehoz egy absztrakciót, mely segítségével generalizálhat más, még nem látott esetekre. Ahogyan a négyszín-tétel bizonyítása sem fogható fel emberi ésszel, a gépi tanulás lépései is követhetetlenek egy ember számára. Egyik esetben sem arról van szó, hogy nem érthetőek! Formálisan definiált lépésekről van szó, a dolog "logikáját" értjük, csak nem tudjuk mi magunk elvégezni a szükséges lépéseket (különösen nem nagy számban, egymás után, gyorsan). Ahhoz, hogy meggyőződjünk arról, hogy ezen algoritmusok jól működnek, egyrészt formális bizonyítások szükségeltetnek (általában gépi úton végzik ezt is), illetve alaposan tesztelni kell a rendszereket. A tesztelés tkp. a tudományos módszer alkalmazása a fejlesztésben. Karl Popper tette népszerűvé a falszifikáció fogalmát, ami annyit tesz, hogy egy rendes elmélet megadja cáfolhatóságának kritériumait. Egy rendes fejlesztés során nem csak arra ügyelnek, hogy mit kell tudnia egy szoftvernek, meg kell próbálni megcáfolni a működését is. A gépekben is csak annyira bízhatunk, mint a tudományban! Azonban manapság a tudománynál nincs jobban működő, transzparens, saját hibáinak kijavítását szem előtt tartó dolog a világon! A gépek hibázni fognak, kételkedni kell bennünk, ellenben tanulnak hibáikból és fejlődnek!


2014. május 5. 8:00

Nincs rossz reklám...

... csak beszéljenek rólad. Hihetetlennek hangzik, de talán van benne valami. A több csirip, több szavaz elv sokakat megdöbbentett és próbáltak magyarázatot találni arra, hogy amikor működik, akkor miért is működik. Az eddigi legjobb ötlet a pollyanna hipotézis volt, miszerint a pozitív érzelmi töltetű szavak gyakorisága magasabb, ezért a magasabb említésgyakorisággal együtt kell hogy járjon a pozitív polaritás is. A Neticle a választások előtt vizsgálta a magyar webet és meglepő eredményre jutott: a több csirip elv nagyon jól működik, de nincs mögötte a pollyanna jelenség! Ahogy a fenti ábrán is látható, az említésgyakoriság sokkal jobban közelíti a tényleges választási eredményeket. Persze a pozitív említések aránya se kutya, de nézzük a következő ábrát! Ez az ábra a közvéleménykutatók és a Neticle említésgyakoriságon ill. pozitív említéseken alapuló eredményeinek a tényleges választási arányoktól való eltérését mutatja. Látható, hogy a puszta említésgyakoriság közelíti a legjobban  a valós számokat, a pozitív említések ellenben rosszul muzsikáltak!   Látható, maga a more tweets, more votes elv a magyar adatok tükrében megerősítést nyert. Az is igaz, hogy a legmagasabb említést elérő polaritása a leginkább pozitívabb, ellenben a szentiment megoszlása eltér az említésekétől (l. a Kormányváltás és a Jobbik adatait!). A legkézenfekvőbb magyarázat az ún. puszta kitettség (mere exposure) effektus lehet, azaz a magasabb említésgyakoriság ismertebbé, s ezáltal pozitívabbá teszi a szereplőket, de csak bizonyos említésszám felett. Persze ez csak spekuláció a részünkről, kommentben nyugodtan lehet tippeket adni a jelenség magyarázatára!   (Köszönjük Szekeres Péternek, a Neticle vezető kutatójának az ábrákat!)


2014. május 3. 18:40

Nyelvészet mindenkinek 2

Emily M. Bender könyvét bemutató posztunk kapcsán sokan panaszkodtak, hogy a kötet nem éppen könnyen hozzáférhető az átlag magyar közönség számára. Nem kell elkeseredni, van olyan magyar könyv is a piacon, ami minden jobb könyvtárban megtalálható és még a nyelvészet alapjait is megismerheti belőle a kedves olvasó! Szilágy N. Sándor Világunk, a nyelv c. könyvét ajánljuk Bender könyve helyett/mellett mindenkinek! A kötet józan paraszti észnél nem igényel többet. Alapvetően nem tesz mást, mint szépen végigvezeti az olvasót a hagyományos nyelvészeti témákon (de nem a bevett sorrendben, a hangtantó a jelentéstanig, hanem egy kicsit kalandozva). Nem törekszik olyan formalizmusra mint Bender, de ez inkább előnye, mint hátránya. Mivel rövid és olvasmányos, hamar el is lehet olvasni és ha mást nem, annyit mindenképpen tanul az ember belőle hogy a nyelv csodálatos dolog és bizony nem egyszerű megfejteni. Ezzel nem árt tisztában lenni a nyelvtechnológiában is! A szemlélet sokat segíthet a további szakirodalom befogadásában és a felmerülő problémák értelmezése során is - ami pár óra olvasgatást igazán megér. Hajrá!


Az összes hír