Beállítás kezdőlapnak! Hozzáadás a kedvencekhez! Az összes hírt látni akarom!  
Nyitóoldal Autó-motor Blogok Bulvár Életmód, egészség Gazdaság Kultúra, művészet Női témák Politika, közélet Sport Technológia Tudomány Videó
 

Kereső Világ

2014. július 21. 15:26

25 év Tankcsapda dalainak topik eloszlása

Az ún topics over time módszer egy egyszerűsített változatával megnéztük hogyan alakul az lda-val kinyert topikok aránya a Tankcsapda elmúlt 25 évben megjelent stúdióalbumainak szövegeiben. Egy kis webes alkalmazásban elérhetővé is tettük eredményeinket itt. Az egyes topikok eloszlása a dokumentumok között elérhető ebben a táblázatban, a topikokhoz tartozó szavak pedig ebben. Az alkalmazás Eric Rochester Mastering Clojure Data Analysis c. könyvének harmadik fejezete alapján készült, a kód minimális változtatásával. A szövegeket a http://www.zeneszoveg.hu/ oldalról vettük.


2014. július 19. 16:30

A politikai blogszféra I.

Reméljük olvasóink elnézik nekünk hogy hanyagoltuk a posztolást mostanában. Van mentségünk! A magyar politikai blogokról kiindulva crawlerünk rengeteg oldalt gyűjtött be, mi pedig ezeket elkezdtük elemezgetni. Ebben a posztban csak ízelítőt adunk, az eredményekről hamarosan bővebben is beszámolunk.  A linkek struktúráját vizsgálva látszik, erre a világra is érvényes a csokornyakkendő elrendeződés. A wikipedia domainről gyűjtöttük be a legtöbb oldalt, mert oda mutat a legtöbb link - ellenben minden másra jóval kevesebb link mutat. A wikipedia után jön a blog.hu, az hvg és az index, majd a Facebook és a Youtube és pár hazai és külföldi online lap. A crawler által vizsgáld oldalak szövegeit begyűjtöttük, tuti ami fix már egy LDA elemzést is futtattunk rajtuk.   Sorozatunkban megpróbáljuk leírni a magyar politikai blogszféra topológiáját, megnézzük mennyire kapcsolódik össze a blogokról induló linkek struktúrája, milyen érzelmi viszonyulással linkelik egymást az oldalak  stb. Hamarosan folyt.köv.!


2014. július 7. 19:00

Összekuszált szavak, gráfok, no meg a Ludwig

Már régóta keresek egy kivonatoló/összegző megoldást és régi restanciám hogy találjak alternatív megoldásokat a kulcsszókinyeréshez is. Szerencsére eddig is meg tudtuk oldani ezen feladatokat, sikerült olyan nem-felügyelt eljárást találnom, ami egyrészt gyönyörű, másrészt van valamennyi nyelvészeti relevanciája is - de természetesen jelenlegi formájában még messze van az ipari bevetéstől. Ellenben egy keresőkkel foglalkozó cégnél nagyon cool, hogy a PageRank algoritmus egy változatáról beszélhetünk! Legózzunk!   Van a nyelv, annak meg vannak szavai. Felmerül a kérdés, ha valaki megtanulja egy nyelv szótárát, akkor tudja is x nyelvet? Naiv elképzelésnek tűnik, mégis van benne valami, Wittgenstein is Szent Ágostont idézi ezzel kapcsolatban, persze meg is jegyzi rögvest hogy ez nem a legjobb irány: 1."Ha a felnőttek valamilyen tárgyat megneveztek, és közben felé fordultak, úgy ezt én érzékeltem, és felfogtam,hogy a hangok, amelyeket kiejtettek, a tárgyat jelölik, minthogy rá akartak utalni." 5. Ha az 1.§-ban szereplő példát vesszük szemügyre, akkor talán sejthető lesz, hogyan burkolja a szójelentés általános fogalma a nyelv működését olyan ködfelhőbe, amely lehetetlenné teszi, hogy tisztán lássunk Wittgenstein ehelyett a szavakra úgy tekint, mint szerszámokra:   Gondolj a szerszámokra egy szerszámosládában: van benne kalapács, harapófogó, fűrész, csavarhúzó, mérőrúd, enyvesfazék, enyv, s vannak szögek és csavarok. - Amilyen különböző ezeknek a tárgyaknak a funkciója, olyan különböző a szavaké is. (És itt-ott vannak hasonlóságok.) Összezavar persze bennünket a szavak megjelenésének egyformasága, amikor kimondva vagy írásban, illetve nyomtatásban szembekerülünk velük. A használatuk ugyanis nem áll ilyen világosan előttünk. Különösen akkor nem, ha filozofálunk. (Wittgenstein: Filozófiai vizsgálódások, 11.§.)   Ha Ludwig ma írná a fenti sorokat, biztos vagyok benne hogy a Lego jutna eszébe! Vannak speciális lego-elemek, amikből keveset kell csak gyártani, vannak általánosan használt elemek, amiket gyakran használunk, de valahogy mind összeilleszthető. A szavakkal is így vagyunk kb.   Lego helyett gráfok! Fauconnier és Turner remek tanulmánya óta a nyelvészetben is lehet olyan szexi szavakat használni mint hálózatok, meg gráfok. A kognitív nyelvészek azért is szeretik ezeket, mert az agy működését is konnekcionista modellekkel szokás leírni, inófsoknak neurális hálók, hipstereknek deep learning néven lehet ez ismerős. Minket most ez csupán annyira érdekel, hogy a szavak más szavakkal járnak, ez pedig remek alkalom arra, hogy felrajzoljunk egy gráfot, melynek csomópontjai maguk a szavak, az élek pedig az egymást követő előfordulásokat reprezentálják (ezeket a gyakorisággal súlyozhatjuk).   A TextRank algoritmus a PageRank-hez hasonlóan arra épít, hogy bizonyos szavaknak nagyobb a "népszerűsége", több szóval fordulnak elő együtt és ez alapján rangsorolhatjuk őket. Így egy remek módszer kerül a kezünkbe, mely segítségével egy adott szöveghez kulcsszavakat rendelhetünk, de azt is megnézhetjük, mely mondatok tartalmazzák a leginkább centrális szavakat s ezen mondatok nagy valószínűséggel jól összefoglalják a szöveget. A hivatkozott tanulmány nagy szépen leírja az algoritmust és egy kis guglizással mindenki megtalálhatja implementálását kedvenc nyelvén (ha csak nem valami egzotikus nyelven szeret kódolni), ezért nézzük milyen eredményeket várhatunk a TextRank-től!   Amikor a TextRank nem olyan jó Kedvenc ismeretterjesztő oldalunkról, a nyest.hu-ról a Léghajóról a finnugorok című cikket vizsgáltuk. Ennek szógráfját Gephi-ben is megjelenítettük vizualizációt kedvelő olvasók miatt. Ezt kaptuk: Kulcsszavaink nem a legjobbak: jegyeinekSziktivkar Jakutszkbudapesti finnugormonstrumolimpiaiSzamojlovicsot SzamojlovicsinternetenPetrozavodszknyugalmazottlovagrend mamelukot Ahogy látszik, nem vetettünk be semmilyen nlp-trükköt, nincs szótövezés, normalizálás és egyéb bevett megoldás. Ennek oka naivitásunk; reménykedtünk hogy ezek nélkül is kaphatunk jó eredményt. A cikk összefoglalója már valamivel jobb, de nem az igazi.   Tallinn ‒ a Graf Zeppelin és a Niguliste kirik (Miklós-templom) (Forrás: www.netikka.net) A Graf Zeppelin Tallinn és Helsinki fölött Az LZ 127-es 1930 őszén körbejárta a Baltikumot és Skandináviát.A Graf Zeppelin építése Friedrichshafenban (Forrás: www.airships.net) 1928-ban készült el az LZ 127 jelű léghajó, a Graf Zeppelin .A Graf Zeppelin utaskabinjának alaprajza (Forrás: www.airships.net) A Graf Zeppelin Budapesten 1929 őszén az LZ 127-es a Balkánra indult.A Graf Zeppelin 1931 szeptemberében, északi felfedező útja során is átlebegett Tallinn és Helsinki egén.A Parlament fölött (Forrás: www.fortepan.hu) A Graf Zeppelin világkörüli útja 1929 augusztusában az amerikai Lakehurstből indulva az LZ 127-es körbelebegte a világot. Van remény! Az index.hu A láthatatlan sejk, akitől retteg a világ című írását a TextRank sokkal jobban elemzi. Kezdjük a szógráffal! A kulcsszavak már jobbak, de még nem az igaziak (nem fogjuk megúszni az nlp-magic bevetését...). mindenkinyugaton csoportokkalelfoglalt elfoglaltmuszlimokatmuszlimokmuszlimoknak harcosokatkeresztre amerikaiakegyiptomihadseregbeduinok Az összefoglaló is egész tűrhető: Az al-Kaida vezetője, az egyiptomi származású, eredetileg szemsebész Ajman al-Zavahiri azt várta volna al-Bagdaditól, hogy maradjon ki a szír konfliktusból, és csak Irakban tevékenykedjen, de Bagdadi dacolt állítólagos főnökével, így a szervezetét engedetlensége miatt végül ki is zárták az al-Kaidából februárban.Iszlám Gigaállam: az előző részek tartalmából Az Abu Bakr al-Bagdadi-vezette dzsihádista ISIS (Iraki és Levantei Iszlám Állam, újabban egyszerűen Iszlám Állam) önálló iszlám kalifátus létrehozását jelentette be Irak és Szíria területén, a szíriai Aleppo és az iraki Dijála kormányzóság közötti területen, ami egyébként kétszer akkora, mint Izrael.De még ha össze is omlana az iraki vezetés, esélytelen, hogy az ország síita többsége elfogadja, hogy egy dzsihádista állam kikiáltotta magát az ország északi részén.A kalifátus kikiáltásának egyértelmű az üzenete: al-Bagdadi Mohamed próféta utódjának és ezáltal az iszlám világ egyetemes vezetőjének tartja magát, akit minden muszlimnak kötelessége követni.Ajman al-Zavahiri Bagdadi nem csak kegyetlenségéről és radikalizmusáról ismert: nagyon jó szervezőnek és stratégának tartják, fiatalsága révén is imponál sok fiatal dzsihádistának, akik az óvatos és kevéssé karizmatikus al-Zavahirit túl öregnek tartják, és akár még kamaszok sem voltak a szeptember 11-ei merénylet idején.   Ez van! A TextRank mint nem-felügyelt módszer a kivonatolás során meglepően jól teljesít! Még akkor is elfogadható kivonatokat készít, ha nem vetjük be az nlp fegyvertárat. Ugyanakkor a kulcsszavazás során nagyon rossz eredményeket kaptunk, ezért már az első körben a TextRank paper-t követve szűrtünk főnevekre és melléknevekre - és még ekkor sem muzsikált szépen az eljárás. A a hatékonyságot nagyban növeli a szótövezés bevetése, de használhatósága így is korlátozott marad a kinyert kulcsszavaknak.   Érdekes, hogy a TextRank - a pár magyar példán bevetve - is azt mutatja, a szavak és a mondatok önmagukban csak dolgok, egymáshoz való viszonyaikban léteznek. Sajnos úgy viszonyulnak össze-vissza a különböző szintek, hogy csak nehezen tudjuk őket megérteni és algoritmikusan kezelni....


2014. július 2. 13:27

Good Math - logika, számításelmélet és matek érdekesen tálalva

Mik is azok a számok, mi az a Turing-gép, milyen problémákat tudunk számítógépek segítségével eldönteni? Megannyi nehéz kérdés, melyekre egy rövid könyvben találjuk meg a válaszokat. Mielőtt azt hinné valaki, hogy ez bizony nehéz olvasmány lesz, megnyugtatunk mindenkit; józan paraszti észnél több nem kell ahhoz, hogy ezen problémákon elgondolkodjunk a Good Math, A Geek's Guide to the Beauty of Numbers, Logic, and Computation segítségével. Akit szimplán csak érdekel a számítástudomány és a matematika kapcsolata, az nem fog csalódni! Mark Chu-Carrol Good Math, Bad Math blogjának olvasói azonban tudják, a szerző szereti kódokkal is megtámogatni mondandóját, s a kötetben sincs ez másképp. Nincs minden fejezetben kód, sőt, alig-alig akad benne ilyen, de ahol van, ott nagyon jól illeszkedik a tartalomhoz. Persze azok akik nem szeretnek, vagy nem tudnak programozni nyugodtan átugorhatják azt a néhány kódolós részt, nem veszítenek semmit. És ez a legjobb a kötetben! Egyrészt olvasható úgyis, mint egy ismeretterjesztő könyv. Másrészt egy amolyan útmutató a manapság divatos témák között, típuselmélet, lambda kalkulus, Turing-gépek, véges állapotú automaták és a bestiárium összes alakja felsorakozik benne, de egyáltalán nem rémisztő alakban. Az egyes fejezetek alig pár oldalasak, könnyen olvashatóak, azonban mint minden matek/technikai könyv esetében illik időt szánni a felvetett problémák megemésztésére.   A funkcionális nyelvek iránt érdeklődőknek ez a könyv kötelező darab, mindenki másnak pedig remek szórakozást jelenthet eltölteni vele pár órát. Egyedül a Kindle verzióval van problémám, ami nem barátja a matematikai képleteknek, kódrészleteknek és a nagyobb ábráknak. Ajánlott az elektronikus verziót közvetlenül a kiadótól megvásárolni, mivel nem kérnek külön pénzt a különböző formátumokért.


2014. július 2. 13:00

Sikeres előrejelzés a jobmonitor.hu keresési adataival

Egy korábbi posztban beszámoltunk róla, hogy a munkanélküliség jelenbecslésével kísérletezgetünk a jobmonitor.hu álláskereső oldal adataival kiegészített modellekkel. Ezúttal már "élesben" teszteltük a 2014. február-áprilisi időszakra, méghozzá nem kis sikerrel. A Központi Statisztikai Hivatal május 29-én közölte a 2014. február-áprilisi adatokat, mely szerint hazánkban a munkanélküliek száma tovább csökkent 360 500 főre. Ez mind az előző havi (369 700 fő), mind az előző évi adathoz (476 200 fő) képest csökkenést jelent. A legutóbbi poszt óta tovább finomítottuk a modelleket figyelembe véve, hogy az álláskereső tevékenység megelőzi a munkába állást. Többféle modellt kipróbáltunk, melyek közül kettő bizonyult statisztikailag szignifikánsnak a vizsgált időszak alatt. A két modell a munkanélküliség adott 3 hónapra eső számát közelíti egyrészt a munkanélküliek előző időszakban mért számával, másrészt az előző időszak utolsó, illetve az adott időszak első hetében történt jobmonitoros keresésekkel. A jobmonitor keresési adatokkal kiegészített modelleken kívül másféle módszereket is bevetettünk a munkanélküliek február-áprilisi átlagos számának előrejelzésére, melyek összehasonlítási alapul szolgáltak a jobmonitor modellek eredményességének ellenőrzéséhez. Az utóbbi időszakban a Holt-féle simítás tűnt az általunk kipróbált módszerek közül a legsikeresebbnek a jelenség közelítésében és előrejelzésében. Ez nem meglepő, hiszen 2013 januárjától a munkanélküliség szezonális mozgása megszűnt és folyamatosan csökkent a munkanélküliek száma. Azonban nem maradtak el sokkal a jobmonitor adatokkal kibővített modelljeink se, melyek a legutóbbi február-áprilisi időszakra még a Holt-féle simításnál is sikeresebb becslést adtak. Az előző időszak utolsó hetével becslő modell 1192 főt, az adott időszak első hetével becslő modell pedig csupán 831 főt tévedett. Ennél a többi módszer (Holt-féle simítás, egyszeres exponenciális simítás, megfelelő ARIMA modell, más beágyazott modellek) előrejelzései mind többel lőttek félre február-áprilisra. A becsléseket visszanézve (2013. augusztus - 2014. április) a jobmonitor modellek és a Holt-simítás nagyjából egyenlő hibával jelezték előre a munkanélküliek számát. Az átlagos abszolút eltérése mindegyiknek 7000 fő körül mozog, tehát körülbelül ennyivel tértek el átlagosan a tényleges értéktől ebben az időszakban, valamint az átlagos négyzetes eltérésük is nagyjából egyenlőnek bizonyult. A nagy kérdés azonban, hogy meddig csökkenhet még tovább a munkanélküliek száma. Ugyanis ha ez bekövetkezik, a Holt-féle simítás felmondja a szolgálatot és a jobmonitor.hu keresési adataival beágyazott modellektől megbízhatóbb előrejelzéseket várhatunk majd.


2014. június 29. 17:31

NLP matiné slideok

A héten zártuk a meetup szezont, szeptemberig most elvonulunk pihenni. Addig pedig itt vannak az NLP matiné slideok, tessék szépen átnézni ezeket, sok cégnél akad nyitott pozíció!!!!!   Gravity R&D Zrt.  Meltwater   Precognox   MTA-PPKE Magyar Nyelvtechnológiai Kutatócsoport    Neticle    Radoop (RapidMiner)  


2014. június 23. 8:00

Quixey - kereső a mobil-kornak

Lassan három éve, hogy beszámoltunk a Quixey appkeresőjéről, azóta a cég terméke szépen kiforrott és úgy tűnik új utakat keres magának a lelkes csapat. A Technology Reiew cikke szerint a cél immáron a mobilok uralta net kereshetővé tétele. Ja, hogy erre ott a Google? Nem feltétlenül! Van mit keresni még ezen a piacon!   Ma már mindenre van app, a Quixey pont egy olyan app ami a több között segít keresni. A mobil net apposodásának köszönhetően azonban az információ silósodik, egyedi alkalmazásokban tárolódnak el információk és amikor keresni akarunk, lehet hogy ezek egyvelege jelentené a megoldást. Mi van ha keresünk egy kellemes könyvesboltot, jó kávézóval a közelben? A GoogleMaps biztos tud ajánlani egyet (ha kellően nagy városban vagyunk), de milyen jó lenne tudni, hogy barátaink mit gondolnak az adott helyről! Böngésszük végig a Twitter-t és a Facebook-ot egyaránt érte? Elmentettünk egy cikket a helyi könyvesboltokról kedvenc lapunk appjában, ez rémlik, de azóta még ezer meg egy cikket megjelöltünk, hogyan hívjuk elő? Az appkeresésben szerzett tapasztalatára építve itt szeretne a Quixey belépni a képbe. Sajnos nem olyan egyszerű hozzáférni az appokban tárolt információkhoz, ezért a Quixey fejlesztői szeretnék, ha az appok írói ún. deep linkek segítségével elérhetővé tennék számukra ezeket. Ehhez innét kívánunk sok szerencsét, látva, hogy a szemantikus web fantasztikus ötlete 15 éve nem terjedt el, pedig az is csak pár kód beszúrását kéri a fejlesztőktől. A nehézségek ellenére annyi biztos, hogy remekül azonosítottak a fejlesztők egy problémát és mindenki (legalábbis a felhasználóknak biztosan) érdeke, hogy a web továbbra is kereshető maradjon - a mobilok korában pedig az apposodás ennek lehet akadálya, de akár támogatója is.


2014. június 18. 14:43

Rapháború II.

Miről beszélnek a rapháború hősei? Sorozatunk első részéből kiderült, a lexikai diverzitásnak a népszerűséghez nem sok köze van, az átlagosat szeretik a népek. Egy kis kitérőt tettünk nagy kedvencünk Mr. Busta munkásságának elemzésével a szövegek vizualizációja felé, amikor rájöttünk, valahogy a szövegek tartalmát fel kellene fedezni és eltöprengtünk azon, hogyan haladjon tovább projektünk. Valami ilyesmire jutottunk, részletek a videó után.   Vizsgálódásaink során arra jutottunk hogy három irányban érdemes nézelődni: mennyire tér el a hétköznapi nyelvtől (vagy éppen mennyire közelíti) egy előadó szövegvilága milyen emóciók jelennek meg a szövegekben milyen témák népszerűek Az első kérdést Har politikai beszédeket elemző vizsgálatai nyomán merült fel, melyek kimutatták, hogy a magas ún. commonality tone-t (átlagos, hétköznapi beszédstílus) használó politikusok üzenetei sikeresebben érnek célba. Mi is azt találtuk, hogy az átlagos entrópiájú szövegek népszerűek, ezért érdemes lenne megvizsgálni ezek mennyiben térnek el az átlagos nyelvhasználattól (vagy éppen követik azt).   Gyanítjuk, hogy a kedvelt számok általában vidám, bulizós témákkal foglalkoznak. Ezért egyrészt LDA módszerrel vizsgáljuk milyen topikokba tartoznak ezek. A vizsgálatok egy későbbi fázisában szeretnénk megvizsgálni milyen emóciók jelennek meg az egyes szövegekben.   Munkának megkönnyítendő R-ben készítettünk egy kis alkalmazás, ami segít felfedezni az egyes topikokat, erről készült a fenti videó. Pár perc alatt elkészítheti mindenki a maga kis alkalmazását a mallet és az LDAtools csomagokkal, érdemes kipróbálni mit tudnak!


2014. június 16. 8:00

swirl - interaktív környezet a statisztika és az R elsajátításához

A John Hopkins University Biostatistics Department kutatói és oktatói nagyon komolyan veszik hivatásukat. Ők indították a Simply Statistics blogot, majd a Coursera keretein belül indítottak R kurzusokat és mostanra egy egész "Specialization track" is elvégezhető a manapság divatos data science néven ezekből. De ez mind nem elég, megalkottak egy olyan csomagot is ami interaktív módon oktatja az R-t és a statisztikát. És igen, a swirl egy R-t oktató csomag az R nyelvhez. A swirl az ún. koan hagyományt követi. A koan eredetileg amolyan kérdezz-felelek a zen hagyományban, a programozóknál meg egy nyelv gyakorláson keresztüli elsajátításához létrehozott strukturált feladatok sorát jelenti. A swirl megalkotó a koanokat tovább is gondolták, hiszen nem mindenki úgy lép be a R és a statisztika világába, hogy már mindent tud a második naptól. Kis 10-20 perc alatt feldolgozható interaktív feladatokkal lehet dolgozni, melyek nem igényelnek különösebb előképzettséget. Ellenben nem árt, ha legalább annyira járatosak vagyunk a számítógépek világába, hogy az R nyelvet és a RStudio IDE-t telepíteni tudjuk gépünkre. Ha ez megvan, akkor indulhat a móka, amit az alábbi videó szemléltet.   Nem állítom, hogy valaki R programozó vagy éppen data scientist lesz a swirl feladatainak elvégzésétől. Annyi azonban biztos, hogy megtanulja használni és értékelni a read-eval-print loop nyújtotta előnyöket, nem fog félni a szkriptek megírásától és tudni fogja mi az az IDE . Nem rossz ez azért, ha figyelembe vesszük, a swirl egy open source projekt! Meg kell jegyezni, hogy a swirl csak egy éves a kezdeményezés, nem csodálkozunk azon hogy még nem teljesen kiforrottak a feladatok és témakörök. Szerencsére egyre többen készítenek swirl tananyagokat, ami nagyon fontos a projekt jövőjére nézve. A lényeg: nincs mentség, R-t és statisztikát tanulni ingyen is lehet!


2014. június 13. 9:07

Nine Algorithms That Changed the Future - közérthetően elmagyarázva

Mindennapjainkat a számítógépek között éljük; okostelefonon intézzük ügyeinket, laptopon dolgozunk, táblagéppel szórakozunk, ha veszünk egy sört, a pénztárgép rögtön küldi tovább az adatokat a NAV-nak. Teljesen természetesnek vesszük, hogy működnek a dolgok, sokan bele sem gondolnak abba, milyen elméleti és technológiai innováció szükségeltetik a modern hétköznapok működtetéséhez. John MacCormic könyve a legalapvetőbb és ránk legnagyobb hatást gyakorló algoritmusokat mutatja be, mégpedig közérthető formában.  Ideális nyári olvasmány mindenkinek! A kötet címe kicsit félrevezető, nem csak klasszikus értelemben vett algoritmusokról olvashatunk ugyanis a könyvben, főleg nem kilencről. Az internetes keresőkről - pontosabban ez a Google és a híres PageRank működése lenne - két fejezet is szól, a másodikban matching és ranking kérdéseit mutatja be a szerző, a harmadikban pedig a PageRank-et. A negyedik fejezet a publikus kulccsal történő titkosítás rejtelmeibe vezeti be az olvasót és megtudhatjuk miképp fizethetünk biztonságosan online. Az ötödik fejezet a hibajavító kódolást mutatja be, szubjektív véleményünk szerint ez sikerült a leggyengébbre. A hatodik fejezet a mintázatfelismerés, menőbb nevén a gépi tanulás, mégmenőbben a data science három legfontosabb algoritmusát mutatja be, a nearest neighbor, a döntési fák és a neurális hálók alapjait. A hetedik fejezet a tömörítés kérdésével foglalkozik és megtudhatjuk, hogy olyan helyeken is használják, ahol nem is gondoljuk, továbbá kiderül hogy a hatalmas online tárhelyet kínáló alkalmazások előszeretettel élnek ezen algoritmusokkal. A nyolcadik fejezet a modern relációs adatbázisokat mutatja be, az azt követő pedig a digitális aláírással foglalkozik.    A kötetből kilóg két fejezet. Az első tulajdonképpen egy felesleges magyarázkodás a cím miatt és a választott témák megindoklása. Az utolsó, tizedik fejezet kitekintés lenne az algoritmusok és a számítástudomány mélyebb összefüggéseire, de kicsit suta. Mindezek ellenére a könyvet csak ajánlani tudjuk minden érdeklődő laikusnak és szakiknak is!


2014. június 9. 15:36

Pepper, az érzelmes robot

A szentiment- és emócióelemzés sikere részben annak is köszönhető, hogy egyre inkább belátjuk, az ember nem csak egy racionális lény. A viselkedésökonómia talán a legnépszerűbb terület, ami szereti ezt kihangsúlyozni, de az affective computing irányzat szerint is kulcsfontosságú az ember-gép kommunikációban az érzelmek felismerése és megfelelő kezelése. A francia Aldebaran Robotics Pepper nevű robotja nem más, mint egy "társas robot", ami képes alkalmazkodni a vele interakcióba lépő emberek érzelmi állapotához - tehát nem porszívóz, főz, mos vagy takarít helyettük, csak társalog!   Pepper 1.2m magas és mindössze 28 kg. Képes gesztikulálni és szemkontaktust is tud tartani beszélgetőpartnerével! Hogy mire való igazából, az nem derül ki - elvileg öregeknek ajánlják magányosság ellen és üzletekbe információs segítőnek. Mivel a cég hamarosan megnyitja a platform API-ját a külső fejlesztők előtt is, várhatóan sok hasznos és teljesen agyatlan alkalmazás is meg fog jelenni rá.  Pepper 1900 USD árával a Lego Mindstorms vagy a Sony Aibo hobbi robotoknál drágább, de még éppen elérhető, s ezért megjelenése bizonyára segíteni fog a robotika elfogadásában. Azonban kérdéses, hogy tényleg kell-e nekünk egy robot ami csak társalogni képes...


2014. június 5. 8:00

A társalgás pszichológiája - pragmatika mindenkinek!

Bizonyára mindenki volt már mérges a számítógépére, mobiljára, mert az nem "értette meg" mit is akar a kedves tulajdonosa tőle. A lelke mélyén mindenki imád különböző felhasználói felületeket kritizálni és nevetni a beszédfelismerők és természetes nyelvi keresők hiányosságain. Legalább ennyire érdekes, hogy miért van az, hogy megértjük egymást bizonyos emberekkel, másokkal meg nem. Mivel az ember-gép kommunikáció során az emberek közötti kommunikáció során szerzett tapasztalatainkra támaszkodunk, nem árt ezt a területet jobban megismerni! Pléh Csaba A társalgás pszichológiája című könyve mindenki számára élvezetes bevezetést nyújt a kommunikáció világába és segít ezen kérdéseket egy kicsit jobban megérteni. Ahogy az alábbi videóban maga a mester is elmondja, a kötet mindenkinek ajánlható - és jelen esetben a marketinges szövegnek igaza is van! Maga könyv érdemi része úgy 370 oldal, ellenben kicsi, tehát jól hordozható. A stílusa valahol a tankönyvek és az ismeretterjesztők között van, sok ábrával és - ami szerintem a legjobb - sok ötlettel saját kutatási projektekhez. Habár az epilógusban oldalakon keresztül sorolja a szerző mi minden maradt ki a kötetből, témában nincs hiány! A nyelvfilozófiai kezdetektől az udvariasságon át a társalgás klinikumáig rengeteg izgalmas témával találkozhat az olvasó. Kifejezettem ajánlom azoknak, akik még soha nem foglalkoztak nyelvészettel, pragmatikával, pszichológiával, vagy éppen filozófiával, mivel mindenből pont annyi tartalmaz a könyv, ami segít megérteni és tovább is gondolni a felvetett problémákat. Az ember-gép kommunikáció iránt érdeklődőknek alap kell hogy legyen a mű, mivel a kommunikációt segít kontextusba helyezni és megérteni a felhasználók igényeit. A nyelvtechnológia szerelmeseinek inkább egy megoldásra váró problémahalmazt tartalmaz és a jelenlegi technológiák korlátaira hívja fel a figyelmüket olvasás közben. A lényeg, hogy itt a nyár és egy hosszú hétvégére a legjobb program A társalgás pszichológiájának elolvasása!


2014. június 4. 8:00

NLP matiné - mutasd meg magad!

Június 25-én zárjuk az évadot az NLP matinével. A szokásos meetupoktól eltérően most nem egy-egy érdekes projektet mutatnak be az előadók, hanem cégek és intézmények mutatkoznak be öt percben a nagyérdeműnek. Továbbra is várjuk a jelentkezőket a zoltan.varju(kukac)precognox.com címre! A rendezvény ingyenes! Arra kérünk mindenkit, részvételi szándékát jelezze az esemény oldalán. A program szervezés alatt, eddig a következő előadók jelezték részvételüket: Radoop Meltwater Precognox MTA-PPKE Magyar Nyelvtechnológiai Kutatócsoport   


2014. június 3. 8:00

A Bletchley Park titkos élete - minden geek kötelező nyári olvasmánya

Alan Turing ma már nem csak a számítástudomány, de az adattudomány atyja is egyben, hiszen az első fizikai formában is megvalósult számítógépek a német Engima kódok feltörésére lettek megalkotva. Turingon kívül természetesen még sok ezer ember dolgozott a rejtjelek megfejtésén, Sinclair McKay könyve, A Bletchley Park titkos élete, minden technikai részletet mellőzve mutatja be Bletchley Park, a kódfejtők központjának történetét és mindennapjait.  Mindenki ámuldozik a Google, vagy hogy hazai példát mondjunk a Prezi laza hangulatú irodáin. A kötetből azonban kiderül, hogy ha összeeresztünk több ezer okos embert, adunk nekik egy komoly feladatot (a szabad világ megmentése egész nagy dolognak hangzik), akkor nem tehetünk mást, mint hagyjuk őket dolgozni. Nagyon úgy tűnik, hogy Bletchley Parkban fittyet hánytak a katonai szabályzatokra, de mégis a work hard, play hard elvet érvényesítették. A veteránok mind úgy emlékeznek vissza a háborús évekre, mint ha a legjobb magániskolába kerültek volna, ahol komoly tudósokkal dolgoztak le egy műszakot, majd belevetették magukat a különféle klubok életébe (tánc, kórus, zenekar, stb). Persze a kemény munka mellett volt intrika, szerelem és a politika is beleszólt az életükbe.   McKay nagyon élvezetes stílusban mutatja be a park történetét és állít emléket az ott dolgozóknak. Persze senki ne várjon mély magyarázatokat! A kötet nem megy bele technikai részletekbe és a háborús eseményekkel is csak annyira foglalkozik, amennyire azok befolyásolták a park életét. Szóval igazi könnyed ismeretterjesztésre készüljön fel, aki elolvassa a könyvet! Nyárra a legjobb választás minden geek számára!


2014. május 29. 13:24

NLP meetup slideok

A tegnapi meetup előadásainak diát közkívánatra közöljük. Nagyon köszönjük mindenkinek a részvételt! Igazi hősök vagytok, hogy kibírtatok másfél órát a pici tárgyalóban amit kaptunk! Balogh Kitti (Precognox): A munkanélküliség jelenbecslése Kovács-Ördög Zita (Clementine Consulting): Digitális testbeszéd Petykó Márton (MTA NyI - ELTE): Milyenek a trollok


2014. május 27. 15:57

Mutatjuk a fukkot!

Mr. Busta művészete Petra grannatikon megjelent írásának köszönhetően vált ismerté számomra. A 444 Rapháború sorozata óta tudom, a nagyszerű művész egyben jeles ember is, akit nem könnyű megérteni. Mivel életműve fiatal kora ellenére már most hatalmas, kiválasztottam az előadó Mindenre kész vagyok című albumát, s ezek szövegeit elemeztem.   Habár nagyon nem szeretem a szófelhőket, nem tudtam kihagyni hogy készítsek egyet a szövegekből. Ezen látszik milyen szavakat szeret használni Mr. Busta, ami önmagában sokat elárul mondandójáról.  Láthatjuk, a művész szabadon szárnyal, ki mer mondani olyan szavakat, melyeket mások még egyedül is csak félve ejtenek ki a szájukon. De tudjuk, ez nem lehet öncélú káromkodás! Identifying the Pathways for Meaning Circulation using Text Network Analysis c. tanulmányban leírnak egy érdekes módszer, hogy azonosítsunk egymáshoz kapcsolódó szavakat. Dióhéjban; négy szónyi távolságon belül megszámoljuk a közös előfordulások gyakoriságát, majd erre alapozva készítünk egy gráfot és mehet az egész a Gephi-be, ami ilyen szép gráfot adott nekem: Az ábrán minél nagyobb egy szó, annál több szóval van kapcsolatban. Itt most mellőzném a szitokszavakat, vagy a "tud" és a "lát" központi helyét. Figyeljünk inkább arra, mennyire romantikus a szerző, hiszen a női testrészek a "lélek" és a "szép" gyönyörű hálózatot alkotnak a gráf felső részének közepén. Köszönhető ez részben olyan csodás számoknak, mint a Csajozós 1, 2, 3, 4, 5 és 6.   De rugaszkodjunk el a szómágiától. Az LDA segítségével nézzük milyen topikok foglalkoztatják Mr. Busta alkotó energiáit. Öt topikba soroltuk az album számait, ezek közül csak kettőt mutatunk be, mivel blogunk nem korhatáros. A hármas topik a "zűrös fiúk és a rap" cimkével irható le leginkább:       words    weights 1    csibész 0.04914550 2        lát 0.03586652 3  gengszter 0.02789913 4      igazi 0.01860385 5     szeret 0.01594805 6      ember 0.01329226 7       róla 0.01329226 8      kutya 0.01329226 9       mond 0.01329226 10    gyerek 0.01196436   A négyes számú topik láthatóan a zenélés és a pénz kapcsolatáról szól:    words    weights 1    pénz 0.03494886 2     jön 0.02892527 3     idő 0.02290168 4     fog 0.02169697 5  hogyha 0.02049225 6     ért 0.02049225 7   minek 0.01928753 8     rap 0.01808281 9    rapp 0.01687809 10   szem 0.01567338 A többi topik top 10 szava, a topikok eloszlása az egyes topikok között és a dokumentum id-k feloldása megtalálható ebben a Google doksiban (szigorúan csak 18 éven felülieknek!). Van ezekben rendszer! Ha a hierarchikus klaszterezés bevetjük, látszik is rögtön!   Látható, Mr. Busta az automatikus tartalomelemzés próbáját is kiállja, maradunk hű rajongói továbbra is!!!


2014. május 24. 17:05

Elindult az r-projekt.hu

Végre van már oldala a magyar R közösségnek is! Az r-projekt.hu oldalon mindent megtalálhatnak a magyar felhasználók. A Q&A oldalt tartom a legfontosabbnak, hiszen egy kezdőnek (de sokszor profiknak is) jelentős könnyebbség, ha anyanyelvén beszélheti meg problémáit a többiekkel. Emellett sok segédanyag található az oldalon és magyar nyelven írott R-rel kapcsolatos írások is gyűjtik a szerkesztők. Természetesen az r-projekt.hu mögött is az Easysats, a Rapporter fejlesztői és a hazai R meetup, a BURN szervezői állnak - köszönjük srácok hogy ennyi mindent megtesztek a hazai R közösségért!!!


2014. május 23. 19:13

Rapháború I.

“Minket egy ami vezérel, hogy egyező hévvel legyünk egy a nyelvészettel, nem számít ki mit érvel." De miért éppen a magyar rap? Gyakornokaink a kibontakozó nagy magyar rapháborút igyekeznek eldönteni!   A zeneszövegek alapvetően az írott szöveg kategóriába sorolhatóak, akár a versek vagy az újságcikkek. A rapzenét az teszi különlegessé (egy nyelvész számára legalábbis), hogy rendelkezik élőbeszédbeli sajátosságokkal és sokkal spontánabb tud lenni. Az első feladat a korpuszépítés volt, ami a zeneszoveg.hu oldalról történt. Tizennégy előadó (A.K.E.Z.D.E.T.P.H.I.A.I., Animal Cannibals, Anonim Mc, Beerseewalk, Belga, Dopeman, Essem, Fankadeli, Fluor, Halott Pénz, Hősök, Mr. Busta, Punnany Massif, Wanted Razo) tíz-tíz darab dalszövegét vizsgáltuk. A négy fő mutató a lexikai diverzitás, az entrópia, a youtube nézettség és az előadó facebookos rajongói oldalának száma volt. Eközött a két-két dolog között szerettünk volna kapcsolatot találni a kutatás során. Ezen felül szerettünk volna találni egy olyan tényezőt, aminek segítségével megjósolható az adott dal népszerűsége.A lexikai diverzitás egy mérőszám, ami az adott szöveg választékosságát jellemzi, azaz a kutya lehet eb, blöki és házőrző megnevezésű is. Annál szofisztikáltabb a szöveg, minél nagyobb ez a mérőszám 1 és 0 között. Támpontot jelenthet a megértésben a szépirodalom és az online cikkek is, így a rapszövegek mellé József Attila 10 versét is leelemeztük és 0.54-es, az index.hu-s cikkek elemzése pedig 0.46-os eredményt adott.   Feltételezésünk az volt, hogy a választékosság több embert vonz, de ez a sejtésünk nem igazolódott be. Fluor tartja toronymagasan a nézettségi rekordokat a csoportban, ettől függetlenül a középmezőnyben helyezkedik el a lexikai diverzitás versenyében. Ugyanilyen szakadék húzódik ellenben az A.K.K.E.Z.D.E.T.P.H.I.A.I. és Belga illetve az összes többi versenyző között. Nem is volt várható más, hiszen Závada Péter (Újonc) és Süveg Márk (Saiid) szövegei teljesen megállnák a helyüket versként is, mindenféle zenei aláfestés nélkül. A Belga igen sajátos szövegei pedig egyszerűen abszurdak és néha kevés kohéziót mutatnak (pl.: “puputeve hozzád képest reggeli/ szólj anyádnak, a csigavért köpjed ki"), ettől függetlenül lexikailag kifinomultak a dalszövegeik.   Az entrópia egy rendszer rendezetlenségi fokát jellemzi, ezt szintén össze lehet vetni a lexikai diverzitással, az eredmények a következőek lettek:    A lexikai diverzitás tengelyén nem lett változás, viszont jól látszik hogy a most is élvonalban lévő előadók mögé felzárkózott az Animal Cannibals is. A szavak gyakoriságát szófelhők segítségével szemléltetjük, az adatok itt érhetőek el. Természetesen az elemzés előtt stopszavakat gyűjtöttünk, ilyen volt az igen gyakran előforduló ha, de a hogy, úgy és a miért is ezek közé tartozott. A stopszavak nem releváns adatok, így azok nyugodtan kiszűrhetőek voltak az elemzésből.     A kapott adatok ebben az elemzésben nem mutattak kapcsolatot a megjósolhatósággal, így nem lehet kijelenteni, hogy a rapszövegek szofisztikáltsága az, ami mérvadó a közönségnél. Tehát sem a facebook oldal kedveléseinek száma, sem a youtube-os nézettség nem jósolható meg előre a szövegek minőségét tekintve. Így további elemzésekre lesz szükség, mind nyelvi, mind szociológiai szempontból. A projektben közreműködött Balogh Kitti, Szabó Martina és Papp Petra Anna. Adatok (Google Spreadsheet) Facebook oldalunkon vizsgált előadók dalaiból készitett szófelhőket és pár érdekes grafikont is találhatsz. // Post by Kereső Világ.    


2014. május 21. 8:00

A karakterkódolás problematikája és a Unicode

Karakterkódolási rendszer az az informatikában amikor a számok, betűk és más hasonló adatok megjelenítése, aminek az alapja az, hogy minden karakterhez egy-egy egyedi szám van hozzárendelve. Hasonlóan a Morzekódhoz, ahol a távbillenytű hosszú vagy rövid lenyomásának kombinációi határoztak meg egy karaktert. Ez a fajta kódrendszer a latin ábécé betűit és az arab számokat tartalmazta. Az 1963-as fejlesztésű ASCII 7 bites rendszerrel rendelkezett, ám ezek egy idő után beteltek és nem tudtak az új szimbólumokhoz egyedi számsorozatot rendelni, ez pedig szükséges lett volna a Kelet Ázsiai nyelvek írásszimbólumainak implementálásához. Tehát jól látszik, hogy egy-egy ilyen kódrendszer hibája lehet az, hogy a sokféle szimbólumoknak (például: cirill, héber, kínai, japán, koreai írásjelek) csak egy csoportját képes reprezentálni. Ehhez közel álló probléma a latin ábécé betűivel író, de írásban az 'ss' hangjának leírásához használatos ligatúrát, a scharfes s-t (ß) használó német nyelv esete, ahol ezt a szimbólumot csak a Unicode nevű karakterkódolás tudja kezelni.     Néhány kínai és indiai nyelv írásbeli sajátosságai szintén problémát jelentenek a karakterkódolással foglalkozó informatikusok számára. Jelölhet hangsúlyt vagy magasabb illetve mélyebb hangon való kiejtést is, egy adott betű mellékjele. De hasonló problémát jelent a csak konszonánsokat (mássalhangzókat) író arab és héber nyelvek is, ahol magánhangzókat, ezzel együtt az adott szó jelentését is, a kontextus határozza meg, így egy szimbólumsornak akár egymástól eltérő jelentései és kiejtései is lehetnek más-más kontextusokban, amit jelölhetnek mellékjelekkel is akár. Mellékjelből pedig millió fajta lehetséges, ráadásul a karaktereket a mellékjeleikkel együtt teljesen felesleges új számsorral ellátni. A következő problémát a szótagíró nyelvek jelentik, ahol szintén a mellékjelezés az, ami döntő lehet a jelentéssel kapcsolatban, ráadásul ezek a mellékjelek bárhol megjelenhetnek az alapkarakter körül. Az igazi nehézséget mégis a kínai jelenti, hiszen egy karakterben egyszerre reprezentálódik a jelentése és a kiejtése is. A koreai írás pedig egyszerre ötvözi a betű és szótagírást is, azaz egyfajta hibrid az írásfajták közül.  Unicode, a szabványosítás Visszatérve az ASCII-hez, ezeket a sokrétű szimbólumrendszereket már nem tudta befogdani. Ezek után több fajta karakterkódolást is írtak, de ezek is csak egy-egy rendszert tudtak reprezentálni. Az ISO-8859-7 a görög betűkhöz, az ISO-8859-8 pedig a héberhez volt megfelelő. Ezek hátránya az volt, hogy sokszor használtak ugyanahoz a karakterhez több számsort vagy éppen fordítva. A Unicode ezt a problémát küszöbölte ki. Közel 109 ezer karaktert képes reprezentálni, azaz egy nemzetközi szabványt állított fel az egységes karakterkódolással. A szabvány 16 biten tárolt síkokra osztja ezt a közel 109 ezer karaktert, így a legtöbbet használt karaktereink már az első 64 ezres síkban megtalálhatóak, akkora kapacitással rendelkezik.  


2014. május 16. 8:54

Negatív a média?

Korábban már foglalkoztunk azzal, hogy miért nem kérdez pozitívan a média, de most Hírelemző alkalmazásunk segítségével elkezdtük vizsgálni, hogy főbb híroldalakon megjelenő cikkek szentimentje milyen. Arra jutottunk, hogy a hírek esetében is áll, hogy jelentős részük semleges!   Alkalmazásunk 2014 januárja óta gyűjti a cikkeket. A OpinHuBank felhasználásával készített bayesiánus klasszifikációt alkalmazó szentimentelemző minden cikk minden mondatát elemzi, majd a kapott értékek összegét rendeli az egyes írások mellé. Jelenleg az adatokat az alábbiak jellemzik. Ha az összes adatot vizsgáljuk, akkor az alábbi képet kapjuk. Látható, vannak extrémen negatív és pozitív cikkek is, de a többségük a nulla körüli értéket veszi fel. Ha kizárjuk az extremitásokat (amik nagyon kis részét képviselik az adatoknak), akkor sokkal jobban kirajzolódik a trend. Látható, hogy egy kicsit több cikk vesz fel -5 és 0 közötti értéket, mint 0 és +5 közöttit, de a különbség nem eget verő. A sajtó elvileg objektivitásra törekszik, de egyben kritikus is szeretne lenni, ezért az enyhe negativitás természetes.


2014. május 14. 8:00

Az adattudomány sötét titka

Hilary Mason a bitly kutatója az egyik legismertebb data scientist manapság. Rövid előadásában felhívja a figyelmet arra, hogy a manapság nagyon divatos adattudomány nem a semmiből nőtt ki, olyan egzotikus helyeken űzik már évtizedek óta mint az asztrofizika és a pénzügyi modellezés. Chris Anderson víziójával ellentétben Mason úgy gondolja, hogy az adattudomány lényege hogy értelmezzük is mit művelünk, az adatok nem beszélnek magukért. Érdemes 13 percet rászánni az előadásra! Egyrészt kb helyre teszi a data science, big data fogalmakat, másrészt az eszköz fetisizmusra is hat egy kicsit.  


2014. május 12. 8:00

NLP meetup május 28-án: Viselkedünk a neten

Nem kell sokat aludni következő meetupunkig! Május 28-án 18:00-tól várjuk az érdeklődőket a budai Colabs-ben! Meg tudhatjuk mit mond a kognitív nyelvészet az internetes trollokról, hogyan segítenek a Jobmonitor keresési adatai a munkanélküliség előrejelzésében és milyen a digitális testbeszéd. A rendezvény továbbra is ingyenes, de kérünk mindenkit, jelezze részvételi szándékát az esemény oldalán.  Az alábbi előadásokkal várunk mindenkit: Petykó Márton (MTA NYI): Milyenek a trollok? (bővebben l. Márton Az internetes troll mint identitás kialakítása politikai blogok diskurzusaiban c. tanulmányát) Balogh Kitti (Precognox): A munkanélküliség előrejelzése a jobmonitor keresési adataival (bővebben l. korábbi Kereső Világ írásunkat) Clementine Consulting: A digitális testbeszéd (bővebben a Clementine oldalán)


2014. május 7. 8:00

NLP matiné júniusban

Júniusban ismét NLP matinét tartunk! Két évvel ezelőtt volt ilyen, ideje hát megismételni! Várjuk cégek, intézmények, kutatóhelyek és érdekes projektek jelentkezését a zoltan.varju(kukac)precognox.com email címre! Az időpont június 25. A rendezvény továbbra is ingyenes, de arra kérünk mindenkit, regisztráljon az esemény oldalán. Szeretnénk alkalmat biztosítani arra, hogy a hazai kutatóhelyek, oktatási intézmények és az ipar szereplői kötetlen formában megismerhessék egymást. De ha akad egy érdekes projekted, azt is nyugodtan bemutathatod. Mindenki szigorúan öt percet kap arra, hogy elmondja mivel foglalkozik, milyen együttműködési lehetőségek érdeklik, keres-e új munkatársakat stb. Ez az az esemény, ahová nyugodtan hozhattok magatokkal egy raklapnyi marketing anyagot, névjegyet, stb.!!!!! 


2014. május 6. 8:00

Bízzunk a gépekben?

Életünk egyre több területén döntenek a gépek. Algoritmusok, gépi tanulási módszerek hoznak gyors döntéseket, melyek kihatnak életünkre. Kapunk-e hitelt, mennyit biztosítási díjat fizetünk, van-e kóros elváltozás egy szövetmintában, milyen filmeket ajánl nekünk kedvenc on-demand szolgáltatónk? Lassan megemésztjük, hogy a statisztikai módszer nem jár százszázalékos eredménnyel, de legalább amit csinál egy gép, azt csinálja akkor jól és konzisztensen. A gépek hatással vannak ránk, jó lenne tudni bízhatunk-e bennük... Az ún. négyszín-tétel a Wikipedia szerint "azt állítja, hogy egy tetszőleges régiókra osztott síkot, akár egy politikai térképet egy ország megyéiről, ki lehet úgy színezni legfeljebb négy szín felhasználásával, hogy ne legyen két azonos színű szomszédos régió." Amennyire egyszerűnek tűnik a kérdés, annyira nehéz volt bizonyítani! Appel és Haken bizonyítása alaposan felkavarta az elméleti matematika világát, mivel számítógépek végezték a munka jelentős részét. Sőt a bizonyítás korrektségének ellenőrzéséhez is számítógépe szükségeltetik, amiért a matematika filozófiájával foglalkozók közül sokan nem is tekintik igazán bizonyítottnak a tételt, mások szerint ezzel a lépéssel a matematika elmozdult a természettudományok irányába (l. bővebben Tymoczko remek tanulmányát).A lényeg, hogy a bizonyítás majdnem 1500 konfigurációt vizsgál meg, hogy induktív módon "megmutassa" minden esetben elegendő a négy szín a trékép színezéséhez. A gépi tanulás során általában az adatok alapján az algoritmus létrehoz egy absztrakciót, mely segítségével generalizálhat más, még nem látott esetekre. Ahogyan a négyszín-tétel bizonyítása sem fogható fel emberi ésszel, a gépi tanulás lépései is követhetetlenek egy ember számára. Egyik esetben sem arról van szó, hogy nem érthetőek! Formálisan definiált lépésekről van szó, a dolog "logikáját" értjük, csak nem tudjuk mi magunk elvégezni a szükséges lépéseket (különösen nem nagy számban, egymás után, gyorsan). Ahhoz, hogy meggyőződjünk arról, hogy ezen algoritmusok jól működnek, egyrészt formális bizonyítások szükségeltetnek (általában gépi úton végzik ezt is), illetve alaposan tesztelni kell a rendszereket. A tesztelés tkp. a tudományos módszer alkalmazása a fejlesztésben. Karl Popper tette népszerűvé a falszifikáció fogalmát, ami annyit tesz, hogy egy rendes elmélet megadja cáfolhatóságának kritériumait. Egy rendes fejlesztés során nem csak arra ügyelnek, hogy mit kell tudnia egy szoftvernek, meg kell próbálni megcáfolni a működését is. A gépekben is csak annyira bízhatunk, mint a tudományban! Azonban manapság a tudománynál nincs jobban működő, transzparens, saját hibáinak kijavítását szem előtt tartó dolog a világon! A gépek hibázni fognak, kételkedni kell bennünk, ellenben tanulnak hibáikból és fejlődnek!


2014. május 5. 8:00

Nincs rossz reklám...

... csak beszéljenek rólad. Hihetetlennek hangzik, de talán van benne valami. A több csirip, több szavaz elv sokakat megdöbbentett és próbáltak magyarázatot találni arra, hogy amikor működik, akkor miért is működik. Az eddigi legjobb ötlet a pollyanna hipotézis volt, miszerint a pozitív érzelmi töltetű szavak gyakorisága magasabb, ezért a magasabb említésgyakorisággal együtt kell hogy járjon a pozitív polaritás is. A Neticle a választások előtt vizsgálta a magyar webet és meglepő eredményre jutott: a több csirip elv nagyon jól működik, de nincs mögötte a pollyanna jelenség! Ahogy a fenti ábrán is látható, az említésgyakoriság sokkal jobban közelíti a tényleges választási eredményeket. Persze a pozitív említések aránya se kutya, de nézzük a következő ábrát! Ez az ábra a közvéleménykutatók és a Neticle említésgyakoriságon ill. pozitív említéseken alapuló eredményeinek a tényleges választási arányoktól való eltérését mutatja. Látható, hogy a puszta említésgyakoriság közelíti a legjobban  a valós számokat, a pozitív említések ellenben rosszul muzsikáltak!   Látható, maga a more tweets, more votes elv a magyar adatok tükrében megerősítést nyert. Az is igaz, hogy a legmagasabb említést elérő polaritása a leginkább pozitívabb, ellenben a szentiment megoszlása eltér az említésekétől (l. a Kormányváltás és a Jobbik adatait!). A legkézenfekvőbb magyarázat az ún. puszta kitettség (mere exposure) effektus lehet, azaz a magasabb említésgyakoriság ismertebbé, s ezáltal pozitívabbá teszi a szereplőket, de csak bizonyos említésszám felett. Persze ez csak spekuláció a részünkről, kommentben nyugodtan lehet tippeket adni a jelenség magyarázatára!   (Köszönjük Szekeres Péternek, a Neticle vezető kutatójának az ábrákat!)


2014. május 3. 18:40

Nyelvészet mindenkinek 2

Emily M. Bender könyvét bemutató posztunk kapcsán sokan panaszkodtak, hogy a kötet nem éppen könnyen hozzáférhető az átlag magyar közönség számára. Nem kell elkeseredni, van olyan magyar könyv is a piacon, ami minden jobb könyvtárban megtalálható és még a nyelvészet alapjait is megismerheti belőle a kedves olvasó! Szilágy N. Sándor Világunk, a nyelv c. könyvét ajánljuk Bender könyve helyett/mellett mindenkinek! A kötet józan paraszti észnél nem igényel többet. Alapvetően nem tesz mást, mint szépen végigvezeti az olvasót a hagyományos nyelvészeti témákon (de nem a bevett sorrendben, a hangtantó a jelentéstanig, hanem egy kicsit kalandozva). Nem törekszik olyan formalizmusra mint Bender, de ez inkább előnye, mint hátránya. Mivel rövid és olvasmányos, hamar el is lehet olvasni és ha mást nem, annyit mindenképpen tanul az ember belőle hogy a nyelv csodálatos dolog és bizony nem egyszerű megfejteni. Ezzel nem árt tisztában lenni a nyelvtechnológiában is! A szemlélet sokat segíthet a további szakirodalom befogadásában és a felmerülő problémák értelmezése során is - ami pár óra olvasgatást igazán megér. Hajrá!


Az összes hír