Language, Speech and Multimedia Technologies Observatory

http://www.unibertsitatea.net/blogak/ixa/2013/03/05/osasun-terminoak-euskaraz-tresna-informatiko-berri-bat/
03/05/2013 - 16:19

OLatzMaiteSnomed1Osasungoan euskara erabiltzea oraindik erronka betegabea da. Bide horretan, urrats bat eman du Olatz Perez de Viñasprek bere Hizkuntzaren Azterketa eta Prozesamendua  masterreko tesian: “SNOMED CT sare semantikoa euskaratzeko lehen urratsak”.

Medikuntza-arloan terminologia zabal, eleanitz eta ulergarriena da SNOMED CT (Systematized Nomenclature of Medicine – Clinical Terms). Milioi bat termino inguru biltzen ditu gaixotasun-izen, gorputzeko atal, medikuntzako prozedura eta antzeko kategorien azpian.

Sare-semantiko honetako kontzeptuentzako euskarazko ordainak lortzeko aplikazio bat diseinatu du Olatzek eta aplikazioaren lehen urratsa inplementatu du. Honela, euskara ere duten zenbait hiztegi eleanitz espezializatutan oinarrituta, SNOMED CTn dauden gaixotasun-izenen %20 inguru euskaratu du modu automatikoan hizkuntza-teknologia baliatuta.

Tresna informatikoa diseinatuta dago eta garapenean jarraituko duen arren, arloko adituen erabilera eta ezagutza behar ditu Olatzek hurrengo urratsak emateko.

Osasun-langileek euskara erabil dezaten laguntza ematea da, besteak beste, aplikazio honen helburua.

Txosten osoa hemen dago eskuragarri.

Snomed

SNOMED ontologiaren adibidea (iturria: http://www.imt.liu.se/~erisu/)

http://feedproxy.google.com/~r/StreamHacker/~3/RvoYBnjUBYw/
02/28/2013 - 01:11

This is a short story about the text-processing.com API, and how it became a profitable side-project, thanks to Mashape.

Text-Processing API

When I first created text-processing.com, in the summer of 2010, my initial intention was to provide an online demo of NLTK’s capabilities. I trained a bunch of models on various NLTK corpora using nltk-trainer, then started making some simple Django forms to display the results. But as I was doing this, I realized I could fairly easily create an API based on these models. Instead of rendering HTML, I could just return the results as JSON.

I wasn’t sure if anyone would actually use the API, but I knew the best way to find out was to just put it out there. So I did, initially making it completely open, with a rate limit of 1000 calls per day per IP address. I figured at the very least, I might get some PHP or Ruby users that wanted the power of NLTK without having to interface with Python. Within a month, people were regularly exceeding that limit, and I quietly increased it to 5000 calls/day, while I started searching for the simplest way to monetize the API. I didn’t like what I found.

Monetizing APIs

Before Mashape, your options for monetizing APIs were either building a custom solution for authentication, billing, and tracking, or pay thousands of dollars a month for an “enterprise” solution from Mashery or Apigee. While I have no doubt Mashery & Apigee provide quality services, they are not in the price range for most developers. And building a custom solution is far more work than I wanted to put into it. Even now, when companies like Stripe exist to make billing easier, you’d still have to do authentication & call tracking. But Stripe didn’t exist 2 years ago, and the best billing option I could find was Paypal, whose API documentation is great at inducing headaches. Lucky for me, Mashape was just opening up for beta testing, and appeared to be in the process of solving all of my problems :)

Mashape

Mashape was just what I needed to monetize the text-processing API, and it’s improved tremendously since I started using it. They handle all the necessary details, like integrated billing, plus a lot more, such as usage charts, latency & uptime measurements, and automatic client library generation. This last is one of my favorite features, because the client libraries are generated using your API documentation, which provides a great incentive to accurately document the ins & outs of your API. Once you’ve documented your API, downloadable libraries in 5 different programming languages are immediately available, making it that much easier for new users to consume your API. As of this writing, those languages are Java, PHP, Python, Ruby, and Objective C.

Here’s a little history for the curious: Mashape originally did authentication and tracking by exchanging tokens thru an API call. So you had to write some code to call their token API on every one of your API calls, then check the results to see if the call was valid, or if the caller had reached their limit. They didn’t have all of the nice charts they have now, and their billing solution was the CEO manually handling Paypal payments. But none of that mattered, because it worked, and from conversations with them, I knew they were focused on more important things: building up their infrastructure and positioning themselves as a kind of app-store for APIs.

Mashape has been out of beta for a while now, with automated billing, and a custom proxy server for authenticating, routing, and tracking all API calls. They’re releasing new features on a regular basis, and sponsoring events like MusicHackDay. I’m very impressed with everything they’re doing, and on top of that, they’re good hard-working people. I’ve been over to their “hacker house” in San Francisco a few times, and they’re very friendly and accomodating. And if you’re ever in the neighborhood, I’m sure they’d be open to a visit.

Profit

Once I had integrated Mashape, which was maybe 20 lines of code, the money started rolling in :). Just kidding, but using the typical definition of profit, when income exceeds costs, the text-processing API was profitable within a few months, and has remained so ever since. My only monetary cost is a single Linode server, so as long as people keep paying for the API, text-processing.com will remain online. And while it has a very nice profit margin, total monthly income barely approaches the cost of living in San Francisco. But what really matters to me is that text-processing.com has become a self-sustaining excuse for me to experiment with natural language processing techniques & data sets, test my models against the market, and provide developers with a simple way to integrate NLP into their own projects.

So if you’ve got an idea for an API, especially if it’s something you could charge money for, I encourage you to build it and put it up on Mashape. All you need is a working API, a unique image & name, and a Paypal account for receiving payments. Like other app stores, Mashape takes a 20% cut of all revenue, but I think it’s well worth it compared to the cost of replicating everything they provide. And unlike some app stores, you’re not locked in. Many of the APIs on Mashape also provide alternative usage options (including text-processing), but they’re on Mashape because of the increased exposure, distribution, and additional features, like client library generation. SaaS APIs are becoming a significant part of modern computing infrastructure, and Mashape provides a great platform for getting started.

http://www.unibertsitatea.net/blogak/ixa/2013/02/19/garaterm/
02/19/2013 - 23:20

Gaia: GARATERM: erregistro akademikoen garapena aztertzeko lan-ingurunea

Hizlaria: Igone Zabala

Eguna: Otsailak 28, osteguna

Ordua: 15:00

Tokia:  3.2 gela. Informatika Fakultatea

Laburpena:

2008 urtean aurrera eraman zen GARATERM proiektua (EHU-EJIE deialdiko diru-laguntza). Proiektu horretan gogoeta orokorra egin zen euskara akademikoaren garapena, ikerketa eta didaktika uztartzeko plataforma bat osatzeko eman beharreko urratsez eta beharrezko liratekeen tresna eta baliabideez. Gogoeta horrekin batera etorri zitzaion orduko Euskal Filologia sailari (orain Euskal Hizkuntza eta Komunikazioa izena duenari) zeregin bat Euskara Errektoreordetzatik, alegia, Euskara Plan Gidarian aurreikusten ziren irakasleentzako tailerren ardura hartzea. Zeregin hori Garaterm proiektuaren ideiarekin uztartu zen, eta hasieran tailer huts modura pentsatuta zeudenak Terminologia Sareak Ehunduz esaten diogun programa bihurtu ziren apurka-apurka. 2011 eta 2012 urteetan Elhuyarrekin batera aurrera eraman den unibertsitate-gizartea proiektuaren bitartez eta TSE programan lortutako esperientziari esker, aurrera eraman ahal izan dira lehen proiektuan beharrezkotzat hartutako zenbait elementu. Hitzaldi honetan “Garaterm-2: Linguistikoki prozesatutako corpusetatik terminologia eta neologia erauzteko lan-ingurunearen garapena” proiektuaren helburuak, lorpenak eta aurrera begira egin beharrekoak azalduko dira.

http://zientzia.net/artikuluak/web-corpusen-ataria-elhuyar-igk-egindako-euskarazk/
02/13/2013 - 21:05

Elhuyar Fundazioko hizkuntza-teknologien I+G taldekook Web-corpusen Ataria jarri dugu online. Bertan hiru baliabide jarri ditugu eskura: euskarazko corpus bat, euskara-gaztelania corpus paralelo bat, eta lehenetik automatikoki erauzitako hitz-konbinazioen kontsulta. Corpusak euskaraz dauden handienak dira, bakoitza bere motakoen artean. Baliabide hauek aurrerapauso handia dira euskararentzat, erabilgarriak baitira ez soilik hizkuntzalaritzarako, baizik eta baita hizkuntza-teknologien garapenerako ere.

http://www.unibertsitatea.net/blogak/ixa/2013/02/05/newsreader-ixa/
02/05/2013 - 20:40

Newsreader-leloaIxa taldea NewsReader proiektuko bost partaideetako bat da (EU FP7 programa, grant 316404, 2013 – 2015). Urtarrilaren 23an proiektua martxan jartzeko lehen bilera egin da Amsterdameko VU Unibertsitatean. Hauek gara kontsortzioko kideak :

NewsReaderproblem

Gaur egunean albiste-datuen kopuruak ikaragarri handiak dira eta zabalduz doaz gainera. Mila milioika dokumentu eduki dezakegu gordeta eta milioika dokumentu berri sortzen dira egunero. Gertaera berrien aurrean arin erantzun behar duten erabaki-guneetako langileek ezintasunean ibiltzen dira gaur egunean, egun erabiltzen diren soluzioek ez baitabiltza behar bezala. Ondorioz ia ezinezkoa da erabakiak hartzea informazio esanguratsu guztia eskuratuta, eta profesional horiek moldatu behar izaten dira informazio ez-osoa, ez-zehatza eta zaharkituarekin.

NewsReaderStorylines NewsReader proiektuan erabaki-prozesuetan laguntzeko tresna bat garatu nahi da. Profesionalari interfaze grafikoen bidez dokumentuak lerro historikoetan antolatuta erakutsiko zaizkio. Elkarrekintzaren bidez dokumentuen berritasun maila aztertu ahal izango du. Helburua da erauztea zer gertatu zion nori, non eta noiz, eta jakitea horrelakoak  bereizten  lerro historiko diferenteetan. Horrela, iraganeko gertaerak aztertuz NewsReader etorkizuneko gertaerak aurreikusteko gauza izango da. Gertaera berriak azaltzeko ahalmena lortuko du iraganeko datuak erabiliz. Finantzetako eta ekonomiako profesionalek testatuko dute tresna hau proiektuko azken urtean.

http://feedproxy.google.com/~r/aixtal-en/~3/gLV3rJNo3lA/podcast-quest-ce-que-le-traitement.html
01/23/2013 - 01:11

Vous me lisez beaucoup (enfin, moins ces temps-ci, mea culpa !), mais si vous voulez aussi entendre ma superbe voix, voici un podcast d'une interview réalisée il y a quelques jours pour Science alors !, l'émission scientifique de Radio Campus Clermont :


L'émission s'appelait L'homme et la machine, avec pour invités Bertrand Nouailles, philosophe, et Hélène Chanal, enseignante-chercheuse en robotique de production à l'IFMA. On peut la retrouver ici.

http://www.unibertsitatea.net/blogak/ixa/2013/01/18/koldo-mitxelena-saria-arantxa-otegiri/
01/18/2013 - 19:55

III_Koldo_Mitxelena_ArantxaEuskaltzaindiak eta EHUk antolatzen duten Euskarazko Tesien III. Koldo Mitxelena saria eman zioten atzo Arantxa Otegi Ixakideari Ikasketa Teknikoen jakintza-arloan. Sari-banaketa atzo izan zen, urtarrilak 17,  Bilboko Bizkaia aretoan.

Arantxa Otegiren tesiaren helburua Informazioaren berreskurapenaren ikerketan urrats bat egitea izan zen, ahaidetasun semantikoko hainbat metodo erabiliz.

Tesi horren azalpentxo bat ikus dezakezu blog honetan lehengo urteko albiste batean.

Tesi-txosten osoa ere ikus dezakezu hemen.

ZORIONAK Arantxa!

Zorionak zuzendariei! (Eneko Agirre eta Xabier Arregi)

http://www.unibertsitatea.net/blogak/ixa/2013/01/09/ixa-eamt/
01/09/2013 - 20:45

European Association of Machine Translation elkartean hamaikagarren partaide instituzionala bihurtu da Ixa Taldea 2012 urtean.

EAMT elkartearen helburua itzulpengintza automatikoan eta itzulpen-tresnagintzan interesa duten ikertzaile, garatzaile eta erabiltzaileentzako zerbitzuak eskaintzea da. Besteak beste, bi urterik behin EAMT eta MT Summit konferentziak antolatzen ditu, eta MT-List lista eta Compendium of Translation Software  biltegia kudatzen ditu.

EAMT elkartea mundu mailako International Association for Machine Translation (IAMT) elkartearen barruan dago. Maila berean mugitzen dira Amerikako elkartea (Association for Machine Translation in the Americas, AMTA) eta Asiakoa (Asia-Pacific Association for Machine Translation, AAMT).

Ixa_EAMT_corporate-memberGuztira orain hamaika gara EAMTko elkartearen bazkide bereziak, instituzioak edo enpresak garenok:

 

http://www.microsiervos.com/archivo/tecnologia/avances-traduccion.html
11/21/2012 - 22:15

Rick Rashid, investigador jefe de los laboratorios de Microsoft Research, en una demostración de sus avances en linguística computacional: software de reconocimiento de voz + traducción simultánea + conversión a voz… en tiempo (prácticamente) real. ¡Y de inglés a chino ni más ni menos!

Aunque el vídeo es un poco largo es interesante ir siguiéndolo por cómo está presentado y por entender la explicación completa de la tecnología, que incluye la utilización de redes neuronales «produndas» para reducir el número de errores tanto en la traducción como en el reconocimiento de voz.

Y otro detalle interesante: Tras solo una hora de entrenamiento, el sistema de Microsoft es capaz de imitar el mismo tono de voz que la persona que lo está utilizando.

# Enlace Permanente

http://elhuyar-blogak.org/hizkuntza/2012/10/22/elezkari-bilaketa-eleaniztunak-euskaratik-abiatuta/
10/22/2012 - 17:05

Webean gero eta informazio gehiago dago eskuragarri. Hazkunde horren froga da azkeneko 30 urte hauetan aurreko 5.000 urteetan (zibilizazioaren historia osoa) baino informazio gehiago ekoiztu izana. Informazio hori, gainera, hainbat hizkuntzatan idatzia dago. Zoritxarrez, webean kontsultagai dagoen informazio guztiaren proportzio txiki bat soilik dago euskaraz (%0,01ra ez da iristen). Bestetik, euskaldun gehienok, elebidunak edo eleaniztunak garenez, informazioa bilatzen dugunean gaztelania, ingelesa edo frantsesa erabiltzera jotzen dugu hizkuntza handietan informazio gehiago dagoelako (ikusi 1. irudia)1, euskarazko edukiak zokoratuz. Euskara bezalako beste hizkuntza txiki batzuetan ere errepikatzen da fenomeno hori; elebidunak diren erabiltzaileek dakiten hizkuntza nagusia erabiltzen dute interneteko bilaketetan [1,2].

1. irudia. Webeko edukien banaketa hizkuntzen arabera

Egoera horren aurrean honako galdera egiten dugu: erabiltzaile batek ez luke informazio aberatsagoa lortuko, baldin eta bilaketa baten emaitzak berak dakizkien hizkuntza guztietan jasoko balitu? Informazioaren berreskurapena ez luke erosoago burutuko kontsultak bere ama-hizkuntzan egingo balitu? Alde batetik, zenbait ikerketetan frogatu dute erabiltzaileak erosoago sentitzen direla informazioa eskuratzeko prozesuak bere ama-hizkuntzan burutuz [3]. Bestetik, ezin dugu ahaztu elebitasuna ez dela fenomeno isolatu bat (ikusi 2. irudia)2. Europan adibidez, populazioaren erdia elebiduna da [4]. CLIR (Cross-language Information Retrieval) teknologiari esker, erabiltzaile askok, bere ama-hizkuntzatik abiatuta, menderatzen dituzten hizkuntzetan idatzita dauden edukiak eskuratu ahal izango dituzte.

Eleaniztasunaren oztopoaz gain, informazio kopuru handiak kudeatzeko arazoarekin ere egiten dugu topo. Informazio kopuru handi horiek modu antolatu batean ez badira atzitzen saturazioaren problema gertatu daiteke. Informazio gehiegi egoteak behar dugun ezagutza eskuratzea oztopa dezake, erabiltzaileak bilaketetan oinarritutako erabaki okerrak hartzera bideratuz. Informazioa modu antolatuan eskuragai jartzeko helburuarekin, Elhuyarreko I+G taldeak eLEZKARI, hizkuntza arteko bilatzaile eleaniztuna, garatu du.

2. irudia. Hiztun kopuruak (L1=jatorrizko hizkuntza eta L2=bigarren hizkuntza)

Tresna hau, Elhuyar Fundazioaren I+G taldeak hizkuntza arteko dokumentuen berreskurapen automatikoaren (ingelesez, CLIR) ikerketa-ildoan burutzen duen jardueraren [5,6,7,8] emaitza da.

eLEZKARI, hizkuntza arteko bilatzaile eleaniztuna

Hemen aurkezten den CLIR bilatzailea domeinuarekiko independentea den arren, kasu honetan, zientzia eta teknologiaren domeinurako egokitu da, zientzia.net eta Elhuyar Zientzia eta Teknologia aldizkariaren webguneetan inplementatuz. Bilatzaile horrek, hizkuntza batetik abiatuta (euskara), hizkuntza batean baino gehiagotan dauden zientzia eta teknologiako albisteak bilatzen ditu (euskara eta ingelesezko albisteak).

Erabiltzaile euskaldunei dago zuzenduta tresna hau. Zientzietako irakasgai baterako gai baten inguruan informazio bilatu nahi duten ikasle zein irakasleek; artikulu bat idazteko informatu nahi duten kazetariek; edo, besterik gabe, zientzia eta teknologia gaiak interesatzen zaizkien erabiltzaile arruntek, kontsulta orokorrak (adibidez, “Hiesaren aurkako txertoa”) nahiz zehatzagoak (adibidez, “herentzia genetikoaren eragina minbiziaren garapenean”) burutu ditzakete, informazio esanguratsua hainbat hizkuntzatan lortuz (ikusi 3.irudia). Kontsulta horiek hizkuntza naturalean adierazi ditzake erabiltzaileak (ikusi 3.irudia), izan ere, bilaketa prozesuan kontsultak lematizatzen dira.

Interneten dauden bilatzaileen aldean hainbat abantaila eskaintzen ditu tresna honek. Google bilatzaile ospetsuak esaterako, kontsultako hitzen formak eta hauen aldaera gutxi batzuk bilatzen ditu, eta hori, euskararen kasuan, morfologia aberatsa duen hizkuntza izanik, oso kaltegarria izan daiteke emaitza egokiak bilatzeko.

Bestetik, Elebila euskarazko bilatzaileak, EusBila teknologian oinarrituta, erdibideko estrategia erabiltzen du morfologiaren problemari aurre egiteko: kontsulta lematizatu eta morfologia-sorkuntza aplikatzen ditu kontsultako lemen flexio guztiak lortzeko. Hala ere, berreskurapena burutzeko bilatzaile komertzialak erabiltzen ditu, eta horietan bildumak lematizatuta ez daudenez, dokumentu esanguratsuen ranking okerragoak sortzen dira.

Desabantaila horiek izanda ere, Elebila bilatzaileak eta Googlek hemen aurkezten dugun bilatzaileak baino estaldura handiagoa dute. Elebilak eta Googlek internet osoaren gainean burutzen dituzte bilaketak, eLEZKARIk ordea, zientzia eta teknologiako edukietan soilik.

3.irudia. Bilaketaren emaitzen adibidea

eLEZKARI bilatzaileak bi osagai nagusi ditu: sarrerako kontsultaren itzulpenerako modulua eta informazioaren berreskurapenerako modulua. Jarraian, modulu horiek azalduko dira.

Kontsultaren Itzulpena

Kontsultaren itzulpena egiteko, hainbat modu proposatzen dira literaturan. Garatu dugun tresnak hiztegietan oinarritutako teknikak erabiltzen ditu, horiek ondo egokitzen baitira euskara bezalako baliabide urriko hizkuntzetara [5,6]. Kontsultaren itzulpen-prozesuan, hiztegien bidezko itzulpen prozesuan sortzen diren arazo nagusiak tratatzen dira [7]:

a) Hiztegitik kanpoko hitzak: hiztegietan agertzen ez diren hitzak itzultzeko, helburu hizkuntzan dagoen bilduman antzekotasun ortografiko handiena duten hitzak aukeratzen dira itzulpen-hautagaitzat. (Adibidez, “korrupzio” -> ”corruption”).

b) Itzulpenen anbiguotasuna: jatorrizko hitzaren adierari ez dagozkioen itzulpenak tratatzeko, “kontsulta egituratuak” deiturikoak [9] erabiltzen ditugu. Kontsulta egituratuetan, kontsultako hitz baten itzulpen-hautagai guztiak multzokatuta tratatzen dira dokumentuen (albisteak) rankinga zehatzago kalkulatzeko. Adibidez, “baleak ehizatzea debekatua dagoen erreserbak” kontsultaren itzulpen bezala “#syn(whale) #syn(shoot hunt) #syn( forbid prevent prohibit ban ) #syn( booking reserve)” kontsulta egituratua sortuko genuke.

Informazioaren berreskurapena

Kontsultaren itzulpen-prozesua amaitutakoan, informazioaren berreskurapen prozesuari ekiten zaio. Albisteak bi tokitan bilatzen dira, zientzia.net barruko edukietan eta zientzia eta teknologia alorreko erreferentziazko webguneetan (BasqueResearch, Futurity, Science, Nature eta PhysicsWorld). Webgune horietan albiste berriak argitaratu ahala, eguneratze-moduluak gure dokumentu-bildumetan gehitzen ditu RSS-en (Really Simple Syndication) bitartez. Horrela, erabiltzaileek estaldura handiko lagina izango dute kontsultagai.

Berreskurapen-algoritmoa erabilita jatorrizko kontsulta euskarazko albisteekin osatutako bildumaren aurka prozesatuko dugu, eta, kontsultaren itzulpen-prozesuan lortu dugun itzulpena ingelesezko albisteekin osatutako bildumaren aurka. Berreskurapen-algoritmoak dokumentu (albiste) esanguratsuen rankinga osatuko du. Ranking hauetan dokumentuak kontsultak adierazten duen gaiarekiko duten antzekotasun mailaren arabera daude ordenatuta. Ranking hauek kalkulatzeko Indri algoritmoa erabili dugu.

Ebaluazioa

Guk garatutako bilatzailearen eraginkortasuna neurtzeko asmoz, Google bilatzailearekin alderatu dugu. Horretarako, Google mugatu dugu bilaketak zientzia.net-eko edukien gainean soilik burutu ditzan, Google Custom Search zerbitzua erabiliz. Ebaluazio honetan bilatzailearen garapen-prozesutik at egon diren bi pertsonek hartu dute parte giza-ebaluatzaile moduan.

Ebaluatzaileek, ausaz aukeratutako berrogei kontsultentzat bi sistemek itzulitako rankingetako dokumentuak banan-banan aztertu dituzte, eta egokitasun-maila adierazten duten hiru kategorien arabera sailkatu dituzte3:

  • Oso esanguratsua: dokumentuak kontsultan adierazten den informazio beharrari erantzuten dio. Dokumentuan kontsultako gaia sakon aztertzen da.
  • Esanguratsua: dokumentuak kontsultan adierazten den informazio beharrari zati batean erantzuten dio.
  • Ez-esanguratsua: dokumentuak ez du kontsultan adierazten den gaiari buruzko informaziorik ematen.

Ebaluazio prozesuan ahalik eta desbiderapen txikienak egon daitezen, ebaluazio itsua diseinatu dugu. Horretarako ebaluatzaileei ezkutatu egin zaie dokumentu bakoitza zein bilatzailek itzuli duen eta dagokion rankingeko zein posiziotan kokatuta dagoen.

Kontsulta bakoitzarentzat bilatzaile bakoitzak itzulitako lehen hamar dokumentuak ebaluatu dira. 5. irudian, Bilatzaile bakoitzak zenbat galderatan lortu duen ranking egokiena adierazten da. Nabarmentzekoa da eLEZKARIk Google Custom Search-ek baino ranking hobeak eskaintzen dituela kontsulta gehienetarako (%78). Hiru kontsultentzat ranking berdinak itzuli dituzte bi bilatzaileek.

5. Irudia. Eraginkortasun onena berrogei kontsultetan; Google Custom Search vs. eLEZKARI elebakarra

Google Custom Search-en eta gure bilatzailearen arteko ebaluazioa egiteaz gain, bilaketa elebakarrarekin lortutako emaitzak eta hizkuntza arteko bilaketarekin lortutako emaitzak ere konparatu ditugu. Espero bezala, bilaketa elebakarrarekin emaitza hobeak lortu dira, baina, aipatu behar da, zortzi kontsultarentzat hizkuntza arteko bilaketarekin rankingetan dokumentu esanguratsu gehiago itzuli direla (Ikusi 6. irudia).

6. irudia. Eraginkortasun onena berrogei kontsultetan; eLEZKARI elebakarra vs. hizkuntza arteko eLEZKARI

Orokorrean, bilaketa elebakarrarekin emaitza hobeak lortzen diren arren, hizkuntza arteko bilaketa erabiliz kanpoko webguneetatik ere emaitza esanguratsuak itzultzen dira, gai bati buruzko informazio osagarria lortuz. Hortaz, bilaketa elebakarrarekin batera erabiltzen bada informazio aberatsagoa eskaintzen zaio erabiltzaile eleaniztunari. Horrez gain, bilaketa bakarrean hizkuntza desberdinetako informazioa jasoz, batetik, denbora aurrezten du erabiltzaileak, eta, bestetik, erosotasuna ere irabazten du.

Maddalen Lopez de Lacalle eta Xabier Saralegi.

Bilbliografia

[1] N. Gandal. 2006. Native Language and Internet Use. International Journal of the Sociology of Language, 182, 25 – 40.

[2] Carolyn Y. Wei, Beth E. Kolko. 2005. Resistance to globalization: Language and Internet diffusion patterns in Uzbekistan. New Review of Hypermedia and Multimedia. Vol. 11, Iss. 2, 2005

[3] Vundavalli Srinivas Rao, and Vasudeva Varma. 2010. User Behavior in a Multilingual Information Access Task,, Indian Institute of Information Technology Allahabad, India. Report no: IIIT/TR/2010/30.

[4] Tabouret-Keller, A. (2004). Bilingualism in Europe. In T. K. Bhatia & W. C. Ritchie (Eds.), The handbook of bilingualism (pp. 662-688). Malden, MA: Blackwell Publishing.

[5] Saralegi, X. and Lopez de Lacalle, M. 2009. “Comparing different approaches to treat Translation Ambiguity in CLIR: Structured Queries vs. Target Co-occurrence-Based Selection”. Proceedings of TIR 2009. Linz.

[6] Saralegi, X. and Lopez de Lacalle, M. 2010. Estimating Translation Probabilities from the Web for Structured Queries on CLIR. ECIR 2010. Milton Keynes.

[7] Saralegi, X. and Lopez de Lacalle, M. 2010. Dictionary and Monolingual Corpus-based Query Translation for Basque-English CLIR. LREC 2010. Malta.

[8] Saralegi, X. 2012. Hiztegietan oinarritutako hizkuntza arteko dokumentuen berreskurapena. HAP masterra. UPV/EHU.

[9] Ari Pirkola. 1998. The effects of query structure and dictionary setups in dictionary-based cross-language information retrieval. In Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval (SIGIR ’98). ACM, New York, NY, USA, 55-63.

Syndicate content