Language, Speech and Multimedia Technologies Observatory

http://www.speechtechmag.com/Articles/Editorial/FYI/Siri-Meet-Nina-84643.aspx
09/11/2012 - 08:00
http://www.speechtechmag.com/Articles/News/Industry-News/SpeechTrans-Launches-Video-Conference-Translation-Software-84671.aspx
08/30/2012 - 00:00

The solution features speech technologies from Nuance Communications.

http://www.speechtechmag.com/Articles/News/Industry-News/Google-Voice-Adds-13-Languages-84415.aspx
08/17/2012 - 17:05

100 million more speakers will now have access.

http://www.unibertsitatea.net/blogak/ixa/2012/07/26/tass-elhuyar/
07/26/2012 - 19:05

Aurten SEPLN biltzarrarekin batera TASS txapelketa  antolatu da.

Txapelketaren helburua gaztelaniazko Twitter mezuetan jarrera positiboa edo negatiboa antzematea zen. Formalki horri sentimenduen analisia esaten zaio (análisis de sentimientos, sentiment analysis edo opinion mining)

Eta nor izan da txapelduna?   Elhuyar I+G !

Sistemaren garatzaileak Iñaki San Vicente eta Xabier Saralegi izan dira (gure HAP master ofizialean hezitako jendea).

ZORIONAK!

Emaitza guztiak hemen ikus daitezke.

 

http://ixa2.si.ehu.es/saltmil/index.php/en/home-mainmenu-28/13-home/98-report-on-the-8th-lrec-workshop-2012-home
07/23/2012 - 16:15

On May 22nd 2012, SALTMIL held in collaboration with AfLaT a full-day workshop on "Language technology for normalisation of less-resourced languages". This was a satellite workshop preceding the biennial LREC (Language Resources and Evaluation Conference) in Istanbul, Turkey.

The program started with the invited talk presented by Sjur Moshagen Nørstebø. This was then followed by two sessions of four oral presentations and a poster session with eight contributed poster papers. All the presentations and posters stimulated many questions and discussions.

At 17.30, after a brief presentation by Francys Tyers and Guy De Pauw, an interesting  discussion took place on "Language technology for normalisation of less-resourced languages" and then the workshop was closed by thanking the audience for their participation in the whole workshop.

About fourty five people were present in total, from a wide range of countries, and representing work on a variety of less resourced languages.

Addional materials related to this workshop are available:

  • Proceedings (pdf)
  • Slides of Sjur Moshagen Nørstebø's invited talk (pdf)
  • Posters and slides of some oral presentations. (zip)
http://uninet.korpoweb.com/blogak/ixa/2012/07/19/xuxen-kimmo-koskeniemmi-eta-fsmlnp2012/
07/19/2012 - 22:50

XUXEN zuzentzaile ortografikoak laguntza paregabea eskaintzen dio erabiltzaileari testuaren kalitatea hobetzeko eta euskara batuaren forma estandarrekin ohitzen joateko apurka-apurka. Horrela, esan dezakegu euskararen estandarizazio-prozesuaren aliatu indartsua dela XUXEN programa.

 

Programaren erabilera guztiz hedatuta dago gaur egun, erabiltzaile kopuruaren aldetik eta aplikazio informatikoen aldetik:

1) Dohainik jaitsi daiteke www.euskara.euskadi.net webgunetik,

2) 1998z geroztik Microsoft Officeko banaketa ofizial guztiek barruan daukate.

3) www.euskara.euskadi.net webgunetik egin diren deskargak 20.000 baino gehiago izan dira.

4) OpenOffice-rako deskargak 7.000 baino gehiago izan ziren 2010. urtean.

5) Firefoxerako deskargak 120.000 baino gehiago izan dira 2007-2011 tartean.

6) Eta posible da beste edozein aplikaziorekin ere erabiltzea www.xuxen.com zerbitzarira jotzen badugu.

Koskeniemmi Donostian 1990ean (Euskaldunon Egunkaria)

Baina espainiera, frantsesa edo ingeleserako zuzentzaileak baino dezente konplexuagoa da XUXEN, hitz posibleak askoz gehiago direlako, eta ondorioz, hitzen analisi morfologikoa egin behar delako. 1989an horretarako balio zuen programa propio eta konplexu bat  sortu behar izan genuen. Baina hori ez zatekeen posible izan sei urte lehenago Kimmo Koskeniemmi irakasle finlandiarrak Two Level Morphology metodologia asmatu izan ez balu. Finlandieraren morfologia lantzeko asmatu zuen Koskeniemmik metodo hori, baina laster frogatu zen euskararako, ingeleserako eta beste hainbat hizkuntzatarako ere balio zuela. Geroago, urteak pasata birritan birprogramatu behar izan dugu gure zuzentzailea Karttunen, Beesley (www.fsmbook.com) eta Mans Hulden (code.google.com/p/foma) ikertzaileek asmatutako teknika berriak aplikatzeko.

Kimmo Koskeniemmi Donostiara ekarri genuen hitzaldi bat ematera 1991ean, eta berriro etorriko da datorren astean antolatu dugun nazioarteko biltzar batera: 10th edition of the International Workshop on Finite State Methods and Natural Language Processing 2012 – FSMNLP 2012.

Hori aprobetxatuz, eta jakinda irailean jubilatuko dela, pertsonalki eskertuko ahal izango diogu omenalditxo batekin morfologia konputazionalean egin zuen ekarpena, hain zuzen, euskararen prozesamendu automatikorako hain garrantzitsua izan zaiguna. ESKERRIK ASKO KIMMO!

http://uninet.korpoweb.com/blogak/ixa/2012/05/27/seudl_starsem_semeval/
05/27/2012 - 20:45

Eneko Agirre Ixa-kidea,  SIGLEX interes-taldeko koordinatzailea izanda, semantikarekin lotuta dauden hainbat biltzar eta lehiaketatan antolatzaile-lanetan ibiltzen da aspaldi honetan, hona oraintsu plazaratu diren hiru ekinbide:

Supporting Users’ Exploration of Digital Libraries nazioarteko workshopa, Txipren 2012ko irailaren 27 egindo dena, eta International Conference on Theory and Practice of Digital Libraries (TPDL) kongresuaren barruan antolatu dena. Eneko batzorde antolatzailearen partaidea da.

Lexiko-semantikaz eta semantika konputatzionalaz arituko den *SEM biltzarra ( Lexical and computational semantics: *SEM, elkarrekin antolatuko ACL ospetsuko SIGLEX eta  SIGSEM interes-taldeek.  Ekainaren 7 eta 8an Kanadako Montreal-en egingo da Ipar Amerikako hizkuntzalaritza konputazionaleko eta hizkuntza-teknologien erakundeak antolatuko duen biltzar orokorrraren barruan (NAACL HLT). Eneko antolatzaile nagusia da biltzar honetan.

SemEval-2012 ebaluazio semantikoen lehiaketa orokorraren barruan 2012koan seigarren eginkizun bat definitu da testuen arteko antzekotasun semantikoa lantzeko. Goian aipatu den *SEM biltzarrean eginkizun horretaz ere hitz egingo da. Eneko lau antolatzaileetako bat seigarren eginkizun horretan. Ikusi SemEval-2012 eta SemEval-2012 Task 6: A Pilot on Semantic Textual Similarity.

http://uninet.korpoweb.com/blogak/ixa/2012/05/23/ixa_google_hiztegia/
05/23/2012 - 19:00

Google-ekoek  beren ikerketa-saileko blogean Wikipedia eleanitzean oinarritutako  baliabide oso interesgarri bat atera dute pasa den asteburuan. IXA taldeko Eneko Agirre-rekin izandako elkarlanaren ondorioz sortu da baliabide hori. Hitzak eta kontzeptuak lotzen dituen hiztegi berezi bat da. Bilaketetako emaitzak hobetze aldera bilaketan zehazten ditugun hitzen esanahiak (kontzeptuak) bereizteko oso erabilgarria izango da hiztegi berri hau. Hemendik deskargatu daiteke.

Albistearen hasiera Google-en ikerketa-sailaren blogean

Orain dela lau urte Ixa taldeko blog honetako albiste batean poztu egiten ginen azkenean bilatzeek hizkuntza-teknologia erabiltzen hasten zirelako. Ordura arte Google-en eta beste bilatzaileetan hitz soila izan baitzen oinarria, karaktere-sekuentzia hutsa.

Bi urte geroago blogeko beste albiste batean IXA taldeko Eneko Agirre Google-en Zurich-eko ikerketa zentroan izan zela genion, Google-ek ikerkuntza jardunaldi batzuetara gonbidatuta.

Oraingoan, eta harreman horren fruitu gisa, 297 miloi (hitz, kontzeptu) bikote dituen “hiztegi” berri hori argitaratu dute. Non kontzeptu bakoitza Wikipediako artikulu bateko izenburua den, eta hitza Wikipedia barruan artikulu horri esteka bat egiteko erabili den testua. Gero zerrenda horiek hainbat modutan erabil daitezke, adibidez, hitzetatik kontzeptuetara edo kontzeptuetatik hitzetara. Zehaztasun gehiago nahi izanez gero jo Googleko blogeko albistera (laburra da eta nahiko ulergarri), ikusi LREC 2012 konferentzian aurkezten duten artikulua, edo irakurri datuekin batera datorren README fitxategia.

Baliabide ireki berri honekin aplikazio berritzaile asko sortu ahal izango dira laster. Adibidez, Google-ek duela gutxi kaleratu duen Ezagutza-Grafoarekin zerikusi hertsia duela uste dugu. Ezagutza-grafo horrekin Google-en egiten ditugun bilaketetan ohiko esteka zerrendaz gain, interesa dugun pertsona edo kontzeptuari buruzko datuak ere azalduko zaizkigu. Proba moduan, oraingoz bilatzailearen ingelesezko bertsioan bakarrik eskaintzen dute. Hemen adibidez Marie Curie-ri buruz galdetuz gero ikusiko genukeena:

 

Bilaketan izen anbiguo bat jarriz gero informazio ezberdina azalduko zaigu, Manhattanekin gertatzen den bezala (New York-eko hiria edo Woody Allen-en pelikula):

 

http://uninet.korpoweb.com/blogak/ixa/2012/05/18/tesiaizaskunfernandez/
05/22/2012 - 19:55

Kalifornian jaio eta non hil zen Walt Disney?

Gizakiontzat erantzun errazeko galdera dugu hau, informazio egokia izanez gero. Makinek ordea, geroz eta erantzun zehatzagoak emateko kapazak badira ere, edozein galderari erantzun egokia emateko ibilbide luzea dute aurretik.

Gizakiok dugun ezagutzagatik jakin badakigu galdera horretan Walt Disney espresioak pertsona-izen bati egiten diola erreferentzia eta Kaliforniak aldiz toki izen bati. Baina…

  • Nola egin makina batek galdera bat emanik horrelako espresioak Identifikatu eta bereizteko ea den pertsona, erakundea edo tokia? (identifikazioa, sailkapena)
  • Nola jakin dezake makina batek Walt Disney espresioak pertsona bati egiten diola erreferentzia eta ez pertsona horrek sortu zuen eta izen bera duen erakundeari?(desanbiguazioa)
  • Eta azkenik, nola bila ditzake makina batek erantzunak beste hizkuntza baterako? (itzulpena)
  • Alegia, nola automatizatu daiteke entitate-izen gisa ezagutzen ditugun espresioen tratamendua?

Hizkuntza prozesamenduaren arloak urte askoan zehar arazo horiek eta beste hainbat ebazteko aurrerapauso garrantzitsuak ematen jardun du.

Euskara bezalako baliabide urriko hizkuntzen testuinguruan eta teknika mota desberdinak erabiliz, pasa den martxoan Informatika Fakultatean Izaskun Fernandez-ek irakurri duen tesiaren helburuak euskarazko entitate-izenen identifikazio, sailkapen, itzulpen eta desanbiguazio automatikoa izan dira.

Tesi-egilea: Izaskun Fernandez.

IK4-Tekniker-en lan egiten du, eta bera da zentro teknologiko horren ordezkaria Langune Hizkuntz Industrien Elkartean.

Tesiaren Izenburua
: “Euskarazko Entitate-Izenak: identifikazioa, sailkapena, itzulpena eta  desanbiguazioa”.

Zuzendariak: Iñaki Alegria eta Nerea Ezeiza

Tesi-txostena: Helbide honetan lortu daiteke.

http://www.unibertsitatea.net/blogak/ixa/lexiko-semantikaren-erabilera-informazio-berreskurapenean
04/27/2012 - 20:10


Informazioaren berreskurapena (IB) erabiltzaile baten informazio-beharra asetuko duten dokumentuak bilatzean datza.  Hain ezagunak eta erabiliak diren Google eta Yahoo! bezalako web-bilatzaileak IB sistemen adibide garbiak dira.
Pasa den martxoan Informatika Fakultatean Arantxa Otegik irakurri duen tesiaren helburua IBaren ikerketan urrats bat egitea izan da, hitzen adiera-desanbiguazioko teknikak eta ahaidetasun semantikoko hainbat metodo erabiliz.


Izenburua: "Hedapena informazioaren berreskurapenean: hitzen adiera-desanbiguazioaren eta antzekotasun semantikoaren ekarpenak".
Zuzendariak: Eneko Agirre eta Xabier Arregi
Tesi-txostena: helbide honetan lortu daiteke.

Laburpena:

Informazioaren berreskurapena (IB) erabiltzaile baten informazio-beharra asetuko duten dokumentuak bilatzean datza. Honela bada, IB sistemak erabiltzaileari dokumentu adierazgarriak, alegia, erabiltzaileak behar duen informazioa eduki dezaketen dokumentuak, topatzen lagunduko dio, beti ere erabiltzaileak egindako kontsultan oinarrituz. Hain ezagunak eta erabiliak diren Google eta Yahoo! bezalako web-bilatzaileak IB sistemen adibide garbiak dira.
IB sistema perfektu batek dokumentu adierazgarriak bakarrik berreskuratu beharko lituzke, eta ez-adierazgarriak baztertu. Alabaina, sistema perfektuak ez dira existitzen. IB sistemek aurre egin behar dien arazo nagusienetako bat kontsulta eta dokumentuen arteko parekatze-arazoa deiturikoa da: dokumentu bat kontsulta batentzako adierazgarria izan daiteke nahiz eta bietan erabilitako hitzak guztiz berdinak ez izan, eta, alderantziz, dokumentu bat ez-adierazgarria izan daiteke kontsulta batentzat nahiz eta termino batzuk komunean eduki. Lehena ideia edo gauza bera adierazteko hitz edo esamolde bat baino gehiago erabili ditzakegulako (sinonimia) gerta daiteke. Bigarrena, berriz, testuinguruaren arabera hainbat interpretazio izan ditzaketen hitzek (anbiguotasuna) eragiten dezakete. Hau kontuan izanik, IB sistema batek dokumentu bat adierazgarri edo ez-adierazgarri bezala sailkatzerakoan kontuan hartzen duen irizpide bakarra kontsultako hitzak egotea (edo ez egotea) denean zaila suerta daiteke dokumentu egokiak topatzea, eta baita adierazgarriak ez direnak baztertzea. Honen aurrean, hitz horien esanahiak kontuan hartuz gero berreskurapen arrakastatsuago bat egiteko aukera gehiago egongo direla pentsatzea bidezkoa dirudi.
IBaren hastapenetatik gaur arte parekatze-arazoaren inguruan ikerketa-lan dezente egin badira ere, oraindik guztiz ebatzi gabe jarraitzen du, eta bilatzaile askok ez dute aintzat hartzen. Tesi-lan honetan hizkuntzaren prozesamenduaren (HP) bidez arazo hau arintzerik ba ote den aztertu da.
Hitz gutxitan esanda, kontsulten eta dokumentuen hedapena egiten dugu HPko bi teknikaz baliatuz: hitzen adiera-desanbiguazioa eta ahaidetasun semantikoa. Alde batetik, teknika hauetako bakoitzerako hedapen-prozesu bat proposatzen dugu, non kontsulta eta dokumentuetako hitzen sinonimo eta bestelako ahaidetasuna duten hitzak lortuko ditugun. Bestetik, hedapenetik lortutako hitz horiek, kontsulta eta dokumentuetako jatorrizko hitzekin batera, IB sistemaren prozesuan txertatu eta ustiatzeko modu eraginkor bat azaltzen dugu kasu bakoitzerako. Are gehiago, erabiliko dugun hedapen-teknikak kontsulta eta dokumentuak itzultzeko balio duenez, hedapen-teknika hori erabiliz hizkuntza arteko berreskurapenean hobekuntzak lortzen direla erakutsiko dugu.
Hiru datu-multzotan egindako esperimentu eta analisiek erakusten dute tesi-lan honetan proposatutako hedapen-metodoek parekatze-arazoari aurre egiteko balio dutela eta, ondorioz, baita IB sistemaren eraginkortasuna hobetzeko ere.

Syndicate content