Language, Speech and Multimedia Technologies Observatory

http://www.unibertsitatea.net/blogak/ixa/2014/11/26/txiotesia2-ko-saria-itziar-gonzalezi/
11/28/2014 - 14:03

UEUk antolatu duen “Txiokatu zure tesia 6 mezutan” #Txiotesia2 txapelketako lehen saria Itziar Gonzalez-Dios-entzat izan da, egiten ari den euskarazko testuen sinplifikazio automatikoari buruzko tesia laburtzeagatik. Ikus berria Sustatun

Zorionak @itziarGD!

Eneko Bidegain kazetari eta irakasleak bigarren saria irabazi du tesiko txioak koplatan idatzita.

Hauek dira txio irabazleak:

ItziarGD_tesitxioak

http://www.unibertsitatea.net/blogak/ixa/2014/11/14/richard-castro-kitxua-ingeniariaren-bisita/
11/28/2014 - 14:03

20141113_171503Richard Castro Mamani ikertzaile Cuscoarra, Zuricheko Unibertsitatean hilebeteko egonaldia bukatu eta gero, gure fakultatetik pasa da egin dituzten azken urratsen berri emateko: 1)zuzentzaile ortografikoak  definitu dituzte Cuzcoko eta hegoaldeko kitxuarako, 2) normalizatzaile bat aldaera  horietatik “bitxua batu”ra pasatzeko, eta 3) espainieratik kitxuarako itzultzaile automatikoa.

Normalizatzailea funtsezko tresna izango da bildu dituzten corpusak modu bateratuan tratatu ahal izateko. Zorionak Richard-i eta Annette Rios-i aurtengo COLING-en argitaratu duten artikuluarengatik:

Morphological Disambiguation and Text Normalization for Southern Quechua Varieties. Annette Rios, Richard Castro.  Coling, pages 39-47, Dublin 2014

Badira hiru urte Peruko UNSAAC unibertsitateko Hinantin taldearekin lankidetzan ari garela. Aurten bertan bi produktu berri bukatu ditugu: Hugo Joel Quisperekin Kitxuaren Datu-Base Lexikala sortu dugu eta Rosemary Jimenezekin kitxuazko corpusa kontsultatzeko lehenengo web-aplikazioa.

Kitxuaren Datu-Base Lexikala kontsultatzeko interfazea (http://ixa2.si.ehu.es/qldbapp)

 

http://semanticweb.com/medical-app-healthtap-uses-artificial-intelligence-offer-personalized-advice_b45148
11/28/2014 - 14:03

healthtapSage Lazzaro of Beta Beat reports, “Popular medical app HealthTap just launched a new product called ‘Top Doctor Insights.’ Using artificial intelligence, the new service provides users with completely personalized health information. HealthTap is a resource for accessing free medical information provided by more than 64,000 doctors. Until now, it wasn’t much more than a database. But with ‘Top Doctor Insights,’ two people searching the same topic now receive completely different results. After a user types in a question, the service goes beyond searching for keywords and actually analyzes the content and semantic meaning of the inquiry.” continued…

http://www.unibertsitatea.net/blogak/ixa/2014/11/24/hitzaldia-bertso-sorkuntza-automatikoa-posible-ote-20141127/
11/28/2014 - 14:03

UEUk eta Donostiako Euskara Zerbitzuak elkarlanean azarorako hitzaldi-sorta bat antolatu dute, ‘Dakiguna erakutsiko dizugu‘ izenburupean.

Aste honetan hjizlaria Manex Agirrezabal izango da:

Hitzaldia DOKA aretoan emango da, azaroak 27, osteguna, 19:00etan hasita.

Donostian, Antigua auzoan.

Hitzaldiaren ostean solasaldia eta mokautxo bat egongo dira.  :-))

Sarrera irekia eta doanekoa da.

Manex_Unibertsitatean_net

http://andonisagarna.blogspot.com/2014/11/watsonek-lagundu-dezake-minbizia.html
11/10/2014 - 10:40

Iturria:  MD Anderson Cancer Center
IBMk garaturiko hirugarren belaunaldiko sistema informatiko bat da Watson. Harridura sortu zuen "Jeopardy! telebistako lehiaketan goi-mailako bi partehartzaileri irabazi zienean.

Hori berez anekdota bat da, zeren eta sistema horrek, hizkuntzaren prozesamenduan, hipotesi-sorkuntzan eta ikaskuntza automatikoan oinarrituz, alda dezake errotik gizakiok ordenagailuekin interakzioan jarduteko dugun era, eta zenbait arlotan lan egiteko era ere iraul dezake, hala nola osasun-arloan.

Esate baterako, Houstongo MD Anderson Cancer Centereko medikuak Watson erabiltzen ari dira Oncology Expert Advisor izeneko software batekin, kasuan-kasuan minbiziaren tratamendurik egokiena gomendatzeko.

Watson hizketa arruntean egindako galderei erantzuteko dago pentsatua. Hori medikuntza arloan biziki kritikoa da, txosten klinikoek sarri edukitzen dutelako informazio baliagarria, oharkabean pasatzen dena.

Literatura zientifikoan erabiltzen den terminologiarik zehatzena eta adosturiko gidalerroak erabilita ere, bigarren belaunaldiko sistema informatikoek ebatz ez ditzaketen anbiguotasunak agertzen dira, medikuentzat informazio garrantzitsua eskaintzea eragozten dutenak. Hizkuntzako anbiguotasun horiek ondo ezagutzen dira, eta arlo jakin bateko terminoen adierak eta haien arteko erlazioak argitzen dituzten hiztegi kontrolatuak eta ontologiak sortu dira.

Espezialisten hizkera zorrotzetik pixka bat urrundu orduko, ordea, gauzak lausotu egiten dira. Esate baterako, gene terminoak definizio bat baino gehiago izan ditzake. Geneen datu-banku batek defini dezake esanez "proteina bat sintetizatzeko gai den ADN zati bat" dela, eta beste batek defini dezake esanez "interes biologikoa duen ADN eskualde  bat, izena duena eta tasun genetiko bat edo fenotipo bat garraia dezakeena" dela.

Terminoak duen testuinguruak zertuko du zein den interpretazio zuzena. Watsonek, bigarren belaunaldiko sistema informatikoen aldean duen abantaila testuinguruaren arabera interpretazio egokia emateko gaitasuna da, hain zuzen.

Terminologia mediko zehazki definitua edo kodetua prozesatzeak eragozpenak baldin baditu gaur egungo sistema informatikoentzat, txosten kliniko egituratugabeen integrazioak askoz zailtasun handiagoa du. Gizakiok erraz bereizten ditugu, hitz polisemikoen adierak testuinguruei erreparatuz, eta zailagoa dena baita ironia edo konnotazioak ere. Sistema informatiko gehienentzat, ordea, anbiguotasun horiek ia ezin ebatzizkoak dira. Watsonentzat, aldiz, ez.

Watsonek erauz dezake hizkuntzaren esanahia, giza garunak funtzionatzen duen modu beretsuan jardunez. Guk ez dugu hiztegi erraldoi bat buruan txertatua, entzuten dugun hitz bakoitzaren adiera han bilatzeko, eta esaldiaren esanahia bertan dauden hitz guztien adierak batuz ulertzeko. Gramatika-erregeletan soilik ere ez gara oinarritzen esanahia ulertzeko.

Berez, gizakiok sarri urratzen ditugu gramatikaren erregelak, ortografia eta semantika, eta hala ere bestek esaten dutena ulertzeko moldatzen gara. Gure solaskideen esaldiei buruz hizkuntzaren erregelen arabera arrazoituz bai, baina anbiguotasunak, metaforak eta lokuzioak interpretatzeko dugun esperientzia partekatua ere erabiliz ulertzen ditugu. Watsonek ere antzeko teknikak erabiltzen ditu gure galderen asmoari antzemateko.

Prozesuaren lehen urratsean, Watsonek testu-corpus bat irensten du, hala nola bularreko minbiziaren tratamenduari buruzko erreferentzia argitaratuena. Horrek gai bati buruzko informazio-oinarritzat hartzen du. Testu horiek hainbat formatu digitaletan eman dakizkioke: HTMLn, Microsoft Worden edo PDFn. Watsonek testu horiek corpusean egoteko duten egokitasuna eta edukien zuzentasuna ebaluatzen du, eta desegokia edo okerra irizten duen guztia baztertu egiten du. Adibidez, testua zaharregia baldin bada eta bazterturik geratu den tratamendu bat proposatzen bada bertan baztertu egingo du.

Testuak irensteko prozesu horren beste xede bat edukiak sistemaren barruan efizientzia handiagoz erabiltzeko prestatzea da. Behin edukia irentsiz gero,  Watson entrena daiteke arloko hizkuntza-egiturak ezagutzeko, eta ondoren sistema kognitiboak eduki horri buruzko galderei erantzuten die, galderaren eta informazio-corpusetik ateratako erantzun posibleen arteko inferentziak eginez.

Watsonek hainbat algoritmo erabiltzen ditu, inferentzia horiek aurkitzeko. Adibidez, galderak zerikusirik baldin badu denbora-tarte batekin, Watsonen algoritmoek erantzun posibleak ebaluatuko dituzte, denbora-tarte horretarako esanguratsuak diren ikusteko. Ostera, galderak lekuarekin zerikusirik baldin badu, algoritmoek erantzun posibleak ebaluatuko dituzte leku horretarako esanguratsuak diren ikusteko. Galderaren eta erantzun posiblearen testuinguruen arteko kidetasunak ere bilatuko ditu. Galderak eskatzen duen erantzun mota ebaluatuko du eta baita sinonimoak, aditzaren aldia, baldintzazko perpausak, etab.

Watsonek tasun horietako bakoitzari puntuazio bat emango dio, galderaren eta erantzun posiblearen artean inferentzia bat zer mailatan aurki daitekeen adierazteko. Gero ikaskuntza automatikoko teknika batek puntuazio horiek guztiak erabiliko ditu, erabakitzeko zer neurritan den onargarria erantzun hori arlo horretan.




Funtsean Watson entrenatzen da hizkuntza-inferentzien egitura esanguratsuak ezagutzeko. Gainera, berrentrena daiteke behar adina bider, arloan gertatzen diren hizkuntza-egituren aldaketak kontuan hartzeko.

Minbizia tratazeko ekarpena

Minbiziaren tratamenduan aurrerapen handiak daude baina arlo horretan ari diren profesional askok ezin izaten dute egunetik egunera ugariagoa den gai horri buruzko dokumentazioa eskuratu eta aztertu.
Hutsune hori betetzeko asmoz, MD Anderson erietxeko medikuek eta informatikariek MD Anderson Oncology Expert Advisor erabakitzeko sistema garatu dute.

Sistema horrek erietxe horretako jakinduria eta eskarmentua proba klinikoetako esperientziarekin, argitaraturiko lanekin eta medikuntzako adituek adosturiko gidalerroekin integratzen ditu, paziente jakin bakoitzari dagokion tratamendua aukeratzeko.

Zehazki, Watsonek lehenbizi pazienteak artatzeaz dauden laburpenak kargatzen eta aztertzen ditu. Horietan denboran zehar eta hainbat praktikatan izan diren sintomen, diagnostikoen, irudi bidezko proben eta tratamenduen historiak egoten dira. Informazio hori paziente jakin bat beste batzuekin alderatzen duen software batean sartzen da, populazioa tratamendu indibidualek izan dituzten erantzunik hoberenen arabera banaturiko taldetan sailka dezan.

Gero Watsonek espero diren bilakaerak, arloko klinikarien jakintza, kohorte-azterketak1 eta literatura klinikoan aurkitzen den ebidentzia erabiltzen ditu, zenbait tratamendu-aukera ebaluatu eta mailakatzeko, klinikariak kontuan izan ditzan. Datu horiek pazientearen une horretako eta aurreko egoerarekin lotzen ditu eta paziente horrentzako metodo terapeutiko egokiena eskaintzen du.

Watsonek ematen dituen gomendio terapeutiko guztien atzean dauden datu guztiak eskura dituzte medikuek, aztertu ahal izan ditzaten, datuen egokitasun klinikoa juzga dezaten eta beren erabakiak har ditzaten. Hortaz, Watsonek ez du tratamendurik erabakitzen baina paziente bakoitzari dagokion tratamendua erabakitzeko behar dituen tresnak ematen dizkio medikuari.


_______________________________________________________________________________
1 Kohorte-azterketa Azterketa epidemiologiko, aldagaien estatistiketan oinarritu, etiologiko eta denboran zeharrekoa, eritasun baten edo gertakari baten maiztasuna bi populaziotan alderatzen duena, bata arrisku-faktore jakin baten eraginpean dagoena eta bestea ez dagoena.

http://semanticweb.com/wikidata-winner-first-odi-open-data-awards_b44952
11/10/2014 - 10:40

Wikidata representatives, Lydia Pintscher and Magnus Manske  receiving award from Nigel Shadboldt and Tim Berners-Lee.19:30 GMT Tuesday 4th November 2014 –Four organisations and one individual have been acknowledged for their contribution to the worldwide open data movement in the very first Open Data Awards, held at the Open Data Institute’s Annual Summit and Gala Dinner.

The awards were presented by the ODI’s founders, Sir Tim Berners Lee and Sir Nigel Shadbolt in a ceremony attended by leaders from the business, data and technology worlds. Nominations for the awards were open to everyone and judged by a team of six including panelists from the USA and Pakistan. continued…

http://feedproxy.google.com/~r/blogspot/gJZg/~3/skxVetiSllc/googler-shumin-zhai-awarded-with-acm.html
11/04/2014 - 11:24

Posted by Alfred Spector, Vice President, Engineering

Recently, at the 27th ACM User Interface Software and Technology Symposium (UIST’14), Google Senior Research Scientist Shumin Zhai and University of Cambridge Lecturer Per Ola Kristensson received the 2014 Lasting Impact Award for their seminal paper SHARK2: a large vocabulary shorthand writing system for pen-based computers. Most simply put, this is one of those rare works that is responsible for fundamental and lasting advances in the industry, and is the basis for the rapidly growing number of keyboards that use gesture typing, including products such as ShapeWriter, Swype, SwiftKey, SlideIT, TouchPal, and Google Keyboard.

First presented 10 years ago at UIST’04, Shumin and Per Ola’s paper is a pioneering work on word-gesture keyboard interaction that described the architecture, algorithms and interfaces of a high-capacity multi-channel gesture recognition system-SHARK2. SHARK2 increased recognition accuracy and relaxed precision requirements by using the shape and location of gestures in addition to context based language models. In doing so, Shumin and Per Ola delivered a paradigm of touch screen gesture typing as an efficient method for text entry that has continued to drive the development of mobile text entry across the industry.

"Awarded for its scientific contribution of algorithms, insights, and user interface considerations essential to the practical realization of large-vocabulary shape-writing systems for graphical keyboards, laying the groundwork for new research, industrial applications, and widespread user benefit."

Prior to joining Google in 2011, Shumin worked at the IBM Almaden Research Center for 15 years, where he originated and led the SHARK project, further developing and refining it to include a low latency recognition engine that introduced the ability to accurately recognize a large vocabulary of words based upon the patterns (sokgraphs) drawn on a touchscreen device. SHARK and SHARK2 subsequently continued further development as ShapeWriter. During his tenure at IBM, Shumin additionally pursued a wide variety of HCI research areas including, but not limited to, studying the ease and efficiency of HCI interfaces, camera phone based motion sensing, and cross-device user experience.

At Google, Shumin has continued to inspire the Human-Computer Interaction research community, publishing prolifically and leading a group that incorporates HCI research, machine learning, statistical language modeling and mobile computing to advance the state of the art of text input for smart touchscreen keyboards. Building on his earlier work with SHARK/ShapeWriter, Gesture Typing is just one of the innovations that make things like typing messages on mobile device easier for hundreds of millions of people each day, and remains one of the most prominent features on Android keyboards.

Shumin has been highly active in academia during his career, as both visiting professor and lecturer at world-class universities, and is currently the Editor-in-Chief of ACM Transactions on Computer- Interaction, a Fellow of the ACM and a Member of the CHI Academy. We’re proud to congratulate Shumin and Per Ola on receiving one of the most prestigious honors in the Human-Computer Interaction (HCI) research community, and look forward to their future contributions.

http://semanticweb.com/winners-2014-semantic-web-challenge-announced-international-semantic-web-conference-held-italy_b44918
10/31/2014 - 01:11

swcAMSTERDAM, October 30, 2014 /PRNewswire/ — Elsevier, a world-leading provider of scientific, technical and medical information products and services, is pleased to announce the winners of the 2014 Semantic Web Challenge (SWC). Selected by a jury of leading experts in the computer science discipline from both academia and industry, winners were announced at the International Semantic Web Conference held in Riva del Garda, Italy, this month. Both the challenge and awards were sponsored by Elsevier. continued…

http://semanticweb.com/semantic-web-will-change-news_b44915
10/31/2014 - 01:11

Old NewsPaul Sparrow of AJR.org recently wrote, “In his book ‘Weaving the Web,’ Tim Berners-Lee described the semantic web. ‘I have a dream for the Web [in which computers] become capable of analyzing all the data on the Web — the content, links, and transactions between people and computers. A ‘Semantic Web,’ which makes this possible, has yet to emerge, but when it does, the day-to-day mechanisms of trade, bureaucracy and our daily lives will be handled by machines talking to machines. The ‘intelligent agents’ people have touted for ages will finally materialize.’ The question is, will the provider of that customized information be a media company or a technology company? A new wave of change is sweeping the media landscape, and news organizations will need to make radical changes if they want to survive this tsunami of media transformation.” continued…

http://semanticweb.com/twitter-lets-researchers-mine-data_b44899
10/30/2014 - 01:11

TwitterIANS Live recently wrote, “[Twitter] has finally given access to its vast database to a selected pool of researchers to study tweets and find answers to a variety of issues. As part of its ambitious data grant programme, Twitter is allowing academic researchers across various fields to ‘go back and study things’ over, with almost a decade of historical data, Washington Post reported. While Harvard Medical School and Boston Children’s Hospital are looking at tweets about food-poisoning cases to find answers to the spread of food-borne illnesses, researchers from the University of California at San Diego are studying whether happy people are likely to post happy images on Twitter.” continued…

Syndicate content