Computermiljø på japansk hvad er de grænser nu?

Link: http://www.csse.monash.edu.au/~jwb/cj_abstract.html

Jim Breen
Monash University
(jim.breen@infotech.monash.edu.au)

Indledning
En workshop om Computational Japanstudier giver mulighed for at gøre status over, hvad der præcist er computing på japansk, og hvordan det adskiller, hvis overhovedet, fra sprog-forædlingsaktiviteter på andre sprog. Når der findes sådanne forskelle, er hensigtsmæssigt at overveje, om de stadig er relevante i dag, når der har været en massiv investering i sådanne ting som internationaliseret “single binær” software og unified tegnsæt. Opmærksomheden er også nødvendigt hensyn til, hvor computerteknologi kan få nyttig indflydelse i japanske studier, og identificere, hvor prioriteter skal placeres.

Computing på japansk
Hvorfor har vi endda tale om computing i japanske eller Computational Japanese Studies? Det gør vi ikke
taler om Computational Hollandsk Studies, eller Computational italienske Studies. I denne forfatterens opfattelse standout grunden til dette er den japanske ortografisk system. Den blandede kanji / kana-system, kombineret med andre aspekter af retskrivning, fører til en række spørgsmål, som har spillet en væsentlig rolle i indførelsen af ​​informationsteknologi i Japan. Blandt disse spørgsmål er:

kodning af kanji og kana i filer
repræsentation af tekst (skærm, print, etc.)
input af tekst (af mennesker)
segmentering af tekst i lexemes
kanonisering af accepterede varianter
Alle disse, særlig de første tre, havde stor indflydelse på vedtagelsen af ​​IT i Japan, og anses af mange for at have ført til en langsommere udbredelse af it end i andre lande med tilsvarende niveauer af industrialisering. Vigtigheden af ​​de spørgsmål, der er anført ovenfor kan ses fra den tid, det tog at løse dem grundigt. (Som en test, overveje situationen, hvis Japan havde vedtaget en helt romaniseret skriftsystem i det tidlige 20. århundrede, ligesom nationer som Tyrkiet og Malaysia. Ingen af ​​ovenstående ville være blevet anset problemer i indførelsen og brugen af ​​computere.)

Kodning: Det tog over to årtier fra indførelsen af ​​edb i Japan for en national standard for kana og kanji kodning blev etableret, og mange års forløbet inden den blev udbredt.
Repræsentation: Under to ordrer størrelsesorden flere tegn til at håndtere sikkert anstrengt kapacitet slutbrugernes faciliteter. Foreløbige lav storage og kompleksitet løsninger såsom hankaku katakana, blev brugt i mange år (og fortsætter i dag.) Løsninger kun ankom med den teknologiske udvikling såsom VLSI, opbevaring billige og trykning ikke-effekt.
Text Input: Dette var et stort problem i mange år, med komplekse single-kanji selektionssystemer vedvarende indtil slutningen af ​​1980’erne og videre. Unger i sin 1987 bog “den femte generation fejlslutning” [3] hævdede, at det vigtigste mål for dette projekt, der blev lanceret i 1981, var at overvinde problemet med japanske tekstinput ved kraftig brug af AI-teknikker.

Nuværende situation
Alle de spørgsmål, der er anført ovenfor var omfattende behandles på det teknologiske niveau i 1980’erne og 1990’erne, og med virkningerne af internationaliseringen mange af løsningerne er blevet indlejret som standardelementer i software. For eksempel, næsten alle større operativsystemer udgivelser har nu som installationsmuligheder fulde støtte til japansk input, display og print (sammen med understøttelse af mange andre sprog og scripts). De fleste højt niveau sprog støtte ikke-alfanumerisk tekst håndtering. Japansk tekst segmentering, som i 1980’erne blev betragtet af mange som en umedgørlig problem, kan nu udføres effektivt af flere open source og kommercielle systemer.

Således har de fleste ortografi emner, der havde en tendens til at dominere de tidlige stadier af computing i japansk blevet løst tilstrækkeligt. Computing på japansk kan gyldigt ses som på lige fod med computing i sprog ved hjælp af alfabeter, og fokus for “computational japansk” er nu i vid udstrækning på spørgsmål i forbindelse med selve sproget.

De grænser
Mens anvendelsen af ​​edb-teknologi til japanske studier er nu i en lignende stilling til andre sprog og kulturer, og på områder som NLP udsat for de samme udfordringer, er der flere emner, der er værdig til særlig opmærksomhed. Behandle disse emner bør prioriteres i anvendelsen af ​​computerteknologi. Der foreslås følgende som en kort-liste over “grænse” emne, som godt kunne gøre med opmærksomhed:

Ordbøger. Sue Atkins bemærkede over et årti siden, at edb syntes at have begrænset indvirkning på brugeren aspekter af ordbøger, selv om de var tilgængelige på CD-ROM, og at “under disse overfladiske moderniseringer lurer de samme gamle ordbog” [2]. Japanske har sandsynligvis den højeste koncentration af ordbøger på alle sprog, og helt sikkert store tal er tilgængelige elektronisk, men på trods af, eller måske på grund af standarder som EPWING / JIS X 4081, adgang til og præsentation af ordbog indhold er stadig i vid udstrækning en replikering af papir ordbog teknikker. Atkins foreslog en række områder, hvor it-ressourcer bør udnyttes i en “new-age” ordbog, herunder omfattende bruger tilpasning, brug af hypertekst, etc. Der er helt sikkert plads til undersøgelse på dette område. Derudover er der en mangel på leksika, der er let og frit tilgængelige for forskning. Indsats skal sættes i forlængelse af frie leksika, der er tilgængelige, eller søger frigørelse af kilder, såsom EDR samling af leksika, som i dag for dyrt for mange forskere.
Corpora. Japanske er ikke særlig godt tjent på området til rådighed korpora, og er især fattige i området af parallelle tosprogede og flersprogede tekster. Mens kan identificeres beskedne antal bitexts, har de tendens til at være under kommercielle restriktioner og har normalt utilgængelige for bred udnyttelse. Etableringen af ​​en omfattende og repræsentativ japanske korpus, og især samlingen af ​​præcise bitexts, bør være en prioritet.
Computer-Assisted Language Learning (CALL). Anden grund CALL synes at være en “vanskelige” område for forskning. Der er myriader af systemer rundt, mange af dem kommercielt, men alligevel kun få synes at komme forbi bliver endnu-et flashkort eller ordforråd bore værktøj. Der har været lidt reel forskning i effekten af ​​sådanne systemer. Man har mistanke om, at problemet ligger i mellemrummet mellem sprogundervisning specialister og designere / udviklere af software. I betragtning af den popularitet af japansk undersøgelse på verdensplan, (og faktisk populariteten af ​​engelsk undersøgelse i Japan), der er helt sikkert plads til ordentlig forskning i, hvor CALL har det største potentiale, og som typer af CALL værktøjer er mest effektive.
Tekst søgning. Med WWW søgemaskiner spiller en vigtig rolle i det moderne liv, er det vigtigt, at japansk tekst korrekt håndtering. Førende søgning virksomheder som Google og Yahoo anvender en fælles ramme for alle sprog, som til tider ikke helt klare aspekter af japansk retskrivning, såsom flere skriftlige former af ord [2]. Der er rigelig plads til mere arbejde på dette område.
Maskinoversættelse. På mange måder MT ind i eller ud af japansk er ikke anderledes en situation som andre sprog. Der er et lille antal rimelig, men dyre kommercielle systemer (f.eks Fujitsus ATLAS), og et stort antal af billige men dårligt udfører systemer. De fleste F & U-arbejde synes at finde sted i kommercielle organisationer, og dermed IP spørgsmål udelukker betydelig deling af leksika, etc. eller endog betydelig offentliggørelse af metoder. Området med statistisk MT, hvilket måske er at se flere ikke-kommerciel aktivitet end traditionelle teknikker, er hæmmet af de begrænsninger i tilgængeligheden af ​​japansk-Andre parallelle tekster og frit tilgængelige leksika. Dette område af MT ville i høj grad drage fordel ved udvidelsen af ​​let tilgængelige korpora og leksika, som foreslået ovenfor.

Referencer

1. BTS Atkins, Tosprogede ordbøger: Fortid, nutid og fremtid, Euralex’96, genoptrykt i Leksikografi og Natural Language Processing: En Festskrift i Honour af BTS Atkins, Euralex, 2002.
2. JW Breen, WWW Søgemaskiner og japansk tekst, sjette symposium om Natural Language Processing 2005 (SNLP 2005), Chiang Rai, Thailand i december 2005
3. JM Unger, den femte generation fejlslutning: Hvorfor Japan Betting sin fremtid på kunstig intelligens, Oxford University Press, 1987

Comments are closed.