Oikeinkirjoitusprojektista

Jarkko Hietaniemi jhi at iki.fi
Tue Feb 16 15:01:47 CST 1999


Sami Poikonen writes:
 > On Mon, 15 Feb 1999, Jarkko Hietaniemi wrote:
 > > Tuota, ensi alkuun riittänee rivi ISO-Latin 1:tä (tai 15:ta...) per
 > > kaksi saraketta, ensimmäisessä sarakkeessa sanan nominatiivi, toisessa
 > > sen "tyyppi", joka esimerkiksi tässä Suomen kielen perussanakirjassa
 > > on numero tai numero+kirjain, esimerkiksi "kieli" on 26 tai "elukka"
 > > on 14A.  Numero on se varsinainen "tyyppi", kirjain on astevaihtelu.
 > > (kunta -> kunnan, nt->nn on se astevaihtelu).
 > 
 > Jarkko, sinulla kun on selvästi jo tuota runkoa mielessä, niin teepä

Tuota, mistäs sinä niin päättelet? :-)

 > jossain vaiheessa pieni pohja, jonka päälle tuota yhteistä projektia
 > voidaan rakentaa. Kun on jotain konkreettista, niin siitä on helpompi

Ei minulla mitään konkreettista ole, mutta voin yrittää kasata niistä
monista keskeneräisistä yritelmistäni jotain.

 > lähteä liikkeelle. Vaikka arvostella sitä jos ei vaikka itsekään parempaan 
 > pystyisi.
 > 
 > Kerrotko vielä tuon käyttämäsi kielioppiteoksen ISBN, niin tiedetään

Sitä itse Fred Karlssonin kielioppiteosta en omista, olen vain joskus
lainaillut kirjastosta.  "Suomen kielen lauseoppi" tai jotain sinne
päin on nimi.  Pitäisi varmaan hankkia joka tapauksessa.

Sanakirjat ovat hyödyllisiä.

"Nykysuomen sanakirja" (WSOY, 1967 laitos, 1992 painos jota
Akateemisessa/Suomalaisessa kirjakaupassa luulisi löytyvän),
kuusi osaa mutta vain n. 250 mk (muistaakseni).  ISBN
951-0-18261-3 (koko sarja).

Uudempi "Suomen kielen perussanakirja", Edita, 1990 laitos,
kolme osaa a 350,- (juu, riistoa on), ISBN 951-861-433-4
(koko sarja).

Molemmissa sanakirjoissa on alkusivuilla ne paljon puhumani
taivutuskaavat.  Kummassakin on oma systeeminsä: eri toimituskunnat
Perussanakirjassa on nykyaikaistettu sanastoltaan mutta myös
yksinkertaistettu säännöiltään: esimerkiksi vaihtoehtoista monikkoa
"kätten,sutten,vetten" ei ole olemassa jos Perussanakirjaa uskoo...

 > sitten tapella sanamuodoista samoilla koodeilla. 
 > 
 > Ihan ensimmäiseksi kuitenkin voisi olla hyvä myös vähän kertoa ihan noista
 > peruskäsitteistä ja mitä mahdollisesti ollaan tekemässä.
 > Mitä oikoluku tarkoittaa? Sanojen perusmuotojen/taivutusmuotojen
 > etsimistä? Kirjoitusvirheiden etsimistä (spell checking)?
 > Kielioppivirheiden havaitsemista? Lauseenosien tunnistamista? Tekstin
 > luettavuuden mittaamista? Automaattinen virheenkorjaus (psuedo -> pseudo)?

Kaikkea tuota :-)  (nimim. kirjaan kirjoittamassa).  Mutta käsittääkseni
on hieman pakko aloittaa perusmuotojen/taivutusmuotojen ymmärtämisestä/
arvaamisesta.

 > Ihan jännä olisi muuten rutiini, jolla voisi tunnistaa, mitä kieltä
 > annettu teksti on. esim. annetaan rutiinille merkkijono joka sisältää vain
 > yhtä kieltä ja tuloksena saisi että annettu teksti on italiaa 75%
 > todennäköisyydellä, 15% espanjaa ja 5% portugalia.
 > Osittain melko triviaali rutiini, mutta tuollaista luokittelijaa
 > sillointällöin tarvitsisi... Ensimmäisenä tietysti voisi tehdä rutiinin ja

Tällaiseen netissä törmäsinkin, en vain muista missä, mutta pirullisen
hyvin se arvasi.  Itse ohjelmahan ei ole kauhean ihmeellinen, eri
merkkijonojen esiintymistodennäköisyyksiä.

-- 
$jhi++; # http://www.iki.fi/jhi/
        # There is this special biologist word we use for 'stable'.
        # It is 'dead'. -- Jack Cohen



More information about the Helsinki-pm mailing list