Oudste kunstmatige Voorlezer (1972)

OUDSTE KUNSTMATIGE VOORLEZER (1972)

Het hondje op de dukdalf staat in de haven van Nieuwpoort, en kijkt luisterend in de richting van de zee. Het beeldje is geïnspireerd door de hoes van het grammofoon platenmerk His Masters Voice.

Over deze Post

Het leeuwendeel van het voorliggende verhaal beschrijft een computer-programma dat ik gemaakt heb om geschreven Nederlands om te zetten in een fonetische notatie, een noodzakelijk onderdeel voor spraaksynthese vanaf geschreven tekst. De basis hiervoor is gelegd tijdens het uitvoeren van een tentamenopdracht in 1966, maar het is in de periode tot 1972 verder in de praktijk beproefd en het uiteindelijk resultaat is een goed gedocumenteerd fonetiseerprogramma geworden.

Er is uiteraard apparatuur voor spraakgeneratie nodig om een geschreven fonetische tekst daadwerkelijk voor te lezen. Daartoe is het programma in 1972 gekoppeld aan apparatuur voor spraakgeneratie op het Instituut voor Perceptie Onderzoek (IPO) in Eindhoven.

Daarmee is een casettebandje met geluidsfragment geproduceerd. Ik heb dat 50 jaar bewaard, en u krijgt het straks te horen. Met die koppeling hadden we wereldwijd een eerste prototype van een “kunstmatige voorlezer” voor een natuurlijke taal zonder restricties op de invoer, met enige goede wil verstaanbaar door een native speaker van die taal.

Natuurlijk ging een simpele tekst beter dan een complexe, zowel voor het fonetiseren als voor het spraak genereren. Maar er was geen sprake van een beperkte woordenschat.

Over dit fonetiseer-programma heb ik twee publicaties geschreven. Naar beiden heb ik een verdere verwijzing opgenomen die u achteraan deze Post vindt. Voor de tekst van het fonetiseer-programma zelf verwijs ik naar deze publicaties, maar ik toon hier wel resultaten uit die publicaties in de vorm van voorbeelden en schattingen van het percentage fouten dat het programma maakt.

The automatic Conversion of written Dutch to a phonetic Notation. Third Congress on Computational Linguistics, Debrecen 1971. G.H.A. Kok. 8 pagina’s.
Het automatisch Omzetten van geschreven Nederlands in een fonetische Notatie. Mathematisch Centrum MR 130/72. G.H.A. Kok. 52 pagina’s.

(Het Mathematisch Centrum is in 1983 omgedoopt tot het Centrum voor Wiskunde en Informatica. Het Instituut voor Perceptie Onderzoek in 1996 opgeheven. )

Een bijzondere tentamenopdracht.

In 1966 volgde ik aan de UVA het college numerieke wiskunde van prof Van Wijngaarden, onderdeel was een cursus in de programmeertaal Algol60.

Om het tentamen te halen moest je een programmeeropdracht van Van Wijngaarden uitvoeren, een man met een brede belangstelling voor het gebruik van computers ook voor andere zaken dan rekenen. Hij had speciale interesse in het gebruik van computers voor natuurlijke taal, en vroeg mij of ik wilde proberen geschreven Nederlands in fonetisch Nederlands om te zetten. Ik vond het een interessante opdracht, die naar mijn bescheiden mening weinig met numerieke wiskunde te maken had.

Toen mijn reactie positief was belegde hij een bijeenkomst met Hugo Brandt Corstius. Hugo was medewerker aan het Mathematisch Centrum (MC), waar Van Wijngaarden directeur was, een ZWO-Stichting tegenwoordig hernoemd tot Centrum voor Wiskunde en Informatica. Hugo bedreef daar als pionier Computer Taalkunde, en had al een aantal dingen gerealiseerd onder andere het programma Sylsplit om Nederlandse woorden in lettergrepen te splitsen. Dat was een mooi startpunt voor mijn opdracht. Hugo zou optreden als begeleider.

Hij introduceerde mij in wat op het gebied van computer taalkunde al op het MC gebeurd was. Omdat de gangbare programmeertaal Algol60 bedoeld is als taal om te rekenen en geen stringmanipulaties bevatte, leerde dit soort werk mij de methoden die ze ontwikkeld hadden om de variabelen en array’s (rijen geïndiceerde getallen) te gebruiken voor strings. Het manipuleren van strings werd daarmee rekenen.

In de Oude Manhuispoort zat destijds een markt voor tweedehands studieboeken. Daar vond ik een zeer bruikbaar boek over Fonetiek, dat ik helaas kwijt ben. Ik maakte een afspraak bij professor Mol van Fonetiek die ik over mijn tentamenopdracht vertelde. Zijn reactie was dat wat ik moest doen onmogelijk was, en of ik vooral de groeten aan professor Van Wijngaarden wilde doen. Drie maanden later heeft hij heel welwillend naar mijn resultaten gekeken.

Wie ook heel welwillend naar mijn resultaten keek was Van Wijngaarden; ik kreeg een onwaarschijnlijk hoog cijfer voor Numerieke Wiskunde.

De hoogleraar van mijn afstudeerrichting Toegepaste Wiskunde, die wel wist wat ik voor dat cijfer had gedaan, liet mij als afstudeeropdracht een scriptie met een programma schrijven over de aangroeisnelheid van de ijsdikte bij vorst; een echt onderwerp uit de nummerieke wiskunde.

Het Probleem om geschreven Nederlands om te zetten in een fonetische Notatie

De schrijfwijze van het Nederlands is niet eenduidig is voor wat de uitspraak betreft. Van oorsprong is de spelling in alle talen die het alfabet gebruiken, min of meer fonetisch maar vaak is de relatie tussen letters en lettercombinaties enerzijds en de uitspraak in fonemen niet langer eenduidig.

Er zijn ook argumenten om voor de schrijfwijze van de uitspraak af te wijken. Bijvoorbeeld in het enkelvoud “pad” hoor je een “t” maar in het meervoud “paden” een “d”. In de Nederlands spelling is er voor gekozen die relatie tussen enkel- en meervoud in de schrijftaal te behouden.

Soms kan één letter(combinatie) voor verschillende fonemen in verschillende woorden staan: de “ch” in “chef” en “chemie”; de “a” in “baden” en “bad” (in het algemeen de a, o, u, e en i in open lettergrepen); de “e” in de “de”, “del” en “deling”.
Ook kunnen verschillende lettercombinaties dezelfde uitspraak hebben, voor hetzelfde foneem staan: “au” en “ou” in “rauw” en “rouw”; de “ei” en “ij” in “eis” en “ijs”; de “kk” en “k” in “bakken” en “baken” (in het algemeen de verdubbeling van de medeklinker achter een korte klinker); de “e”, “i” en “ij” in de tweede lettergreep van respectievelijk “lenen”, “lenig” en “lelijk”; de “d”, “dt” en “t” in respectievelijk “ik wed”, “hij wedt” en “de wet”.

Voor mijn opdracht vormen beide categorieën een probleem maar (1) is lastiger dan (2). Voor het laatste kun je uit uit de letters of lettercombinaties binnen het woord af leiden dat in dit geval de spelling ook anders had kunnen zijn, maar er is slechts één foneem mogelijk. Bij de eerste categorie moet je niet alleen constateren dat er een probleem is, maar moet je ook nog het juiste foneem kiezen.

Voor de afbeelding de andere kant op: van fonemen naar schrijftaal is het precies andersom: categorie (2) is lastiger dan (1). Je hebt de context van de zin nodig voor de grammatica om tussen “d”, “dt” en “t” te kunnen kiezen. Maar andere problemen hebben zelfs de betekenis uit de context nodig, en dit kan ook voor zaken uit de eerste categorie gelden. De afbeelding van fonemen naar schrijftaal viel niet onder de opdracht.

Voor mijn probleem kan de context redelijkerwijs beperkt worden tot één woord. Al zal dat wel eens een fout geven zoals bij “chef” en “chemie”. in een enkel geval kan je iets oplossen met een lijstje voor hoogfrequente woorden bijvoorbeeld voor het lidwoord “de”. Bij meerlettergrepige woorden bepaal ik op welke lettergreep de klemtoon valt. Deze informatie is vaak nodig om te bepalen of een letter “e” al dan niet stom is.

De relatie tussen spreektaal en schrijftaal is voor het Nederlands niet zo lastig als voor het Engels, daar doen ze niet aan spellingswijzigingen waardoor er soms grote verschillen zijn ontstaan. Bekend is het voorbeeld van Bernard Shaw: hoe spreek je “ghoti” uit? Het antwoord luidt als ‘fish’, de “gh” uit “enough”, de “o” uit “women” en de “ti” uit “nation”.

De fonetische notatie

Daarvoor zocht ik uiteraard aansluiting bij het Internationale Fonetisch Alfabet. Omdat dit een paar symbolen kent die de te gebruiken printers niet kende, beelde ik het fonetisch alfabet zoveel mogelijk af op het standaard alfabet. Een beetje zoals kinderen die leren lezen dat ook doen. Dat wil zeggen voor klinkers is één enkel symbool ook de korte klank. En voor de lange klinkers tweemaal het symbool van de korte. De lange klank van de “i” wordt ‘ie’. Voor de ‘stomme e’, zoals in “komen”, de sjwa in vaktaal, gebruiken we de ‘u’. Deze gebruiken we ook voor de stomme ‘i’ en ‘ij’ in respectievelijk “monnik” en “makkelijk”. Voor alle lange klinkers worden meerdere letters, alle klinkers, gebruikt.

Voor de medeklinkers gebruik ik de ‘q’ voor de stemhebbende “k”, zoals de eerste “k” in “zakdoek”. En de ‘c’ voor de stemloze “g” zoals in “ligt” en “licht”.

Tenslotte wordt een onderstreepte ‘n’ voor de nasale letter “n”: ‘n’ voor de nasale “ng” uit “zang” of “long”.

Het voordeel van deze representatie van het fonetisch alfabet is, dat het makkelijk leesbaar is. Het is een rigoreuze fonetische spelling van het Nederlands. Het past ook goed bij de strategie van het programma dat is opgezet als een fors aantal spellingswijzigingen waarbij de tekst steeds verder opschuift naar onze fonetisch notatie. En het maakt door zijn leesbaarheid controleren van resultaten makkelijk.

In beide publicaties staat een formele definitie van de door mij gebruikte notatie, en wordt deze ook afgebeeld op het Internationale Fonetische Alfabet.

Werkwijze: hoe kom je achter de uitspraakregels?

Ik had een boek over Fonetiek, waarin bepaalde regels goed beschreven stonden. Bijvoorbeeld de assimilatie tussen een medeklinker door een opvolgende medeklinker die maakt dat je de “t” in “wet-boek” en “vaat-doek” uitspreekt als een “d”, en terwijl de “z” in “rot-zooi” een “s” wordt.

En als “native speaker” kun je ieder woord wel op zijn Nederlands uitspreken, en kun je met introspectie gewoonlijk bepalen waarom het zus moet, en niet zo.

Vele uitspraakregels zijn af te leiden uit de spellingsregels, zoals de regels die de grammatica zichtbaar maken, zoals de “t” in “zij baadt”.

En de merkwaardige spellingsregel waarin we met het al dan niet verdubbelen van een medeklinker aangeven of een klinker als de korte of de lange variant moet worden geïnterpreteerd. ( bakken/baken, hollen/holen, bekken/beken, … )

De volgorde waarin regels toegepast worden is van belang. Zo zal indien een lettergreep eindigt met een medeklinker, terwijl de volgende lettergreep begint met dezelfde medeklinker, de eerste verwijderd moeten worden. Zoals de bovengenoemde eerste “k” in “bak-ken”. Maar als je dat vóór de assimilatie doet dan wordt “vaatdoek” geen ‘vaa-doek’

De regels worden bovendien veelal van links naar rechts toegepast. Dit alles maakt het toepassen van regels en hun samenhang complex.

Je krijgt alleen maar je vingers achter die problemen door veel te experimenteren. Het programma is stukje bij beetje tot stand gekomen waarbij er heel veel proefruns zijn gedraaid.

Het Fonetiseerprogramma (resultaten)

Dit programma staat volledig in (2) met steeds op de linkerpagina de tekst van het ALGOL60 programma, en op de rechterpagina vooral voorbeelden waarmee uitgelegd wordt wat het programma op de overstaande zijde bewerkstelligt.

Hoewel (1) slechts 8 pagina’s telt is het toch gelukt in dat bestek een paar uitspraakregels te behandelen zoals de assimilatie van medeklinkers: het verschijnsel dat een “v”, “z” of “g” door een voorafgaande stemloze medeklinker ook stemloos wordt, en dat een “b” of een “d” juist die voorafgaande stemloze verandert in zijn stemhebbende tegenhanger.

Achteraan in (1) staat een lijstje met resultaten:

Nederlands fonetisch

schubpantser scu pant sur

hebzucht hep suct

wodka wot kaa

zakdoek zaq doek

baadden baa dun

baden baa dun

alleseter a lu zee tur

begevende bu gee vun du

revolutionaire ree voo luu tsie oo ne ru

vergevingen vur gee vin un

afwezig af wee zuc

FREKWENTIETELLING

In (2) wordt verwezen naar een frekwentietelling van kranteteksten, dat is een handig hulpmiddel om het programma efficient te testen op een groot corpus. De conclusie was dat over het totale corpus 2% fout ging, en over de afzonderlijke woorden 6%. In (2) worden ook de verschillende foutcategorieën behandeld. De telling is handig om te beslissen om bepaalde hoogfrekwente woorden, waarvan de uitspraak niet volgens de regels gaat, als uitzondering op te nemen. Omdat alle kranteteksten van dezelfde dag waren vertoonde het corpus wat eigenaardigheden, zo bleek de afkorting z.t. de meest frekwente afkorting ( de gekozen dag was tijdens de Tour de France, zelfde tijd ). Hieronder een aantal voorbeelden uit het materiaal. Voor fout gefonetiseerde woorden staat *.

POËZIE

In (2) wordt verwezen naar het Eindverslag van een werkgroep “Kwantitatieve benadering van Poezie de projektgroep heeft mijn programma gebruikt om een uit 13280 woorden bestaand corpus van poezie in fonemen te herschrijven.

Volgens hun maatstaven was van de experimentele poezie 3% fout, en van de niet experimentele 2%.

Zij geven een aantal categorieën van fouten. Maar ook een lijstje van fouten die volgens hen representatief voor het programma zijn.

DE E-LEGENDE

De ee-klanken zijn in onze taal het sterkst vertegenwoordigd. Van Lennep heeft een E-Legende geschreven. Zie (2).

Een fragment hiervan

De Koppeling met de apparatuur van het Instituut voor Perceptie Onderzoek

( dit staat uitgebreider beschreven in (2))

Hugo Brandt Corstius kende iemand bij dit instituut en wist dat ze apparatuur hadden om kunstmatige spraak te genereren. Hij legde het contact.

Het bleek dat het IPO ook een aan het Internationaal Fonetisch Alfabet gerelateerde notatie hanteerde, maar natuurlijk niet dezelfde als wij. Zoals onze notatie een soort variant op de Nederlandse spelling was, zo was hun notatie verwant aan de invoerinstructies voor hun apparatuur.

Omdat het doel was om hun apparatuur aan te kunnen sturen moest ik het programma leren de uitvoer in hun notatie te produceren.

Het eerste punt is eigenlijk gewoon een verbetering van het fonetiseerprogramma. Zij zouden een woord als een uitspreken als un waar wij de ee lieten staan. Wat zij doen is juister, en dus is het programma aangepast.

De uitgang en wordt in ons programma vaak un, terwijl zij de n weglaten. Dat is ook juister, anders krijg je een soort Noord Nederlands dialect. Dat is ook in het programma aangepast.

Terwijl ons programma opereerde op losse woorden, werkte het IPO met zinnen, en er moest dus een vorm van zinsintonatie komen.

Dit is opgelost door uit de frekwentietelling een lijst van zogenaamde structuurwoorden af te leiden. Dat zijn hoogfrekwente woorden die meer tot de structuur dan tot de betekenis van een zin bijdragen. De niet-struktuur woorden zijn, zogenaamde content-woorden, en worden als zodanig herkenbaar gemaakt.

Een spreektekst wordt verdeeld in zogenaamde frasen, die in de geschreven tekst gescheiden zijn door leestekens. Binnen een frase vindt assimilatie van de medeklinkers tussen opeenvolgende woorden plaats, net zoals dat binnen één woord gebeurt.

Binnen één frase krijgt het eerste belangrijke woord de klemtoon. Het fonetiseerprogramma kent per woord één of meer lettergrepen die de klemtoon kunnen krijgen; de eerste daarvan gaven wij de klemtoon in de IPO-notatie.

Voor een eerste poging had ik een behoorlijk lastig krantenartikel “Grondrecht” uitgekozen. Dit ging over het grondwettelijke recht op je eigen gegevens. Dit artikel bleek zowel voor het fonetiseerprogramma als voor de uitspraakapparatuur erg lastig.

Ik heb toen zelf een simpelere tekst geschreven. (Achteraf vind ik dat er toch een paar moeilijke woorden in staan).

Kunstmatige voorgelezen tekst

De luisteraar moet zich realiseren dat het om een eerste prototype gaat, niet om een versie die al voor bijvoorbeeld blinden praktisch toepasbaar moet zijn. Bij latere toepassingen die wel de pretentie hadden praktisch bruikbaar te zijn voor het Engels, maar ook voor het Nederlands was het gebruikelijk dat vertegenwoordigers van de doelgroep uren de tijd kregen om aan de kunstmatige spraak te wennen voordat er getest werd op het begrip van de voorgelezen teksten.

Er volgen twee fragmenten: de eerste is een voorgelezen tekst, de tweede is dezelfde tekst maar dan met ondertiteling. Beide fragmenten staan als video op Youtube, na afloop van een video keert

u weer terug in de blog. (het videoschermpje toont soms nog een plaatje; negeren).

Het fragment

Het fragment met ondertiteling

De oudste kunstmatige Voorlezer (1972)

De titel van deze post is natuurlijk ook een claim: dat het inderdaad de oudste is. Hieronder formuleer ik deze claim precies:

Een kortstondige samenwerking tussen het Mathematisch Centrum en het Instituut voor Perceptie Onderzoek (IPO) in Eindhoven, waarvan het hier boven behandelde foneetiseerprogramma het sluitstuk vormde, was wereldwijd het oudste prototype van een “voorleesmachine” voor natuurlijke taal zonder restricties op de invoer, met enige goede wil verstaanbaar door een native speaker van die taal, Het zojuist gehoorde geluidsfragment werd daarmee geproduceerd.

Kan deze claim bewezen worden? Ik weet geen manier om een dergelijke claim te bewijzen; maar falsifiëren zou heel simpel kunnen zijn. En dat hebben we geprobeerd.

Nu bestaat een kunstmatige voorlezer uit twee componenten voor conversie:

Van grafemen (tekst) naar fonemen, en
Van fonemen naar spraak.

Deze twee stappen hebben heel verschillende karakteristieken:

De moeilijkheid van de conversie van grafemen naar fonemen hangt af van de spelling van de onderhavige taal. Als de spelling sterk fonetisch is, dan is het makkelijk. De spelling van het Engels is erg lastig. Het Fins en het Hongaars hebben een simpele spelling. Nederlands, Duits, Noors, Zweeds en Deens liggen daar tussenin.

De conversie van fonemen naar spraak heeft een universeler karakter. De fonemen zijn volgens het Internationaal Fonetisch Alfabet en spraak wordt begrensd door de mogelijkheden van de menselijke stem. Nog steeds heeft iedere taal zijn eigen klankkleur, en vaak eigenaardigheden in de uitspraak. Maar de verschillen zijn beperkt.

Het genereren van menselijke spraakklanken heeft een oude traditie. Begonnen met akoestische middelen, later electronische en vanaf ongeveer 1970 vooral digitaal. Voor 1970 vereiste het genereren van iets dat op menselijke spraak lijkt echter heel gespecialiseerde electronica. Kort door de bocht: Met geluidsbronnen voor strottenhoofd met stembanden en klankholten. En met filters op die geluidsbronnen voor klinkers en medeklinkers. En tenslotte middelen om dat geheel aan te sturen. Later werd alles digitaal.

De Verenigde Staten loopt hierbij sinds de Tweede Wereldoorlog voorop. Er was uitstekende technisch know how, en de regering stimuleerde deze ontwikkeling vanwege de blind geworden veteranen. In Nederland volgde het IPO, als technologisch op menselijke vaardigheden georiënteerd instituut, op de voet. Andere landen lijken er later mee begonnen te zijn. Waarschijnlijk met uitzondering van Japan.

Mogelijkheden tot falsificatie

Mijn onderzoek hiertoe gebeurde, waar anders, in eerste instantie op Wikipedia. Dat heeft echter zijn grenzen. Op een gegeven punt verwijst een beschrijving naar artikelen in wetenschappelijke tijdschriften; en daar heb je vaak een abonnement voor nodig. Ik heb echter in 1979 een tijdelijke functie gehad aan het Fonetisch Instituut van de Universiteit van Utrecht. En ik heb een contact uit die tijd, een foneticus, bereid gevonden om mij bij dit onderzoek met raad en daad bij te staan. Deze persoon had toegang tot tijdschriften waar ik niet bij kon. Uiteraard blijft het onderstaande mijn verantwoordelijkheid.

We hebben een aantal publicaties doorgewerkt, en ik heb met nog twee deskundigen contact opgenomen.

Ik heb een mail gestuurd naar Gabor Olaszy een hongaar die een systeem: de Multivox heeft ontwikkeld waarmee hij in meerdere talen kunstmatig kan voorlezen. Hij publiceerde voor het eerst daarover in 1989. Ik had in mijn mail het geluidsfragment meegestuurd aangevend dat het begin 1972 geproduceerd was. En gezegd dat ik wilde claimen dat dit de oudste aanzet tot kunstmatig voorlezen was. En hem vervolgens gevraagd of hij op basis van zijn eigen werk, of het hem bekende werk van anderen deze claim kon falsifiëren. Zijn antwoord was: dat onze pilot echt de eerste in de wereld was.
Ik heb Björn Granström van het KTH in Stockholm benaderd waarvan ik wist dat hij op het KTH aan kunstmatig voorlezen voor het Zweeds heeft gewerkt, maar ook aan een groot project hierover aan het MIT in de Verenigde Staten. Aan hem heb ik dezelfde informatie gestuurd als aan zijn Hongaarse collega en dezelfde vraag gesteld. Zijn antwoord was dat zijn eerste publicatie over eigen werk uit 1975 is, zodat hijzelf onze claim niet aanvecht. Maar dat als oudste claim voor kunstmatig voorlezen Noriko Umeda uit Tokio wordt genoemd.
De Verenigde Staten. In de race naar een voorleesmachine voor blind geworden veteranen te ontwikkelen. Zijn er grote projecten op gang gekomen om in die behoefte te voorzien. Men startte zelfs met het inscannen van geprinte tekst. Voor ons hier zijn natuurlijk de stappen om van gedigitaliseerde tekst naar uitspraak te komen van belang. In tegenstelling tot het Nederlands en Duits kent het Engels geen samengestelde woorden. Dat is in dit verband enerzijds een voordeel; het maakt een vocabulaire korter en simpeler, en anderzijds een nadeel: het fraseren van teksten wordt lastiger (meer woorden). Voor het Engels heb ik dan ook oplossingen gezien waarbij de vocabulaire werd uitgesplitst in kleinere componenten die de uitspraak bevatten. Terwijl er veel effort in gestoken moest worden om een goede intonatie van de frasen te bereiken. Ik heb nergens gezien dat er voor 1975 sprake was van kunstmatig voorlezen. (Ook Granström noemt het project van MIT, waaraan hij meegewerkt niet als falsificatie van onze claim)
Tenslotte Noriko Umedo. Deze naam en de stelling dat hij in 1968 het eerste Engelse text-to-speech system in 1968 in Japan ontwikkeld had, ben ik al tegengekomen bij het eerste onderzoek op Wikipedia. Staat ook beschreven in een artikel van D.Klatt uit 1987. Hij werkte met anderen samen o.a. Teranishi. Een goede beschrijving heb ik niet kunnen vinden. Hieronder mijn interpretatie van wat ik wel gevonden heb. De doelstelling van zijn werk was uit de grammatica van het Engels regels af te leiden voor de klemtoon en duur van frases in de uitspraak. De methode hiervoor is inderdaad een vorm van kunstmatig voorlezen van kindersprookjes met een vocabulaire van 1500 hoog-frekwente woorden; kennelijk voldoende voor die sprookjes (of bij behoefte uitgebreid). Er is een simpele grammatica geschreven. Toegepast op de sprookjes is het gelukt om uit de grammatica regels af te leiden voor de klemtoon van en de grenzen tussen de frasen. En daarmee zal het gelukt zijn om de sprookjes behoorlijk voor te lezen. Niets wijst er echter op dat er een algemene grafeem/foneem-conversie, een fonetiseerprogramma voor het Engels ontwikkeld is. Dat was voor het onderzoeksdoel niet nodig, want de fonemen nodig voor de uitspraak van een woord konden eenvoudig in de vocabulaire opgenomen worden. En als hij al in 1968 een fonetiseerprogramma voor het Engels had, en goede contacten in de VS, waarom heeft volwaardige kunstmatig voorlezen voor het Engels dan tot 1975 geduurd?

Weliswaar heeft Umedo ook een soort prototype van een kunstmatige voorlezer, maar deze is beperkt tot een vocabulaire van 1500 woorden. Waarmee de claim dus niet weerlegd is.

Waarom lukte een protype voor het Nederlands al in 1972?

Op het IPO kon er in 1972 op state of the art niveau kunstmatige spraak gegenereerd worden
De spelling van het Nederlands is weliswaar niet heel makkelijk, maar lang niet zo moeilijk als het Engels.
Op het Mathematisch Centrum was er, gestimuleerd door Van Wijngaarden, ervaring opgedaan met het verwerken van natuurlijke taal en waren er producten als een lettergreepsplitser, en een forse frequentie-telling op krantenteksten gerealiseerd.
Ook na afloop van mijn tentamenopdracht heeft Hugo Brandt Corstius zijn netwerk gebruikt voor interessante toepassingen van het fonetiseerprogramma die de kwaliteit verbeterd hebben: het Poëzie-onderzoek, de E-Legende en tenslotte de relatie met het IPO.

Literatuur

(1) Kok, G. H. A. The automatic conversion of written Dutch to a phonetic Notation

Papp, F. and Szépe György (eds) (2020) Papers in computational linguistics : proceedings of the 3rd international meeting on computational linguistics held at debrecen, hungary. Reprint 2017 edn. Berlin: De Gruyter Mouton (Janua Linguarum. Series Maior, 91). doi: 10.1515/9783110806700.

(2) Kok, G. H. A. (1972) Het automatisch omzetten van geschreven nederlands in een fonetische notatie. Amsterdam: Stichting Mathematisch Centrum. Rekenafdeling. Available at: https://cwilibrary.on.worldcat.org/v2/search?queryString=G+H+A+Kok+Het+automatisch+omzetten+van+geschreven+Nederlands+in+een+fonetische+notatie

Heel veel uitgebreider dan (1).

Je kunt het krijgen als E-book; maar de online-versie gaat makkelijker.

Search This Blog

Memoires van Programmeur en Zeiler, Gerard Kok

Oudste kunstmatige Voorlezer (1972)

Comments

Post a Comment

Popular posts from this blog

EEN INTEGRAAL SYSTEEM Deel II

Een Liefde aan het Begin en ook aan het Eind

GegevensMangement