From 9ea5b0583591e4aaa7859e28316f456ee18cffac Mon Sep 17 00:00:00 2001 From: PanderMusubi Date: Thu, 31 Dec 2020 15:08:51 +0100 Subject: [PATCH] fine tuning --- README.md | 12 +- datetimeversion.txt | 2 +- elements/archaic.tsv | 32 ----- elements/excluded.tsv | 2 + elements/inflections.tsv | 2 + elements/obsolete.tsv | 63 ---------- elements/outdated.tsv | 7 -- nl.dic | 252 +++++++++++++++++++++++++++++++++++++-- scripts/test.sh | 29 +++-- 9 files changed, 265 insertions(+), 136 deletions(-) delete mode 100644 elements/archaic.tsv delete mode 100644 elements/obsolete.tsv delete mode 100644 elements/outdated.tsv diff --git a/README.md b/README.md index d5e8b98..8339549 100644 --- a/README.md +++ b/README.md @@ -57,8 +57,8 @@ De datum, de tijd en het versienummer van al deze bestanden is te vinden in [datetimeversion.txt](datetimeversion.txt). Beschrijving van de overige bestanden is: -- [elements/archaic.tsv](elements/archaic.tsv) (archaïsch), dit zijn woorden die -nog wel gebruikt worden, alle zitten in de woordenlijst + - [elements/excluded.tsv](elements/excluded.tsv), deze woorden worden uitgesloten van de spellingcontrole omdat ze een veel voorkomende fout van een ander woord zijn @@ -70,12 +70,12 @@ als suggestie gegeven worden - [elements/objectionable.txt](elements/objectionable.txt) (verwerpelijk), deze woorden zijn verwerpelijk omdat ze (buiten de studie naar dit woord) als discriminerend of racistisch worden ervaren -- [elements/obsolete.tsv](elements/obsolete.tsv) (onbruik), deze woorden zijn in + + ## Installatie diff --git a/datetimeversion.txt b/datetimeversion.txt index e452fd6..6b574ef 100644 --- a/datetimeversion.txt +++ b/datetimeversion.txt @@ -1 +1 @@ -2020-12-29 21:28:13 2.20.19 +2020-12-31 15:07:26 2.20.19 diff --git a/elements/archaic.tsv b/elements/archaic.tsv deleted file mode 100644 index 2d66767..0000000 --- a/elements/archaic.tsv +++ /dev/null @@ -1,32 +0,0 @@ -aanschellen aanbellen -altoos -altoosdurend -bakvis -bakvisje -bakvisjes -bakvissen -blode laf;bedeesd;verlegen -deerne meisje -deernen meisjes -doorluchtiger voornamer;verhevener -doorluchtige voorname;verhevene -doorluchtigheden voornaamheden;verhevenheden -doorluchtigheid voornaamheid;verhevenheid -doorluchtigste voornaamste;verhevenste -doorluchtig voornaam;verheven -drinklokaal kroeg;café -drinklokalen kroegen;cafés -gaarne graag -geprangd verdrietig -heerschap persoon -helegaar helemaal -liefdebrand liefdesvuur -lub Lub -maagschap familie -ongelden ontgelden -plezierbuurt hoerenbuurt -schurftheid -vlaak -vomeren braken -wederkering -zwerk hemel diff --git a/elements/excluded.tsv b/elements/excluded.tsv index 9c18dd9..c0ee93c 100644 --- a/elements/excluded.tsv +++ b/elements/excluded.tsv @@ -1251,7 +1251,9 @@ labberen laetare landschapschilderijen landschapsschilderijen landschapschilderij landschapsschilderij +landschapschilderkunst landschapsschilderkunst landschapschilder landschapsschilder +landschapschilders landschapsschilders lebbe leerwerkaanbod leer-werkaanbod leerwerkbedrijf leer-werkbedrijf diff --git a/elements/inflections.tsv b/elements/inflections.tsv index 9220eeb..7182632 100644 --- a/elements/inflections.tsv +++ b/elements/inflections.tsv @@ -15085,6 +15085,8 @@ eenenveertigjarige eenenveertigjarig eenenvijftigjarige eenenvijftigjarig eenenzestigjarige eenenzestigjarig eenenzeventigjarige eenenzeventigjarig +eengezinskoopwoningen eengezinskoopwoning +eengezinswoningen eengezinswoning eenheidsfronten eenheidsfront eenheidslijsten eenheidslijst eenheidsworsten eenheidsworst diff --git a/elements/obsolete.tsv b/elements/obsolete.tsv deleted file mode 100644 index 9d9c5ac..0000000 --- a/elements/obsolete.tsv +++ /dev/null @@ -1,63 +0,0 @@ -afdolen -bamboezen -barrelen -beverse -bijker Bijker -bogerd Bogerd -bosneger -Bosneger -bosnegerdorp -bosnegergemeenschap -bosnegergemeenschappen -bosnegers -Bosnegers -brodde broden -brodden broden -fotografieën foto's -fotografietjes fotootjes -godspenning -godspenningen -huisneger -huisnegers -jodenvet borsthoning -koelie -koelies -koeliewerk -maagdenzwier -menistenzusjes -neger -negerbevolking -negerbloed -negerdans -negerin -negerinnen -negerinnetje -negerinnetjes -negerjongen -negerjongens -negerkind -negerkinderen -negers -negertje -negertjes -negerwijk -negerwijken -negerzoen -negerzoenen -nikker -nikkers -nikkertje -nikkertjes -normaallessen -sulde -sulden -sult -tijds de tand des tijds -tuitel Tuitel;wankel -vervuren -vlaken -voorbidding -weeuwtje jonge weduwe -wegs -wui -ziekenzand diff --git a/elements/outdated.tsv b/elements/outdated.tsv deleted file mode 100644 index d73a760..0000000 --- a/elements/outdated.tsv +++ /dev/null @@ -1,7 +0,0 @@ -gebeid gebied -kannengeluk -mannengeluk -wede -weden werden -zaan Zaan -zoude diff --git a/nl.dic b/nl.dic index 50eb593..0ef0e11 100644 --- a/nl.dic +++ b/nl.dic @@ -1,4 +1,4 @@ -180462 +180689 €10-biljet/Ze €20-biljet/Ze €50-biljet/Ze @@ -2056,8 +2056,11 @@ achterkleinkinderen achterkleinzoon/ZaZf achterklep/ZeC1 achterklinker/Za +achterkomt achterkozijnen achterkwabben +achterkwam +achterkwamen achterkwartier/ZbC1 Achterlaan achterlader/Za @@ -2888,7 +2891,8 @@ afbind/V3 afbladder afbladdering/ChC1 afbladerende/Fw -afbladeren/Fw +afbladert +afbladeren afbluft/Vb afbod afboeking/ZbChC1 @@ -19289,6 +19293,7 @@ Bokhorst/PN Bokhoven Bokhove/PN Bokito/Zc +bokjespringen bokkenbaard/Zb bokkenkop/ZeYb bokkenleer @@ -24851,6 +24856,205 @@ CBS-cijfer/Za CBS/ClCw CBS-kliniek/Fw cc +CCC +CCCI +CCCII +CCCIII +CCCIV +CCCIX +CCCL +CCCLI +CCCLII +CCCLIII +CCCLIV +CCCLIX +CCCLV +CCCLVI +CCCLVII +CCCLVIII +CCCLX +CCCLXI +CCCLXII +CCCLXIII +CCCLXIV +CCCLXIX +CCCLXV +CCCLXVI +CCCLXVII +CCCLXVIII +CCCLXX +CCCLXXI +CCCLXXII +CCCLXXIII +CCCLXXIV +CCCLXXIX +CCCLXXV +CCCLXXVI +CCCLXXVII +CCCLXXVIII +CCCLXXX +CCCLXXXI +CCCLXXXII +CCCLXXXIII +CCCLXXXIV +CCCLXXXIX +CCCLXXXV +CCCLXXXVI +CCCLXXXVII +CCCLXXXVIII +CCCV +CCCVI +CCCVII +CCCVIII +CCCX +CCCXC +CCCXCI +CCCXCII +CCCXCIII +CCCXCIV +CCCXCIX +CCCXCV +CCCXCVI +CCCXCVII +CCCXCVIII +CCCXI +CCCXII +CCCXIII +CCCXIV +CCCXIX +CCCXL +CCCXLI +CCCXLII +CCCXLIII +CCCXLIV +CCCXLIX +CCCXLV +CCCXLVI +CCCXLVII +CCCXLVIII +CCCXV +CCCXVI +CCCXVII +CCCXVIII +CCCXX +CCCXXI +CCCXXII +CCCXXIII +CCCXXIV +CCCXXIX +CCCXXV +CCCXXVI +CCCXXVII +CCCXXVIII +CCCXXX +CCCXXXI +CCCXXXII +CCCXXXIII +CCCXXXIV +CCCXXXIX +CCCXXXV +CCCXXXVI +CCCXXXVII +CCCXXXVIII +CCI +CCII +CCIII +CCIV +CCIX +CCL +CCLI +CCLII +CCLIII +CCLIV +CCLIX +CCLV +CCLVI +CCLVII +CCLVIII +CCLX +CCLXI +CCLXII +CCLXIII +CCLXIV +CCLXIX +CCLXV +CCLXVI +CCLXVII +CCLXVIII +CCLXX +CCLXXI +CCLXXII +CCLXXIII +CCLXXIV +CCLXXIX +CCLXXV +CCLXXVI +CCLXXVII +CCLXXVIII +CCLXXX +CCLXXXI +CCLXXXII +CCLXXXIII +CCLXXXIV +CCLXXXIX +CCLXXXV +CCLXXXVI +CCLXXXVII +CCLXXXVIII +CCV +CCVI +CCVII +CCVIII +CCX +CCXC +CCXCI +CCXCII +CCXCIII +CCXCIV +CCXCIX +CCXCV +CCXCVI +CCXCVII +CCXCVIII +CCXI +CCXII +CCXIII +CCXIV +CCXIX +CCXL +CCXLI +CCXLII +CCXLIII +CCXLIV +CCXLIX +CCXLV +CCXLVI +CCXLVII +CCXLVIII +CCXV +CCXVI +CCXVII +CCXVIII +CCXX +CCXXI +CCXXII +CCXXIII +CCXXIV +CCXXIX +CCXXV +CCXXVI +CCXXVII +CCXXVIII +CCXXX +CCXXXI +CCXXXII +CCXXXIII +CCXXXIV +CCXXXIX +CCXXXV +CCXXXVI +CCXXXVII +CCXXXVIII c-cedille C++/ClCw C-cup @@ -45660,7 +45864,7 @@ frommelig/Aa frommel/V3VpZaYa frondeel/YaZf frons/CaZbCbYb -fronselen +fronselen/Fw fronsels fronsen/Vi frons/V3Vq @@ -62186,7 +62390,7 @@ Helmerhorst Helmer/PN Helmersstraat Helmes/PN -helmgat +helmgat/Fw helmhaal/Fw Helmhand/Fw helmhoeden @@ -74081,7 +74285,7 @@ jumbojet/YbZaC3 jumelage/Za jumeleren/Vi Jumelet/PN -jumelles +jumelles/Fw jump jumpen/Vi jumper/YaC3Za @@ -79859,7 +80063,7 @@ knisteren/Vi knister/V3Vp knittelvers/Zh KNMI/ClCw -kno +kno/Fw -kno-arts/Fw kno-arts/Zb KNOB @@ -84873,9 +85077,11 @@ landsbestuur landsbreed landschappelijk/Aa landschapsarchitect/Zb -landschapschilderij/Zb -landschapschilderkunst -landschapschilder/Za +landschapschilderij/Fw +landschapschilderijen/Fw +landschapschilderkunst/Fw +landschapschilder/Fw +landschapschilders/Fw landschapsfoto/Zc landschapsschilderij/Zb landschapsschilder/Za @@ -97879,8 +98085,8 @@ moederkant/Fw moederkantje/Fw moederkantjes/Fw moederkat/YbZe -moederkindje -moederkindjes +moederkindje/Fw +moederkindjes/Fw moeder-kindrelatie/ZaCe moederkip moederklok/Ze @@ -175743,6 +175949,7 @@ woordkunstenaar/Za woordloos/Al woordpakket/Ze woordparen +woordensmederij woordspel woordspelig/Aa woordspeling/Zb @@ -175867,7 +176074,7 @@ Woubrugge woudaap/YbZfC1 Wouda/PN Woudbloem -woudbloem/Fw +woudbloem woud/CcCaZb woudenberg/Fw Woudenberg/PNPI @@ -176122,6 +176329,16 @@ Xavi/PN X-benen Xbox XBRL +XC +XCI +XCII +XCIII +XCIV +XCIX +XCV +XCVI +XCVII +XCVIII X-chromosoom/Zf x'en Xena/PN @@ -176176,6 +176393,7 @@ XIV-virus/Fw XIX x'je x'jes +XL XLI XLII XLIII @@ -176244,6 +176462,15 @@ XXVI XXVII XXVIII XXX +XXXI +XXXII +XXXIII +XXXIV +XXXIX +XXXV +XXXVI +XXXVII +XXXVIII xyleem xyleen/Zf xylitol @@ -176423,6 +176650,7 @@ Ysbrechtum Y-splitsing Ysselsteyn Ysseltstraat +yuca y'tje y'tjes Ytsma/PN diff --git a/scripts/test.sh b/scripts/test.sh index 6b14caa..4664cd5 100755 --- a/scripts/test.sh +++ b/scripts/test.sh @@ -3,30 +3,29 @@ if [ -z $(which hunspell) ]; then exit 1 fi -wc -l *txt +echo Pre +wc -l *.txt -hunspell -d ../nl -L -1 ../elements/stress.tsv > stress-hunspell-failed.txt +hunspell -d ../nl -l -1 ../elements/stress.tsv > stress-hunspell-failed.txt hunspell -d ../nl -G -1 ../elements/excluded.tsv > excluded-hunspell-failed.txt -hunspell -d ../nl -L -1 ../../opentaal-wordlist/elements/wordparts.tsv > wordparts-hunspell-failed.txt -#hunspell -d ../nl -L -1 ../elements/obsolete.tsv > obsolete-hunspell-failed.txt -#hunspell -d ../nl -G -1 ../elements/outdated.tsv > outdated-hunspell-failed.txt +hunspell -d ../nl -l -1 ../../opentaal-wordlist/elements/wordparts.tsv > wordparts-hunspell-failed.txt hunspell -d ../nl -G -1 ../../opentaal-wordlist/elements/corrections.tsv > corrections-hunspell-failed.txt -hunspell -d ../nl -L ../../opentaal-wordlist/wordlist.txt > wordlist-hunspell-failed.txt -#TODO remove excluded from last file +sort ../../opentaal-wordlist/wordlist.txt > tmp1 +awk -F '\t' '{print $1}' ../elements/excluded.tsv | sort > tmp2 +/usr/bin/diff tmp1 tmp2 | /bin/grep \< | sed -e 's/^..//' > tmp3 +hunspell -d ../nl -L tmp3 > wordlist-hunspell-failed.txt +rm -f tmp? if [ -z $(which nuspell) ]; then echo 'Please, install Nuspell (from their PPA) with sudo apt-get install nuspell' fi -#awk -F '\t' '{print $1}' ../elements/stress.tsv > tmp && nuspell -d ../nl -L tmp > stress-nuspell-failed.txt 2> /dev/null -#awk -F '\t' '{print $1}' ../elements/excluded.tsv > tmp && nuspell -d ../nl -L tmp > excluded-nuspell-failed.txt 2> /dev/null +awk -F '\t' '{print $1}' ../elements/stress.tsv > tmp && nuspell -d ../nl -l tmp > stress-nuspell-failed.txt 2> /dev/null +awk -F '\t' '{print $1}' ../elements/excluded.tsv > tmp && nuspell -d ../nl -G tmp > excluded-nuspell-failed.txt 2> /dev/null #awk -F '\t' '{print $1}' ../../opentaal-wordlist/elements/wordparts.tsv > tmp && nuspell -d ../nl -L tmp > wordparts-nuspell-failed.txt 2> /dev/null -##awk -F '\t' '{print $1}' ../elements/obsolete.tsv > tmp && nuspell -d ../nl -L tmp > obsolete-nuspell-failed.txt 2> /dev/null -##awk -F '\t' '{print $1}' ../elements/outdated.tsv > tmp && nuspell -d ../nl -G tmp > outdated-nuspell-failed.txt 2> /dev/null #awk -F '\t' '{print $1}' ../../opentaal-wordlist/elements/corrections.tsv > tmp && nuspell -d ../nl -G tmp > corrections-nuspell-failed.txt 2> /dev/null #nuspell -d ../nl -l ../../opentaal-wordlist/wordlist.txt > wordlist-nuspell-failed.txt 2> /dev/null -#TODO remove excluded from last file +rm -f tmp -#rm -f tmp - -wc -l *txt +echo Post +wc -l *.txt