Skip to content
This repository has been archived by the owner on May 8, 2024. It is now read-only.

MP quality control #278

Merged
merged 70 commits into from
May 26, 2023
Merged

MP quality control #278

merged 70 commits into from
May 26, 2023

Conversation

MansMeg
Copy link
Collaborator

@MansMeg MansMeg commented Apr 15, 2023

No description provided.

input/known_MPs/README.md Outdated Show resolved Hide resolved
@BobBorges

This comment was marked as resolved.

@MansMeg

This comment was marked as resolved.

@MansMeg

This comment was marked as resolved.

@emla5688
Copy link
Contributor

Yes, I will.

MansMeg

This comment was marked as resolved.

MansMeg

This comment was marked as resolved.

@BobBorges

This comment was marked as resolved.

@MansMeg
Copy link
Collaborator Author

MansMeg commented May 11, 2023

Ok. Lets wait for the new, correct, run of the script.

I think changing to unknow, although formally being incorrect, it is an actial improvement. Hence we should check those and see how many corrections are being made ”worsening quality”.

So if there are multiple people with the same name, we should look at the time period? Or is it people with the same names and iort at the same time period?

I guess in these settings we should add a date variable to the iort metadata file to fix this?

@BobBorges
Copy link
Collaborator

I think I need a little more time to diagnose whether something is going wrong or not. One thing that looks nice is that there are about 1200 fewer segments tagged with who="unknown" in the current state of this branch compared to the main branch. Still with ca 65k such cases, I would have hoped completing the mp database would have made a bigger dent.

@MansMeg
Copy link
Collaborator Author

MansMeg commented May 12, 2023

It's not that strange. There weren't a lot of people missing. Also, I guess the main causes for the unknowns are missing iorts and different nobility titles. And that will be fixed in the next step.

@MansMeg
Copy link
Collaborator Author

MansMeg commented May 21, 2023

@BobBorges, I now see that you added the missing protocols also to this PR. Please avoid adding stuff that doesn't necessarily need to be part of the PR. The redirect script was needed (as I understood it). But the missing protocols during the 1970ies could be a separate PR, is my guess?

We want to keep the PRs as small as possible for multiple reasons:

  1. When doing QC it is usually simpler to check similar edits than different edits.
  2. It speeds up the PRs that can go into the main branch. If there is problems with the MPs that now means that the protocols from the 70ties will be delayed.
  3. It usually make the PR more difficult to code review.

So next time, try to keep the PRs to the minimal viable PR. Instead, open up multiple PRs.

@BobBorges
Copy link
Collaborator

@MansMeg I did a separate pull request for the missing 1970s data, but I merged it into this branch (the procedures we established before showed the quality for those protocols was fine -- %90+ segmentation accuracy -- it shouldn't need a review in as part of this PR) exactly because here we run redetect again on everything since unit tests, getting a full list of MPs, and improving the redetect script. If we merged 70s into main separately from this branch, those protocols would be deficient in terms of speaker detection. Of course there are alternative ways to manage what I did, but that was my thinking anyway.

In general, you're right of course. This PR in particular is a bit messy since we started with a whole list of issues to address, revised part-way through, etc. In the future, indeed, limited work per PR will be a good rule of thumb.

@MansMeg
Copy link
Collaborator Author

MansMeg commented May 21, 2023

I understand. I see how it make sense. Although, as the ”minimal possible PR” devil, I also see that this could have been done sequential. Ie first merge the PR with the redetection script and then do a new PR for the 1970ies that would have built upon the main branch.

No big deal, but I will continue to complain about too large PRs. So to avoid the grumpy statistician, keep them as small as possible. :)

@BobBorges
Copy link
Collaborator

BobBorges commented May 26, 2023

Here comes the sample :: @MansMeg (@liamtabib)

Sampled changes

corpus/protocols/1867/prot-1867--fk--0318.xml

Diff starting from line 2054

@@ -2055,7 +2054,7 @@
           <note xml:id="i-VvPGCmZMCZc2vTFmvK19Jm" type="speaker">
             Grefve Sparre, Eric:
           </note>
-          <u who="unknown" xml:id="i-QLwAiK87SSJWJVRyf4KnV7">
+          <u who="Q6184928" xml:id="i-QLwAiK87SSJWJVRyf4KnV7" next="i-KDx9FeBmtjxFeZYd2TqDvZ">
             <seg xml:id="i-VnwLGe11W7196mohgMkKGX">
               Jag kan icke underlåta att fästa uppmärksamhet på den utomordentliga
               värma, hvarmed denna fråga diskuteras. Här hafva blifvit framställda
  • Correct
  • Incorrect

corpus/protocols/1868/prot-1868--ak--0418.xml

Diff starting from line 5150

@@ -5151,7 +5150,7 @@
           <note xml:id="i-8MNrVgKWsKNoCjigz4XgNW">
             Den 18 April, e. m. 3TT
           </note>
-          <u xml:id="i-KBJM6m8QYTrvJZam5Qmtwx" who="unknown">
+          <u xml:id="i-KBJM6m8QYTrvJZam5Qmtwx" who="Q5796181" prev="i-BzahHycvX7gsPrCTzaQRGx">
             <seg xml:id="i-2tkGWKVLbJd9VdkEYMMXRh">
               ihågkommas med så dryg bevillning, som omständigheterna någonsin
               kunde tillåta. All beskattning bör stödja sig på vissa gifna principer,
  • Correct
  • Incorrect

corpus/protocols/1870/prot-1870--ak--0406.xml

Diff starting from line 5012

@@ -5013,7 +5012,7 @@
           <note xml:id="i-YEe4GTF44NUomzPLELu83h" type="speaker">
             Herr Gumelius:
           </note>
-          <u who="unknown" xml:id="i-PHn5GXf1oU2bmHTKy2vJmx">
+          <u who="Q5776520" xml:id="i-PHn5GXf1oU2bmHTKy2vJmx">
             <seg xml:id="i-CSsdoeRG5ReetYbkJDxmsh">
               En föregående talare har yttrat, att det vore illa, om dessa
               nu ifrågasatta 15,000 R:dr skulle förmå bringastatsregleringen
  • Correct
  • Incorrect

corpus/protocols/1874/prot-1874--ak--0511.xml

Diff starting from line 5456

@@ -5457,7 +5456,7 @@
           <note xml:id="i-PGqpBpJpj5Uw1wXysh4fQW">
             154 Den 11 Maj, e. m.
           </note>
-          <u xml:id="i-FwscXQdGoNcmc1xaoS8AhH" who="unknown">
+          <u xml:id="i-FwscXQdGoNcmc1xaoS8AhH" who="Q1528357" prev="i-13mtTwLPKhJamFpcyYysvA">
             <seg xml:id="i-JzSmXXLXiZxzbLZHiP67cZ">
               motiv skall tillfalla jernvägstjenstemännens pensionskassa. Men
               månne detta sätt att aflöna statens embetsoch tjenstemän är det
  • Correct
  • Incorrect

corpus/protocols/1876/prot-1876--ak--40.xml

Diff starting from line 57

@@ -57,7 +57,6 @@
       </front>
       <body>
         <div type="commentSection">
-          <pb n="-1" facs="https://betalab.kb.se/prot-1876--ak--40/prot_1876__ak__40--01.jp2/_view"/>
           <pb n="0" facs="https://betalab.kb.se/prot-1876--ak--40/prot_1876__ak__40-000.jp2/_view"/>
           <note xml:id="i-3NDHewZFVYPH9FcffKtZcC">
             RIKSDAGENS PROTOKOLL. 1876. Andra Kammaren. N:o 40.
  • Correct
  • Incorrect

corpus/protocols/1878/prot-1878--ak--32.xml

Diff starting from line 4609

@@ -4610,7 +4609,7 @@
             dermed sig förhåller, så vida man icke den ena gången missräknat
             sig.
           </note>
-          <u xml:id="i-F7eLY6CwP915DgqqnguA7p" who="unknown">
+          <u xml:id="i-F7eLY6CwP915DgqqnguA7p" who="Q5781683" prev="i-Ny25nzgYfG4EgTZyX7fAQz">
             <seg xml:id="i-7chT8FocVcUL1kLvQbbLgM">
               På samma sätt är det med de 4,1” kanonerna, till hvilka de
             </seg>
  • Correct
  • Incorrect

corpus/protocols/1880/prot-1880--ak--15.xml

Diff starting from line 1376

@@ -1377,7 +1376,7 @@
           <note xml:id="i-BmmvefJkmg2xVKmrZUNsxo" type="date">
             16 Onsdagen den 3 Mars, f. m.
           </note>
-          <u xml:id="i-Q4T7ZFjmke8ehXW1d2JAaz" who="unknown">
+          <u xml:id="i-Q4T7ZFjmke8ehXW1d2JAaz" who="Q5796181" prev="i-RwDiHmjKgKpKXzJYHJfpVS">
             <seg xml:id="i-B5CzB68BeNnHnXurpGD3qZ">
               ifrågasatt att lemna åt staten. Lika väl som skurkar få begagna
               jernvägarne ej mindre än hederligt folk, på samma sätt kan det
  • Correct
  • Incorrect

corpus/protocols/1884/prot-1884--ak--12.xml

Diff starting from line 1734

@@ -1735,12 +1734,12 @@
           <note xml:id="i-QeZRsu4Mia4jGfAsxSUGDj">
             Angående tillsyn å
           </note>
-          <u xml:id="i-FSnX2RCTTSUyziP56hcL56" who="unknown">
+          <u xml:id="i-FSnX2RCTTSUyziP56hcL56" who="Q5781683" prev="i-XEjimEmWvS9RRjRRp4QKCd">
             <seg xml:id="i-6UXRBNwvpcaA1GWPeQ54p9">
               ” förmyndanres
             </seg>
           </u>
-          <u xml:id="i-Pr7BjKGg5AMTgKDK5oTns7" who="unknown">
+          <u xml:id="i-Pr7BjKGg5AMTgKDK5oTns7" who="Q5781683" prev="i-XEjimEmWvS9RRjRRp4QKCd">
             <seg xml:id="i-5xYkMsKpMUdYxYzxp54LVG">
               förvaltning.
             </seg>
  • Correct
  • Incorrect

corpus/protocols/1886/prot-1886--ak--17.xml

Diff starting from line 3366

@@ -3367,7 +3366,7 @@
               är värdt att försöka = (Forts.) ytterligare dermed.
             </seg>
           </u>
-          <u xml:id="i-GJkdSG54EyH79FtD2R1LxP" who="unknown">
+          <u xml:id="i-GJkdSG54EyH79FtD2R1LxP" who="Q5781683" prev="i-DgrZVV9UAZJryUozLmTsSw">
             <seg xml:id="i-4FK2zcXDXBbSkwyDkxT51R">
               Hans Excellens Herr Statsministern sade bland annat, att spanmålstullen
               vore olämplig, derför att den vore en kapitationsafgift, och att
  • Correct
  • Incorrect

corpus/protocols/1887/prot-1887-majjul-fk--18.xml

Diff starting from line 1583

@@ -1584,7 +1583,7 @@
               bifall till lagen.
             </seg>
           </u>
-          <u xml:id="i-4qjqtpQcioJhjwT3YCFCFB" who="unknown">
+          <u xml:id="i-4qjqtpQcioJhjwT3YCFCFB" who="Q5609105" prev="i-7JRAE25eXXX7P5V2dWxk5V">
             <seg xml:id="i-B6J1cyX981cqgjDkimngAC">
               Jag är nemligen ense med herr Ekenman, 1 hvad han sade, att denna
               skiljemannainstitution, sedd från rättens synpunkt, måste vara
  • Correct
  • Incorrect

corpus/protocols/1888/prot-1888--ak--11.xml

Diff starting from line 3377

@@ -3378,7 +3377,7 @@
             'portkostnaden ruinerade honom. Derefter blef egendomen såld
             för
           </note>
-          <u xml:id="i-2cTbV3SMhZu1hVTfTA7F44" who="unknown">
+          <u xml:id="i-2cTbV3SMhZu1hVTfTA7F44" who="Q5553680" prev="i-KKZwAouUFpAYvz9yxWvdhh">
             <seg xml:id="i-9SxYNTYJoiCF8ZK2bsZuPm">
               mycket billigt pris, bestämdt icke ötver 10,000 kronor, och köparen
               försökte afdrifva den mindre skogen, som var qvar, såsom pitprops
  • Correct
  • Incorrect

corpus/protocols/1890/prot-1890--ak--31.xml

Diff starting from line 3280

@@ -3281,7 +3280,7 @@
             i Sorröd, Erikson i Myckelgård, Gyllensvärd, Hanson i Berga och
             Andersson i Baggböle.
           </note>
-          <u xml:id="i-DzNtG3P1Qgc1WMWVg489Nw" who="unknown">
+          <u xml:id="i-DzNtG3P1Qgc1WMWVg489Nw" who="Q5896085" prev="i-TxEJkvSjrGzTpcQUayqtmh">
             <seg xml:id="i-4KqsedpC11p99iW2NmNaJa">
               Vidare anförde:
             </seg>
  • Correct
  • Incorrect

corpus/protocols/1893/prot-1893--ak--28.xml

Diff starting from line 3877

@@ -3878,7 +3877,7 @@
               der de äro förlagda, och till ingen båtnad för det allmänna.
             </seg>
           </u>
-          <u xml:id="i-CraxPAbDBGHkNGBkCHfDNP" who="unknown">
+          <u xml:id="i-CraxPAbDBGHkNGBkCHfDNP" who="Q6039741" prev="i-8Ky7dWRUAGv4sUuXaoQ2yK">
             <seg xml:id="i-TT9q8GMTkAK4nRbTTdx1aP">
               Det framhålles såsom en sjelfklar sak, att hos allmänheten skulle
               framkallas ett lifligare intresse för folkskolan, om de treklassiga
  • Correct
  • Incorrect

corpus/protocols/1893/prot-1893--fk--31.xml

Diff starting from line 1932

@@ -1933,7 +1932,7 @@
               så godt först som sist uttala mina betänkligheter.
             </seg>
           </u>
-          <u xml:id="i-LtJtsS6ZYdpFsFsMJ51JVj" who="unknown">
+          <u xml:id="i-LtJtsS6ZYdpFsFsMJ51JVj" who="Q6201341" prev="i-BNPnkawA24fA2Dmn5RnWiR">
             <seg xml:id="i-GpQA22ofHBw4x5NeBNRAH6">
               Sant är, såsom i betänkandet framhålles, att Visby stift är det
               minsta i riket. Sant är också, att detta stift räknar en befolkning
  • Correct
  • Incorrect

corpus/protocols/1904/prot-1904--ak--60.xml

Diff starting from line 57

@@ -57,7 +57,6 @@
       </front>
       <body>
         <div>
-          <pb n="-1" facs="https://betalab.kb.se/prot-1904--ak--60/prot_1904__ak__60--01.jp2/_view"/>
           <pb n="0" facs="https://betalab.kb.se/prot-1904--ak--60/prot_1904__ak__60-000.jp2/_view"/>
           <note xml:id="i-UrvwFhhNVWea4fj6Dtm9Bx">
             RIKSDAGENS PROTOKOLL.
  • Correct
  • Incorrect

corpus/protocols/1905/prot-1905--ak--61.xml

Diff starting from line 57

@@ -57,7 +57,6 @@
       </front>
       <body>
         <div>
-          <pb n="-1" facs="https://betalab.kb.se/prot-1905--ak--61/prot_1905__ak__61--01.jp2/_view"/>
           <pb n="0" facs="https://betalab.kb.se/prot-1905--ak--61/prot_1905__ak__61-000.jp2/_view"/>
           <note xml:id="i-74WFNpR8zPp7WrvStZ6k1P">
             RIKSDAGENS PROTOKOLL. 1905. Andra Kammaren. N:o Gl.
  • Correct
  • Incorrect

corpus/protocols/1905/prot-1905--fk--18.xml

Diff starting from line 2120

@@ -2121,7 +2120,7 @@
           <note xml:id="i-4NLBWwjXDKBdNqGkSe1R9x">
             Onsdagen den 38 Mars. 29 N:o 18.
           </note>
-          <u xml:id="i-CZjg24c76CJqQZGivcsQXb" who="unknown">
+          <u xml:id="i-CZjg24c76CJqQZGivcsQXb" who="Q6045461" prev="i-EBWu62TEdkQtGVTRvkykvx">
             <seg xml:id="i-3C6GadRj9mRawzfVQ2yaba">
               skulle komma till stånd. TI själfva verket är ju också såsom
               sagdt A/rågasatt ganska ovisst, om det är en fördel att få kalla
  • Correct
  • Incorrect

corpus/protocols/1911/prot-1911--fk--26.xml

Diff starting from line 3419

@@ -3420,7 +3419,7 @@
               fallet.
             </seg>
           </u>
-          <u xml:id="i-DEmc8cqiRGMnbnRVafMnYU" prev="i-SbD31Q7jwHFcmkcLP288KX" who="Q53642">
+          <u xml:id="i-DEmc8cqiRGMnbnRVafMnYU" prev="i-SbD31Q7jwHFcmkcLP288KX" who="Q5630638">
             <seg xml:id="i-QtwRuqTw9wo8sFKScjigod">
               Herr 'Trygger började diskussionen med att säga: är det så förskräckligt,
               att en person får uppoffra den omkostnad, som åtgår för högst
  • Correct
  • Incorrect

corpus/protocols/1917/prot-1917--ak--23.xml

Diff starting from line 2337

@@ -2338,38 +2337,38 @@
               ute
             </seg>
           </u>
-          <u xml:id="i-GfoZ4Fp6ScoBmNH6V9xAQt" who="unknown">
+          <u xml:id="i-GfoZ4Fp6ScoBmNH6V9xAQt" who="Q6189442" prev="i-L7SvnnDQD91gnNet2uBUWM">
             <seg xml:id="i-T58ZVxJkVxPm6DqHpXeUmL">
               på så lovliga vägar som att skjutsa sin dotter till skolan från
               hem-
             </seg>
           </u>
-          <u xml:id="i-PQyYHhNcakGJreTiaD8pib" who="unknown">
+          <u xml:id="i-PQyYHhNcakGJreTiaD8pib" who="Q6189442" prev="i-L7SvnnDQD91gnNet2uBUWM">
             <seg xml:id="i-F1DT967P6GfyXfug3yozgi">
               met. Militärposteringen säger halt. »Jag är på väg för att skjutsa
             </seg>
           </u>
-          <u xml:id="i-PHX6xRhvNgLeRVVzY579ji" who="unknown">
+          <u xml:id="i-PHX6xRhvNgLeRVVzY579ji" who="Q6189442" prev="i-L7SvnnDQD91gnNet2uBUWM">
             <seg xml:id="i-Q3vBKbxVzdAb8Jrvv4QsG9">
               min dotter till skolan», säger han. »Vänd om!» Och det fick han
             </seg>
           </u>
-          <u xml:id="i-WV2wXofxJbSqJjfmYTj2Ty" who="unknown">
+          <u xml:id="i-WV2wXofxJbSqJjfmYTj2Ty" who="Q6189442" prev="i-L7SvnnDQD91gnNet2uBUWM">
             <seg xml:id="i-9QAL3YKacpHq2VP5D4Uqm7">
               finna sig i. När det går så långt, att husundersökningar verkstäl-
             </seg>
           </u>
-          <u xml:id="i-AP2y8fUtKsacpra6S5JkcY" who="unknown">
+          <u xml:id="i-AP2y8fUtKsacpra6S5JkcY" who="Q6189442" prev="i-L7SvnnDQD91gnNet2uBUWM">
             <seg xml:id="i-TTLMoDESMxZv6GERwshyY3">
               las endast på rena misstankar eller vå grund av illvilliga angivelser
             </seg>
           </u>
-          <u xml:id="i-CnoTsy93MBUvYL1QpeXqAh" who="unknown">
+          <u xml:id="i-CnoTsy93MBUvYL1QpeXqAh" who="Q6189442" prev="i-L7SvnnDQD91gnNet2uBUWM">
             <seg xml:id="i-X5Sf9JMDLnd2tx4azkXuSP">
               eller godtycke, har man väl ändå anledning att reagera häremot.
             </seg>
           </u>
-          <u xml:id="i-NMWSVc6P28rr2cu3min7A2" who="unknown">
+          <u xml:id="i-NMWSVc6P28rr2cu3min7A2" who="Q6189442" prev="i-L7SvnnDQD91gnNet2uBUWM">
             <seg xml:id="i-K9DCofLEFxWctwdbNEBunC">
               Jag vill nämna ett fall av sådan, som det förefaller mig, otillbörlig
               husundersökning. Fallet har förresten redan dragits inför justitiekanslern.
  • Correct
  • Incorrect

corpus/protocols/1919/prot-1919--ak--41.xml

Diff starting from line 4952

@@ -4953,7 +4952,7 @@
           <note xml:id="i-mTBZwWeiKP2QcbECStLDG">
             Lördagen den 26 april, f. m. 59
           </note>
-          <u xml:id="i-GNN8EeJxECq1dZ5A4f9Eiu" who="unknown">
+          <u xml:id="i-GNN8EeJxECq1dZ5A4f9Eiu" who="Q6029940" prev="i-FprT3Ygj2gENpdAURDDnpx">
             <seg xml:id="i-Q4EWtqRUwP6nC7o4bHwY4U">
               Här har innevarande riksdag väckts en motion av herr Mossberg,
               vari ban föreslår, att industrierna skulle skaffa bostäder till
  • Correct
  • Incorrect

corpus/protocols/1923/prot-1923--ak--14.xml

Diff starting from line 3705

@@ -3705,7 +3705,7 @@
           <note type="speaker" xml:id="i-BsVqDkUYkhfhMZL8V2SGeq">
             Herr Oisson i Golvvasta:
           </note>
-          <u who="unknown" xml:id="i-937db2faa56a67bc-17">
+          <u who="Q6158007" xml:id="i-937db2faa56a67bc-17" next="i-937db2faa56a67bc-21">
             <seg xml:id="i-7vEbheopLq8KRAufbVxs8h">
               Herr talman! Trots att Jag förstår, att det finns en avgjord
               majoritet för utskottets förslag, skall jag dock be att få säga
  • Correct
  • Incorrect

corpus/protocols/1930/prot-1930--ak--31.xml

Diff starting from line 554

@@ -554,7 +554,7 @@
           <note type="date" xml:id="i-hbuSanjCNqVtrxdf5Z3Mh">
             Lördagen den 3 maj. 7
           </note>
-          <u who="Q5895957" xml:id="i-24e0ff6cf9584dee-1" prev="i-24e0ff6cf9584dee-0">
+          <u who="Q6140360" xml:id="i-24e0ff6cf9584dee-1" prev="i-24e0ff6cf9584dee-0">
             <seg xml:id="i-2fb3UsKmxqDNpsrN89cbiA">
               emot funnits både badhus och samlingslokaler för personalen.
               Dessa senare lokaler hava icke kunnat få användas av personalen
  • Correct
  • Incorrect

corpus/protocols/1938/prot-1938--ak--20.xml

Diff starting from line 6702

@@ -6702,7 +6702,7 @@
           <note type="speaker" xml:id="i-Y3H1tRJaJNDW1Par7dVK2p">
             Herr Beckström:
           </note>
-          <u who="unknown" xml:id="i-f73e4958242af051-15">
+          <u who="Q5591651" xml:id="i-f73e4958242af051-15" next="i-T2m5S1gEhNU4F987ajm2D9">
             <seg xml:id="i-KNuDPGsLCrEXfj5thMb6NA">
               Herr talman! Beträffande denna punkt i statsutskottets utlåtande
               har undertecknad framburit en motion, vari jag yrkar avslag
  • Correct
  • Incorrect

corpus/protocols/1945/prot-1945--fk--24.xml

Diff starting from line 5235

@@ -5235,7 +5235,7 @@
           <note type="speaker" xml:id="i-TSsb8brF3vq34NeghGtMGZ">
             Herr Uhlén:
           </note>
-          <u who="unknown" xml:id="i-889d386b2a013b9c-189">
+          <u who="Q6218905" xml:id="i-889d386b2a013b9c-189" next="i-889d386b2a013b9c-99">
             <seg xml:id="i-8ErasbbLEsFJbxRmUCw7Fd">
               Herr talman! Egentligen tänkte jag begära ordet endast för att
               kort och gott yrka bifall till herr Wallentheims reservation,
  • Correct
  • Incorrect

corpus/protocols/1954/prot-1954--ak--10.xml

Diff starting from line 1598

@@ -1598,7 +1598,7 @@
           <note xml:id="i-SeV41ocsqzL9dJSRRcUHRV">
             ringstagarrepresentationens ordnande i
           </note>
-          <u who="Q3162739" xml:id="i-85b579d271a7af35-3" prev="i-85b579d271a7af35-0">
+          <u who="unknown" xml:id="i-85b579d271a7af35-3">
             <seg xml:id="i-FNSkyYFzDxrfL1NbaGorAw">
               däremot inte utan betydande svårigheter av uttalandet utläsa,
               att här skulle vara fråga om en icke motbevisbar presumtion. Om
  • Correct
  • Incorrect

corpus/protocols/1954/prot-1954--ak--20.xml

Diff starting from line 14434

@@ -14434,7 +14434,7 @@
           <note type="date" xml:id="i-36QCAysn5Rf6vFgtjG6Zz5">
             Lördagen den 15 maj 1954 em.
           </note>
-          <u who="Q3162739" xml:id="i-e4d0499bf5d06298-13" prev="i-e4d0499bf5d06298-0">
+          <u who="unknown" xml:id="i-e4d0499bf5d06298-13">
             <seg xml:id="i-51NNpYBzwrJfYptBDXVJag">
               m? uppgår till 1440 kronor. Samtidigt säger herr Persson i Växjö,
               att högerns linje skulle medföra en höjning av årshyran för en
  • Correct
  • Incorrect

corpus/protocols/1955/prot-1955--ak--4.xml

Diff starting from line 11084

@@ -11084,7 +11084,7 @@
           <note type="date" xml:id="i-LodxrwzfwyQnwXpAwGDGEa">
             Onsdagen den 9 februari 1955 em
           </note>
-          <u who="Q3162739" xml:id="i-8d48b869646538b8-27" prev="i-8d48b869646538b8-25">
+          <u who="unknown" xml:id="i-8d48b869646538b8-27">
             <seg xml:id="i-H3tLDWZjnn67YrosmKdZkS">
               han är i den ställningen, att han inte i förväg talar om att
               han tänker lägga fram förslag om en bilaccis. Men, herr finansminister,
  • Correct
  • Incorrect

corpus/protocols/1956/prot-1956--ak--12.xml

Diff starting from line 6584

@@ -6584,7 +6584,7 @@
           <note xml:id="i-57pJVLMt15qZ46y2bsnB3L">
             Investeringsplan för kommunikationsverken
           </note>
-          <u xml:id="i-4ayVM75tu4cfAdCtoBtXmJ" prev="i-0bd353fe75fb9a6b-0" who="Q3162739">
+          <u xml:id="i-4ayVM75tu4cfAdCtoBtXmJ" who="unknown">
             <seg xml:id="i-9zun1vs1peX77uCsNoEh9f">
               talj redovisa besparingsgrunden för våra skattesänkningsförslag
               och den omfördelning av statsutgifterna som vi tänkt oss. Detta
  • Correct
  • Incorrect

corpus/protocols/1956/prot-1956--ak--9.xml

Diff starting from line 5680

@@ -5680,7 +5680,7 @@
           <note type="speaker" xml:id="i-MoTykoajRpdXfYeEhNZpQ6">
             Herr HJALMARSON (h) kort mäle:
           </note>
-          <u who="Q3162739" xml:id="i-74e11d3923e9e582-12" next="i-41bb1ddd84febd4c-30">
+          <u who="unknown" xml:id="i-74e11d3923e9e582-12">
             <seg xml:id="i-38GGQxSwiUcmayWVjnMXzu">
               gen- Herr talman! Jag hörde tyvärr inte utrikesministerns inledningsord,
               men jag har fått dem refererade för mig. Enligt de uppgifter som
  • Correct
  • Incorrect

corpus/protocols/1959/prot-1959--ak--21.xml

Diff starting from line 6453

@@ -6453,7 +6453,7 @@
           <note type="speaker" xml:id="i-Sbd8dzejgyNgrf2dnDSaPe">
             Herr PETTERSON i Degerfors (s):
           </note>
-          <u who="unknown" xml:id="i-fa2c07ba8bcfaaba-18">
+          <u who="Q6046847" xml:id="i-fa2c07ba8bcfaaba-18" next="i-9HMK1EEek4uBMHfUinrCge">
             <seg xml:id="i-JKnEk74rKs1MFQ4kR1cp9z">
               Herr talman! Efter herr Gustafssons i Stockholm redogörelse torde
               det inte vara mycket att tillägga, och jag vill därför här bara
  • Correct
  • Incorrect

corpus/protocols/1960/prot-1960--ak--11.xml

Diff starting from line 4053

@@ -4053,7 +4053,7 @@
           <note type="speaker" xml:id="i-SYTgWVBnUG8dRUjuTHWiS8">
             Herr HJALMARSON (h) kort genmäle:
           </note>
-          <u who="Q3162739" xml:id="i-7d75fdb63351bebf-31" next="i-WT84G6GQBK1ihCNxzQoF1Y">
+          <u who="unknown" xml:id="i-7d75fdb63351bebf-31">
             <seg xml:id="i-5nkQM3tfRVzwy3Pby5enQ5">
               Herr talman! Jag skall be att till alla delar få bekräfta de
               uppgifter som försvarsministern lämnat om hur det gick till när
  • Correct
  • Incorrect

corpus/protocols/1960/prot-1960--ak--17.xml

Diff starting from line 16478

@@ -16478,7 +16478,7 @@
           <note xml:id="i-2Qzqr3DaAPoYwqMgjYeHbk">
             Anslag å kapitalbudgeten till byggnadsarbeten för fångvården
           </note>
-          <u who="Q5789491" xml:id="i-1923ca51c0b4eb00-8" prev="i-1923ca51c0b4eb00-7">
+          <u who="unknown" xml:id="i-1923ca51c0b4eb00-8">
             <seg xml:id="i-Apk4ZFSrAAYzG512UQhTSV">
               der kanske beror på slitningar mellan de olika organ som har
               att handlägga fångvårdens angelägenheter, inte minst kanske beträffande
  • Correct
  • Incorrect

corpus/protocols/1960/prot-1960--fk--17.xml

Diff starting from line 1449

@@ -1449,7 +1449,7 @@
           <note type="date" xml:id="i-M4ietpYUs4DnrfzL8qGU1E">
             Fredagen den 13 maj 1960
           </note>
-          <u who="Q5938378" xml:id="i-017cb4b96a0563c5-1" prev="i-017cb4b96a0563c5-0">
+          <u who="Q5937667" xml:id="i-017cb4b96a0563c5-1" prev="i-017cb4b96a0563c5-0">
             <seg xml:id="i-4rnLuhCQFBRunDmrP2m36Q">
               framhålla: »Vad angår saneringsfrågan i stort vill jag endast
               erinra om att detta problem är en av huvuduppgifterna för den
  • Correct
  • Incorrect

corpus/protocols/199091/prot-199091--109.xml

Diff starting from line 9213

@@ -9213,13 +9213,13 @@
               utan att den enskildes välfärd ökar?
             </seg>
           </u>
-          <u xml:id="i-f0a7702322ac1583-929" prev="i-f0a7702322ac1583-922" who="Q97971246">
+          <u xml:id="i-f0a7702322ac1583-929" who="unknown">
             <seg xml:id="i-DpLjx3ciEQYPMyU33cpS58">
               Tycker moderaterna att man kan blunda för att kostnaderna tredubblats
               under en tioårsperiod --
             </seg>
           </u>
-          <u xml:id="i-f0a7702322ac1583-930" prev="i-f0a7702322ac1583-922" who="Q97971246">
+          <u xml:id="i-f0a7702322ac1583-930" who="unknown">
             <seg xml:id="i-FuHj5iv3MYXhPqKqxuKdsd">
               samtidigt som konsumentprisindex endast fördubblats? Även rent
               kortsiktigt borde alltså moderaterna ha intresse av att resorna
  • Correct
  • Incorrect

Some more samples to make up for totally new protocols removed from the sample

Sampled changes

corpus/protocols/1870/prot-1870--ak--0409.xml

Diff starting from line 2609

@@ -2610,7 +2609,7 @@
               en af Statens största inkomstkällor.
             </seg>
           </u>
-          <u xml:id="i-BW1zN67wMPaYFHLDY4hf5i" who="unknown">
+          <u xml:id="i-BW1zN67wMPaYFHLDY4hf5i" who="Q5737435" prev="i-9mbymNuEANmgcUfU4auYjh">
             <seg xml:id="i-8u3FqNzUjJzWPLriJG9yAJ">
               Då jag emellertid har förhoppning att vid en kommande riksdag
               få se denna vigtiga beskattningsfråga fullständigt utredd af en
  • Correct
  • Incorrect

corpus/protocols/1872/prot-1872--ak--0309.xml

Diff starting from line 4381

@@ -4382,7 +4381,7 @@
           <note xml:id="i-8FEY8TVRaP2XLpAATViL3j">
             Den 9 Mars, ec. m. 299
           </note>
-          <u xml:id="i-9RMqYuJVbCQ9GqfqerXFf5" prev="i-Pcv5xBh3CvkMXHqz1VSrKq" who="Q4353611">
+          <u xml:id="i-9RMqYuJVbCQ9GqfqerXFf5" prev="i-Pcv5xBh3CvkMXHqz1VSrKq" who="Q5805039">
             <seg xml:id="i-4tC6QsBT1poUJsvjX2Vysk">
               mare tänker efter, man skall finna, att en sådan handlingsfrihet
               blir honom många gånger betagen å den lefnadsbana, hvartill han,
  • Correct
  • Incorrect

corpus/protocols/1875/prot-1875--ak--20.xml

Diff starting from line 2308

@@ -2309,7 +2308,7 @@
           <note xml:id="i-7LJo7Ath7Cng6hr95nnnac" type="date">
             Onsdagen den 17 Mars, f. m. 29
           </note>
-          <u xml:id="i-Vr4zm3Pr41LyiRZXbcZaBE" who="unknown">
+          <u xml:id="i-Vr4zm3Pr41LyiRZXbcZaBE" who="Q1528357" prev="i-5ppQRSMA7P7s748z2Wcsxv">
             <seg xml:id="i-PxZ64AjaG2QauYG8EY1Scq">
               den under alla omständigheter bästa och lämpligaste, anser jag
               Friherre Focks reservation 1 dess helhet böra bifallas.
  • Correct
  • Incorrect

corpus/protocols/1882/prot-1882--ak--15.xml

Diff starting from line 1385

@@ -1386,7 +1385,7 @@
               genomgripande att pröfva.
             </seg>
           </u>
-          <u xml:id="i-Ln6Z9ceCAGc8zFmWgkwfBQ" who="unknown">
+          <u xml:id="i-Ln6Z9ceCAGc8zFmWgkwfBQ" who="Q5734641" prev="i-n9E86pTSpoqYfzCyR2Vjs">
             <seg xml:id="i-Q1tuBnpaLCSwnE7a4RkaD1">
               Under sådana förhållanden inskränker jag mig att yrka bifall
               till Utskottets förslag.
  • Correct
  • Incorrect

corpus/protocols/1882/prot-1882--ak--59.xml

Diff starting from line 2058

@@ -2059,7 +2058,7 @@
               ljudeliga.
             </seg>
           </u>
-          <u xml:id="i-6pM6uyC15N5ifUWMriq3pf" who="unknown">
+          <u xml:id="i-6pM6uyC15N5ifUWMriq3pf" who="Q5776520" prev="i-DL85o9ijqW89WgaBXNYLxY">
             <seg xml:id="i-HiRhMrWkYqNUWhG8BHGLuR">
               Lag-Utskottets ärade vice ordförande tycktes vara rädd för att
               expropriationsnämnden, om den finge den nu föreslagna rättigheten
  • Correct
  • Incorrect

corpus/protocols/1889/prot-1889--ak--13.xml

Diff starting from line 2556

@@ -2557,31 +2556,31 @@
             adömdt. Och vid sådant förhållande hoppas jag herrarne finna,
             att satt förslag : s &amp; E 5 . rö till ändring i
           </note>
-          <u xml:id="i-SXqe2C8oU4bHe8ft9SKfV6" prev="i-5prDyWn5J6kMGGZct53tMD" who="Q6085615">
+          <u xml:id="i-SXqe2C8oU4bHe8ft9SKfV6" prev="i-5prDyWn5J6kMGGZct53tMD" who="Q6085569">
             <seg xml:id="i-MNmpHxjmoPm3iaV2iizfGa">
               min motion återkommer med hela sin tyngd och hela sitt berättigande.
               lagen wökande
             </seg>
           </u>
-          <u xml:id="i-Ndj4rmXERXnFhiXjw9vShE" prev="i-5prDyWn5J6kMGGZct53tMD" who="Q6085615">
+          <u xml:id="i-Ndj4rmXERXnFhiXjw9vShE" prev="i-5prDyWn5J6kMGGZct53tMD" who="Q6085569">
             <seg xml:id="i-AnwJyMUweA4tAY7BET6Qsk">
               Jag vill ej vidare yttra mig i denna sak, då jag kanske redan
               böters för-
             </seg>
           </u>
-          <u xml:id="i-5bBDz8ntuVRrMZGpvc97Dn" prev="i-5prDyWn5J6kMGGZct53tMD" who="Q6085615">
+          <u xml:id="i-5bBDz8ntuVRrMZGpvc97Dn" prev="i-5prDyWn5J6kMGGZct53tMD" who="Q6085569">
             <seg xml:id="i-FR1G6JZeTjNWoUgBeM6JJi">
               allt för länge upptagit kammarens tid. Frågan är liten och icke
               af vandling.
             </seg>
           </u>
-          <u xml:id="i-5FfayfrhLWwt6j983rvHZu" prev="i-5prDyWn5J6kMGGZct53tMD" who="Q6085615">
+          <u xml:id="i-5FfayfrhLWwt6j983rvHZu" prev="i-5prDyWn5J6kMGGZct53tMD" who="Q6085569">
             <seg xml:id="i-N7BhiSWU2ebDbubgZfzvE">
               något synnerligt intresse. Men lösningen af densamma är icke
               heller = (Forts.)
             </seg>
           </u>
-          <u xml:id="i-2xNtD7uZYUM6tQ7X58NDvw" prev="i-5prDyWn5J6kMGGZct53tMD" who="Q6085615">
+          <u xml:id="i-2xNtD7uZYUM6tQ7X58NDvw" prev="i-5prDyWn5J6kMGGZct53tMD" who="Q6085569">
             <seg xml:id="i-RmFB1oSniKaLQNUCdrgK7n">
               så särdeles svår. Då emellertid en sådan lösning kunde föranleda
               en
  • Correct
  • Incorrect

corpus/protocols/1894/prot-1894--ak--27.xml

Diff starting from line 992

@@ -993,7 +992,7 @@
           <note xml:id="i-AoHcYQeoQjDqFyd2Bffe45" type="date">
             12 Lördagen den 7 April, e. m.
           </note>
-          <u xml:id="i-PPCmZzbV8vNqJe6NuKMhp" who="unknown">
+          <u xml:id="i-PPCmZzbV8vNqJe6NuKMhp" who="Q5580519" prev="i-EEzHhaANtcUqwRrnAP9SnL">
             <seg xml:id="i-NniG1AGvqggMcTJ4XG6NtT">
               Om ändrad maren till vittne på, att jag gör det — jag erkänner,
               att herr Hedin
  • Correct
  • Incorrect

corpus/protocols/1918/prot-1918-urtima-fk--11.xml

Diff starting from line 964

@@ -965,7 +964,7 @@
               uttalanden.
             </seg>
           </u>
-          <u xml:id="i-G5UUN59HFEvwZBE1BHPkef" prev="i-2x73sHuK8YbXpztEYNekeq" who="Q53642">
+          <u xml:id="i-G5UUN59HFEvwZBE1BHPkef" prev="i-2x73sHuK8YbXpztEYNekeq" who="Q5630638">
             <seg xml:id="i-BYf3ba4Fy6G3kXxr7TsFGm">
               Av de anmärkningar, som jag nyss antydde har en gjorts från högerhåll
               och den andra har kommit från vänster. Ammärkningen från högern
  • Correct
  • Incorrect

corpus/protocols/1943/prot-1943--fk--7.xml

Diff starting from line 3218

@@ -3218,7 +3218,7 @@
             Föredrogs och bordlades Kungl. Maj:ts denna dag avlämnade proposition
             nr 54.
           </note>
-          <u xml:id="i-PFGy3bEa3XCpMcn1aKUXGV" who="unknown">
+          <u xml:id="i-PFGy3bEa3XCpMcn1aKUXGV" who="Q5715185" prev="i-5694797053f145f9-11">
             <seg xml:id="i-85xa7kGoqrYnGome2EAVt5">
               Upplästes följande till kammaren inkomna skrivelse: Till riksdagen.
               Härmed får jag vördsamt anhålla om entledigande från min befattning
  • Correct
  • Incorrect

corpus/protocols/198485/prot-198485--103.xml

Diff starting from line 4369

@@ -4369,7 +4369,7 @@
           <note type="speaker" xml:id="i-JjAApTVcVxHNnmtQgDcFVE">
             Anf. 72 MARGÖ INGVARDSSON (vpk):
           </note>
-          <u who="unknown" xml:id="i-f9af61a1ce94228e-18">
+          <u who="Q4955783" xml:id="i-f9af61a1ce94228e-18" next="i-f9af61a1ce94228e-19">
             <seg xml:id="i-JV8qjVBTLhKd43YP4R2EeA">
               Herr talman! När jag påpekar hur det nuvarande värdesäkringssystemet
               i vad gäller pensionerna utfaller i praktiken, frågar Doris Håvik
  • Correct
  • Incorrect

corpus/protocols/198788/prot-198788--116.xml

Diff starting from line 5014

@@ -5014,7 +5014,7 @@
           <note type="speaker" xml:id="i-9cm2ZJc8sUSvFjk6CuYKMn">
             Anf. 49 MARGÖ INGVARDSSON (vpk):
           </note>
-          <u who="unknown" xml:id="i-e2ea7395c6dd6af9-3">
+          <u who="Q4955783" xml:id="i-e2ea7395c6dd6af9-3">
             <seg xml:id="i-7QuC6zREP4cxfDVD126ahk">
               Herr talman! Jag tackar statsrådet för den upplysningen. Det
               är bra att den här handikapputredningen skall överta Ansgar-gruppens
  • Correct
  • Incorrect

@liamtabib
Copy link
Contributor

Diff checks done.

@MansMeg
Copy link
Collaborator Author

MansMeg commented May 26, 2023

Great! How many correct/incorrect and qid -> unknown?

Also could you open an issue with the ids -> unknown?

@liamtabib
Copy link
Contributor

liamtabib commented May 26, 2023

Total diffs: 45
of which incorrect: 8, all of type qid->unknown.

@BobBorges
Copy link
Collaborator

Yes, it's strange -- seems like sample-git-diffs didn't output exactly as many diffs as I asked for. I'll pay closer attention to that next time... or if we need 5 more diffs @MansMeg, I'll make them.

@MansMeg
Copy link
Collaborator Author

MansMeg commented May 26, 2023

Nah. This is definitely good enough to merge.

@MansMeg MansMeg requested a review from BobBorges May 26, 2023 13:54
@ninpnin ninpnin merged commit e4e0ae0 into main May 26, 2023
@MansMeg
Copy link
Collaborator Author

MansMeg commented May 26, 2023

Yay!

Sign up for free to subscribe to this conversation on GitHub. Already have an account? Sign in.
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

8 participants