r31839 MediaWiki - Code Review archive

Repository:MediaWiki
Revision:r31838‎ | r31839 | r31840 >
Date:00:08, 12 March 2008
Author:rainman
Status:old
Tags:
Comment:
Snowball stop words seem to have been encoded in Latin-1, coverted to Utf-8
Modified paths:
  • /branches/lucene-search-2.1/lib/dict/stopwords-da.txt (modified) (history)
  • /branches/lucene-search-2.1/lib/dict/stopwords-de.txt (modified) (history)
  • /branches/lucene-search-2.1/lib/dict/stopwords-es.txt (modified) (history)
  • /branches/lucene-search-2.1/lib/dict/stopwords-fr.txt (modified) (history)
  • /branches/lucene-search-2.1/lib/dict/stopwords-it.txt (modified) (history)
  • /branches/lucene-search-2.1/lib/dict/stopwords-no.txt (modified) (history)
  • /branches/lucene-search-2.1/lib/dict/stopwords-pt.txt (modified) (history)
  • /branches/lucene-search-2.1/lib/dict/stopwords-sv.txt (modified) (history)
  • /branches/lucene-search-2.1/src/org/wikimedia/lsearch/benchmark/WordTerms.java (modified) (history)

Diff [purge]

Index: branches/lucene-search-2.1/src/org/wikimedia/lsearch/benchmark/WordTerms.java
@@ -19,11 +19,11 @@
2020 in = new BufferedReader(
2121 new InputStreamReader(
2222 new GZIPInputStream(
23 - new FileInputStream(path))));
 23+ new FileInputStream(path)),"utf-8"));
2424 else
2525 in = new BufferedReader(
2626 new InputStreamReader(
27 - new FileInputStream(path)));
 27+ new FileInputStream(path),"utf-8"));
2828
2929 String line="";
3030 ArrayList<String> words = new ArrayList<String>();
Index: branches/lucene-search-2.1/lib/dict/stopwords-es.txt
@@ -19,29 +19,29 @@
2020 al
2121 lo
2222 como
23 -m�s
 23+más
2424 pero
2525 sus
2626 le
2727 ya
2828 o
2929 este
30 -s�
 30+sí
3131 porque
3232 esta
3333 entre
34 -| est� from ESTAR
 34+| está from ESTAR
3535 cuando
3636 muy
3737 sin
3838 sobre
39 -tambi�n
 39+también
4040 me
4141 hasta
4242 hay
4343 donde
4444 quien
45 -| est�n from ESTAR
 45+| están from ESTAR
4646 desde
4747 todo
4848 nos
@@ -54,21 +54,21 @@
5555 otros
5656 ese
5757 eso
58 -| hab�a from HABER
 58+| había from HABER
5959 ante
6060 ellos
6161 e
6262 esto
63 -m�
 63+mí
6464 antes
6565 algunos
66 -qu�
 66+qué
6767 unos
6868 yo
6969 otro
7070 otras
7171 otra
72 -�l
 72+él
7373 tanto
7474 esa
7575 estos
@@ -86,7 +86,7 @@
8787 nosotros
8888 mi
8989 mis
90 -t�
 90+tú
9191 te
9292 ti
9393 tu
@@ -96,10 +96,10 @@
9797 vosostros
9898 vosostras
9999 os
100 -m�o
101 -m�a
102 -m�os
103 -m�as
 100+mío
 101+mía
 102+míos
 103+mías
104104 tuyo
105105 tuya
106106 tuyos
@@ -119,30 +119,30 @@
120120 esos
121121 esas
122122 estoy
123 -est�s
124 -est�
 123+estás
 124+está
125125 estamos
126 -est�is
127 -est�n
128 -est�
129 -est�s
 126+estáis
 127+están
 128+esté
 129+estés
130130 estemos
131 -est�is
132 -est�n
133 -estar�
134 -estar�s
135 -estar�
 131+estéis
 132+estén
 133+estaré
 134+estarás
 135+estará
136136 estaremos
137 -estar�is
138 -estar�n
139 -estar�a
140 -estar�as
141 -estar�amos
142 -estar�ais
143 -estar�an
 137+estaréis
 138+estarán
 139+estaría
 140+estarías
 141+estaríamos
 142+estaríais
 143+estarían
144144 estaba
145145 estabas
146 -est�bamos
 146+estábamos
147147 estabais
148148 estaban
149149 estuve
@@ -153,12 +153,12 @@
154154 estuvieron
155155 estuviera
156156 estuvieras
157 -estuvi�ramos
 157+estuviéramos
158158 estuvierais
159159 estuvieran
160160 estuviese
161161 estuvieses
162 -estuvi�semos
 162+estuviésemos
163163 estuvieseis
164164 estuviesen
165165 estando
@@ -171,29 +171,29 @@
172172 has
173173 ha
174174 hemos
175 -hab�is
 175+habéis
176176 han
177177 haya
178178 hayas
179179 hayamos
180 -hay�is
 180+hayáis
181181 hayan
182 -habr�
183 -habr�s
184 -habr�
 182+habré
 183+habrás
 184+habrá
185185 habremos
186 -habr�is
187 -habr�n
188 -habr�a
189 -habr�as
190 -habr�amos
191 -habr�ais
192 -habr�an
193 -hab�a
194 -hab�as
195 -hab�amos
196 -hab�ais
197 -hab�an
 186+habréis
 187+habrán
 188+habría
 189+habrías
 190+habríamos
 191+habríais
 192+habrían
 193+había
 194+habías
 195+habíamos
 196+habíais
 197+habían
198198 hube
199199 hubiste
200200 hubo
@@ -202,12 +202,12 @@
203203 hubieron
204204 hubiera
205205 hubieras
206 -hubi�ramos
 206+hubiéramos
207207 hubierais
208208 hubieran
209209 hubiese
210210 hubieses
211 -hubi�semos
 211+hubiésemos
212212 hubieseis
213213 hubiesen
214214 habiendo
@@ -224,22 +224,22 @@
225225 sea
226226 seas
227227 seamos
228 -se�is
 228+seáis
229229 sean
230 -ser�
231 -ser�s
232 -ser�
 230+seré
 231+serás
 232+será
233233 seremos
234 -ser�is
235 -ser�n
236 -ser�a
237 -ser�as
238 -ser�amos
239 -ser�ais
240 -ser�an
 234+seréis
 235+serán
 236+sería
 237+serías
 238+seríamos
 239+seríais
 240+serían
241241 era
242242 eras
243 -�ramos
 243+éramos
244244 erais
245245 eran
246246 fui
@@ -250,12 +250,12 @@
251251 fueron
252252 fuera
253253 fueras
254 -fu�ramos
 254+fuéramos
255255 fuerais
256256 fueran
257257 fuese
258258 fueses
259 -fu�semos
 259+fuésemos
260260 fueseis
261261 fuesen
262262 sintiendo
@@ -269,29 +269,29 @@
270270 tienes
271271 tiene
272272 tenemos
273 -ten�is
 273+tenéis
274274 tienen
275275 tenga
276276 tengas
277277 tengamos
278 -teng�is
 278+tengáis
279279 tengan
280 -tendr�
281 -tendr�s
282 -tendr�
 280+tendré
 281+tendrás
 282+tendrá
283283 tendremos
284 -tendr�is
285 -tendr�n
286 -tendr�a
287 -tendr�as
288 -tendr�amos
289 -tendr�ais
290 -tendr�an
291 -ten�a
292 -ten�as
293 -ten�amos
294 -ten�ais
295 -ten�an
 284+tendréis
 285+tendrán
 286+tendría
 287+tendrías
 288+tendríamos
 289+tendríais
 290+tendrían
 291+tenía
 292+tenías
 293+teníamos
 294+teníais
 295+tenían
296296 tuve
297297 tuviste
298298 tuvo
@@ -300,12 +300,12 @@
301301 tuvieron
302302 tuviera
303303 tuvieras
304 -tuvi�ramos
 304+tuviéramos
305305 tuvierais
306306 tuvieran
307307 tuviese
308308 tuvieses
309 -tuvi�semos
 309+tuviésemos
310310 tuvieseis
311311 tuviesen
312312 teniendo
Index: branches/lucene-search-2.1/lib/dict/stopwords-fr.txt
@@ -20,7 +20,7 @@
2121 ma
2222 mais
2323 me
24 -m�me | same; as in moi-m�me (myself) etc
 24+même | same; as in moi-même (myself) etc
2525 mes
2626 moi
2727 mon
@@ -56,26 +56,26 @@
5757 d
5858 j
5959 l
60 -�
 60
6161 m
6262 n
6363 s
6464 t
6565 y
66 -| forms of �tre (not including the infinitive):
67 -�t�
68 -�t�e
69 -�t�es
70 -�t�s
71 -�tant
72 -�tante
73 -�tants
74 -�tantes
 66+| forms of être (not including the infinitive):
 67+été
 68+étée
 69+étées
 70+étés
 71+étant
 72+étante
 73+étants
 74+étantes
7575 suis
7676 es
7777 est
7878 sommes
79 -�tes
 79+êtes
8080 sont
8181 serai
8282 seras
@@ -88,15 +88,15 @@
8989 serions
9090 seriez
9191 seraient
92 -�tais
93 -�tait
94 -�tions
95 -�tiez
96 -�taient
 92+étais
 93+était
 94+étions
 95+étiez
 96+étaient
9797 fus
9898 fut
99 -f�mes
100 -f�tes
 99+fûmes
 100+fûtes
101101 furent
102102 sois
103103 soit
@@ -105,7 +105,7 @@
106106 soient
107107 fusse
108108 fusses
109 -f�t
 109+fût
110110 fussions
111111 fussiez
112112 fussent
@@ -139,8 +139,8 @@
140140 aviez
141141 avaient
142142 eut
143 -e�mes
144 -e�tes
 143+eûmes
 144+eûtes
145145 eurent
146146 aie
147147 aies
@@ -150,7 +150,7 @@
151151 aient
152152 eusse
153153 eusses
154 -e�t
 154+eût
155155 eussions
156156 eussiez
157157 eussent
Index: branches/lucene-search-2.1/lib/dict/stopwords-it.txt
@@ -93,7 +93,7 @@
9494 ma
9595 ed
9696 se
97 -perch�
 97+perché
9898 anche
9999 come
100100 dov
@@ -102,7 +102,7 @@
103103 chi
104104 cui
105105 non
106 -pi�
 106+più
107107 quale
108108 quanto
109109 quanti
@@ -134,9 +134,9 @@
135135 abbia
136136 abbiate
137137 abbiano
138 -avr�
 138+avrò
139139 avrai
140 -avr�
 140+avrà
141141 avremo
142142 avrete
143143 avranno
@@ -169,15 +169,15 @@
170170 avute
171171 sono
172172 sei
173 -�
 173
174174 siamo
175175 siete
176176 sia
177177 siate
178178 siano
179 -sar�
 179+sarò
180180 sarai
181 -sar�
 181+sarà
182182 saremo
183183 sarete
184184 saranno
@@ -211,9 +211,9 @@
212212 faccia
213213 facciate
214214 facciano
215 -far�
 215+farò
216216 farai
217 -far�
 217+farà
218218 faremo
219219 farete
220220 faranno
@@ -248,9 +248,9 @@
249249 stia
250250 stiate
251251 stiano
252 -star�
 252+starò
253253 starai
254 -star�
 254+starà
255255 staremo
256256 starete
257257 staranno
Index: branches/lucene-search-2.1/lib/dict/stopwords-no.txt
@@ -1,4 +1,4 @@
2 -| This stop word list is for the dominant bokm�l dialect. Words unique
 2+| This stop word list is for the dominant bokmål dialect. Words unique
33 og
44 i
55 jeg
@@ -9,7 +9,7 @@
1010 til
1111 er
1212 som
13 -p�
 13+på
1414 de
1515 med
1616 han
@@ -17,7 +17,7 @@
1818 ikke
1919 inte
2020 der
21 -s�
 21+så
2222 var
2323 meg
2424 seg
@@ -32,7 +32,7 @@
3333 hade
3434 hu
3535 hun
36 -n�
 36+nå
3737 over
3838 da
3939 ved
@@ -51,7 +51,7 @@
5252 hva
5353 skal
5454 selv
55 -sj�l
 55+sjøl
5656 her
5757 alle
5858 vil
@@ -61,8 +61,8 @@
6262 blitt
6363 kunne
6464 inn
65 -n�r
66 -v�re
 65+når
 66+være
6767 kom
6868 noen
6969 noe
@@ -83,7 +83,7 @@
8484 sine
8585 sitt
8686 mot
87 -�
 87
8888 meget
8989 hvorfor
9090 sia
@@ -101,18 +101,18 @@
102102 samme
103103 hvilken
104104 hvilke
105 -s�nn
 105+sånn
106106 inni
107107 mellom
108 -v�r
 108+vår
109109 hver
110110 hvem
111111 vors
112112 dere
113113 deres
114114 hvis
115 -b�de
116 -b�e
 115+både
 116+båe
117117 begge
118118 siden
119119 dykk
@@ -122,7 +122,7 @@
123123 deires
124124 deim
125125 di
126 -d�
 126+då
127127 eg
128128 ein
129129 ei
@@ -130,7 +130,7 @@
131131 eitt
132132 elles
133133 honom
134 -hj�
 134+hjå
135135 ho
136136 hoe
137137 henne
@@ -177,6 +177,6 @@
178178 varte
179179 vart
180180 er
181 -v�re
 181+være
182182 var
183 -�
 183
Index: branches/lucene-search-2.1/lib/dict/stopwords-pt.txt
@@ -8,9 +8,9 @@
99 em
1010 um
1111 para
12 -| � from SER
 12+| é from SER
1313 com
14 -n�o
 14+não
1515 uma
1616 os
1717 no
@@ -25,22 +25,22 @@
2626 ao
2727 ele
2828 das
29 -�
 29
3030 seu
3131 sua
3232 ou
3333 quando
3434 muito
35 -| h� from HAV
 35+| há from HAV
3636 nos
37 -j�
38 -| est� from EST
 37+já
 38+| está from EST
3939 eu
40 -tamb�m
41 -s�
 40+também
 41+só
4242 pelo
4343 pela
44 -at�
 44+até
4545 isso
4646 ela
4747 entre
@@ -54,22 +54,22 @@
5555 me
5656 esse
5757 eles
58 -| est�o from EST
59 -voc�
 58+| estão from EST
 59+você
6060 essa
6161 num
6262 nem
6363 suas
6464 meu
65 -�s
 65+às
6666 minha
67 -| t�m from TER
 67+| têm from TER
6868 numa
6969 pelos
7070 elas
7171 qual
72 -| ser� from SER
73 -n�s
 72+| será from SER
 73+nós
7474 lhe
7575 deles
7676 essas
@@ -79,7 +79,7 @@
8080 dele
8181 tu
8282 te
83 -voc�s
 83+vocês
8484 vos
8585 lhes
8686 meus
@@ -104,106 +104,106 @@
105105 isto
106106 aquilo
107107 estou
108 -est�
 108+está
109109 estamos
110 -est�o
 110+estão
111111 estive
112112 esteve
113113 estivemos
114114 estiveram
115115 estava
116 -est�vamos
 116+estávamos
117117 estavam
118118 estivera
119 -estiv�ramos
 119+estivéramos
120120 esteja
121121 estejamos
122122 estejam
123123 estivesse
124 -estiv�ssemos
 124+estivéssemos
125125 estivessem
126126 estiver
127127 estivermos
128128 estiverem
129129 hei
130 -h�
 130+há
131131 havemos
132 -h�o
 132+hão
133133 houve
134134 houvemos
135135 houveram
136136 houvera
137 -houv�ramos
 137+houvéramos
138138 haja
139139 hajamos
140140 hajam
141141 houvesse
142 -houv�ssemos
 142+houvéssemos
143143 houvessem
144144 houver
145145 houvermos
146146 houverem
147147 houverei
148 -houver�
 148+houverá
149149 houveremos
150 -houver�o
 150+houverão
151151 houveria
152 -houver�amos
 152+houveríamos
153153 houveriam
154154 sou
155155 somos
156 -s�o
 156+são
157157 era
158 -�ramos
 158+éramos
159159 eram
160160 fui
161161 foi
162162 fomos
163163 foram
164164 fora
165 -f�ramos
 165+fôramos
166166 seja
167167 sejamos
168168 sejam
169169 fosse
170 -f�ssemos
 170+fôssemos
171171 fossem
172172 for
173173 formos
174174 forem
175175 serei
176 -ser�
 176+será
177177 seremos
178 -ser�o
 178+serão
179179 seria
180 -ser�amos
 180+seríamos
181181 seriam
182182 tenho
183183 tem
184184 temos
185 -t�m
 185+tém
186186 tinha
187 -t�nhamos
 187+tínhamos
188188 tinham
189189 tive
190190 teve
191191 tivemos
192192 tiveram
193193 tivera
194 -tiv�ramos
 194+tivéramos
195195 tenha
196196 tenhamos
197197 tenham
198198 tivesse
199 -tiv�ssemos
 199+tivéssemos
200200 tivessem
201201 tiver
202202 tivermos
203203 tiverem
204204 terei
205 -ter�
 205+terá
206206 teremos
207 -ter�o
 207+terão
208208 teria
209 -ter�amos
 209+teríamos
210210 teriam
Index: branches/lucene-search-2.1/lib/dict/stopwords-da.txt
@@ -8,7 +8,7 @@
99 til
1010 er
1111 som
12 -p�
 12+på
1313 de
1414 med
1515 han
@@ -51,8 +51,8 @@
5252 blev
5353 kunne
5454 ind
55 -n�r
56 -v�re
 55+når
 56+være
5757 dog
5858 noget
5959 ville
@@ -65,7 +65,7 @@
6666 end
6767 dette
6868 mit
69 -ogs�
 69+også
7070 under
7171 have
7272 dig
@@ -88,7 +88,7 @@
8989 ad
9090 bliver
9191 hendes
92 -v�ret
 92+været
9393 thi
9494 jer
95 -s�dan
 95+sådan
Index: branches/lucene-search-2.1/lib/dict/stopwords-de.txt
@@ -34,7 +34,7 @@
3535 dem
3636 die
3737 das
38 -da�
 38+daß
3939 derselbe
4040 derselben
4141 denselben
@@ -89,7 +89,7 @@
9090 euren
9191 eurer
9292 eures
93 -f�r
 93+für
9494 gegen
9595 gewesen
9696 hab
@@ -134,8 +134,8 @@
135135 keinen
136136 keiner
137137 keines
138 -k�nnen
139 -k�nnte
 138+können
 139+könnte
140140 machen
141141 man
142142 manche
@@ -183,7 +183,7 @@
184184 sollte
185185 sondern
186186 sonst
187 -�ber
 187+über
188188 um
189189 und
190190 uns
@@ -197,7 +197,7 @@
198198 vom
199199 von
200200 vor
201 -w�hrend
 201+während
202202 war
203203 waren
204204 warst
@@ -222,8 +222,8 @@
223223 wo
224224 wollen
225225 wollte
226 -w�rde
227 -w�rden
 226+würde
 227+würden
228228 zu
229229 zum
230230 zur
Index: branches/lucene-search-2.1/lib/dict/stopwords-sv.txt
@@ -1,4 +1,4 @@
2 -| s� = so, but also seed. These are indicated clearly below.
 2+| så = so, but also seed. These are indicated clearly below.
33 och
44 det
55 att
@@ -8,15 +8,15 @@
99 hon
1010 som
1111 han
12 -p�
 12+på
1313 den
1414 med
1515 var
1616 sig
17 -f�r
18 -s�
 17+för
 18+så
1919 till
20 -�r
 20+är
2121 men
2222 ett
2323 om
@@ -27,51 +27,51 @@
2828 mig
2929 du
3030 henne
31 -d�
 31+då
3232 sin
3333 nu
3434 har
35 -inte | inte n�gon = no one
 35+inte | inte någon = no one
3636 hans
3737 honom
3838 skulle
3939 hennes
40 -d�r
 40+där
4141 min
4242 man
4343 ej
4444 vid
4545 kunde
46 -n�got
47 -fr�n
 46+något
 47+från
4848 ut
49 -n�r
 49+när
5050 efter
5151 upp
5252 vi
5353 dem
5454 vara
5555 vad
56 -�ver
57 -�n
 56+över
 57+än
5858 dig
5959 kan
6060 sina
61 -h�r
 61+här
6262 ha
6363 mot
6464 alla
6565 under
66 -n�gon
 66+någon
6767 eller
6868 allt
6969 mycket
7070 sedan
7171 ju
7272 denna
73 -sj�lv
 73+själv
7474 detta
75 -�t
 75+åt
7676 utan
7777 varit
7878 hur
@@ -83,33 +83,33 @@
8484 oss
8585 din
8686 dessa
87 -n�gra
 87+några
8888 deras
8989 blir
9090 mina
9191 samma
9292 vilken
9393 er
94 -s�dan
95 -v�r
 94+sådan
 95+vår
9696 blivit
9797 dess
9898 inom
9999 mellan
100 -s�dant
101 -varf�r
 100+sådant
 101+varför
102102 varje
103103 vilka
104104 ditt
105105 vem
106106 vilket
107107 sitta
108 -s�dana
 108+sådana
109109 vart
110110 dina
111111 vars
112 -v�rt
113 -v�ra
 112+vårt
 113+våra
114114 ert
115115 era
116116 vilkas

Status & tagging log