"Silē putu pēlis", "raka viņi vakar" - viltīgais algoritms nostrādāja - tagad palindromu meklēšana notiek fiksi. http://www.creativity.lv/palindromi.html. Četrvārdīgo sanāca baigi daudz - 313MB fails, tālāk labāk nemaz nemēģināšu.
Baigi daudz to variantu, taču var mēģināt arī vārdus pārī pa diviem meklēt googlā, vai šāds vārdu salikums ir kautkur redzēts, vai nē, un tādā veidā tikt vaļā no dīvainajiem savienojumiem ;)
nu gan ar labo kāju kreiso ausi kasīt. tak ņemam valodas korpusu un trenējam statistisko modeli, ar SRILM rīkiem piemēram.
Tas ir tīiiiiik sarežģīti, es piedāvāju vienkāršu zemnieku metodi, ko es pats izmantoju kad UPWORDsos jāpārbauda vārdi ;)
nu gan, (aptuveni)
ngram-count -text korpuss -lm modelis
echo "tiri piri" >teksts
ngram -lm modelis -ppl teksts
ngram-count -text korpuss -lm modelis
echo "tiri piri" >teksts
ngram -lm modelis -ppl teksts
radars ar kemune uz sacensībām, kuram labāk sanāks atfiltrēt džanku?
vot izlaidu cauri vienam modelim un sapratu, ka tas sucks completely, jāpēta, kāpēc
Ja tev kaut kas sanāk, pastāsti.
bet vai Tev ir lielāks korpuss nekā Googlei? :)