crystarium

Algunas observaciones de este par de días, relativas a la predicción de enlaces sobre Wikidata. Para ser exactos, de naturaleza interpersonal, que es el ejemplo dorado ahora mismo.

El modelo KGT5 no lleva bien las tildes y opta por ignorar los caracteres acentuados, lo que obviamente da problemas. Es fácil normalizar las tildes, pero idealmente recuperaríamos después de la predicción la forma original, porque si no…
… nos encontramos que en Wikidata hay vulgarizaciones de la forma canónica de los apellidos; por ejemplo, Aluarez en lugar de Álvarez. ¿Los culpables? Estados Unidos. Y estas formas corruptas carecen de la información deseada y necesitada por nuestra parte. Normalizar las tildes aumenta la probabilidad de que considere estas versiones como las objetivo, así que algo habrá que tocar.
En algunas ocasiones, sencillamente el nombre no existe en Wikidata, ni nada parecido. Por ejemplo: Menén (que imagino es una contracción de Menendo, del que deriva Menéndez) no existe como nombre; sí como apellido (turco aparentemente). Esto ocasiona que al buscar la entidad correspondiente al nombre previsto, no encuentre nada plausible. Y encima lo considera turco. Labra sugiere que en estos casos se proponga como posible entidad para Wikidata. PD: DBPedia es todavía más vago…
Otro problema obvio es que con estas sencillas reglas, todas aquellas personas mencionadas en un texto que tengan alguna clase de relación apellidos mediante son consideradas como posibilidades. Teniendo en cuenta todas las combinaciones posibles, el nº de sugerencias se torna excesivo (y os puedo asegurar, fallido). Recuerdo haber leído en su momento -habría que rebuscar- que la información textual tiende a concentrarse, de tal modo que puede que una métrica de proximidad solvente ligeramente este problema. Esto es: dos personas que comparten apellido y están en una ventana de 5 palabras es mucho más probable que compartan una relación, que dos bajo las mismas condiciones pero a 250 palabras de distancia.
Labra advierte que puede haber críticas al respecto de la precisión de las reglas; son ejemplos de las capacidades de la metodología, no pretenden abarcar todas las capacidades de la genealogía humana ni mucho menos, pero es algo a considerar. Pensé en hacer una suerte de análisis automático de los caminos que conectan dos entidades en Wikidata conexas por una propiedad de interés -por ejemplo, P22- pero a) SPARQL no parece pensado para estas aventuras b) surgen demasiadas conexiones irrelevantes como para que resulte eficiente un análisis a gran escala. ¿Tal vez mencionarlo como posibilidad?

_5C7MMSPWmmvpwNEQLPa3RdXUvwcE0SaDpErr-IH45E