Topoguide, recherche par chaine de caractères dans le titre plus assez sélective

je répondais à la création de pages de renvoi qui est une complication inutile (désolé pour l’idée).

La recherche par mot clé comme tu le décris est ok.

Ce qui pose problème est la dillution des bons résultats au milieu des résultats abérants et pire, dans les listes de choix dont la longueur est limitée, les résultats pertinents disparaissent. Ce qui peut être bloquant pour associer des objets, malgré les possibilités multiples pour associer qui suffisent parfois à contourner le problème.

Dans le fonctionnement de la version actuelle, il y a au minimum un problème de tri dans la restitution de la liste sélectionnée par la recherche: les résultats les plus proches ne sont pas les premiers sur la liste.

Quand on sait à peu près où se trouve ce qu’on cherche, c’est bien d’utiliser la recherche par carte, (enfin ça aide si l’outil externe de recherche et positionnement de la carte refonctionne correctement)

Je serais un peu plus prudent quant à mon jugement relatif à une solution déployée par une structure aussi importante, et efficace, que Wikipédia, mais bon…

1 Like

Wikipédia est un outil très « primitif » informatiquement parlant. Ce ne sont que des pages de texte avec des liens.
Le site C2C est une base de données structurées qui publie ces données sous forme de pages

Là où wikipédia crée des pages de renvoi, dans une base de donnée structurées comme C2C, il serait possible d’associer directement un titre à des mots-clé sans créer de pages qui renvoient sur d’autres pages.

Une solution au rabais serait de placer des synonymes dans les titres de page, comme pour les sommets en plusieurs langue non gérées dans C2C.

Si c’est une machine de guerre (terme plutôt péjoratif) pourquoi ces lourdingues pages de renvoi qui deviennent fausses si les pages changent de nom ?
Et comment passe-t-on d’un texte à une information structurée, le texte ayant une entropie plus grande que l’information structurée ?

Parce que sur WP, l’URL contient le titre en tant qu’identifiant unique, et que ces URL doivent fonctionner y compris après un renommage. Elles ne servent pas au départ pour palier au manquement du moteur de recherche, c’est un usage détourné.

Sur c2c, le titre n’est pas un identifiant, c’est l’ID numérique qui lui ne change jamais. il y a d’ailleurs le meme systeme de renvoi, mais uniquement sur l’ID numérique suite à une fusion entre deux documents.

En le parsant et en extrayant l’info. Par exemple, pour rajouter une page dans une catégorie, tu rajoutes ca dans le corps de texte : [[categorie:peintre]]. Le parseur va mettre à jour le lien entre le document avec la catégorie « peintre ».

C’est ce que je dis, c’est primitif. On veut faire de la base de données structurée en partant d’une informatique documentaire. C’est une usine à gaz qui cumule les inconvénients des deux systèmes. De la redondance en veux-tu en voilà, des clés pas indépendantes, des traitements différés et pas l’ouverture et la souplesse d’une informatique documentaire (on demande à l’utilisateur de faire du codage dans le document !). Par exemple, gérer une bibliothèque de photos sur wiki est une plaie comparé à un outil simple comme flickr.

Arrete de te prendre la tête, tu as affaire a une sommité en sciences (presque toutes ) en geopolilitiqie ,en théologie et maintenant en informatique ,bientôt prix Nobel lequel ? je ne sait pas

4 Likes

Ah oui, pas que de photos mais d’images et de multimédia en général :

T’inquiète, je le refuserais, Nobel était un industriel peu recommandable qui révait d’inventer une arme de destruction massive.

Ouf on est rassure

Vous êtes sérieux à vous taper dessus littéralement sans aucune raison ? Votre but commun c’est d’améliorer les choses.

Une question de néophyte, j’ai des notions de programmation mais aucune notion dans les concepts plus évolués dont il est question :
Serait-il possible de mettre en tête des recherches, les résultats avec des correspondances strictes de débuts de mots, accents exclus ? Et ensuite seulement, la recherche avec IA ou je ne sais pas comment appeler ça ? Et idéalement classés par popularité dans les correspondances strictes, avec comme indicateur objectif de popularité, par exemple, le nombre de sorties associées ?

Pour prendre un exemple concret, si je tape « cog », il me trouve Cogne bien bien loin, avec des « col » et points peu populaires avant. Notons que le L est bien loin du G sur le clavier.
image

2 Likes

C’est curieux, j’ai moi aussi perçu des changement majeur, il me semble, 1 ou 2 fois dans les derniers ~3 ans. Par exemple à Noel 2022: posté la. Peut-être des mises à jour de la version ElasticSearch, qui aurait changé des options par défaut?

Merci pour les exemples détaillés, ça devrait vachement aider.

Oui! Je trouve que c’est OK de faire du Levenshtein (par exemple quand on part à l’étranger, ou qu’on cherche un nom entendu au détour d’une rencontre).

Par contre (1) faut pas le faire sur le recherches courtes (<6 caractères ?)
(2) et surtout il y a un gros souci d’ordre (ranking), le mot exact qui n’apparait pas en premier par exemple. Les mots « corrigés » doivent avoir des poids inférieurs (=apparaitre plus bas) , et par ex., les « le/la/du » etc il devrait y a moyen de leur donner un poid baucoup plus faibles

Euh je connais Elastic assez superficiellement, mais ça m’agace peut-être suffisemment pour creuser :wink:

4 Likes

Creuse, creuse, s’il-te-plaît, et sois aussi efficace qu’à propos de la carto :grinning:

2 Likes

hum c’est un beau projet pour ce week-end venté :wink:

je peux commencer sans, mais je pense mais qu’il me faudra un truc qui resemble un peu au contenu actuel de la DB pour tester? je sais pas ce que vaut la « dev database »… si a un moment je peux avoir accès à des vieux backups ça sera utile

@Developpeurs ?

La météo pourrie, c’est que du bon pour C2C. Pas autant qu’un bon confinement, mais enfin on ne peut pas tout avoir

J’ai commencé à creuser le code de l’API sur la recherche avec Elastisearch. J’ai une question sur la recherche: à votre avis, est-ce utile de prendre en compte la langue de vos préférences comme critère de recherche ?
Pour moi ce n’est pas utile, on ne recherche que des titres peu importe la langue mais il y a peut-être des cas auxquels je n’ai pas pensé.

1 Like

Pour des sommets du type Cervin ? Matterhorn en allemand, ou Cervino en italien ?

Ça va aussi dépendre de la langue sous laquelle tu utilises le site.

1 Like

Effectivement quand tu cherches Matterhorn, il me sort Cervin.

Mais c’est c’est l’UI qui fait la « traduction ». L’API recherche « mattehorn », et renvoie une liste de résultats comportant les infos sur des documents, dont le titre mais dans toutes les langues. C’est l’UI qui choisit d’afficher la bonne langue selon la langue de l’interface (et si la traduction dans la langue de l’interface n’est pas disponible ça choisit une langue disponible selon un algo).
Par contre je ne sais plus ce que signifie « prendre en compte la langue de l’interface » dans la recherche d’elastic search. C’est peut être juste pour définir un mot approché. Mais sur des noms propres ça ne fonctionne pas trop si on mélange toute les langues. Lors des essais sur la démo de la V6, il me semble qu’on avait vu que c’était impossible d’indexer par langue, car il faudrait que tous les docs soient traduits dans toutes les langues.

1 Like