Hoe gebruik/interpreteer/visualiseer je een afstandsmatrix met onbekende coördinaten?

Hoe zou je een afstandsmatrix gebruiken waar punten geen coördinaten hebben, d.w.z. welke bruikbare statistieken kunnen worden gemaakt en hoe je deze op een zinvolle manier kunt visualiseren?

4
Bedankt, ik dacht daarover na, maar wilde het hier eerst proberen en de vraag niet dupliceren. Zal wat langer wachten en dan de statistiekenstapel proberen.
toegevoegd de auteur wusher, de bron
De bestemmingen zijn inderdaad geanonimiseerd ...
toegevoegd de auteur wusher, de bron
Je zult waarschijnlijk betere antwoorden krijgen op de stats stackexchange.
toegevoegd de auteur mgkrebbs, de bron
Zijn de coördinaten onbekend omdat de bestemmingen anoniem zijn, of weet u waar ze zijn, maar weet u niet hoe u coördinaten voor hen kunt krijgen? Als dit het laatste geval is, kan een beetje meer uitleg ervoor zorgen dat u grip krijgt in de GIS-stack.
toegevoegd de auteur user5929, de bron

1 antwoord

Eén klasse oplossingen maakt gebruik van Multidimensional scaling . Hiermee wordt precies je vraag behandeld: geef een reeks afstanden (vaak verkregen tussen punten in een hoge dimensionale ruimte), vind een inbedding in een, twee of drie dimensies die de afstanden zo dicht mogelijk bijhoudt.

Example

Dit getal is een MDS-weergave van de afstanden tussen alle 183 top tien Hollywood-filmsterren van 1932 tot 2006. 'Afstanden' waren gebaseerd op gegevens over co-starring in films (maar hadden niets te maken met tijd of locatie). Elk punt vertegenwoordigt een ster. Vooral opmerkelijke sterren worden genoemd. Punten zijn verbonden met een Euclidean minimum spanning tree om nauwe verbindingen te benadrukken. (Het is getekend met een GIS, laat zien hoe we ruimtelijke analysemethoden kunnen toepassen op niet-ruimtelijke relaties).

MDS is te vinden in veel commerciële statistische pakketten. Het is ook vrij beschikbaar in add-ons voor R .

U kunt ook een automatische procedure volgen om een ​​abstracte grafiek te tekenen en deze voor dit doel te gebruiken. Dit is iets gespecialiseerder dan MDS en daarom is het waarschijnlijker dat het wordt gevonden in commerciële of onderzoekssoftware die is bedoeld voor het visualiseren van grafieken. Ik weet dat Mathematica verschillende methoden voor het insluiten van grafieken biedt: zie deze pagina voor een bespreking van enkele algoritmen voor het tekenen van grafieken (beginnend in het midden).

8
toegevoegd
Bedankt voor het zeer nuttige antwoord. Kun je zeggen waar de afbeelding vandaan komt?
toegevoegd de auteur wusher, de bron
Geweldig! dat is wat ik had gehoopt. Dus slechts een korte vraag: hoe worden de afstanden berekend? In jouw geval klinkt co-starten binair, maar kan zich ophopen, dus heb ik gelijk dat je afstandsmatrix tussen actoren ligt en dat de waarden het aantal keren is dat ze samen hebben gehandeld?
toegevoegd de auteur wusher, de bron
Ik heb me geregistreerd om te stemmen. Goed gedaan, kerel. Er zit echter een probleem in deze methode. De MDS is mathematisch optimaal voor dit probleem in de zin van MSE. Soms zijn er echter zeer dichte clusters in het resultaat die wiskundig maar "juist" "goed" zijn voor visualisatie. Heb je enig idee hierover?
toegevoegd de auteur maxfurni, de bron
Het komt van mij :-). Het werd vijf jaar geleden gemaakt met behulp van een aantal zelf ontwikkelde MDS-software (ik zou vandaag een R-gebaseerde oplossing gebruiken) om de puntcoördinaten te bepalen; ArcView 3 werd gebruikt om de EMST te berekenen en de kaart te produceren.
toegevoegd de auteur whuber, de bron
Ik heb een aantal afstanden geprobeerd. Hier: "De" afstand "tussen twee sterren op de kaart hangt voornamelijk af van de overlap van hun loopbaan: wanneer een carrière (dat wil zeggen, periode op de lijst) samenvalt met een deel van een andere, dan vallen de twee sterren bijna samen. overlapping plaatst ze op een afstand van één eenheid uit elkaar Afstand wordt verhoogd met 0,04 eenheden per jaar van verschil in hun loopbaan (gemeten als het gemiddelde jaar waarin elke ster verschijnt) en met 0,001 maal het verschil in gemiddelde rangorde op de lijst. Dit laatste zorgt ervoor dat elke twee sterren worden gescheiden, althans door een kleine hoeveelheid.) "
toegevoegd de auteur whuber, de bron
@SolessCHong Welkom op onze site! U moet verwijzen naar een bepaalde vorm van MDS, niet naar MDS in het algemeen. Ik heb in feite zowel een aangepaste afstandsmetriek voor het voorbeeld als een aangepast algoritme gebruikt. Dus een mogelijk antwoord op uw vraag is om een ​​ander algoritme (en/of een andere afstand) te kiezen als u vindt dat de visualisatie niet onthult wat u wilt. Maar meestal is de flexibiliteit om de afstand aan te passen goed genoeg om te bereiken wat u maar nodig hebt.
toegevoegd de auteur whuber, de bron