Interreg prosjekt GSS: Grenseløst samarbeid for sikkerhet
netGSS :: Analyse av tekst fra øving i 2013 ::
R-statistics :: tm Text Mining
svenske deltakere
|
norske deltakere
|
Fig 1. Histogram over antall ord og begrep (6 tegn eller mer) brukt av svenske og norske deltakere (øvelsen i 2013)
svenske deltakere
|
norske deltakere
|
Fig 2. Wordcloud over de mest brukte ord og begrep blant svenske og norske deltakere (øvelsen i 2013)
svenske deltakere
|
norske deltakere
|
Fig 3. Trediagram (dendogram) over ord og begrep blant svenske og norske deltakere (øvelsen i 2013)
Vi ser at SOS Alarm (s_SOS_alarm) på svensk side bruker ord og begrep som er ganske forskjellig fra de andre svenske deltakerne.
Länsstyrelsen (s_County) og Redningstjänsten i Östersund (s_Fire_Oster) bruker ord og uttrykk som har mye til felles - de utgjør et "cluster".
På norsk side så har ord og uttrykk brukt av politiet (n_Police) og kommuneledere (n_Municip_leaders) mye til felles - og det samme gjelder 113 AMK (n_Ambulance) og 110 Brann (n_Fire) - innenfor hvert av de to "clusterne" brukes mange lignende ord og begrep.
Fylkesmann (n_County) og NTE Nett (n_Power_Co) er nærme hverandre - men utgjør ikke et "cluster".
Dette ser vi også reflektert i ClusterPlot - under.
Her er mer informasjon om dendogram:
https://eight2late.wordpress.com/2015/07/22/a-gentle-introduction-to-cluster-analysis-using-r/
svenske deltakere
|
norske deltakere
|
Fig 4. Principal component plot (k=2): R ClusterPlot over svenske og norske deltakere fra Norge og Sverige (øvelsen i 2013)
ClusterPlot viser relativ avstand mellom alle deltakergruppene når det gjelder ord og begrep
brukt i tekstkommunikasjonen under øvelsen.
Lenken under figur 3 har mer informasjon om ClusterPlot.
svenske deltakere
|
norske deltakere
|
Fig 5. Number of clusters - deltakere fra Norge og Sverige (øvelsen i 2013)
Optimalt antall clusters er 2 for Sverige - og 3 for Norge - reduksjonen i "within groups sum of squares" flater ut - med en "knekk" i grafen.
Lenken under figur 3 har mer informasjon om ClusterPlot.
Partial output of three participant groups in simulation
null device
1
null device
1
Call:
hclust(d = d, method = "ward.D")
Cluster method : ward.D
Distance : euclidean
Number of objects: 6
null device
1
Data Mining with R: Text Mining (Hugh Murrell) (http://www.cs.ukzn.ac.za/~murrellh/dm/content/slides10.pdf)
R and Data Mining: Examples and Case Studies (Yanchang Zhao) Ch. 10 (https://cran.r-project.org/doc/contrib/Zhao_R_and_data_mining.pdf)
The RQDA - a R package for Qualitative Data Analysis (http://rqda.r-forge.r-project.org/)
What is RQDA and what are its features?
The R Project for Statistical Computing (http://www.r-project.org/)
Jocker, M. L. Executing R in PhP. URL https://www.stanford.edu/~mjockers/cgi-bin/drupal/node/25
Personality-project.org: Using R for psychological research: A simple
quide to an elegant package.
URL http://personality-project.org/r/
Csardi, G. Practical Statistical Network Analysis: Community Structure in Networks. (slide 29) URL http://statmath.wu.ac.at/research/friday/resources_WS0708_SS08/igraph.pdf
Butts, CT (2008). network: A Package for Managing Relational Data in R. Journal of Statistical Software, 24(2). http://www.jstatsoft.org/v24/i02/paper
Goodreau SM, Handcock MS, Hunter DR, Butts CT, Morris M (2008). A statnet Tutorial. Journal of Statistical Software, 24(8). http://www.jstatsoft.org/v24/i01/paper
McGlohon, Mary. Statistical Properties of Social Networks. http://www.springer.com/cda/content/document/cda_downloaddocument/9781441984616-c2.pdf