Nedenstående anvendelse kommer fra kemi og er skrevet af Frank Jensen.
Principal Component Analysis (PCA) er en hyppigt anvendt metode til at uddrage information fra store datamængder.
Et eksempel er en computer simulering på et microsekund af et protein indeholdende atomer, hvor den rå datamængde er tidsmæssige adskilte positioner af atom koordinater. Langt størstedelen af denne information er tilfældige termiske bevægelser, som ikke er interessante, mens koordinerede atombevægelser, der ændrer proteinets struktur er interessante.
Et andet eksempel er korrelationen mellem molekylers struktur og deres biologiske virkning, hvor et molekyles vekselvirkninger med det biologiske target kan kvantificeres ved dets egenskaber i f.eks. punkter i det -dimensionale rum omkring molekylet. I en Quantitative Structure Activity Relationship (QSAR) forsøger man at finde hvilke områder omkring et molekyle, der er vigtig for den biologiske virkning, ud fra informationen om hvordan de beskrivende variable for f.eks. molekyler korrelerer med deres biologiske aktivitet.
Den rå information kan arrangeres i en rektangulær matrix , og vi er interesseret i korrelationen mellem elementerne i matricen. Dette kan vi finde ud fra en analyse af , som er en symmetrisk kvadratisk matrix. En sådan matrix kan ifølge noterne altid diagonaliseres ved en unitær transformation, hvor -matricen indeholder egenvektorerne.
Den omvendte transformation betyder at den originale matrix kan konstrueres ud fra egenværdierne og egenvektorerne.
Ideen i PCA er at repræsentere informationen i matricen som en approksimation ved kun nogle få egenvektorer. Egenværdierne fra diagonalisering af A matricen, relativt til summen af alle egenværdier, giver et mål for, hvor stor en brøkdel af den originale information et given antal egenvektorer kan repræsentere. Egenvektorerne kaldes Principal Components, og egenvektoren svarende til den største egenværdi beskriver den største variation af de originale variable, egenvektoren med den næst-største egenværdi beskriver den næst-største variation af de original variable, etc. Ofte kan man repræsentere 80-90% af informationen i en matrix med dimension ~ med kun nogle få (-) Principal Components.
Beregn %-fejlen ud fra en sammenligning af alle elementerne af og matricen , svarende til den omvendte transformation (10.2) med egenvektorer hørende til de to største egenværdier.