Zwykle kursy z metodologii w szkołach wyższych zaczyna się od filozofii nauki. Wprowadza ona należyty kontekst, historię refleksji naukowej. Przedstawia się rolę teorii i modeli w procesie wyjaśniania rzeczywistości. Następnie wyjaśnia się założenia i metody stosowane w dziedzinie nauki, którą ktoś akurat studiuje. My te i inne tematy odłożymy sobie na potem, a serię jak rozumieć naukę zaczniemy od przyjrzenia się statystyce i metodologii badań.

Statystycznie rzecz biorąc

Statystyka to dziedzina nauki pozwalająca na formalne (to znaczy w języku matematyki) przedstawienie interesujących nas zjawisk. Często jest przedmiotem znienawidzonym przez studentów. Uznawana za nudną i trudną, często uczona przez wykładowców, którzy sami ją za taką uważają, co zdecydowanie nie pomaga w jej przyswajaniu. Zdecydowaliśmy się zacząć od statystyki, ponieważ jest ona wykorzystywana właściwie we wszystkich naukach empirycznych (choć niektórzy fizycy zapewne z pogardą pokręciliby głową). Dobrze podsumował to matematyk John Tukey: „Najlepszą rzeczą w byciu statystykiem jest to, że możesz grzebać w podwórku u wszystkich innych” (Lin et al., 2014).

Zacznijmy więc zagłębiać się w meandry statystyki. Najpierw musimy wykonać pomiar. Pomiar oznacza przypisanie cesze pewnego obiektu wartości liczbowej. Np. ile waży człowiek w kilogramach, na kogo zagłosuje w najbliższych wyborach lub jaki jest poziom jego otwartości na nowe doświadczenia. Następnie możemy sprawdzić czy pomiędzy mierzonymi zmiennymi zachodzi jakiś związek. Na przykład, gdybyśmy przyjrzeli się danym dotyczącym wieku i wzrostu ludzi do 21 roku, zauważylibyśmy, że im więcej ktoś ma lat, tym jest wyższy. Związek, w którym wartość jednej zmiennej wzrasta i wartość drugiej zmiennej także wzrasta (bądź maleje) nazywamy korelacją liniową.

Istnieją oczywiście inne, bardziej subtelne związki pomiędzy zmiennymi, ale na razie zostańmy przy relacji liniowej. Pewną mantrą, którą słyszy się na zajęciach ze statystyki jest: „korelacja nie oznacza przyczynowości”. Weźmy taki przykład: okazuje się, że im więcej sprzedaje się lodów tym częściej ludzi atakują rekiny. Czy spożycie lodów w jakiś sposób zachęca rekiny do ataku? Oczywiście nie, pozorny związek pomiędzy tymi dwoma zjawiskami wyjaśnia fakt, że ludzie najczęściej kupują lody w upalne dni, a w upalne dni więcej ludzi odpoczywa na plaży, co przekłada się na częstsze ataki rekinów.

Gdy mamy więc dane obserwacyjne (nasze wyniki pomiarów) nie możemy mówić o przyczynowości, gdyż widzimy tylko współzmienność cech obiektów, które badamy. By wnioskować o przyczynowości musimy posłużyć się eksperymentem. W warunkach kontrolowanych dzielimy losowo badane przez nas obiekty na dwie grupy (bądź więcej), zapewniamy im możliwie jak najbardziej zbliżone warunki, a następnie w jednej z nich (zwanej grupą docelową) wykonujemy jakąś interwencję X (np. podajemy lek), a w drugiej grupie (nazywanej kontrolną) nie. Następnie w obu grupach wykonujemy pomiar. Jeśli pomiary w grupach się różnią, zakładamy, że różnicę mogła spowodować tylko interwencja X.

Często jednak nie możemy posłużyć się eksperymentem, bo na przykłąd: jego koszt jest zbyt wysoki, wykonanie byłoby nieetyczne, lub jest to po prostu niemożliwe. Wtedy, by odnaleźć przyczynowość, posługujemy się dodatkowymi metodami, takimi jak wykorzystanie istniejących teorii, zgodność z modelem, wyeliminowanie innych potencjalnie wpływających zmiennych, modelami zwierzęcymi czy obserwacją następstw czasowych w badaniach podłużnych. Żadna z tych metod nie daje jednak takiej pewności we wnioskowaniu o przyczynowości jak eksperyment. Pewną nadzieję na rozwiązanie tego problemu dają rozwijane od kilkunastu lat metody matematyczne pozwalające na wnioskowanie o przyczynowości z danych obserwacyjnych. Zainteresowanym tym tematem polecam książkę „Przyczyny i Skutki” Jude’a Pearl’a i Dany Mackenzie (Pearl & Mackenzie, 2021).

Jak zbadać wszystich Polaków?

Zajmijmy się teraz kolejnym istotnym problemem, mianowicie, jak możemy uogólniać (generalizować) wyniki badań. Załóżmy, że chcemy powiedzieć coś o wadze w populacji Polaków, więc przeprowadzamy badanie. Mierzymy wagę dziesięciu ludzi napotkanych na ulicy, ale od razu napotykamy problem. Otrzymaliśmy dokładne informacje o wadze tylko tych 10 ludzi. Skąd mamy pewność, że ich średnia waga jest jakkolwiek zbliżona do średniej w populacji? Może należałoby zwiększyć próbę? Sto, może tysiąc osób wystarczyłoby aby uzyskać odpowiednie przybliżenie. Taką logiką kierował się magazyn „Literary Digest”, który przeprowadził sondaż w wyborach prezydenckich w Stanach Zjednoczonych w 1936 roku. Próba wynosiła ponad dwa miliony ludzi. W sondażu zwyciężył Alf Landon z 57% poparciem. Jednak w wyborach zwyciężył Franklin Delano Roosevelt z 61% poparciem, gdy Alf Landon otrzymał jedynie 8% głosów. Jak to możliwe? „Literary Digest” losował respondentów z książek telefonicznych. Jednak w 1936 roku telefon posiadały raczej osoby zamożne, dlatego wyniki sondażu były bardzo skrzywione. Większość ludzi w dobie największego kryzysu ekonomicznego w Stanach, głosowało na prosocjalne reformy Roosevelta (Babbie, 2008).

A jednak dzisiejsze sondaże są zadziwiająco dokładne. Jak się to dzieje? Otóż zachowanie matematycznych obiektów, a takimi są nasze pomiary, można policzyć. Jeśli każdy obiekt w populacji (np. Polaków) ma niezerowe, takie samo prawdopodobieństwo wylosowania do próby, możemy policzyć ile osób musimy wylosować, by z prawdopodobieństwem X wylosować próbę, w której średnia wartość cechy nie będzie różna więcej niż Y od średniej wartości cechy w populacji.

W praktyce wygląda to tak, że gdybyśmy chcieli mieć 95% szansę na wylosowanie próby, w której procent respondentów głosujących na daną partię, nie różni się więcej niż o 3% od realnego poparcia w społeczeństwie, powinniśmy wylosować 1067 osób do próby. Ponieważ każdy Polak musi mieć szansę na wylosowanie, próbę powinniśmy losować ze zbioru, który zawiera wszystkich Polaków, na przykład zbioru numerów PESEL.

Próbę, do której obiekty zostały przydzielone w sposób losowy z całej populacji nazywamy próbą reprezentatywną. Próbę w której wszystkie obiekty zostały wylosowane z takim samym prawdopodobieństwem nazywamy doborem prostym losowym. Istnieją jeszcze inne metody doboru próby reprezentatywnej. Wszystkie łączy to, że możemy dokładnie policzyć margines błędu dla wyników.

Spotkałem się kiedyś z opinią, że jeśli ankieter stanie w centrum miasta i będzie podchodził do niektórych ludzi i prosił ich o wypełnienie ankiety, mamy do czynienia z losowym doborem do próby. Ankieter przecież nie zna tych ludzi, nie może więc dobierać ich sobie według ich poglądów. Niemniej, ludzie Ci znaleźli się w tym konkretnym miejscu, o tej konkretnej godzinie w sposób nieprzypadkowy. Przy uczelni będzie więcej studentów, w godzinach szczytu będzie więcej osób zmierzających do pracy, i tak dalej.

A jednak wśród badań naukowych próby reprezentatywne to znaczna mniejszość. Jest to spowodowane wieloma czynnikami. Przede wszystkim, przeprowadzenie badania reprezentatywnego jest kosztowne i trudne. Uzyskanie dostępu do listy zawierającej dane wszystkich obywateli wymaga przejścia wielu czasochłonnych procedur. Po drugie, o ile w wypadku ludzi istnieje jakaś lista, w przypadku badań nad zwierzętami nic takiego nie ma. Biolodzy nie mają skąd wylosować reprezentatywnej próby szczurów. Chemicy i fizycy mają w tym względzie nieco łatwiej. Atom wodoru na wsi będzie identyczny z atomem wodoru w mieście.

By poradzić sobie z tym problemem stosuje się różne metody. W dniu wyborów, po zakończeniu zbierania głosów, zwykle o godzinie 21 ogłasza się sondażowe wyniki wyborów, metodą exit poll. Badanie to nie jest przeprowadzone na próbie reprezentatywnej, ponieważ ankieterzy muszą zadać pytanie o oddany głos zaraz po wyjściu wyborcy z lokalu wyborczego. A jednak znowu mamy do czynienia z niezwykłą dokładnością. Badacze wyszczególniają zmienne silnie skorelowane z preferencjami wyborczymi, na podstawie wcześniejszych badań reprezentatywnych. Takie zmienne to zwykle płeć, wielkość miejscowości zamieszkania, poziom wykształcenia czy wielkość dochodów. Respondenci są dobierani tak, by procentowo liczba osób wykształconych odpowiadała tej w populacji itd. Przy poprawnie dobranych założeniach pozwala to na dokładne oszacowanie wyników wyborów. Biolodzy współcześnie w badaniach nad zwierzętami podobnie starają się brać pod uwagę wewnątrzgatunkowe zróżnicowanie genetyczne, środowisko zwierzęcia i jego historię, by stworzyć próbę, której wyniki będą dały się generalizować (Farrar et al., 2021).

Jednocześnie w niereprezentatywnych próbach należy uznać, że wpływ pewnych potencjalnych źródeł zmienności jest zaniedbywalny, to znaczy nie ma znaczenia dla wyniku badań. Na przykład, że mechanizm molekularny skurczu mięśnia poprzecznie prążkowanego jest niezależny od tego czy ktoś mieszka w Warszawie czy San Francisco. Jednak czasami takie założenia są błędne. Psychologowie długo twierdzili, że badają uniwersalne mechanizmy zachowania i myślenia ludzkiego, co miało uzasadniać mało zróżnicowane próby składające się głównie ze studentów psychologii (obecnie w ramach psychologii międzykulturowej zwraca się uwagę na różnice wynikające z kultury) (Hanel & Vione, 2016). Problemy z doborem próby miały także inne dziedziny nauki, jak biologia i medycyna, co jest jednym z powodów kryzysu replikacyjnego, który omówimy w dalszej części tego tekstu.

Różnią się czy nie?

No dobrze. Jak zauważyliśmy, dobór próby do badania to nietrywialna sprawa. Załóżmy jednak, że dobraliśmy naszą próbę odpowiednio i teraz chcemy powiedzieć czy średnia waga mężczyzn i kobiet się różni. Nie wystarczy jednak tylko spojrzeć na średnią mężczyzn i kobiet z naszej próby i zobaczyć, która średnia jest większa. Ponieważ losowaliśmy naszych badanych, nawet jeśli średnia waga w populacji jest taka sama dla kobiet i mężczyzn, prawie na pewno nie otrzymamy takich samych średnich w naszej próbie (zawsze będzie między nimi jakaś różnica). Jak więc określić czy otrzymane wyniki w próbie istotnie się różnią w populacji, czy różnica jest wynikiem błędu losowego.

I tu statystycy opracowali kolejną ciekawą sztuczkę. Na podstawie wyników otrzymanych w próbie jesteśmy w stanie oszacować prawdopodobieństwo tego, że jeśli w populacji mężczyźni i kobiety nie różnią się wagą, to na ile jest prawdopodobne wylosowanie próbek różniących się o określoną wartość. Jeśli jest to wysoce nieprawdopodobne (zwykle przyjmuje się, że to prawdopodobieństwo wynosi mniej niż 5%) przyjmuje się to jako argument, że różnica rzeczywiście istnieje w populacji. Prawdopodobieństwo to nazywa się wartością p (p-value), a jeśli jest mniejsze od przyjętego progu (dopuszczalnego prawdopodobieństwa otrzymania wyniku fałszywie pozytywnego), wynik nazywamy istotnym statystycznie.

P-value możemy obliczyć dla większości hipotez, nie tylko o różnicy średnich, np. czy zmienne są skorelowane liniowo, szacując prawdopodobieństwo otrzymania wyniku w próbie, który w populacji nie istnieje. Nie jest to jedyny sposób weryfikacji hipotez statystycznych, niemniej z powodów historycznych oraz faktu, że obliczenie p-value jest stosunkowo proste, jest to najczęstsza metoda stosowana w praktyce.

Niemniej wokół użycia p-value narosło wiele kontrowersji. Wynika to między innymi z automatycznego korzystania z tej miary przez naukowców traktujących statystykę jako mechaniczny sposób na wskazanie czy badanie potwierdza daną tezę. Z jednej z możliwości weryfikacji hipotez statystycznych p-value stała się obowiązjuącym standardem w badaniach, choć nie zawsze jej użycie jest najbardziej adekwatne (Gigerenzer, 2004).

Przeszliśmy od doboru próby do prostej analizy statystycznej otrzymanych wyników. Czy to jednak zawsze wystarczy by otrzymać rzetelną informację na temat interesującego nas efektu? Niestety sprawa jest bardziej skomplikowana. Rozpatrzmy następujący przykład, przeprowadzamy badanie na podstawie danych obserwacyjnych w którym chcemy określić wpływ aktywności fizycznej na gęstość kości. Liczymy wskaźnik korelacji liniowej, jednak ku naszemu zdziwieniu analiza pokazuje brak związku, choć z innych badań wiemy, że wraz ze wzrostem częstotliwości uprawiania sportu, gęstość kości powinna rosnąć.

Używamy więc innej metody statystycznej – regresji liniowej, która pozwala na uwzględnienie wpływu więcej niż jednej zmiennej na zmienną, która nas interesuje (gęstość kości). Do analizy używamy teraz nie tylko częstotliwości aktywności fizycznej, ale także wagę w kilogramach. Okazuje się, że obydwie zmienne są pozytywnie skorelowane z gęstością kości (im większa częstotliwość aktywności fizycznej bądź waga, tym większa gęstość kości). Jednak jeśli analizować zmienne z osobna, nie wykryjemy związku. Dzieje się tak dlatego, że częstotliwość aktywności fizycznej i waga są ze sobą negatywnie skorelowane (im częstsza aktywność, tym mniejsza waga). Oznacza to, że większa gęstość kości u osób aktywnych jest równoważona przez większą gęstość kości u osób ważących więcej, przez co wydaje się, na pierwszy rzut oka, że aktywność fizyczna nie ma związku z gęstością kości.

Zauważmy, że gdybyśmy przeprowadzili eksperyment, nie spotkalibyśmy się z podobnym problemem, ponieważ tylko jedna grupa uprawiałaby wzmożoną aktywność fizyczną, co zwiększyłoby średnią gęstość kości. Choć dane obserwacyjne nie pozwalają nam mówić o przyczynowości, za pomocą metod statystycznych jesteśmy w stanie odseparować wpływ poszczególnych zmiennych.

Na koniec tej części warto wspomnieć o interpretacji wyników analizy statystycznej. Ponownie załóżmy, że przeprowadzamy eksperyment, w którym interesuje nas wpływ alkoholu na zachowania agresywne. Dobieramy próbę, grupie docelowej podajemy alkohol, a następnie mierzymy częstotliwość zachowań agresywnych. Podczas analizy naszych wyników widzimy, że średnia częstotliwość zachowań agresywnych jest istotnie wyższa w grupie, której podaliśmy alkohol. Z tego punktu wiedzie prosta droga do wniosku, że alkohol powoduje agresję.

Nie jest to jednak wniosek poprawny. Jeśli dołączymy do analizy zmienną wskazującą na tendencję do zachowań agresywnych, okaże się, że częstotliwość agresji wzrasta po alkoholu, ale proporcjonalnie do wcześniej istniejącej skłonności do agresji (Chiavegatto et al., 2010). Otrzymaliśmy zgoła inny wniosek, mówiący nam, że alkohol działa jako wyzwalacz agresji, jednak jej nie powoduje. Podczas przeprowadzania badań należy pamiętać o tym, że wniosek statystyczny (średnia ilość zachowań agresywnych wzrasta), jest czymś innym od wniosku interpretacyjnego (alkohol powoduje agresję).

Krysys Replikacyjny

Zwróćmy uwagę teraz na większy obraz wynikający z naszych rozważań nad metodologią statystyczną. Załóżmy, że w idealnym świecie, gdzie badacze idealnie przygotowują swoje eksperymenty na doskonałych próbach, średnio 5% badań, w których badany efekt nie istnieje, będzie zawierało fałszywe wyniki. Czyli jeśli na temat jakiegoś zjawiska pojawiło się wystarczająco dużo badań, to zawsze znajdziemy artykuł przedstawiający dane za, jak i przeciw danej tezie. Dlatego jeśli ktoś przedstawia nam badanie popierające jakąś tezę, niekoniecznie oznacza to, że ma rację. W nauce ważne jest gromadzenie (akumulacja) dowodów i powtarzanie (replikacja) badań. Duże role odgrywają w tym metaanalizy czyli wtórna analiza statystyczna wyników wielu badań w celu określenia istotności dowodów przemawiających za danym zjawiskiem.

No właśnie. Tak by było w idealnym świecie. Jednak realnie mamy do czynienia z efektem złudzenia publikacyjnego, czyli skłonności wydawców do publikacji artykułów zawierających wyniki świadczące o istnieniu efektu. Brak efektu nie jest sexy, bo w badaniu nie wyszło nic interesującego. Doprowadziło to sytuacji, w której badania przedstawiające jakiś efekt były znacznie częściej publikowane niż te, które go nie pokazywały. A tak jak zauważyliśmy wcześniej zawsze pewien odsetek badań fałszywie pokaże nam istnienie efektu, którego nie ma. Może prowadzić to do sytuacji, w której dobrze udokumentowany efekt faktycznie nie istnieje. Za przykład może posłużyć zjawisko zagrożenia stereotypem z psychologii społecznej polegające na obniżeniu sprawności wykonywania zadania przez osoby należące do grupy objętej negatywnym stereotypem, gdy wcześniej „przypomni” im się o istnieniu stereotypu. Na przykład jeśli kobietom (niekoniecznie wprost) powie się, że kobiety są gorsze z matematyki, a następnie przeprowadzi się test, okaże się, że wypadły gorzej niż mężczyźni.

Mimo licznych badań potwierdzających ten efekt, metaanalizy przeprowadzane od 2015 roku wykazały istnienie złudzenia publikacyjnego (Flore & Wicherts, 2015). Wykrycie złudzenia publikacyjnego jest możliwe dzięki temu, że wyniki badań (w formie liczb) powinny zachowywać się (statystycznie) w określony sposób. Od kilkunastu lat rozwijają się metody statystyczne pozwalające na wykrywanie tendencyjności w publikowaniu artykułów. Złudzenia publikacyjne stanowią jeden z problemów składających się na wspomniany wcześniej kryzys replikacyjny.

W 2015 roku w prestiżowym czasopiśmie naukowym „Science” ukazały się wyniki badania, w którym autorzy powtórzyli 100 nigdy wcześniej niereplikowanych badań psychologicznych. Tylko w 39% z nich udało się otrzymać wynik taki jak w oryginalnych publikacjach (Open Science Collaboration, 2015). To i podobne badania, wraz z rosnącą świadomością złudzeń publikacyjnych, zapoczątkowało debatę na temat kryzysu replikacyjności i rzetelności współczesnych praktyk naukowych. Szybko okazało się, że problem nie dotyczy tylko psychologii, lecz również biologii, ekonomii i medycyny.

Kryzys replikacyjny ma wiele źródeł, jednak najczęściej wymienia się zjawisko “publikuj lub zgiń” (publish or perish). Współczesna polityka ewaluacji pracownika naukowego i jego dorobku opiera się na publikacjach. Im więcej jest publikacji, im częściej są cytowane przez innych badaczy, w im lepszych czasopismach są publikowane, tym lepiej. Od wyniku ewaluacji zależy zatrudnienie i finansowanie badań naukowca. Presja publikacyjna wywierana na badaczy w połączeniu z tendencyjnością publikowania tylko “interesujących” wyników sprawiła, że niekiedy popełniają oni pewne metodologiczne nadużycia. Jakie to nadużycia? Pomoże nam to wyjaśnić martwy łosoś w rezonansie magnetycznym.

Zespół neuronaukowców pod kierownictwem Craiga Bennetta przygotowywał się do przeprowadzenia badania dotyczącego przetwarzania w mózgu emocjonalnych zdjęć przy użyciu funkcjonalnego rezonansu magnetycznego (fMRI). Urządzenie to działa jak trójwymiarowa kamera pozwalająca na rejestrowanie zmian w natężeniu pola magnetycznego w voxelach (trójwymiarowych odpowiednikach pikseli). W zależności od tego czy krew jest utlenowana czy odtlenowana ma inne właściwości magnetyczne, pozwala to sprawdzać poziom utlenowania krwi w różnych obszarach mózgu. Im większą aktywność wykonuje dany region mózgu, tym więcej tlenu zużywa. Pozwala to na sprawdzenie jakie obszary mózgu są bardziej aktywne w różnych warunkach eksperymentalnych.

Bennett przed wykonaniem właściwych badań zdecydował się na przetestowanie procedury wkładając do skanera trzykilogramowego martwego łososia. W trakcie pomiaru wyświetlano na specjalnym ekranie zdjęcia, tak jak miałoby to miejsce podczas prawdziwego badania, po czym zadawano łososiowi pytania, jakie emocje prezentują osoby na zdjęciach. Po przeanalizowaniu danych okazało się, że mózg martwego łososia wykazuje zwiększoną aktywność pewnych regionów podczas oglądania zdjęć, niż w spoczynku (Bennett et al., 2009).

Wynikało to ze zjawiska znanego w statystyce jako problem wielokrotnych porównań. W badaniach przy użyciu fMRI porównuje się aktywność w każdym voxelu pomiędzy warunkami. Voxeli w skanie fMRI jest kilkaset tysięcy. Wykonując tyle porównań prawdopodobieństwo, że wyjdzie nam choć jeden wynik fałszywie pozytywny wynosi niemal 100%. Prawdopodobieństwo, że w każdym pojedynczym porównaniu wystąpi wynik fałszywie pozytywny nadal wynosi 5%, ale jeśli średnio 5% wokseli pokaże nam różnice pomiędzy warunkami, to wykryjemy aktywność nawet u martwego łososia (przez szum wynikający z fluktuacji pola magnetycznego). By poradzić sobie z tym problemem stosuje się współcześnie odpowiednie poprawki, które utrzymują niższe prawdopodobieństwo otrzymania wyniku fałszywie pozytywnego.

Co ma więc martwy łosoś do zjawiska “publikuj lub giń?” Naukowcy w swoich badaniach zwykle zbierają więcej danych, niż te które są potrzebne do weryfikacji a priori postawionych hipotez (pytań badawczych, które stanowiły motywację do przeprowadzenia badania). Dodatkowe dane zbiera się w celu kontrolowania wpływu zmiennych potencjalnie wpływających na efekt, jak wspominaliśmy powyżej. Ponadto, z uwagi, że zwykle przeprowadzenie badania jest kosztowne i czasochłonne zbiera się jak najwięcej danych w celach eksploracyjnych (dodatkowych analiz nie wynikających bezpośrednio z hipotez). Presja publikacyjna, razem z tendencją wydawnictw do publikowania artykułów potwierdzających efekt niż mu zaprzeczających, sprawia, że jeśli badacze nie potwierdzą swoich założonych hipotez, szukają w danych jakiegoś istotnego efektu, by zwiększyć szansę na publikację.

W tym momencie powracamy do problemu wielokrotnych porównań. Istnieją oczywiście odpowiednie statystyczne środki zaradcze, niestety czasami badacze by zwiększyć sexapill artykułów przedstawiają uzyskane istotne wyniki tak, jakby odpowiadały na ich pytanie badawcze postawione przed jego przeprowadzeniem badania. Pomijają także w tekście analizy, które nie wykrywały efektu. Nieodpowiedni dobór próby, tendencyjność publikacyjna i presja kładziona na badaczy składa się na kryzys replikacyjny. Od kilku lat stosuje się coraz częściej środki zaradcze w postaci częstszej publikacji replikacji, czasopism, które publikują tylko artykuły mówiące o braku efektu czy prerejestracji - przedstawieniu do wiadomości publicznej w formie krótkiego artykułu, hipotez badawczych i metodologii przed zaczęciem badania.

Czy kryzys replikacyjny oznacza, że nie możemy ufać nauce? Nie. Nauka nadal pozostaje najlepszym narzędziem do poznawania otaczającego nas świata i jest procesem samokrytycznym, to znaczy metody i założenia stosowane w nauce są poddawane ciągłej krytyce przez środowisko naukowe. Należy tu dodać, że kryzys replikacyjny może być związany z umasowieniem nauki. Liczba osób otrzymujących doktoraty stale się zwiększa, i to w państwach, w których liczba ludności spada. Standaryzacja metod oceny pracowników naukowych jest potrzebna, jednak w obecnej formie może nasilać omawiany problem.

Na tym kończymy pierwszy wpis serii “Jak rozumieć naukę.” Dotknęliśmy tylko wierzchołka góry lodowej jeśli chodzi o zagadnienia statystyczne i metodologiczne w nauce, jednak mam nadzieję, że ten tekst będzie stanowił interesujące wprowadzenie do zagadnień metodologicznych. Osobom zainteresowanym poszerzeniem swojej wiedzy polecamy przejrzenie zasobów w bazie wiedzy.

Babbie, E. (2008). Podstawy badań społecznych (pp. 209–210). PWN.

Bennett, C. M., Miller, M. B., & Wolford, G. L. (2009). Neural correlates of interspecies perspective taking in the post-mortem atlantic salmon: An argument for multiple comparisons correction. Neuroimage, 47(Suppl 1), S125.

Chiavegatto, S., Quadros, I., Ambar, G., & Miczek, K. (2010). Individual vulnerability to escalated aggressive behavior by a low dose of alcohol: Decreased serotonin receptor mRNA in the prefrontal cortex of male mice. Genes, Brain and Behavior, 9(1), 110–119.

Farrar, B. G., Voudouris, K., & Clayton, N. S. (2021). Replications, comparisons, sampling and the problem of representativeness in animal cognition research. Animal Behavior and Cognition, 8(2), 273.

Flore, P. C., & Wicherts, J. M. (2015). Does stereotype threat influence performance of girls in stereotyped domains? A meta-analysis. Journal of School Psychology, 53(1), 25–44.

Gigerenzer, G. (2004). Mindless statistics. The Journal of Socio-Economics, 33(5), 587–606.

Hanel, P. H., & Vione, K. C. (2016). Do student samples provide an accurate estimate of the general public? PloS One, 11(12), e0168354.

Lin, X., Genest, C., Banks, D. L., Molenberghs, G., Scott, D. W., & Wang, J.-L. (2014). Past, present, and future of statistical science (p. 44). CRC Press.

Open Science Collaboration. (2015). Estimating the reproducibility of psychological science. Science, 349(6251).

Pearl, J., & Mackenzie, D. (2021). Przyczyny i skutki rewolucyjna nauka wnioskowania przyczynowego. Copernicus Center Press.

Metodologia badań i Statystyka