DIE BESTE STATISTIKSOFTWARE FÜR EMPIRISCHE ARBEITEN – R, PYTHON, SPSS ODER EXCEL

Aktualisiert: vor 3 Tagen


Zu Beginn der Bachelor- oder Masterarbeit stellen sich viele Studenten die Frage, welche Programmiersprache Sie bei der Bearbeitung Ihrer empirischen Arbeit verwenden sollen. Da die gängigen Statistikprogramme unterschiedliche Stärken und Schwächen aufweisen, sollte diese Entscheidung wohlüberlegt sein. Dabei helfen soll dieser Artikel, indem er die gängigsten statistischen Programmiersprachen vorstellt und nach diversen Kriterien vergleicht.


PYTHON – DIE ALLZWECKWAFFE


Bei Python handelt es um eine beliebte Open-Source-Programmiersprache, die 1994 vom niederländischen Softwareentwickler Guido van Rossum veröffentlicht wurde. Im Gegensatz zu den anderen oben genannten Programmen wurde sie nicht primär zur Datenanalyse bzw. zur Lösung statistischer Probleme entwickelt, sondern stellt eine universell einsetzbare Programmiersprache dar. Python ist für alle gängigen Betriebssysteme verfügbar und zeichnet sich vor allem durch einen intuitiven und lesbaren Programmcode aus. Darüber hinaus existieren mittlerweile über 130.000 Python-Pakete, die zur Lösung von Problemen in verschiedenen Anwendungsbereichen verwendet werden können. Aus diesen Gründen können Ideen in Python extrem schnell umgesetzt werden. Dementsprechend verwundert es auch nicht, dass Python gemäß diverser Rankings (TIOBE, PYPL) zu den drei beliebtesten Programmiersprachen unter Entwicklern gehört. Durch die große Community gibt es auch zahlreiche frei verfügbare Tutorials, Handbücher und Blogs sowie Online-Schulungen auf Cousera, Udacity oder edX zu geringen Kosten. Mit jupyter (webbasiert), spyder und Pycharm stehen zudem drei kostenlose integrierte Entwicklungsumgebungen (IDEs) für professionelles Arbeiten in Python zur Verfügung. Durch Pakete wie zum Beispiel pandas (Datenanalyse), sckit-learn (Machine Learning Methoden) oder matplotlib (Datenvisualisierung) ist Python zur beliebtesten Sprache in den Berechen Data Science und Machine Learning aufgestiegen. Außerdem verfügt Python über sehr mächtige Webframeworks (z.B. Django oder Flask), weshalb es bei Webentwicklern sehr beliebt ist.

R – DER LEADER IM BEREICH STATISTIK


Die populäre Programmiersprache R entstand 1997 als Open-Source-Alternative zur damals verbreiteten kommerziellen Statistik-Software S-Plus und wird in der Regel in Kombination mit der sehr guten sowie kostenlosen Entwicklungsumgebung RStudio genutzt. Genauso wie bei Python wird bei R die Basisfunktionalität durch mittlerweile mehr als 13.000 Pakete erweitert. Python hat zwar deutlich mehr Pakete als R, jedoch liegt R in den Bereichen Statistik und Ökonometrie vor Python. Daher findet man für die Bearbeitung komplexer statistischer Probleme auch eher Pakete in R als in Python. R verfügt außerdem über zahlreiche Pakete in den Bereichen Machine und Deep Learning (z.B. caret, e1071 oder nnet). Dennoch liegt Python in diesem Bereich aufgrund einer größeren Community und besserer Performance vor R. Dementsprechend wird Python auf der bekannten Data Science Plattform Kaggle auch deutlich häufiger als R verwendet. Nichtsdestotrotz belegt auch R in den gängigen Rankings der beliebtesten Programmiersprachen sehr hohe Ränge. Mit Shiny verfügt R zudem über ein sehr elegantes und leistungsstarkes Webframework, welches die Verwandlung von Analysen in interaktive Webanwendungen einfach macht.


SPSS - DER OLDIE


Das „Statistical Package for the Social Sciences“ (SPSS) wurde 1968 von der Firma „SPSS Inc.“ gegründet und mittlerweile an IBM verkauft. SPSS ist damit eines der ältesten Statistikprogramme am Markt. Es handelt sich um ein modular aufgebautes Programm. Das Basismodul eignet sich nicht nur zur Datenmanipulation und -visualisierung, sondern beinhaltet auch die gängigsten statistischen Methoden (z.B. Regressions-, Hauptkomponenten- oder Clusteranalyse). Für speziellere Anwendungen müssen Zusatzmodule erworben werden (z.B. SPSS Amos zur Durchführung von Strukturgleichungsmodellen oder der SPSS Modeler für Decision Trees). Verwendet wird SPSS heute hauptsächlich noch von Sozialwissenschaftlern und Psychologen. Die Anwender schätzen an SPSS insbesondere die grafische Benutzeroberfläche, über die sich fast alle statistischen Methoden aufrufen lassen. Folglich sind im Gegensatz zu R oder Python keine Programmierkenntnisse notwendig (nichtsdestotrotz kann auch in SPSS programmiert werden). Statistiker, Data Scientisten und Machine Learning Ingenieure verwenden in der Regel kein SPSS. Sie greifen zu R oder Python, da diese beiden Programme deutlich mehr Möglichkeiten bieten. Darüber hinaus ist SPSS kein Open-Source Programm, sondern sehr teuer. Die Kosten liegen zwischen 1.200 und 8.000 Euro (abhängig von der gewünschten Version). Studenten können SPSS jedoch häufig zu einem sehr viel geringeren Preis über ihre entsprechende Universität beziehen.


EXCEL - DER KLASSIKER

Microsoft Excel ist das am weitesten verbreitete Tabellenkalkulationsprogramm der Welt und soll daher hier nur kurz beschrieben werden. Excel ist grundsätzlich keine Statistik-Software, jedoch können einfache statistische Aufgaben durchaus in Excel erledigt werden. Mit Hilfe der implementierten Funktionen (z.B. MIN(), MAX(), MEDIAN(), MITTELWERT() oder STABW()) können sehr schnell deskriptive Statistiken berechnet werden. Darüber hinaus ermöglicht das Excel-Add-in „Datenanalyse” unter anderem die Durchführung von Korrelations- und Regressionsanalysen. Ebenso können mit Hilfe dieses Add-ins Simulationen und Tests (t-Test, F-Test) gemacht werden. Die Makroaufzeichnung in Excel erlaubt die Automatisierung von sich wiederholenden Aufgaben. Programmierer verwenden hierfür natürlich VBA (Visual Basic for Applications). Im Vergleich zu R oder Python ist Excel extrem unkompliziert und die Einarbeitungszeit daher entsprechend kurz. In Excel können zudem auch unerfahrene Anwender einfache Dashboards erstellen. Allerdings ist Excel wirklich nur für sehr einfache statistische Aufgaben geeignet. Darüber hinaus sollte der zu analysierende Datensatz nicht allzu groß sein.


FAZIT


Alles in allem kann festgehalten werden, dass Python und R die beiden mit Abstand besten Programmiersprachen für statistische Probleme sind. In den meisten Fällen spielt es keine Rolle, ob R oder Python verwendet wird. Bei Spezialproblemen sollte die Entscheidung in Abhängigkeit der für dieses Problem zur Verfügung stehenden Pakete getroffen werden. SPSS ist im Vergleich zu Python und R nicht nur teuer, sondern bietet dem Anwender auch noch deutlich weniger Möglichkeiten an. Folglich sollte SPSS nur verwendet werden, falls eine Bearbeitung in Python oder R aufgrund fehlender Kenntnisse nicht möglich ist. Excel kann verwendet werden, wenn es sich um ein sehr einfaches statistisches Problem handelt und der zu analysierende Datensatz nicht allzu groß ist.


Falls Sie Probleme mit einer statistischen Auswertung in Ihrer Arbeit haben, zögern Sie nicht uns zu kontaktieren. Unser Team an Freelancern verfügt über langjährige Erfahrung auf den Gebieten der Statistik und des Maschinellen Lernens. Wir beraten Sie gerne bei Ihrem statistischen Problem. Darüber hinaus können Sie bei uns auch statistische Auswertungen bestellen (inkl. Dokumentation). Gerne bieten wir Ihnen hierfür ein kostenloses und unverbindliches Erstgespräch mit einem unserer Experten an. Sie können uns jederzeit per E-Mail, Telefon oder über unser Anfrageformular erreichen.


0 Ansichten
ÜBER UNS

support@statistikprofis.com

Tel.: +49 1573 4946886

© Copyright - StatistikProfis