08.12.2022 | von Patrick Fischer, M.Sc., Gründer & Data Scientist: FDS
Hadoop ist eine freie, quelloffene Software-Plattform, die auf verteilten Storage- und Verarbeitungssystemen basiert und es Unternehmen ermöglicht, sehr große Datenmengen zu speichern und zu analysieren. Hadoop wurde ursprünglich von Apache Software Foundation entwickelt und ist ein integraler Bestandteil der Big-Data-Technologie. Es wird häufig zur Speicherung und Analyse sehr großer Datenmengen verwendet, die in einer traditionellen Datenbank möglicherweise nicht richtig verarbeitet werden könnten. Hadoop ist mit verschiedenen Tools wie MapReduce, HDFS und YARN ausgestattet, die es Unternehmen ermöglichen, Daten effizient zu speichern und zu verarbeiten.
08.12.2022 | von Patrick Fischer, M.Sc., Gründer & Data Scientist: FDS
SparkQL ist eine Abfragesprache, die auf dem Apache Spark-Framework basiert und es Benutzern ermöglicht, Daten aus verschiedenen Quellen wie Hadoop HDFS, Apache Cassandra und Apache Hive abzufragen. SparkQL ist eine einfache und leistungsstarke Abfragesprache, mit der Benutzer komplexe Abfragen auf Big-Data-Sets ausführen können. Es bietet ein vereinfachtes Modell zur Verarbeitung und Analyse von Big-Data-Daten.
08.12.2022 | von Patrick Fischer, M.Sc., Gründer & Data Scientist: FDS
Spark ist eine Open-Source-Software zur Verarbeitung von Big Data. Es kann in einem Cluster oder auf einem einzelnen Computer ausgeführt werden und bietet eine breite Palette an Funktionen wie etwa Streaming, Machine Learning und SQL. Spark ermöglicht Anwendern, Daten auf einer einzelnen Plattform zu verarbeiten und zu analysieren, was die Produktivität und die Verarbeitungsgeschwindigkeit erhöht. Es ist eine der leistungsfähigsten und flexibelsten Verarbeitungsplattformen für Big Data.
06.12.2022 | von Patrick Fischer, M.Sc., Gründer & Data Scientist: FDS
Text-Mining-Tools sind Programme, die dazu verwendet werden, um Text in maschinenlesbares Format zu konvertieren und zu analysieren. Sie können verwendet werden, um Daten aus Texten zu extrahieren und zu organisieren, sie können auch verwendet werden, um die Struktur und den Inhalt von Texten zu analysieren, um Schlussfolgerungen zu ziehen. Einige der häufigsten Text-Mining-Tools sind Natural Language Processing (NLP), Text Analytics, Text Classification, Text Clustering und Text Extraction.
06.12.2022 | von Patrick Fischer, M.Sc., Gründer & Data Scientist: FDS
Heteroskedastizität ist ein Begriff, der in der Statistik verwendet wird, um eine Ungleichmäßigkeit im Variationsmaß von Daten zu beschreiben. Es bezieht sich auf eine Situation, in der die Variation der Daten in einem bestimmten Datensatz nicht konstant ist, sondern sich mit zunehmender Standardabweichung von der Grundlinie ändert. Ein häufiges Beispiel für Heteroskedastizität ist, wenn die Standardabweichung eines Datensatzes mit zunehmendem Wert der abhängigen Variablen zunimmt.