News

Student tutors for the course Data Modelling wanted (winter term 2021/22)


IT-Project Data Souvereignty in winter termin 2021/22


Business Intelligence: Washing Gold in Times of Information Overload


See all news.


Campusplan

campusplan_image

You can find us here.




Classifying Air Traffic Scenarios and Associated Environment Conditions With Respect to Operation Risk

Author: M. Bardach
Master Thesis: MTE2001 (February, 2020)
Citation: Diplomarbeit, Betreuung: o. Univ.-Prof. Dr. Michael Schrefl, Mitbetreuung: Dr. Eduard Gringinger ausgeführt an der Technischen Universität Wien, Fakultät für Informatik, Februar 2020.
Resources: Copy  (In order to obtain the copy please send an email with subject  MTE2001  to dke.win@jku.at)
Implementation  (In order to obtain the implementation please send an email with subject  MTE2001_impl  to  dke.win@jku.at)


Abstract (German):

Das Ziel dieser Diplomarbeit ist es, ein Model zu entwickeln, welches klassische Flugverkehrsszenarien und zugehörige Umweltbedingungen in drei Risikoklassen klassifiziert. Ein Flugverkehrsszenario wird durch den Ort, dem Flughafen an dem das Szenario stattfindet, einer Zeitspanne und dem Typ des Szenarios (Ankunftsszenario oder Abflugszenario) identifiziert und enthält sämtliche Flug- und Flugzeugdaten von ankommenden oder abfliegenden Flügen aus dieser Zeitspanne. Bei Daten über Umweltbedingungen handelt es sich um Wetter- und Notice-to-Airmen-Daten. In dieser Arbeit wird das klassische Flugverkehrsszenario um diese Daten erweitert. Eine Risikoklasse errechnet sich aus den durchschnittlichen Kosten aller Verspätungen der Flugzeuge aus diesem Szenario. Die Forschungsfrage ist, ob so ein Model Szenarien in Risikoklassen klassifizieren kann. Für diese Data-Mining Aufgabe wird der "cross industry standard process for data mining" verwendet, abgekürzt mit CRISP-DM. Dieser besteht aus sechs einzelnen Phasen. Zuerst werden die Flugdaten mit einfachen Abfragen analysiert, um Flughäfen für die Szenarioerstellung auszuwählen. Szenarien müssen für jeden Flughafen einzeln erstellt werden, da verschiedene Attribute auf verschiedenen Flughäfen unterschiedliche Relevanz haben. Basierend darauf wurden die Flughäfen Atlanta in den USA und Wien ausgewählt. Kosten von Verspätungen werden mithilfe der linearen Regressionsfunktion, welche von EUROCONTROL entwickelt wurde, berechnet. Die Regressionsgerade beinhaltet alle taktischen Kosten eines verspäteten Fluges inklusive Folgekosten, die durch die Verspätung ausgelöst werden. Die Kosten berechnen sich basierend auf dem maximalen Startgewicht eines Flugzeuges. Die beiden fertigen Datensätze von Szenarien werden für das Training von einem Random Forest Model und einem Multilayer Neural Network verwendet. Die dabei verwendete Software heißt Rapid Miner. Die beiden Modelle werden mithilfe von Testmetriken verglichen. Für den Vergleich von mehrklassigen Klassifizierungen werden Precision und Recall verwendet. Die Ergebnisse zeigen, dass das Random Forest Modell bessere Werte erreicht als das Multilayer Neural Network. Precision und Recall erreichen bei der Klassifizierung von Risikoklasse 3 Werte über 80%. Diese Klasse beinhaltet Szenarien mit der höchsten durchschnittlichen Verspätung und somit auch mit dem größten Einsparungspotenzial. Diese Klassifizierung kann Fluglotsen helfen, aufkommende Szenarien besser zu evaluieren und entsprechende Maßnahmen zu setzen, um die Verspätung zu verhindern oder zu minimieren. Einige dieser Maßnahmen sind der Tausch von Landeslots, das Öffnen einer weiteren Start- und Landebahn oder eine Änderung der Landebahnkonfiguration.

Abstract (English):

The goal of this thesis is to develop a model to classify air traffic scenarios proper and associated environment conditions into three risk classes. An air traffic scenario proper contains flight data, information about the arriving and departing aircraft and basic data about the airport and runway. It is identified by the airport, a specific time span and the type, describing if it contains only departing or arriving flight data. Environment condition data are meteorological data and notice-to-airmen messages (NOTAMs). The scenario proper enriched by environment condition data is the air traffic scenario that is classified in this thesis. The risk class is calculated based on the average delay cost of all flights in a scenario. The research question is, if a classifier can predict the risk classes of air traffic scenarios. For this data mining task the cross-industry standard process for data mining (CRISP-DM) is used, which consists of six phases. First queries on flight data try to find airports with high capacity and delay. Air traffic scenarios need to be created for individual airports as the relevance of attributes varies locally. The airports of Atlanta and Vienna are selected to create air traffic scenarios. Delay costs are calculated with the linear regression analysis of full tactical delay costs including reactionary costs developed by EUROCONTROL, which is based on the maximum take-off weight of an aircraft. The final datasets for the two airports are then trained with a random forest classifier and a multilayer neural network. The tool used for classification is Rapid Miner. The two classifiers are compared by using the metrics precision and recall. Results show that the random forest classifier outperforms the multilayer neural network. Precision and recall values are analysed with a confusion matrix and reach over 80% for class 3, which includes scenarios with the highest delay and thus with the biggest saving potential. This can help air traffic control to evaluate upcoming scenarios more easily and lets them take actions to try to prevent the delay. Some of these actions can be slot swapping, opening a runway or changing the runway configuration.