Ist das Data Analysis in Python?

Chapter 7 Data Inspection Features

7.1 Project 2.2: Validating cardinal domains — measures, counts, and durations

7.1.1 Description

7.1.2 Approach

7.1.3 Deliverables

7.2 Project 2.3: Validating text and codes — nominal data and ordinal numbers

7.2.1 Description

7.2.2 Approach

7.2.3 Deliverables

7.3 Project 2.4: Finding reference domains

7.3.1 Description

7.3.2 Approach

7.3.3 Deliverables

7.4 Summary

7.5 Extras

7.5.1 Markdown cells with dates and data source information

7.5.2 Presentation materials

7.5.3 JupyterBook or Quarto for even more sophisticated output

Chapter 8 Project 2.5: Schema and Metadata

8.1 Description

8.2 Approach

8.2.1 Define Pydantic classes and emit the JSON Schema

8.2.2 Define expected data domains in JSON Schema notation

8.2.3 Use JSON Schema to validate intermediate files

8.3 Deliverables

8.3.1 Schema acceptance tests

8.3.2 Extended acceptance testing

8.4 Summary

8.5 Extras

8.5.1 Revise all previous chapter models to use Pydantic

8.5.2 Use the ORM layer

Chapter 9 Project 3.1: Data Cleaning Base Application

9.1 Description

9.1.1 User experience

9.1.2 Source data

9.1.3 Result data

9.1.4 Conversions and processing

9.1.5 Error reports

9.2 Approach

9.2.1 Model module refactoring

9.2.2 Pydantic V2 validation

9.2.3 Validation function design

9.2.4 Incremental design

9.2.5 CLI application

9.3 Deliverables

9.3.1 Acceptance tests

9.3.2 Unit tests for the model features

9.3.3 Application to clean data and create an NDJSON interim file

9.4 Summary

9.5 Extras

9.5.1 Create an output file with rejected samples

Chapter 10 Data Cleaning Features

10.1 Project 3.2: Validate and convert source fields

10.1.1 Description

10.1.2 Approach

10.1.3 Deliverables

10.2 Project 3.3: Validate text fields (and numeric coded fields)

10.2.1 Description

10.2.2 Approach

10.2.3 Deliverables

10.3 Project 3.4: Validate references among separate data sources

10.3.1 Description

10.3.2 Approach

10.3.3 Deliverables

10.4 Project 3.5: Standardize data to common codes and ranges

10.4.1 Description

10.4.2 Approach

10.4.3 Deliverables

10.5 Project 3.6: Integration to create an acquisition pipeline

10.5.1 Description

10.5.2 Approach

10.5.3 Deliverables

10.6 Summary

10.7 Extras

10.7.1 Hypothesis testing

10.7.2 Rejecting bad data via filtering (instead of logging)

10.7.3 Disjoint subentities

10.7.4 Create a fan-out cleaning pipeline

Chapter 11 Project 3.7: Interim Data Persistence

11.1 Description

11.2 Overall approach

11.2.1 Designing idempotent operations

11.3 Deliverables

11.3.1 Unit test

11.3.2 Acceptance test

11.3.3 Cleaned up re-runnable application design

11.4 Summary

11.5 Extras

11.5.1 Using a SQL database

11.5.2 Persistence with NoSQL databases

3 Antworten

cleanercode

28.07.2024, 11:13

Der FS sieht für mich langsam nach einem gelangweilten Bot aus, der nichts besseres zu tun hat, als gegen 1 oder 2 Uhr nachts nichtssagende Fragen zu stellen. Von den unnötigen 100-Zeiler an Informationen ganz zu schweigen.

bdhejaksb

28.07.2024, 00:51

Ja, das sieht definitiv nach einem detaillierten Leitfaden zur Datenanalyse in Python aus! Das Buch oder der Kurs deckt viele wichtige Themen ab, von der Validierung und Bereinigung von Daten bis hin zur Nutzung von Pydantic und JSON Schema. Es geht auch darum, wie man Projekte strukturiert, um Daten zu validieren, zu bereinigen und zu standardisieren. Die Kapitel enthalten praktische Projekte und beschreiben, wie man eine Datenbereinigungsanwendung entwickelt und testet. Insgesamt bietet der Inhalt eine umfassende Einführung in die Verwaltung und Analyse von Daten mit Python.

Woher ich das weiß:Studium / Ausbildung

Alexandraseha22

Beitragsersteller

28.07.2024, 00:55

Anwendung in Finanzen?

bdhejaksb

28.07.2024, 00:56

@Alexandraseha22

Wie meinst du das? :)

Alexandraseha22

Beitragsersteller

28.07.2024, 00:57

@bdhejaksb

Jemand sagt mir das ist basics. also erstsemester data science niveau. Stimmt das?

bdhejaksb

28.07.2024, 00:59

@Alexandraseha22

Ja, das sind tatsächlich grundlegende Themen in der Datenanalyse. Dinge wie Datenvalidierung, -bereinigung und die Nutzung von Tools wie Pydantic und JSON Schema werden oft schon im ersten Semester eines Data Science-Studiums behandelt. Diese Basics sind wichtig, um später komplexere Analysen durchführen zu können.

Alexandraseha22

Beitragsersteller

28.07.2024, 01:01

@bdhejaksb

Jemand schreibt aber dass das advanced ist

Overall, it is a great book! Not for beginners, this book is for experienced programmers who want to improve their skills by completing professional-level Python projects. It’s also for developers who need to display their skills by demonstrating a portfolio of work. The included projects require a wide variety of skills, including software and data architecture, design, Python programming and test design. You can download the code bundle for the book on GitHub.

This book is all about data handling. The great and unique feature of the book is that it provides big project after another big project. Starting with Acquiring Data From Sources, the first six projects will cover projects to acquire data for analytic processing from a variety of sources. Next topic Inspect and Survey includes five projects to inspect data to make sure it’s usable, and diagnose odd problems, outliers, and exceptions. The general analytics pipeline moves on to Cleaning, Converting, and Normalizing. There are eight projects that tackle these closely-related problems. The useful results begin with Presenting Summaries. There’s a lot of variability here, so only two project ideas included. This book winds up with two small projects covering some basics of Statistical Modeling. Author encourages you to continue your study of Python applications in the data science realm.

Completion of the projects will place you on another level in Python. Enjoy the challenge in every project!

Amazon.com: Python Real-World Projects: Craft your Python portfolio with deployable applications: 9781803246765: Lott, Steven F: Bücher

bdhejaksb

28.07.2024, 01:05

@Alexandraseha22

Ist es aber nicht. :-) Gute Nacht schlaf schön

Computihack

Nutzer, der sehr aktiv auf gutefrage ist

im Thema Informatik

28.07.2024, 03:13

Ab gesehen davon, das es schon sehr besonders ist, von uns zu erwarten 100 Zeilen von Kapitel überschritten zu lesen und damit eine nicht weiter definierte Frage zu beantworten, ist es auch nicht einfach ein Buch einzusetzen nach Kapitel Namen. Hättest du nicht einfach ein link zum Buch teilen können?
und abgesehen, dass meiner Meinung nach Data Analyse nicht nur ein recht anspruchsvolles/advancetes Kapitel in Bezug auf Python ist, ist es auch nicht gerade ein Thema welches so ohne diversen Vorkenntnissen angefangen werden kann.
Können schon, aber es wird sehr schnell sehr kompliziert, und reine datenanalyse erfordert ja dementsprechend mathematische „Grundlagen“.

Woher ich das weiß:Studium / Ausbildung – Information Engineering Studium

Alexandraseha22

Beitragsersteller

28.07.2024, 12:39

Einige User hier meinten, dass das ganz basics ist und man nimmt das im ersten Semester im Studium Data Science!

Ähnliche Beiträge

VS Code spinnt?

Hallo, ich habe mir vor kurzem VS Code installiert. Doch nichts funktioniert. Ich wollte Scripte in C# erstellen, ich habe mir das C# Dev Kit, C# selber und das .NET Install Tool geholt. Doch beim Debuggen kommt das.

No C# project is currently loaded. Please create a C# project in order to debug

Dann irgendwann kam eine Meldung dass ich .NET SDK aus dem Internet herunterladen soll. Hab ich gemacht, doch nichts ist passiert. Danach habe ich ChatGBT gefragt und der meinte das mir das mir irgendeine JSON Datei fehlt.

Aus Verzweiflung habe ich VS Code deinstalliert und wieder installiert. Doch jetzt fehlt mir das Dotnet. Was soll ich machen? Kann ich alles irgendwie reseten das die JSON Dateien wiederhergestellt werden? Was kann ich machen das es wieder funktioniert?

LLG

...zum Beitrag

Python wie löse 'NoneType' object is not subscriptable?

Hallo!

Ich schreibe ein kleines Pythonprogramm, das als Web Crawler fungieren soll.Leider erhalte ich in Zeile 36 ein Fehler:

  brand = make_rating_sp[0].img["title"].title()
TypeError: 'NoneType' object is not subscriptable

Leider, finde ich keine Lösung. Wie könnte ich diesen Fehler lösen? Danke im Voraus!

make_rating_sp[0].img is None.

from bs4 import BeautifulSoup as soup  # HTML data structure
from urllib.request import urlopen as uReq  # Web client

# URl to web scrap from.
# in this example we web scrap graphics cards from Newegg.com
page_url = "http://www.newegg.com/Product/ProductList.aspx?Submit=ENE&N=-1&IsNodeId=1&Description=GTX&bop=And&Page=1&PageSize=36&order=BESTMATCH"

# opens the connection and downloads html page from url
uClient = uReq(page_url)

# parses html into a soup data structure to traverse html
# as if it were a json data type.
page_soup = soup(uClient.read(), "html.parser")
uClient.close()

# finds each product from the store page
containers = page_soup.findAll("div", {"class": "item-container"})

# name the output file to write to local disk
out_filename = "graphics_cards.csv"
# header of csv file to be written
headers = "brand,product_name,shipping \n"

# opens file, and writes headers
f = open(out_filename, "w")
f.write(headers)

# loops over each product and grabs attributes about
# each product
for container in containers:
    # Finds all link tags "a" from within the first div.
    make_rating_sp = container.div.select("a")

    # Grabs the title from the image title attribute
    # Then does proper casing using .title()
    brand = make_rating_sp[0].img["title"].title()

    # Grabs the text within the second "(a)" tag from within
    # the list of queries.
    product_name = container.div.select("a")[2].text

    # Grabs the product shipping information by searching
    # all lists with the class "price-ship".
    # Then cleans the text of white space with strip()
    # Cleans the strip of "Shipping $" if it exists to just get number
    shipping = container.findAll("li", {"class": "price-ship"})[0].text.strip().replace("$", "").replace(" Shipping", "")

    # prints the dataset to console
    print("brand: " + brand + "\n")
    print("product_name: " + product_name + "\n")
    print("shipping: " + shipping + "\n")

    # writes the dataset to file
    f.write(brand + ", " + product_name.replace(",", "|") + ", " + shipping + "\n")

f.close()  # Close the file

...zum Beitrag

Unable to create network: failed to allocate gateway (192.168.188.1): Address already in use?

diese fehler meldung kommt immer wenn ich ein netzwerk in docker erstellen will kann mir jemand weiter helfen (habe das System auch schon neugestartet)

...zum Beitrag

Mutable Python vs Immutable?

a = 1
b = 1

Referenzieren hier beide auf unterschiedliche Instanzen, weil int mutable ist?

Und ist es bei Listen auch so?

Z.B.

L1 = [ 1, 2, 3 ]
L2 = [ 1, 2, 3 ]

Also referenziert es bei mutable Typen nicht auf die gleiche Instanz, oder?

...zum Beitrag

SyntaxError: Unexpected token s in JSON at position 0?

Hallo liebe Gutefragler,

Ich möchte eine Auktions-Web-App erstellen und normalerweise fügen Sie die Auktionen über ein Formular hinzu. Wenn ich das Formular korrekt ausfülle und dann auf die Schaltfläche Auktion erstellen klicke, erhalte ich eine Fehlermeldung. Normalerweise sollte man keine bekommen und man sollte die Auktionen in einer Tabelle in einer index.html bekommen.

Hier ist mein Code:

$(document).ready(function() {
  $("#create").click(function() {
    var data = {
      seller: $("#email").val(),
      name: $("#item").val(),
      html: $("#desc").val(),
      minimum_price: $("#str").val(),
      buyout_price: $("#buyout").val(),
      created_on: Date.now(),
      duration: $("#dur").val()
    }
    $.ajax({
      type: 'POST',
      url: "http://localhost:9000/auction",
      data: data,
      dataType: "json",
      contentType: "application/json",
      error: function() {
        alert('An error occurred while creating the new auction');
      },
      success: function(data) {
        $('form :input').val('');
        alert("Good");
      }
    });
  });
});

Mein Localhost sagt:

SyntaxError: Unexpected token s in JSON at position 0

Wo ist mein Fehler? Danke im Voraus!

...zum Beitrag

Werden Software Entwickler durch KI ersetzt?

GPT4 kann ganz locker Snake, 4 gewinnt und GUIs programmieren. Der Chef von OpenAi redet schon von AGIs, die bald kommen sollen. Da frage ich mich einfach, ob es wirklich Sinn macht mein duales Studium in angewandter Informatik wirklich fortzusetzen.

Noch hilft mir GPT4 nicht wirklich in der Firma (Bank), da wir fast nur eigene Frameworks haben. Aber was wenn GPT5 oder bessere Modelle auch unsere Frameworks verstehen und dann eigenständig programmieren können?

Ich denke wirklich einfach abzubrechen und eine Handwerksausbildung bei einer sehr großen Firma zu machen. Ich sehe einfach nicht, dass GPT nicht in der Lage sein wird Banking Programme selbst zu schreiben. Ich bin nicht der beste Programmierer und bin sehr stark auf Banking Software spezialisiert.

Auch der OpenAI Chef meinte, dass es wohl aussieht, dass es erst Künstler und Programmierer trifft und zuletzt Handwerker.

Was ist eure Meinung? Hat Software Entwicklung Zukunft? Ich arbeite übrigens im öffentlichen Dienst, was mir ein bisschen mehr Sicherheit gibt, aber wenn KIs selbst programmieren, wird es meiner Meinung nach nicht mehr so viel Bedarf für Programmierer geben.

Ich will ganz entspannt meinen Job machen, ohne darüber nachzudenken, dass ich bald arbeitslos bin. Und ich würde gern für ein Eigenheim sparen usw. Da steht mir GTP einfach zu sehr im Weg. Was ist eure ehrliche Meinung? Könnte ich als Software Entwickler mindestens die nächsten 20-30 Jahre arbeiten?

...zum Beitrag

Der Start in die Programmierung, gute Tipps?

Moin Leute,

bin am Anfang meiner Reise in die Welt der Programmierung: Station: HTML und CSS - danach kommt Javascript.

Welche Sprachen nutzt ihr und für welche Art von Programmierung? Was haltet ihr von Go und Rust und wofür verwendet ihr diese Sprachen?

In welche Richtung es mich am Ende verschlägt, weiss ich noch nicht. Deshalb wäre es cool, wenn ihr mir die Fragen oben beantworten könntet.

Besten Dank und einen wundervollen Abend euch allen.

...zum Beitrag

Werden Programmierer noch gesucht?

In Zeiten von AI?
Lohnt sich ein Studium der Informatik noch?

...zum Beitrag

Kann man mit Büchern Programmieren lernen?

Ich hab vor, bald Programmieren lernen und ich möchte wissen, ob es hilfreich ist, wenn man Bücher über Programmieren liest bzw. Hilft es wenn man übers Programmieren ( verschiedene Programmiersrpachen wie Java, Python) Buch liest? Weil ich das Gefühl habe, dass es alles im IT-Bereich sehr schnell aktualisiert wird und sich alles sehr schnell verändert und die Bücher werden dann schnell veraltet. Macht es trotzdem Sinn, Bücher zu kaufen und lesen, um Programmieren zu lernen?

Ich freue mich dann auch darauf, wenn ihr mir auch ein paar gute Buch-Quellen zum Thema Programmieren-Lernen ( für jede Sprache, Python, Java, #C usw.) vorstellt.

Danke im Voraus!!

...zum Beitrag

Wie bei Python mit "If" überprüfen ob Variable mit bestimmten Wert in Liste enthalten ist?

Ich muss für die Schule ein Spiel in Python programmieren. Problem dabei: Uns wurde noch nicht wirklich viel beigebracht und daher verstehe ich nicht, wie ich gewisse Sachen programmieren soll.

Folgendes Szenario bereitet mir nun Schwierigkeiten:

Das Programmierte ist kein Ausschnitt aus meinem Spiel, sondern einfach das gleiche Schema, wie die eine Stelle in meinem Spiel (sonst wäre es zu kompliziert zum verstehen). x hat z.B nicht immer den Wert 5, dieser ändert sich im Verlaufe des Programms.

Ich möchte überprüfen, ob eine der Variable in der Liste einen Wert zwischen 0 und 10 hat. Ist es möglich, dies mit einem "if" Befehl zu lösen? Was müsste bei "Bedingung_erfüllendes_Element" stattdessen stehen? Ich kann da ja nicht ">=0 and <=10" hinschreiben. Das einzige, was ich überprüfen kann, ist ob eine bestimmte Variable in der Liste ist. (z.B if x in liste), aber das möchte ich ja nicht, ich möchte auf den WERT der vorhandenen Variablen überprüfen.

Ich habe es auch schon mit einer For-Schleife probiert, aber da ist da Problem, dass wenn zwei Elemente, welche die Bedingung erfüllen, vorkommen, dass die folgenden Befehle doppelt ausgeführt werden. Es soll aber, für jedes Element, welches die Bedingung erfüllt, ein anderer Text geprintet werden.

Ich brauche wirklich nur diesen einen, eigentlich simplen Befehl, der überprüft, ob es in der Liste mindestens ein Element hat, welches einen bestimmten Wert hat.

...zum Beitrag

stern im tkinter code?

Hallo,

ich soll eine Flagge mit Python und tkinter machen, ich wollte gern die Chile Flagge machen. Die Grundlage habe ich, jetzt fehlt nur noch der Stern. Im Internet hab ich also versucht einen Code zu finden, dieser funktioniert jedoch nicht und folgende Fehlermeldung taucht auf:

%Run Flagge_Chile.py

Traceback (most recent call last):

File "F:\WI\01_Python OOP WI\01_Objekte und Klassen\L1_1_Aufgabe_Flagge_HA_Chile.py", line 141, in <module>

s.zeichnen()

File "F:\WI\01_Python OOP WI\01_Objekte und Klassen\L1_1_Aufgabe_Flagge_HA_Chile.py", line 83, in zeichnen

canvas.create_line(self.pos_x0, self.pos_y0, self.pos_x1, self.pos_y1, self.pos_x2, self.pos_y2, self.pos_x3, self.pos_y3, self.pos_x4, self.pos_y4, fill=self.farbe, outline=self.farbe)

File "F:\S20\Programme\Thonny_3.2.3\lib\tkinter\__init__.py", line 2492, in create_line

return self._create('line', args, kw)

File "F:\S20\Programme\Thonny_3.2.3\lib\tkinter\__init__.py", line 2480, in _create

*(args + self._options(cnf, kw))))

_tkinter.TclError: unknown option "-outline"

Das ist der Programmcode:

import tkinter as tk

class Rechteck:

# Initialisiert ein Rechteck Objekt mit Standardwerten

def __init__(self):

self.breite = 0

self.hoehe = 0

self.pos_x = 0

self.pos_y = 0

self.farbe = "black"

def __str__(self):

return "Dies ist die Klasse 'Rechteck'"

# Malt auf ein übergebenes "tk.Canvas" Objekt das Rechteck

def zeichnen(self):

x_ende = self.pos_x + self.breite

y_ende = self.pos_y + self.hoehe

canvas.create_rectangle(self.pos_x, self.pos_y, x_ende, y_ende, fill=self.farbe, outline=self.farbe)

class Kreis:

def __init__(self):

self.pos_x = 0

self.pos_y = 0

self.radius = 0

self.farbe = "black"

def __str__(self):

return "Dies ist die Klasse 'Kreis'"

# Malt auf ein übergebenes "tk.Canvas" Objekt den Kreis

def zeichnen(self):

# berechne Postion bis wohin gezeichnet werden muss, abhängig vom Radius

x_beginn = self.pos_x - self.radius

y_beginn = self.pos_y - self.radius

x_ende = self.pos_x + self.radius

y_ende = self.pos_y + self.radius

canvas.create_oval(x_beginn, y_beginn, x_ende, y_ende, fill=self.farbe, outline=self.farbe)

class Stern:

def __init__(self):

self.pos_x0 = 0

self.pos_y0 = 0

self.pos_x1 = 0

self.pos_y1 = 0

self.pos_x2 = 0

self.pos_y2 = 0

self.pos_x3 = 0

self.pos_y3 = 0

self.pos_x4 = 0

self.pos_y4 = 0

self.farbe = "black"

self.outline = "black"

def __str__(self):

return "Dies ist die Klasse 'Stern'"

def zeichnen(self):

canvas.create_line(self.pos_x0, self.pos_y0, self.pos_x1, self.pos_y1, self.pos_x2, self.pos_y2, self.pos_x3, self.pos_y3, self.pos_x4, self.pos_y4, fill=self.farbe, outline=self.farbe)

if __name__ == '__main__':

# GUI Klasse initialisieren

application = tk.Tk()

# Hinzufügen einer Zeichenfläche

canvas = tk.Canvas(application, width=600, height=400)

canvas.pack()

r = Rechteck()

r.pos_x = 30

r.pos_y = 30

r.breite = 200

r.hoehe = 200

r.farbe = "blue"

r.zeichnen()

r.pos_x = 230

r.pos_y = 30

r.breite = 390

r.hoehe = 200

r.farbe = "white"

r.zeichnen()

r.pos_x = 30

r.pos_y = 230

r.breite = 600

r.hoehe = 220

r.farbe = "red"

r.zeichnen()

s = Stern()

s.pos_x0 = 40

s.pos_y0 = 70

s.pos_x1 = 60

s.pos_y1 = 40

s.pos_x2 = 80

s.pos_y2 = 70

s.pos_x3 = 40

s.pos_y3 = 50

s.pos_x4 = 80

s.pos_y4 = 70

s.outline = "red"

s.zeichnen()

# Fokus auf die GUI legen und starten

tk.mainloop()

Weiß jemand wo der Fehler ist und könnte mir helfen?
Im Voraus schonmal Dankeschön.

...zum Beitrag

python findet txt Datei nicht?

Halloo,

ich bin ganz ganz neu, was Python angeht und lerne es aktuell selber.

Ich habe einen einfachen Befehl geschrieben und wollte das jetzt in Python lesen lassen, aber python findet meine Datei nicht. Kann mir vielleicht jemand helfen und sagen, was ich falsch gemacht habe?

Danke^^

...zum Beitrag