wozu gibt die ASCII? ISO? UTF-8?

6 Antworten

Auch wenn dir das missfallen sollte, hier der Link: https://www.marcelwicki-softwaredesign.ch/2018/08/08/zeichencodierungen/

Dort wird alles erklärt.

Falls du den Hintergrund dazu wissen möchtest, im Laufe der Zeit kamen immer mehr Buchstaben und Ziffern und was auch immer dazu. ASCII ist schließlich nur 7 bit lang und kannte nur die aller notwendigsten Elemente, der Zeichensatz stammt schließlich aus 1963.

Da gabe es keine Umlaute und Sonderzeichen aus dem deutschen und vielen anderen Sprachräumen, also musste man sich auf neue Zeichensätze einigen.

erwartest du etwa, dass dir hier jemand mit ein paar sätzen die grundlagen der computertechnik, angefangen vom dualen system über die grundlagen digitaler kommunikation mittels genormter zeichen (ASCII) bis hin zu komplexen prozessen erklärt?

tante google ist in dieser beziehung geduldig und fast unerschöpflich.

Mit ASCII fing alles an. Bis zu 256 verschiedene Codes gab es. Speicher war sehr knapp.

Aber die Anzahl bekannter Zeichen war größer. Es wurden lauter Verrenkungen gemacht, die ganzen Zeichen irgendwei festzulegen.

Nun ist es kein Problem mehr, wenn ein Zeichen 2 oder 4 Byte belegt. Daraus ist Unicode entstanden. Hier haben ganz viele Zeichen eine Nummer bekommen

Bei der Datenübertragung einerseits und dem Festhalten an Bytes statt Doppelbytes andererseits wurde eine Kodierung für die längeren Unicodes geschaffen, die normale Zeichen wie hier im Text, ohne Umlaute, weiterhin in einem Byte zulassen. Diese Kodierung nennt sich UTF-8. Das kann man leicht in beide Richtungen konvertieren.


gogogo  16.12.2019, 13:21
@grtgrt

Galt der Kommentar mir?

Mir ist UTF-8 völlig bekannt, auch das extended UTF-8 beim Serialisieren in Java.

0
grtgrt  16.12.2019, 15:21
@gogogo

Der Kommentar war für den Fragesteller gedacht.

0
grtgrt  16.12.2019, 15:25
@gogogo

Da Sie UTF-8 wohl besser kennen als ich: Wie unterscheidet sich UTF-8 von extended UTF-8 (Tritt letzteres wirklich nur beim Serialisieren in Java auf)?

0
gogogo  16.12.2019, 15:37
@grtgrt

Die Bytes 0...127 weden mit einem Byte in UTF-8 dargestellt. Java stört das, wenn es serialisiert und kodiert es, als ob der Wert größer wäre, als zwei Bytes. Noch größere Werte brauchen dann drei, vier, ... Bytes in UTF-8. Wie viele, hängt von dem zu kodierenden Wert ab.

Im Endeffekt werden die Bits eines Wertes genommen und mit konstanten Bits zu neuen Bytes zusammengesetzt. So auch mit dem Byte 0, welches normalerweise durch sich selbst in UTF-8 repräsentiert wird.

Virenschreiber haben diese Möglichkeit früher ausgenutzt, um den Virenchecker zu überlisten.

Am besten siehst du dir mal UTF-8 und seine Bits etwas an. Überfliegen von Tabellen reicht.

Ist das klar geworden? Wenn nicht, muss ich mir das am Computer mal ansehen und konkret aufschreiben.

0

Unterschiede sind die Art und die Anzahl der darstellbaren Zeichen (also bei ASCII und UTF-8). ISO ist die "International Standards Organisation" und hat in dieser Auflistung etwa so viel zu suchen, wie VW in "Was ist der Unterschied zwischen Polo, VW und Golf".

ASCII kannst du mit Alt+Ziffernblock machen.

ISO ist ein Dateiformat, der zum Beispiel für's installieren von Windows 10 verwendet wird. USB-Stick dies das.

UTF-8 wusste ich mal🤦🏼‍♂️😁😆