Regulärer Ausdruck, der Umlaute und nicht Umlaute erfasst?

Blöde Fragestellung aber ich weiß nicht wie ich es genau benennen soll.

Für eine Suchfunktion auf einer Webseite möchte ich die gefundenen Begriffe in der Vorschau der Suchergebnisse farblich markieren. Da die Webseite mehrsprachig ist, kommen auch viele Sonderzeichen wie Umlaute oder Akzentzeichen vor.

Nun möchte ich, dass der Nutzer sowohl Wörter mit Sonderzeichen, als auch ohne eingeben kann und immer das selbe findet. Er kann kann also bspw. nach „passe compose“ oder „passé composé“ suchen und findet immer die gleichen Seiten, auf denen „passé composé“ vorkommt.

In MySQL ist das bei der Suche kein Problem, da kann man mit COLLATE utf8_general_ci genau das erreichen. Schwierig wird es für mich, dass im Ergebnis zu markieren. Hier mal ein Beispielcode in PHP:

if (preg_match_all('/foo/ui', 'foo föö bar bär', $matches)) {
	print_r($matches);
}

Das findet nur „foo“ und nicht „föö“. Umgedreht wird nur „föö“ gefunden. Die einzige Lösung die mir einfällt wäre so ein Ausdruck, der aber nicht sonderlich elegant ist und auch noch länger werden müsste:

'/f(?:o|ö)(?:o|ö)/ui'

Also zur Frage: Kennt jemand einen Modifikator oder irgendeine elegante Lösung, wie ich das besser und einfacher erreichen kann?

2 Antworten

Vom Beitragsersteller als hilfreich ausgezeichnet

regex9

Von gutefrage auf Grund seines Wissens auf einem Fachgebiet ausgezeichneter Nutzer

Computer, programmieren, PHP

21.03.2021, 11:02

Ein Vorschlag:

if (preg_match_all('/f([oö])t\1/ui', 'foto fötö bar bär', $matches)) {
	print_r($matches);
}

Ich habe Nadel und Heuhaufen einmal etwas verändert, da es für dich hilfreich sein könnte. Du kannst beim ersten Vorkommen deiner erwarteten Vokale eine Bereich festlegen:

[oöó]

diesen gruppieren:

([oöó])

und somit bei einem erneuten Vorkommen via back reference darauf verweisen:

\1

Dies verkürzt zumindest deinen regulären Ausdruck.

Babelfish

Beitragsersteller

21.03.2021, 13:10

Zeichenklassen hatte ich erst nicht verwendet, weil ich auch so was im Hinterkopf hatte:

(?:o|ö|oe|ó|ò|ô)

Allerdings macht das genau betrachtet keinen Sinn, da ich nach oe nur suchen müsste, wenn das auch im Suchtext vorkommt und dort sind die Zeichen ja immer richtig. Und wenn jemand mit oe sucht, wird es so oder so schwierig. Da hast du Recht, dass es mit Zeichenklassen etwas kürzer und übersichtlicher ist.

Eine Back-Referenz werde ich nicht brauchen, da ich beim Ersetzen ja nur was darum setzen muss. Ich werde es jetzt mal in dieser Art implementieren:

$str = 'foo föö bföo föos föo bar bär';
$result = preg_replace('/\b(f[oöóòô][oöóòô])\b/ui', '<b>$1</b>', $str);

Mal sehen, was da rauskommt.

Irgendwie hatte ich nur gehofft, dass es einen genauso einfachen Weg wie bei MySQL gibt.

regex9

21.03.2021, 13:21

@Babelfish

Den Ausdruck würde ich noch mit einem Quantifier abkürzen (falls du es noch nicht selbst bemerkt hast):

/\b(f[oöóòô]{2})\b/ui

Babelfish

Beitragsersteller

21.03.2021, 13:33

@regex9

Bei so einem manuellem Suchstring natürlich aber ich muss mir den ja vorher erst mal basteln. Der Nutzer kann bei der Suche bspw. entweder richtig „effectuée“ oder auch „effectuee“ eingeben. Mein Suchstring nach der Ersetzung mit einer Normalisierungs-Tabelle würde dann in etwa so aussehen:

'/\b([eéèêë]ff[eéèêë][cĉ]t[uüúùû][eéèêë][eéèêë])\b/ui'

Da macht der Quantifier den Kohl auch nicht fett und ist auch nicht so einfach zu implementieren.

EinAlexander

Von gutefrage auf Grund seines Wissens auf einem Fachgebiet ausgezeichneter Nutzer

Computer

22.03.2021, 09:31

in MySQL ist das bei der Suche kein Problem, da kann man mit COLLATE utf8_general_ci genau das erreichen.

In PHP gibt's dafür

iconv("utf-8","ascii//TRANSLIT",$suchbegriff);

https://www.php.net/manual/en/function.iconv.php

Alex

Babelfish

Beitragsersteller

22.03.2021, 13:22

Ok, aber wie hilft mir das bei meinem Problem weiter? Ich bekomme hier bspw. folgende Ausgabe:

$str = 'Passé composé französisch';

echo iconv("utf-8", "ascii//TRANSLIT", $str);

// Pass'e compos'e franz"osisch

Ich sehe jetzt auf Anhieb nicht, wie ich damit in dem Text „Passé composé französisch“ das Wort „composé“ markieren kann, wenn nach „compose“ gesucht wurde.

EinAlexander

23.03.2021, 09:51

@Babelfish

Ich sehe jetzt auf Anhieb nicht, wie ich damit in dem Text „Passé composé französisch“ das Wort „composé“ markieren kann, wenn nach „compose“ gesucht wurde.

Mit iconv bringst Du needle (also den Suchbegriff) und haystack (der Text, der durchsucht wird) ins gleiche Format. Das kannst Du dann vergleichen. Aus

Passé composé französisch

wird damit

Pass'e compos'e franz"osisch

Und durch das Ignorieren sämtlicher ' sowie '' bleibt als haystack übrig:

Passe compose franzosisch

Und damit kannst Du die Stelle finden, an der das Wort compose vorkommt.

Babelfish

Beitragsersteller

23.03.2021, 10:00

@EinAlexander

Das funktioniert in meinen Fall aber leider nicht, da ich den gefundenen Text ja auch wieder anzeigen will und dort dann auch der Originaltext stehen soll. Auf der Webseite steht also bspw.:

Das Passé composé entspricht dem deutschen Perfekt.

Der Nutzer sucht nach „passe compose“. Danach soll der Text so markiert sein:

Das Passé composé entspricht dem deutschen Perfekt.

Das geht halt nicht, wenn ich auch den Originaltext vor dem Suchen schon ändere.

EinAlexander

23.03.2021, 10:09

@Babelfish

Das funktioniert in meinen Fall aber leider nicht, da ich den gefundenen Text ja auch wieder anzeigen will und dort dann auch der Originaltext stehen soll.

Du sollst nicht die Anzeige des Textes konvertieren sondern nur den haystack, der durchsucht wird. Der gesamte Text steht in der Variablen $original. Daraus machst Du

$haystack = iconv("utf-8", "ascii//TRANSLIT", $original);

und entfernst die einfachen und doppelten Anführungszeichen. Der Suchbegriff steht in der Variablen $suchbegriff. Daraus machst Du

$needle = iconv("utf-8", "ascii//TRANSLIT", $suchbegriff);

und entfernst auch hier die einfachen und doppelten Anführungszeichen.

Jetzt kannst Du $haystack nach den Vorkommen von $needle durchsuchen. Den zurückgegebenen (zweites und drittes Wort) kannst Du dann dazu verwenden, die entsprechende Stelle (=zweites und drittes Wort) in $original mit zu markieren.

Prinzip klar?

Babelfish

Beitragsersteller

23.03.2021, 11:39

@EinAlexander

Den zurückgegebenen (zweites und drittes Wort) kannst Du dann dazu verwenden, die entsprechende Stelle (=zweites und drittes Wort) in $original mit zu markieren.

Da bin ich doch genau wieder am Anfang meines Problems angelangt.

Nach der Variante habe ich dann:

$haystack → 'Das Passe compose entspricht dem deutschen Perfekt.'

$needle → 'passe compose'

In $haystack finde ich dann natürlich $needle, soweit klar. Nur wie soll ich dieses Ergebnis dann nutzen, um in $original das zu bekommen:

Das <b>Passé composé</b> entspricht dem deutschen Perfekt.

Die Umwandlung mit iconv hilft mir ja nur um überhaupt zu testen, ob der Begriff darin vorkommt. Damit habe ich aber noch nicht den Originaltext geändert.

Prinzip klar?

Leider noch nicht.

EinAlexander

23.03.2021, 12:29

@Babelfish

In $haystack finde ich dann natürlich $needle, soweit klar.

Und damit hast Du die Positionen innerhalb des Strings $original, an denen der Suchbegriff beginnt und endet, und Du kannst die entsprechenden Leerzeichen des Strings $origninal durch das öffnende -Tag bzw das schließende -Tag ersetzen.

In Deinem Beispiel wäre das

ersetze das vierte character durch '[SPACE]'
ersetze das achtzehnte character durch '[SPACE]'

Babelfish

Beitragsersteller

23.03.2021, 13:11

@EinAlexander

Leider funktioniert das eben nicht, da zum Beispiel ß zu ss ersetzt wird und dann zwei statt einem Buchstaben drin sind und $haystack und $original eine andere Länge haben. Auch andere Sonderzeichen wie œ oder æ werden mit zwei Zeichen ersetzt.

Aus „Lerne fleißig Passé composé…“ wird dann eben „Lerne fleissig Passe compose…“ und dann klappt die Ersetzung nicht an diesen Positionen.

EinAlexander

23.03.2021, 14:41

@Babelfish

und dann klappt die Ersetzung nicht an diesen Positionen.

dann nimm halt die Position sondern zähle die Leerzeichen.

Aus „Lerne fleißig Passé composé…“ wird dann eben „Lerne fleissig Passe compose…“

Dann ersetzt man das zweite Leerzeichen im String durch [SPACE] und das dritte Leerzeichen im String durch [SPACE]

Babelfish

Beitragsersteller

23.03.2021, 15:35

@EinAlexander

Leerzeichen zählen ist zu unsicher, da es viele Varianten mit Klammern, Satzzeichen oder Zeilenumbrüchen geben kann, die dann alle mit gezählt werden müssen:

Lerne fleißig: Présente (aber auch Passé récent/composé)

unregelmäßigen Verben im:

* Passé composé
* Passé simple

Ich haben keinen Einfluss auf den Originaltext und da kann alles drin stehen.

Ich denke nicht, dass ich so direkt zum Ziel komme. Allerdings hilft mir iconv mal beim Normalisieren des Suchstrings. Danke! Mit dem normalisierten String werden ich dann mittels Regulären Ausdruck wie mit regex9 besprochen die Ersetzung vornehmen.

Ähnliche Beiträge

Haben die Punkte über den Buchstaben Ä, Ö, Ü auch spezielle namen?

Die Sonderzeichen " ´ ; ` ; ° ; ^ ; ~ " haben ja spezielle Namen, ist das auch genauso bei den 2 Punkten über unseren Umlauten?

...zum Beitrag

PHP POST Umlaute Kodierung falsch?

Hi!

Also ich habe ein Kontaktformular auf meiner HTML Seite. Da gibt man halt so Sachen wie Name und eine Nachricht und so weiter ein. Die Daten werden dann per POST an die PHP Datei geschickt, welche diese per Mail verschicken soll. Das Mail versenden klappt auch soweit, aber die Umlaute werden als komische Sonderzeichen angezeigt, der Rest der Mail kommt normal an. Ich dachte vielleicht interpretiert der mail Befehl die Sonderzeichen irgendwie falsch, deshalb habe ich in meiner PHP noch folgende Zeilen eingebaut die die Umlaute aus der Nachricht entfernen sollen bevor sie verschickt wird.

$messagemail = $_POST['message'];

$messagemail = str_replace("ä", "ae" , $messagemail);
$messagemail = str_replace("ü", "ue" , $messagemail);
$messagemail = str_replace("ö", "oe" , $messagemail);
$messagemail = str_replace("Ä", "Ae" , $messagemail);
$messagemail = str_replace("Ü", "Ue" , $messagemail);
$messagemail = str_replace("Ö", "Oe" , $messagemail);
$messagemail = str_replace("ß", "ss" , $messagemail);
$messagemail = str_replace("´", "" , $messagemail);
$messagemail = str_replace("`", "" , $messagemail);
$messagemail = str_replace("é", "" , $messagemail);
$messagemail = str_replace("è", "" , $messagemail);

Allerdings ersetzt der str replace Befehl in dem String garnichts, die Mail kommt wie vorher mit seltsamen Sonderzeichen an. Jetzt habe ich die Befürchtung, dass die Sonderzeichen nicht durch den Mail Befehl so verunstaltet werden, sondern schon durch das Senden mit POST an das PHP Dokument. Wenn die Sonderzeichen nämlich schon falsch im PHP Dokument ankommen, kann str_replace natürlich auch keine ä oder ö usw. finden bzw. ersetzen.

Wie kann ich kontrollieren, dass die Sonderzeichen mit POST richtig übertragen werden??

LG Yoda00

...zum Beitrag

Regex-Pattern mit Punkt oder Komma?

Hallo,

ich bin gerade dabei, ein wenig zu programmieren. In meinem HTML-Code gibt es ein Input-Element, in das Preise eingegeben werden sollen, die ich später mit PHP verwerte. Ich habe bisher diese Regex-Pattern genutzt. ^\d*(\.\d{0,2})?$
Die funktionierte auch wunderbar, aber lässt eben nur Punkte als Dezimaltrennzeichen zu. Nun will ich aber auch Kommas zulassen und habe daher das hier geschrieben ^\d*((\.|,)\d{0,2})?$.
Diese Pattern will aber nicht funktionieren und lässt jetzt gar nichts mehr zu. Woran liegt das?

Vielen Dank im Voraus

...zum Beitrag

IPhone 8 Umlaute gehen nicht immer?

Habe ein Iphone 8 neu gekauft, also 1 woche alt .

Jetzt hab ich das Problem wenn ich ein ü oder ö machen will und ich auf der taste bleibe verschwindet die Tastatur und es kommt die funktion das ich dann mit dem Strich der immer kommt wo man gerade unterwegs ist beim schreiben irgendwo hinfahren kann um zum beispiel bei einem anderen wort weiter zu schreiben .

Das will ich aber nicht, ich will einfach nur ein ü oder ö machen .

Oft kommt das ü auch ganz kurz wenn ich auf dem u bleibe , aber dennoch verschwinden dann die sonderzeichen und die tastatur ist weg und ich kann wieder nur im text auswählen wo ich weiterschreiben will....

könnt ihr mir helfen ?

...zum Beitrag

Wieso werden Sonderzeichen & Umlaute nie richtig dargestellt- HTML // Webspace?

Ich habe im Head-Tag UFT-8 definiert und im Editor die Kodierung auch da drauf, wenn ich die Date abspeicher und privat aufrufe, klappt es auch. Aber sobald ich sie online auf meinen Webspace lade, werden Umlaute wie ü, ä, ö und ß nicht dargestellt. Auch Sonderzeichen wie ein Herz, was eig. erscheinen soll [siehe Bild]

Gibt es ne Möglichkeit das Umlaute dargestellt werden, muss ich da irgendwas am Webspace ändern? .-.Ich benutze das Verwaltungsprogramm 'Plesk'.

Danke! :)

...zum Beitrag

Regex mit beliebig vielen Zeichen?

Ich will eine Regex mit der Pattern: Wort, das mit S beginnt und mit D aufhört. Dazwischen darf alles stehen.
Bisher habe ich ^SD$. Was kommt dazwischen, um beliebige Zeichen zu erlauben?

...zum Beitrag

(PHP) regex: alles auslesen zwischen <li> und </li>

Ich versuche mich grade an regex und sobald es mal etwas komplizierter wird brauche ich immer hilfe, weil ich es einfach nicht kapiere...

Mein Hauptproblem sind mehrzeilige Quelltexte und HTML-Quelltexte sind meistens mehrzeilig :-)

So ein Pseudo-Regex-Code ist schnell geschrieben:

die sternchen stehen für: hier kann alles vorkommen und das (.+?) heisst wie auch in echt: Das will ich haben ;-)

Eigentlich ganz einfach, aber wie muss meine Expression aussehen?

Danke!

...zum Beitrag

String mit vb.net in Unicode wandeln?

Für eine Softwareschnittstelle, die ich gerade selbst in vb.net programmiere muss ich in einen String:

z.B. "Münsterländer Aperitif 16%"

Die Umlaute in Unicode umwandeln. Laut Dokumentation sollte das obige Beispiel dann So aussehen "M\u00fcnsterl\u00e4nder Aperitif 16%"

Zur Zeit versuche ich das so:

  Public Shared Function ToUnicode(Text As String) As String
    Dim UnicodeArray As Byte() = Encoding.Unicode.GetBytes(Text)
    Dim UnicodeString As String = Encoding.UTF8.GetString(UnicodeArray, 0, UnicodeArray.Length)
    Return UnicodeString
  End Function

Leider sieht der Inhalt des Strings dann so aus:

"M" & vbNullChar & "�" & vbNullChar & "n" & vbNullChar & "s" & vbNullChar & "t" & vbNullChar & "e" & vbNullChar & "r" & vbNullChar & "l" & vbNullChar & "�" & vbNullChar & "n" & vbNullChar & "d" & vbNullChar & "e" & vbNullChar & "r" & vbNullChar & " " & vbNu...

Was nicht wirklich hilfreich ist. Ich hab' keine Ahnung warum jedes zweite Zeichen NULL ist und die Coke Bottles "�" sind ja auch wenig hilfreich.

Hat jemand eine Idee für mich

...zum Beitrag

Umlaute, bestimmte Satzzeichen und Sonderzeichen funktionieren nicht mehr. Woran könnte das liegen?

Seit gestern ist es wieder soweit: Die Tastatur funktioniert nicht mehr richtig. Ausser dem "ö" kann ich keine Umlaute produzieren, das scharfe "s" und das Fragezeichen funktionieren nicht, genauso wenig die Taste mit dem grösser/kleiner Zeichen oder der Bindestrich und der Unterstrich. Woran könnte das liegen. Ich hatte das in den letzten zwei Wochen bereits haeufiger. Plötzlich funktionieren die Tasten dann aber wieder und ich weiss nicht warum.

Hat irgend jemand eine Idee, woran das liegen könnte und was ich tun kann, um den Fehler zu beheben (Fragezeichen)

...zum Beitrag

DE Sonderzeichen Fehler in HTML?

Hi,

ich sitze momentan an einer Datei, um ein paar Dinge auszuprobieren. Ich habe die Meta-Tags wie gewohnt aus einer anderen (funktionierenden) Datei kopiert.

Nun werden allerdings ausschließlich in meiner Datei die Umlaute wie Ä,Ö,Ü und ß mit

"�"

angezeigt. Auch das rein-kopieren Tags aus anderen Dateien, oder das entfernen des Stylesheets hat nix geändert. Kurzzeitig hatte ich auch den Meta-Tag:

mit reingenommen, allerdings ohne Erfolg oder Veränderungen. Auch das Debugging von W3C hat nix auffälliges gefunden:

Für alle helfenden Hände großes Danke!

<!doctype html>
<html lang="de">
  <head>
    <meta charset="utf-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <meta name="keywords" content="example, html, head, meta">
    <link rel="shortcut icon" type="image/x-icon" href="favicon.ico">
    <link rel="stylesheet" type="text/css" href="formate.css">
    <title>Das Box-Modell</title>
  </head>


<body>
  <header>
      
    <div class="flex">
     <img src="bilder/logo.svg" alt="logo">
    </div>
    
     <h1>Wilkommen auf der Test-Seite!</h1>
     <nav>
              <a href="#link_1.html">Blog</a>
              <a href="#link_1.html">Unterseite 1</a>
              <a href="#link_1.html">Unterseite 2</a>
              <a href="#link_1.html">Kontakt</a>
     </nav>
          
    </header>
      
      <main>
          
          <h2>ÜÜÜCCS-basierte Layouts <br><br />HTML-Struktur ohne CSS</h2>         
          
      </main>
    
    
    
    <footer>
     <a href="kontakt.html">Kontakt</a>
     <p>&copy; 2024 by GTA1A</p>
    </footer>


</body>
</html>

...zum Beitrag

Kann man in VBA spezielle Unicode-Symbole in den Text einer Message Box einbinden?

Hallo,

gibt es eine Möglichkeit, in VBA (Excel) ein Unicodezeichen in den Text einer Message Box einzubinden? Konkret geht es mir um das Warning sign.

Die Möglichkeit, die MsgBox-Konstante vbExclamation zu verwenden, ist mir übrigens bekannt, das ist aber nicht das, was ich meine bzw. möchte.

Vielen Dank für eure Hilfe!

Gruß, BerchGerch

...zum Beitrag

Wie vergleiche ich PHP Variablen mit unterschiedlicher Codierung?

Hallo liebe Community.

Ich suche die Lösung für ein Problem bei der Programmierung mit PHP und Variablen.

Ich möchte gerne einen Wert, den ich über mysqli abgerufen habe mit einer Variable aus einem Array vergleichen.

Das Problem dabei ist, dass bei Umlauten und Sonderzeichen das Programm nicht mitmacht. Die beiden verglichenen Werte müssten gleich sein, werden aber nicht als gleich erkannt.

Hier mein Beispiel:

Datenbank:

id --- vorname --- nachname

1 --- Sabrina --- Müller

PHP:

(Hier ein PHP Abschnitt zur Eintragung in die Datenbank, also demnach auch in UTF8 codiert)

$test = array("Sabrina","Müller");

$result = mysqli_query($datenbank,"SELECT vorname, nachname FROM telefonbuch WHERE id='1'");

while($row=mysqli_fetch_array($result,MYSQLI_ASSOC)) {

if($row['nachname']==$test[1])

echo "Erfolg";

else

echo "Kein Erfolg";

}

Ergebnis:

Wenn ich die Seite so aufrufe, kommt "Kein Erfolg".

Die Datenbank umfasst mehr Einträge, also alles andere ist richtig programmiert. Alles hat "Erfolg", nur die Einträge mit ä,ö,ü,ß,@, etc. haben keinen Erfolg.

Auch if($row['nachname']=='Müller') → Kein Erfolg

Auch wenn ich beide Werte vorher in Variablen packe → Kein Erfolg

Ein Test mit:

echo mb_detect_encoding($str)

Ergibt bei:

$row['nachname'] → UTF-8

$test[1] → ASCII

Wieso kann ich diese beiden Variablen nicht miteinander vergleichen und was kann ich tun, um dieses Problem mit den Umlauten zu lösen?

Vielen Dank für jede Hilfe.

Liebe Grüße =)

...zum Beitrag

Wie die Unicode-Liste mit den 65.536(?) Zeichen im Java-Programm verwenden?

Ich weiß weder, wie viele Zeichen als Unicode verstanden werden, aber es sollen wohl um die 65.000 sein. Diese Liste möchte ich verwenden, um sie in IntelliJ zu verwenden oder gibt es da eine fertige Bibliothek?

Mein Vorhaben wäre wie folgt:

Mit z. B.

case '\u00B6' -> altNumpad(robot, "20");

würde ich in einer Methode dieses Unicode-Zeichen schreiben lassen.

Nun möchte ich aber, dass dieses Programm alle Unicode-Zeichen unterstützt, denn normal über Robot robot = new Robot(); geht das nur mit sehr wenigen Zeichen.

Oder gibt es eine einfachere Lösung, alle Unicode-Zeichen von dem Programm automatisch schreiben zu lassen? 65.000+ Zeilen Code wären auch nicht sehr übersichtlich ...

...zum Beitrag

Unicode/ASCII in C mit printf() in der Konsole darstellen.

Servus, ich möchte mit der printf()-Funktion Unicode/ASCII in der Konsole darstellen (Programmiersprache: C). ASCII wird problemlos dargestellt, bei Unicode werden fehlerhafte Zeichen dargestellt bzw. nicht die Zeichen, die ich möchte.

#include <stdio.h>
#include <stdlib.h>

int main()
{
    printf("AE: \x8E\n");
    printf("OE: \x99\n");
    printf("UE: \x9A\n");
    printf("SS: \xE1\n");
    char h_doubleline = '\u2550';
    char v_doubleline = '\u2551';
    printf("Doppelte horizontale Linie: %c\n", h_doubleline);
    printf("Doppelte vertikale Linie: %c\n", v_doubleline);
    int input = getchar(); //Eingabeanfrage, damit das Programm nicht beendet wird.
    return 0;
}

Wie kann ich Unicode richtig einfügen, sodass die richtigen Zeichen angezeigt werden? MfG.

...zum Beitrag

Was möchtest Du wissen?

Deine Frage stellen