Articles of unicode

Come determinare se una stringa contiene caratteri codificati non validi

Scenario di utilizzo Abbiamo implementato un servizio web che i nostri sviluppatori di frontend web utilizzano (tramite php api) internamente per visualizzare i dati dei prodotti. Sul sito web l’utente inserisce qualcosa (cioè una stringa di query). Internamente il sito Web effettua una chiamata al servizio tramite l’API. Nota: utilizziamo il restlet, non il tomcat […]

Regex: cos’è InCombiningDiacriticalMarks?

Il seguente codice è molto noto per convertire i caratteri accentati in testo semplice: Normalizer.normalize(text, Normalizer.Form.NFD).replaceAll(“\\p{InCombiningDiacriticalMarks}+”, “”); Ho sostituito il mio metodo “fatto a mano” con questo, ma ho bisogno di capire la parte “regex” di replaceAll 1) Cos’è “InCombiningDiacriticalMarks”? 2) Dove è la documentazione di esso? (e simili?) Grazie.

Come funziona la codifica UTF-8 “a larghezza variabile”?

Lo standard unicode ha abbastanza punti di codice in esso che hai bisogno di 4 byte per memorizzarli tutti. Questo è ciò che fa la codifica UTF-32. Tuttavia la codifica UTF-8 in qualche modo li comprime in spazi molto più piccoli usando qualcosa chiamata “codifica a larghezza variabile”. Infatti, riesce a rappresentare i primi 127 […]

Come sbarazzarsi dei caratteri non-ascii in ruby

Ho un CGI Ruby (non i binari) che raccoglie foto e didascalie da un modulo web. I miei utenti sono molto interessati all’utilizzo di virgolette e legature intelligenti, stanno incollando da altre fonti. La mia app web non si comporta bene con questi caratteri non ASCII, c’è una routine di manipolazione delle stringhe Ruby rapida […]

Come si modifica la codifica dei caratteri di un database Postgres?

Ho un database che è stato impostato con il set di caratteri predefinito SQL_ASCII. Voglio passare a UNICODE. C’è un modo semplice per farlo?

Uso di ‘use utf8;’ mi dà un ‘ampio carattere in stampa’

Se eseguo il seguente programma Perl: perl -e ‘use utf8; print “鸡\n”;’ Ho ricevuto questo avvertimento: Wide character in print at -e line 1. Se eseguo questo programma Perl: perl -e ‘print “鸡\n”;’ Non ricevo un avvertimento. Pensavo che use utf8 fosse necessario per usare caratteri UTF-8 in uno script Perl. Perché non funziona e […]

Come posso modificare la codifica di un file con vim?

Sono abituato a usare vim per modificare le terminazioni di linea di un file: $ file file file: ASCII text, with CRLF line terminators $ vim file :set ff=mac :wq $ file file file: ASCII text, with CR line terminators È ansible utilizzare un processo simile per modificare la codifica Unicode di un file? Sto […]

ASCIIEncoding.ASCII.GetBytes () Restituzione di valore imprevisto

Questo codice C # … string s = “\u00C0”; byte[] bytes = ASCIIEncoding.ASCII.GetBytes(s); Trace.WriteLine(BitConverter.ToString(bytes)); produce il seguente risultato: 3F Perché l’output non è C0?

Perché alcuni caratteri Unicode causano il fallimento di std :: wcout in un’app console?

Considera il seguente frammento di codice, compilato come applicazione console su MS Visual Studio 2010/2012 ed eseguito su Win7: #include “stdafx.h” #include #include const std::wstring test = L”hello\xf021test!”; int _tmain(int argc, _TCHAR* argv[]) { std::wcout << test << std::endl; std::wcout << L"This doesn't print either" << std::endl; return 0; } La prima istruzione wcout emette […]

JavaScript rimuove ZERO WIDTH SPACE (unicode 8203) da stringa

Sto scrivendo qualche javascript che elabora il contenuto del sito. I miei sforzi vengono sventati dalla tendenza dell’editor di testo di SharePoint a inserire il carattere “spazio di larghezza zero” nel testo quando l’utente preme backspace. Il valore unicode del personaggio è 8203 o B200 in esadecimale. Ho provato a usare la funzione predefinita “replace” […]