Почему случается так, что кодировка UTF-8 используется при взаимодействии со средой UNIX/Linux?

Question

Почему случается так, что кодировка UTF-8 используется при взаимодействии со средой UNIX/Linux?

Примечание: Когда мы создаем группу, строки, имеющие Null, игнорируются. Если у нас есть 3 строки, одна из которых имеет значение Null, то среднее значение делится на 2, а не на 3, потому что третье значение было Null. Ключевым моментом здесь является использование функции Window () .

from pyspark.sql.functions import avg, col, when
from pyspark.sql.window import Window
w = Window().partitionBy('fruit')

#Replace negative values of 'qty' with Null, as we don't want to consider them while averaging.
df = df.withColumn('qty',when(col('qty')<0,None).otherwise(col('qty')))
df = df.withColumn('qty',when(col('qty').isNull(),avg(col('qty')).over(w)).otherwise(col('qty')))
df.show()
+-----+---+---+
|fruit| id|qty|
+-----+---+---+
| Pear| 04|6.0|
| Pear| 05|2.0|
|Mango| 06|6.0|
|Mango| 07|4.0|
|Mango| 08|2.0|
|Apple| 01|5.0|
|Apple| 02|1.0|
|Apple| 03|3.0|
+-----+---+---+

11

encoding unix linux

задан Skynet 26 January 2015 в 14:28

8 ответов

Как jonathan-leffler упоминания, главной проблемой является нулевой символ ASCII. C традиционно ожидает, что строка будет пустая завершенный. Таким образом, стандартные функции струны до будут дросселировать на любом символе UTF-16, содержащем байт, эквивалентный пустому указателю ASCII (0x00). В то время как можно, конечно, программировать с поддержкой широкого символа, UTF-16 не является подходящим внешним кодированием Unicode в именах файлов, текстовых файлах, переменных среды.

Кроме того, UTF-16 и UTF-32 имеют и ориентации с прямым порядком байтов и с обратным порядком байтов. Для контакта с этим Вам или будут нужны внешние метаданные как тип MIME или Ориентация Байта Mark. Это отмечает,

Где UTF-8 используется прозрачно в 8-разрядных средах, использование BOM вмешается в любой протокол или формат файла, который ожидает определенные символы ASCII вначале, такие как использование "#!" в начале сценариев оболочки Unix.

У предшественника к UTF-16, который назвали UCS-2 и не поддерживал суррогатные пары, были те же проблемы. UCS-2 нужно избежать.

8