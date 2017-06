Obsah

1. Programovací jazyk Rust: rozhraní mezi Rustem a Pythonem (pokračování)

2. Rozhraní mezi Pythonem a Rustem při předávání řetězců

3. Kdo se postará o uvolnění řetězce z operační paměti?

4. Předání řetězce z Pythonu do Rustu

5. Část aplikace naprogramovaná v Rustu

6. Testovací skript určený pro Python 2.x

7. Testovací skript určený pro Python 3.x

8. Vytvoření řetězce v Rustu s jeho použitím v Pythonu

9. Část aplikace naprogramovaná v Rustu

10. Testovací skript určený pro Python

11. Předání „slice“ z Pythonu do Rustu

12. Část aplikace naprogramovaná v Rustu

13. Testovací skript určený pro Python

14. Vylepšení aplikace pro předání „slice“ z Pythonu do Rustu

15. Repositář s demonstračními příklady

16. Odkazy na Internetu

1. Programovací jazyk Rust: rozhraní mezi Rustem a Pythonem (pokračování)

V minulé části seriálu o programovacím jazyku Rust jsme si vysvětlili, jakým způsobem je možné zajistit komunikaci mezi částí aplikace naprogramovanou v Rustu a částí naprogramovanou v Pythonu. Popsaný princip byl poměrně jednoduchý – část psaná v Rustu se musela přeložit do nativního (strojového) kódu takovým způsobem, aby nedocházelo k name manglingu jmen funkcí; překlad navíc musel být proveden do statické či ještě lépe dynamické knihovny. Na straně programovacího jazyka Python se použil modul ctypes popř. alternativně CFFI, který dynamickou knihovnu načetl, umožnil přesně specifikovat typy argumentů nativních funkcí i jejich návratové typy a nakonec umožnil zavolání nativních funkcí.

Připomeňme si, že u funkcí akceptujících argumenty primitivních datových typů bylo použití ctypes velmi jednoduché:

pub extern fn add_integers(x: i32, y: i32) -> i32 { x + y }

Skript napsaný v Pythonu mohl tuto nativní funkci volat následovně:

#!/usr/bin/env python3 import ctypes testlib1 = ctypes.CDLL("cesta/ke/knihovně/libtest1.so") result = testlib1.add_integers(1, 2) print("1 + 2 = {}".format(result))

Poněkud složitější je předávání struktur odkazem:

#[repr(C)] pub struct Complex { real: f32, imag: f32, } #[no_mangle] pub extern fn add_complex_mut(c1: &mut Complex, c2: Complex) -> () { c1.real += c2.real; c1.imag += c2.imag; }

Zde již skript psaný v Pythonu potřebuje explicitní informace o typech parametrů:

#!/usr/bin/env python3 import ctypes testlib4 = ctypes.CDLL("cesta/ke/knihovně/libtest4.so") class Complex(ctypes.Structure): _fields_ = [("real", ctypes.c_float), ("imag", ctypes.c_float)] def __str__(self): return "Complex: %f + i%f" % (self.real, self.imag) libtest4.add_complex_mut.argtypes = (ctypes.POINTER(Complex), Complex) libtest4.add_complex_mut.restype = None c1 = Complex(1.0, 2.0) c2 = Complex(3.0, 4.0) libtest4.add_complex_mut(ctypes.byref(c1), c2) print(c1)

2. Rozhraní mezi Pythonem a Rustem při předávání řetězců

Velmi často se setkáme s nutností předávání řetězců mezi Pythonem a Rustem. Může se jednat o předání řetězců z Pythonu do Rustu či naopak o získání řetězce z Rustu skriptem psaným v Pythonu. To, zda je řetězec vytvořen v Pythonu či v Rustu, má velký vliv na to, jak se k řetězci budeme chovat, protože oba programovací jazyky používají odlišný způsob alokace a dealokace objektů, takže může docházet k různým typům problémů, od memory leaků až po pády aplikace. Další potenciální problémy mohou být způsobeny tím, že rozhraní mezi Pythonem a Rustem je (nejenom) z historických důvodů založeno na typovém systému céčka, takže vlastně budeme pracovat s ukazateli na pole znaků. Naopak prakticky bezproblémové je řešení problematiky kódování znaků v řetězcích, protože jak programovací jazyk Rust, tak i Python (Python 3 navíc i implicitně) používají Unicode a kódování UTF-8.

3. Kdo se postará o uvolnění řetězce z operační paměti?

Programovací jazyk Rust používá pro určení, zda je nějaký objekt možné uvolnit z paměti, viditelnost objektu určovanou v době překladu. Python (přesněji řečeno v tomto kontextu CPython) naproti tomu používá klasický garbage collector. Pokud je řetězec vytvořen v Pythonu a předán do kódu psaného v Rustu, je předání typicky provedeno přes ukazatel a tudíž překladač Rustu ví, že řetězec (resp. přesněji řečeno libovolný objekt předaný přes ukazatel) nevlastní a tudíž nijak nehlídá jeho viditelnost/životnost. To je ve skutečnosti velmi dobré chování, neboť o odstranění řetězce se postará runtime Pythonu a tudíž nedojde k pokusu o dvojí dealokaci. Musíme ovšem sami zajistit, aby část programu naprogramovaná v Rustu k originálnímu řetězci již nepřistupovala, takže se typicky musí provést explicitní kopie (ve skutečnosti se ovšem většinou s řetězcem pracuje v jediné funkci, takže ani to není nutné). Pokud je naopak řetězec vytvořen v Rustu, musíme ho předat (vrátit) do Pythonu přes ukazatel a explicitně se postarat o jeho uvolnění!

4. Předání řetězce z Pythonu do Rustu

V dnešním prvním demonstračním příkladu se pokusíme vytvořit řetězec v Pythonu (což samozřejmě není nic složitého) a následně ho předat do funkce naprogramované v Rustu. Pro jednoduchost rustovská funkce řetězec pouze vytiskne a neprovede s ním žádné další operace. Předání bude vypadat zhruba následovně:

+-------------------------+ | řetězec v Pythonu | +-------------------------+ ⇓ +-------------------------+ | sekvence bajtů | +-------------------------+ ⇓ +-------------------------+ | char * | +-------------------------+ ⇓ +-------------------------+ | CStr | +-------------------------+ ⇓ +-------------------------+ | Result<&str, Utf8Error> | +-------------------------+ ⇓ +-------------------------+ | &str | +-------------------------+

To sice nevypadá příliš jednoduše, na druhou stranu jsou však jednotlivé konverze otázkou jediného řádku kódu.

5. Část aplikace naprogramovaná v Rustu

Podívejme se, jak vypadá rustovská část aplikace. V ní vytvoříme funkci nazvanou print_string(), která akceptuje jediný parametr typu *const c_char, což je nejbližší obdoba const char * v programovacím jazyku C. Nyní z tohoto ukazatele vytvoříme hodnotu typu CStr, která je chápána jako borrowed, tj. funkce ji nebude vlastnit a nedojde k pokusu o automatickou dealokaci. Následně tento typ převedeme na běžný slice &str, s nímž je již možné běžně pracovat. Povšimněte si volání unwrap(), které je zde nutné, protože ve skutečnosti metoda to_str() vrací typ Result<&str, Utf8Error>, jelikož při pokusu o konverzi libovolné sekvence bajtů do UTF-8 může dojít k chybám:

use std::ffi::CStr; use std::os::raw::c_char; #[no_mangle] pub extern fn print_string(what: *const c_char) -> () { unsafe { let c_string = CStr::from_ptr(what).to_str().unwrap(); println!("{:?}", c_string); } }

6. Testovací skript určený pro Python 2.x

Testovací skript nyní bude existovat ve dvou verzích, z nichž první je určena pro Python 2.x a druhá pro Python 3.x. V Pythonu 2.x je nejprve nutné specifikovat typ parametru funkce print_string, zde konkrétně použijeme typ c_char_p. Následně je již možné funkci zavolat a předat jí řetězec přetypovaný na c_char_p:

#!/usr/bin/env python2 # vim: set fileencoding=utf-8 import ctypes libtest5 = ctypes.CDLL("target/debug/libtest5.so") libtest5.print_string.argtypes = (ctypes.c_char_p,) libtest5.print_string(ctypes.c_char_p("Hello world!")) libtest5.print_string(ctypes.c_char_p("Příliš žluťoučký kůň")) libtest5.print_string(ctypes.c_char_p("Ну, погоди!"))

Ve skutečnosti můžeme v Pythonu 2 celý zápis ještě více zkrátit a volat nativní funkci print_string() bez explicitního přetypování:

#!/usr/bin/env python2 # vim: set fileencoding=utf-8 import ctypes libtest5 = ctypes.CDLL("target/debug/libtest5.so") libtest5.print_string.argtypes = (ctypes.c_char_p,) libtest5.print_string("Hello world!") libtest5.print_string("Příliš žluťoučký kůň") libtest5.print_string("Ну, погоди!")

Povšimněte si, že bez problémů používáme Unicode.

7. Testovací skript určený pro Python 3.x

V Pythonu 3 je nutné provést nepatrné úpravy, protože převod řetězce (zde Unicode řetězce) na sekvenci bajtů vyžaduje explicitní volání metody str.encode() s určením konkrétního kódování:

#!/usr/bin/env python3 # vim: set fileencoding=utf-8 import ctypes libtest5 = ctypes.CDLL("target/debug/libtest5.so") libtest5.print_string.argtypes = (ctypes.c_char_p,) libtest5.print_string("Hello world!".encode('utf-8')) libtest5.print_string("Příliš žluťoučký kůň".encode('utf-8')) libtest5.print_string("Ну, погоди!".encode('utf-8'))

Vzhledem k tomu, že pro encode() je kódování UTF-8 implicitní, lze skript ještě zjednodušit:

#!/usr/bin/env python3 # vim: set fileencoding=utf-8 import ctypes libtest5 = ctypes.CDLL("target/debug/libtest5.so") libtest5.print_string.argtypes = (ctypes.c_char_p,) libtest5.print_string("Hello world!".encode()) libtest5.print_string("Příliš žluťoučký kůň".encode()) libtest5.print_string("Ну, погоди!".encode())

8. Vytvoření řetězce v Rustu s jeho použitím v Pythonu

Předchozí příklad byl poměrně jednoduchý, protože řetězec byl vytvořen v Pythonu, jehož běhové prostředí se posléze automaticky postaralo o jeho uvolnění z operační paměti. Co se však stane v opačném případě, tj. ve chvíli, kdy řetězec vytvoříme v Rustu a předáme ho (jako návratovou hodnotu) do Pythonu? V takovém případě musíme sami (!) zajistit následující chování:

Rust nesmí řetězec automaticky dealokovat při opuštění funkce či bloku. Python taktéž nesmí řetězec automaticky dealokovat (nepatří mu, navíc provádí alokace a dealokace jiným způsobem). Musíme vytvořit funkci pro dealokaci řetězce (v Rustu) a tu explicitně zavolat.

Řešením je použití takzvaných raw pointerů, kdy se při vytvoření raw pointeru z nějakého objektu explicitně vzdáváme vlastnictví (ownership).

9. Část aplikace naprogramovaná v Rustu

Část aplikace naprogramovaná v Rustu je nyní delší, protože obsahuje jak funkci pro vytvoření řetězce (zde pro ilustraci řetězce se sekvencí hvězdiček), tak i funkci, která řetězec bude dealokovat z operační paměti. Povšimněte si, že nyní z řetězce (typ String) vytváříme objekt CString a z něho získáme raw pointer. Raw pointer je současně návratovou hodnotou funkce a navíc se řetězec neodstraní z paměti před návratem z funkce (což je implicitní chování Rustu). Naopak funkce pro uvolnění řetězce dealokaci provádí, ale implicitně – z raw pointeru vytvoříme objekt CString (tím současně získáme i vlastnictví/ownership) a ten ihned zahodíme – a právě v této chvíli může Rust provést dealokaci:

use std::iter; use std::ffi::CString; use std::os::raw::c_char; #[no_mangle] pub extern fn generate_stars(count: u8) -> *mut c_char { let s: String = iter::repeat("*").take(count as usize).collect(); let c_string = CString::new(s).unwrap(); let raw = c_string.into_raw(); println!("output raw pointer: {:?}", raw); raw } #[no_mangle] pub extern fn free_string(raw: *mut c_char) { unsafe { if raw.is_null() { return } println!("raw pointer to free: {:?}", raw); CString::from_raw(raw) }; }

Poznámka: obecně platí, že funkce Objekt.into_raw() a from_raw() se musí vyskytovat ve dvojici. Pokud tomu tak není (volá se jen into_raw()), bude v aplikaci pravděpodobně docházet k memory leakům.

10. Testovací skript určený pro Python

I skript naprogramovaný v Pythonu je nepatrně delší, protože musíme zajistit volání funkce free_string(), jelikož jinak by řetězec nikdy nebyl uvolněn z paměti (což samozřejmě bude vadit ve chvíli, kdy funkci generate_stars() voláme častěji popř. se jedná o aplikaci běžící po dlouhou dobu). Uvolnění řetězce zajistíme jednoduše konstrukcí try-(return)-finally:

#!/usr/bin/env python2 # vim: set fileencoding=utf-8 import ctypes libtest6 = ctypes.CDLL("target/debug/libtest6.so") libtest6.generate_stars.argtypes = (ctypes.c_uint8, ) libtest6.generate_stars.restype = ctypes.c_void_p # pozor na nutnost uvedení čárky - máme n-tici s jediným prvkem libtest6.free_string.argtypes = (ctypes.c_void_p, ) def generate_stars(count): pointer = libtest6.generate_stars(count) try: return ctypes.cast(pointer, ctypes.c_char_p).value.decode('utf-8') finally: libtest6.free_string(pointer) print(generate_stars(42))

11. Předání „slice“ z Pythonu do Rustu

V závěrečné třetině článku si ukážeme, jakým způsobem je možné předat řez (slice) z Pythonu do Rustu. Řezy jsou velmi užitečnou datovou strukturou, protože nabízí stejně efektivní způsob uložení prvků i stejně efektivní přístup k prvkům jako pole a současně obsahují i počet prvků (resp. délku řezu, protože délka závisí jak na počtu prvků, tak i na jejich velikosti). To mj. znamená, že je možné řezy použít pro předávání n-tic nebo seznamů z Pythonu do Rustu. Ve skutečnosti však nebude řez předán jediným parametrem, ale parametry dvěma – ukazatelem na data (pole) a velikostí řezu. Z těchto dvou parametrů pak funkcí from_raw_parts(p: *const T, len: usize) → &'a [T] vytvoříme řez, s nímž je možné dále pracovat. O dealokaci se nemusíme starat, neboť tu zajistí běhové prostředí Pythonu; to však samozřejmě znamená, že rustovská část aplikace musí počítat s tím, že po opuštění volané funkce může řez přestat existovat (tudíž si na něj nesmí vytvářet ukazatele, předávat ownership atd.)

12. Část aplikace naprogramovaná v Rustu

V části aplikace naprogramované v Rustu je deklarována funkce, která očekává ukazatel na prvky typu i32 a taktéž počet prvků řezu. S těmito údaji je zavolána již výše zmíněná funkce from_raw_parts() (navíc se délka musí přetypovat). Získaný řez použijeme při výpočtu součtu všech prvků, které se v řezu nachází. Výsledný součet je současně i návratovou hodnotou funkce:

use std::slice; #[no_mangle] pub extern fn sum(items: *const i32, length: usize) -> i32 { let numbers = unsafe { slice::from_raw_parts(items, length as usize) }; let mut sum:i32 = 0; for number in numbers { sum += *number } sum }

Poznámka: length musí obsahovat počet prvků, nikoli délku řezu v bajtech. Převod na bajty si provede funkce from_raw_parts() sama.

13. Testovací skript určený pro Python

Testovací skript naprogramovaný v Pythonu obsahuje deklaraci pomocné funkce sum(), jejímž účelem je získat seznam či sekvenci a z ní vytvořit dvojici ukazatel_na_první_prvek+délka (počet prvků, ne počet bajtů). Tyto dva údaje jsou předány rustovské funkci:

#!/usr/bin/env python2 # vim: set fileencoding=utf-8 import ctypes libtest7 = ctypes.CDLL("target/debug/libtest7.so") libtest7.sum.argtypes = (ctypes.POINTER(ctypes.c_uint32), ctypes.c_size_t) libtest7.sum.restype = ctypes.c_int32 def sum(numbers): buf_type = ctypes.c_uint32 * len(numbers) buf = buf_type(*numbers) return libtest7.sum(buf, len(numbers)) print(sum([1,2,3,4])) print(sum(range(11)))

Všimněte si, že do funkce sum() můžeme předat jak seznam, tak i sekvenci (v Pythonu 3).

14. Vylepšení aplikace pro předání „slice“ z Pythonu do Rustu

Nativní část aplikace psanou v Rustu je možné vylepšit. Nejprve do bloku usafe přidáme aserci testující, zda se náhodou funkce nevolá s prvním parametrem nastaveným na NULL. To obecně v Rustu není možné, ovšem ukazatele získané z jiných jazyků jsou v tomto ohledu výjimečné. Mimochodem si povšimněte, že celý blok unsafe je ukončen výrazem (na jeho konci není středník), jehož výsledek se uloží do proměnné numbers. Druhá úprava spočívá ve výpočtu sumy napsaném na jediném řádku funkcionálním stylem, s nímž jsme se již v Rustu několikrát setkali. Opět si povšimněte, že celý řádek je výrazem, jehož výsledná hodnota je současně výsledkem celé funkce:

use std::slice; #[no_mangle] pub extern fn sum(items: *const i32, length: usize) -> i32 { let numbers = unsafe { assert!(!items.is_null()); slice::from_raw_parts(items, length as usize) }; numbers.iter().fold(0, |acc, v| acc + v) }

15. Repositář s demonstračními příklady

Všechny čtyři dnes popisované demonstrační příklady (projekty) byly, ostatně podobně jako ve všech předchozích částech tohoto seriálu, uloženy do Git repositáře dostupného na adrese https://github.com/tisnik/pre­sentations. Demonstrační příklady si můžete v případě potřeby stáhnout i jednotlivě bez nutnosti klonovat celý repositář (ovšem u projektů je lepší mít celý repositář, abyste nemuseli pracně stahovat všechny potřebné soubory):

16. Odkazy na Internetu