Інженер Google DeepMind створив ізометричну піксельну карту Нью-Йорка за допомогою Qwen

Старший інженер Енді Кенен створив гігантську детальну ізометричну піксельну карту Мангеттена. Він доналаштував модель Qwen-Image-Edit на 40 парах зображень і запустив 50 інстансів GPU, обробивши 40 000 тайлів за кілька годин.
Вплив: Середній
Чому це важливо
Розробники можуть створювати графіку промислового рівня у великих масштабах, поєднуючи відкриті моделі комп'ютерного зору з невеликими, але якісними датасетами для донавчання.
TL;DR
- 01Інженер Google DeepMind побудував повну піксельну карту Мангеттена за копійчану вартість оренди GPU.
- 02Для донавчання Qwen-Image-Edit знадобилося всього 40 високоякісних навчальних пар.
- 03Проєкт об'єднав Google Maps 3D tiles API з кастомною генерацією зображень у великих масштабах.
Ключові факти
- Розмір датасету донавчання
- 40 підготовлених пар
- Кількість згенерованих тайлів
- 40,000
- Паралельні GPU-інстанси
- 50
- Базова модель
- Qwen-Image-Edit
Конвеєр: від супутника до пікселів
Енді Кенен витягнув реальну тривимірну геометрію Нью-Йорка за допомогою Google Maps 3D tiles API. Ці сирі просторові дані були нарізані на окремі фрагменти. Щоб перетворити реалістичні супутникові фотографії на чистий ізометричний арт, Кенен використав відкриту модель редагування зображень Qwen-Image-Edit.
Ультра-мінімальне донавчання
Замість навчання моделі з нуля або збору тисяч зображень, Кенен вручну створив рівно 40 пар тренувальних даних у форматі "супутниковий тайл → піксельний тайл". Цього надзвичайно малого датасету виявилося достатньо, щоб навчити модель потрібному візуальному стилю, продемонструвавши ефективність сучасних моделей редагування зображень.
Масштабування обробки
Для рендерингу всього мегаполісу, який вимагав близько 40 000 унікальних тайлів, Кенен обійшов обмеження локального заліза, орендувавши 50 паралельних GPU-інстансів. Весь процес генерації тривав лише кілька годин і коштував копійки, видавши деталізовані споруди від хмарочосів Мідтауна до впізнаваних вивісок брендів.
Спробуй за 2 хвилини
# Conceptual dataset format for Qwen fine-tuning
dataset = [
{
"image": "satellite_tile_1.png",
"prompt": "convert to isometric pixel art style",
"output": "pixel_tile_1.png"
}
]python
✓ Коли використовувати
- При перетворенні реальних просторових чи фотографічних даних на стилізовані ігрові асети.
- При донавчанні відкритих мультимодальних моделей за допомогою обмеженої кількості прикладів.
✕ Коли НЕ варто
- Коли потрібна інтерактивна генерація в реальному часі безпосередньо в браузері клієнта.
- Коли замість стилізованого вигляду вимагається абсолютна інженерна точність кожної деталі.
Що зробити сьогодні
- Спробуйте Qwen-Image-Edit для кастомних конвеєрів трансформації зображень.
- Використовуйте 3D tiles API для отримання реальної геометрії міст для макетів або ігрових карт.
Джерела