
Defensa Tesis Licenciatura Julián Del Gobbo
27 agosto, 2020 @ 5:00 pm - 6:00 pm
Título: «UNCONSTRAINED TEXT DETECTION IN MANGA: A NEW DATASET AND BASELINE»
Directora: Rosana Matuk
Jurados: Enrique Segura, Daniel Acevedo
Día y hora: jueves 27 de Agosto de 2020 a las 17:00 hs.
Resumen:
Japón es un país de una inmensa y milenaria cultura. Desafortunadamente, el lenguaje japonés es uno de los más complejos del mundo. Esta barrera lingüística dificulta la comprensión y difusión de esta cultura fuera de Japón, ya que son pocos los extranjeros que aprenden el lenguaje. Los métodos automáticos de traducción constituyen una herramienta indispensable para permitir el acceso a esta cultura. Sin embargo, los métodos automáticos de escaneo y traducción tienen dificultades, cuando los caracteres japoneses no provienen de una tipografía estándar de máquina, sino que tienen diseño, son manuscritos o están dibujados en documentos gráficos mezclados o superpuestos a figuras.
Para traducir un documento gráfico, se necesitan hacer los siguientes pasos:
1) Detección del texto
2) Eliminación del texto e inpainting del dibujo
3) Traducción
4) Impresión del nuevo texto en el documento gráfico
Para que el documento gráfico no baje la calidad de su diseño, el inpainting debe ser lo más exacto posible y para ello la detección de texto debe ser lo más exacta posible. Las principales contribuciones de esta tesis son:
- Creación de un dataset de los caracteres de texto japonés en manga anotados a nivel pixel, siendo el primero en su tipo
- Adaptación e implementación de métricas especiales para texto sin restricciones
- El dataset y las métricas se utilizan como guía para hallar un modelo de redes neuronales profundas, superando para la mayoría de las métricas el estado del arte en detección de texto en manga