"¿Sabes qué idiomas hablan estos nuevos inmigrantes?"
Lucia, una trabajadora humanitaria con sede en Italia, hizo a los investigadores de Traductores sin Fronteras esta pregunta aparentemente simple en 2017. Su organización proporcionó asistencia rápida a los migrantes a su llegada al puerto de Sicilia. Lucía y sus colegas estaban luchando por proporcionar el apoyo lingüístico adecuado. A menudo carecían de intérpretes que hablaran los idiomas correctos y pidieron a los migrantes que llenaran formularios en idiomas que no entendían.
Desafortunadamente, no hubo una respuesta simple a la pregunta de Lucía. En los seis meses anteriores a nuestra conversación con Lucía, Italia registró migrantes 21 países diferentes. Incluso cuando sabíamos que las personas eran de una región en particular en uno de estos países, no había una manera simple de averiguar qué idioma era probable que hablaran.
El problema no era exclusivo de la respuesta europea a los refugiados. Traductores sin Fronteras se asocia con organizaciones de todo el mundo que enfrentan una falta similar de datos lingüísticos básicos.
Al buscar diversos recursos lingüísticos y humanitarios, nos convencimos de que nos faltaba algo. ¿Seguramente había un mapa mundial de idiomas? ¿O al menos datos lingüísticos para cada país?
Cuanto más miramos, más descubrimos lo que no sabíamos. Los datos de idiomas existentes a menudo están protegidos por derechos de autor restrictivos o bloqueados detrás de los muros de pago. Los idiomas a menudo se ven como polígonos discretos o puntos específicos en un mapa, lo que parece contradecir la dinámica espacial desordenada que experimentamos en el mundo real.
En breve, los datos lingüísticos no son accesibles, ni fácilmente verificables, ni en un formato que los humanitarios puedan usar fácilmente.
Publicamos conjuntos de datos lingüísticos para nueve países.
Hoy estamos lanzando los primeros conjuntos de datos lingüísticos disponibles con fines humanitarios. Esto incluye una serie de mapas estáticos y dinámicos y 23 conjuntos de datos que cubren nueve países: RDC, Guatemala, Malawi, Mozambique, Nigeria, Pakistán, Filipinas, Ucrania y Zambia.
Este trabajo se basa en una asociación entre TWB y University College London. El proyecto piloto recibió el apoyo del Fondo de Innovación en Educación Superior de Research Innovation, administrado por UCL Innovation & Enterprise. Con el apoyo de Centro de Estudios de Traducción en UCL, este proyecto fue el primero de su tipo en el mundo en recopilar y compartir sistemáticamente datos lingüísticos con fines humanitarios.
La mayoría de estos conjuntos de datos se basan en fuentes existentes: censo y otros datos gubernamentales. Hemos organizado, limpiado y reformateado los datos para que sean más accesibles con fines humanitarios. Estamos estudiando formas de derivar nuevos datos lingüísticos en países sin fuentes existentes y extraer información lingüística de fuentes digitales.
Este proyecto se basa en cuatro principios principales:
1. Los datos lingüísticos deben ser fácilmente accesibles
Comenzamos a analizar los datos gubernamentales existentes porque nos dimos cuenta de que había mucha información de calidad a la que era difícil acceder y analizar. Indicadores lingüísticos de Censo 2010 de Filipinas, por ejemplo, se distribuyeron en 87 hojas de trabajo diferentes. Muchas oficinas del censo también publican en otros idiomas además del inglés, lo que dificulta el acceso de los trabajadores humanitarios que trabajan principalmente en inglés. Hemos pasado por el proceso de preservar, traducir y limpiar estos conjuntos de datos para hacerlos más accesibles.
2. Los datos del idioma deberían funcionar en diferentes plataformas
Creemos que la interoperabilidad de los datos es importante. En otras palabras, debería ser fácil compartir y usar datos entre diferentes sistemas humanitarios. Esto requiere que los datos tengan un formato consistente y que los parámetros espaciales estén bien documentados. Siempre que sea posible, hemos aplicado un estándar geográfico consistente a estos conjuntos de datos. Evitamos los polígonos y los puntos GPS, optando por unidades administrativas de OCHA y códigos P. A veces, esto reducirá la precisión de los datos, pero debería facilitar la integración de los conjuntos de datos en los flujos de trabajo humanitarios. existente.
Hemos trabajado con Centro de datos humanitarios desarrollar y aplicar estándares de codificación consistentes. Hemos construido un HXL esquema de hashtag para simplificar la integración y el procesamiento. La normalización del idioma fue uno de los aspectos más difíciles del proyecto, ya que los gobiernos no siempre se refieren a los idiomas de manera consistente. la Conjunto de datos de Malawi, por ejemplo, distingue entre "Chewa" y "Nyanja", que son dos nombres diferentes para el mismo idioma. En algunos casos, hemos fusionado nombres de idiomas duplicados. En otros, dejamos los vacíos tal como existen en el conjunto de datos original y observamos los metadatos.
Incluso cuando los nombres de los idiomas son consistentes, la ortografía no siempre es así. en el Conjunto de datos DRC, "Kiswahili" se muestra con su prefijo bantú. En su lugar, hemos optado por utilizar la referencia más común en inglés de "Swahili".
Cada conjunto de datos utiliza ISO 639-3 códigos de idioma y proporciona nombres y ortografías alternativas para aliviar algunas de las frustraciones típicas asociadas con referencias de lenguaje inconsistentes.
3. Los datos del idioma deben ser abiertos y de uso gratuito.
Hemos puesto a disposición todos estos conjuntos de datos bajo una licencia Creative Commons Reconocimiento No comercial Compartir igual (CC BY-NC-SA-4.0). Esto significa que puede usarlos y adaptarlos siempre que cite la fuente y no los use con fines comerciales. También puede compartir derivados de datos siempre que respete la misma licencia.
Los conjuntos de datos están disponibles en formatos .xlsx y .csv en HDXy los metadatos detallados indican claramente la fuente de cada conjunto de datos, así como las limitaciones conocidas.
Sobre todo, todo es de libre acceso y uso.
4. Los datos del idioma no deberían aumentar la vulnerabilidad de las personas.
Los humanitarios a menudo citan las posibles sensibilidades del lenguaje como la razón principal para no compartir los datos del lenguaje. En muchos casos, el lenguaje puede usarse como un indicador indirecto de la etnia. En algunos, los dos factores son intercambiables.
Como resultado, hemos desarrollado un proceso integral de revisión de riesgos para cada conjunto de datos. Esto identifica los riesgos específicos asociados con los datos, que luego podemos mitigar. También nos ayuda a comprender los beneficios potenciales. En última instancia, necesitamos equilibrar los beneficios y los riesgos de compartir datos. El intercambio de datos ayuda a las organizaciones humanitarias y de otro tipo a desarrollar estrategias de comunicación que satisfagan las necesidades de los hablantes de idiomas minoritarios.
En la mayoría de los casos, hemos agregado los datos para proteger a las personas o grupos vulnerables. Para cada conjunto de datos, describimos el método que utilizamos para recopilar y limpiar los datos y especificamos posibles imitaciones. En algunos casos, hemos optado por no publicar los conjuntos de datos en absoluto.
¿Como puedo ayudarle?
Este es solo el comienzo de nuestros esfuerzos para proporcionar datos lingüísticos más accesibles con fines humanitarios. Nuestro objetivo es hacer que los datos lingüísticos estén disponibles para cada crisis humanitaria, y no podemos hacerlo solos. Necesitamos tu ayuda para:
- Integre y comparta estos datos. No estamos buscando crear otro portal de datos. Nuestra estrategia es hacer que estos conjuntos de datos sean lo más accesibles e interoperables posible utilizando las plataformas existentes. Pero necesitamos sus comentarios para poder mejorarlos y ampliarlos.
- Agregue preguntas relacionadas con el idioma a sus encuestas actuales. Los datos lingüísticos existentes a menudo están desactualizados y no representan necesariamente movimientos de población a gran escala. Durante el año pasado, hemos trabajado con socios como IOM DTM, REACH, WFP y UNICEF para integrar preguntas de lenguaje estándar en investigaciones en curso. Esto es esencial si queremos desarrollar datos lingüísticos para países que no tienen censos regulares. El reciente Evaluación de necesidades multisectoriales en Nigeria Es un buen ejemplo de cómo algunos problemas estratégicos del lenguaje pueden conducir a decisiones humanitarias basadas en datos.
- Utilice estos datos lingüísticos para mejorar las estrategias de comunicación humanitaria. A medida que desarrollamos más datos, esperamos proporcionar a Lucía y otros trabajadores humanitarios las herramientas necesarias para diseñar estrategias de comunicación más apropiadas. Las decisiones de contratar intérpretes y trabajadores de campo, desarrollar mensajes de radio o crear nuevos carteles y volantes deberían estar basadas en datos. Solo es posible si sabemos qué idiomas hablan las personas. Un sistema humanitario inclusivo y participativo requiere estrategias de comunicación bidireccionales que utilizan idiomas y formatos que las personas entienden.
Obviamente, la respuesta a la pregunta de Lucía resultó ser más complicada de lo que cada uno de nosotros esperaba. Esta asociación entre TWB y el Centro de Estudios de Traducción de UCL finalmente ha permitido integrar los datos lingüísticos en los flujos de trabajo humanitarios. Hemos establecido un formato consistente, un esquema de codificación HXL y procesos de estandarización para referencias de lenguaje. Pero el trabajo no se detiene con estos nueve países. En los próximos meses, continuaremos organizando y compartiendo conjuntos de datos lingüísticos existentes para nuevos países. A largo plazo, trabajaremos con varios socios para recopilar y compartir datos lingüísticos donde no existan actualmente. Creemos en un mundo donde el conocimiento no conoce barreras idiomáticas. Poner la lengua en el mapa es el primer paso para llegar allí.
Eric DeLuca es el gerente de monitoreo, evaluación y aprendizaje en Translators Without Borders. William Low es investigador sénior de datos y SIG en el University College de Londres.
Los fondos para este proyecto fueron provistos por el Fondo de Innovación en Educación Superior de Research Innovation, administrado por UCL Innovation & Enterprise.
en relación