Dedicamos este podcast de InnovaDATA a la base de los modelos de lenguaje: los corpus o conjuntos de textos con los que se entrenan. Nos preguntamos cómo debe ser un buen corpus, qué tipo de textos se incluyen y la calidad y la cantidad exigidas.
Esta vez, contamos con la experiencia desarrollando corpus en español y en gallego de Marta Guerrero, directora técnica del área de Business & Language Analytics del IIC, y de Pablo Gamallo, Catedrático de Lingüística e investigador del Centro Singular de Investigación en Tecnoloxías Intelixentes (CiTIUS). Además, nos dan su visión sobre cómo de representadas están nuestras lenguas en el mundo de la inteligencia artificial.
Esta vez, contamos con la experiencia desarrollando corpus en español y en gallego de Marta Guerrero, directora técnica del área de Business & Language Analytics del IIC, y de Pablo Gamallo, Catedrático de Lingüística e investigador del Centro Singular de Investigación en Tecnoloxías Intelixentes (CiTIUS). Además, nos dan su visión sobre cómo de representadas están nuestras lenguas en el mundo de la inteligencia artificial.