Big Data y Ciencias sociales

El presente artículo tiene como fin dar unas luces iniciales sobre lo que es el desarrollo de la Big Data como herramienta para el análisis social y en su empleo para la aproximación a la realidad sin caer en la necesidad de trabajar con datos desactualizados (como las series nacionales que, por ejemplo, su última publicación es en 2012), el principal problema que se nos presenta a la hora de trabajar con datos desactualizados es que, a gran escala, no se puede hacer un seguimiento o monitoreo sobre el impacto de un proyecto.



La Big Data hace referencia a dos aspectos básicos en la información, los datos y el análisis de estos, en primer lugar, los datos empleados en Big Data son tantos (hablamos de millones de datos) y por otro lado, la enorme cantidad de relaciones que deben de establecerse entre los datos para revelar las tendencias, por ello, CEPAL define a la Big Data como:
“…el procesamiento y uso de conjuntos de datos cuyos tamaños están más allá de la capacidad de las herramientas de Software de bases de datos típicos para capturar, almacenar, gestionar y analizar información.” (CEPAL, 2015, p.33)
Teniendo en claro el concepto inicial de lo que viene a ser la Big Data, podremos entender cómo se da el proceso de obtención de datos. En primer lugar, necesitamos un medio de captación de datos en grandes cantidades, y el medio perfecto para ello es internet. Internet en este momento es parte fundamental de nuestro día a día, está presente en la mayoría (por no decir todas) nuestras actividades, desde medios de comunicación en tiempo real como Skype, Facebook, WhatsApp, medios de compra/venta como es Amazon o Aliexpress, búsquedas rápidas sobre algún tema de interés o cualquier consulta.
A nivel mundial, el porcentaje de acceso a internet es de 49.6%[1], eso quiere decir, que un 49.6% de la población mundial tiene acceso a internet. En cambio, el nivel latinoamericano es de un 66.7%, siendo los principales países con mayor acceso a internet son: Ecuador (83.8%) Chile (79.9%) y Argentina (79.4%). En Perú, el porcentaje de acceso a internet es de un 58.6%. Teniendo en cuenta que este acceso de internet está dado por los indicadores de internet doméstico, no toma en cuenta el acceso a las cabinas de internet, que en Perú, terminan siendo un punto importante en zonas rurales y peri-urbanas.

Los datos

Toda nuestra actividad genera una serie de datos que terminan por revelar aspectos de nosotros, desde las consultas en Google sobre algún equipo celular, las compras que hacemos en Amazon o Mercado Libre, nuestra posición en GPS cuando usamos Google Maps y los sitios que frecuentamos, entre otros. Esto permite la construcción de un perfil sobre nosotros, por ejemplo, nuestra capacidad adquisitiva por los sitios que frecuentamos.
Sin embargo, la cantidad de datos que generamos (basta con pensar sobre cuantas páginas visitamos en media hora conectados) requieren un algoritmo para establecer las conexiones y la creación del perfil, principalmente se emplean herramientas como Hadoop, Phyton y R para el almacenamiento y análisis de los datos, estableciendo correlaciones indirectas y para la creación de perfiles.

Funcionamiento

Ciertamente, se puede ver a la “Big data en acción” con la publicidad - que es la forma más directa en que se nos presenta. Nos damos cuenta de ello cuando consultamos sobre algún celular en Google y en nuestro TimeLine de Facebook nos recomiendan tiendas que lo venden, cuando visitamos algún establecimiento y en Google Maps nos piden hacer una reseña del lugar. Sin embargo, las expresiones de ello pueden ir más allá.
La Big Data permite tener una “imagen en tiempo real" de lo que está sucediendo, tener las tendencias, y el rumbo que se está tomando termina siendo de gran ayuda, por ejemplo, en la implementación, evaluación y monitoreo de las políticas púbicas o normativas. En casos concretos, en Santiago de Chile, la Secretaría de transporte junto con los operadores telefónicos han implementado un servicio de monitoreo en tiempo real sobre el flujo de transporte en la red de Transantiago, usando los equipos celulares de los usuarios como emisores de datos (mediante conexión a internet) permite tener en tiempo real, los puntos de congestión vehicular y que, además, actualiza en tiempo real los tiempos de espera de los buses.[2]
Otro de los casos donde se empleó Big Data, y que permitió su debate ha sido el “No me mientas Argentina”[3] en el cual se comparó los datos del índice de precios emitidos por el INDEC (Instituto Nacional de Estadística y Censos) con los datos emitidos por PriceStats[4]. Se dio que, el INDEC en sus reportes, daban como resultado un incremento en los precios de 5 a 10%, siendo en realidad que los precios han subido alrededor de un 23%.

Nueva perspectiva


La implementación de la Big Data como herramienta para el análisis social nos abre la posibilidad para poder romper con la ilusión del promedio, la mayoría de políticas públicas e investigaciones, requieren de fundamento real, tradicionalmente este fundamento ha sido el análisis de las series nacionales.
Sin embargo, existen dos temores principales en cuanto al empleo de esta herramienta: En primer lugar, entre mayor acceso se tenga a internet, más precisos serán los datos obtenidos, pero en Perú existe aún una brecha importante en cuanto a este elemento, en Lima, Los hogares con Internet representan el 57% de la población[5] mientras que en Área rural esta cifra es del 10.4%. Este representa la primera limitación en cuanto a su aplicación.
En segundo lugar, el miedo al “Big Brother” al tener nuestras rutinas digitalizadas y nuestro perfil, pueden darse aplicaciones, desde campañas electorales condicionadas (vale la pena mencionar que la campaña de Obama 2012, se empleó Big Data para publicidad enfocada en el porcentaje de usuarios indecisos[6])

La implementación de Big Data en Perú tiene una amplia gama de posibles aplicaciones desde el sector público, principalmente en el transporte urbano, actualmente este representa uno de los principales problemas de Lima, los usos del Big Data se podría aplicar tanto en la gestión de rutas ( al ver las rutinas de transporte de los usuarios con más demanda y a partir de ello adecuar o condicionar la serie de alimentadores que se están implementando), al gestionar el tránsito en las “horas punta” (con la implementación de semáforos inteligentes que se adecuen al flujo de personas).




[1] http://www.internetworldstats.com/stats15.htm#south
[2] Para más información revisar: http://www.economiaynegocios.cl/noticias/noticias.asp?id=302651
[3] Artículo publicado en The Economist http://www.economist.com/node/21548242
[4] PriceStas es una Web que se encarga de hacer seguimiento a los precios en determinados países.
[5] Instituto Nacional de Estadística e Informática - Encuesta Nacional de Hogares. 2012
[6]Para mayor información: http://www.forbes.es/actualizacion/4459/como-el-big-data-ayudo-a-obama-a-ganar

 Referencias
CEPAL. (2015). La nueva revolución digital. Santiago: Naciones Unidas.

Internet World Stat (sf) Latin American Internet Usage Statistics
Recuperado el 24 de Mayo del 2017 de  http://www.internetworldstats.com/stats10.htm

INEI (2012) Encuesta Nacional de Hogares.
Recuperado el 24 de Mayo del 2017http://webinei.inei.gob.pe:8080/sirtod-series/

Comentarios

Entradas populares de este blog

Los desayunos al paso: Una expresión de la informalidad en el Perú y una extensión de la precarización laboral y la generación del autoempleo

Pensar la sociología