Hoy ha empezado la semana por el clima convocada a nivel mundial. Una semana llena de acciones que culmina con una huelga a la que vamos a acudir todas las personas y organizaciones a las que nos urge terminar con esta situación tan poco racional que nos avoca a la destrucción. Las que vamos a la huelga queremos mostrar a los gobiernos, empresas y demás agentes que ya basta de respuestas tibias y compromisos flojos.
Internet y las telecomunicaciones han sido de gran ayuda cuando han surgido necesidades de organización colectiva. Las Primaveras Árabes fueron un ejemplo muy comentado y las actuales movilizaciones de Hong Kong también han utilizado métodos digitales para organizar sus acciones. Sin embargo, internet también ha ayudado a la “desorganización” de la información, la creación de bulos, la promoción de falsos debates y creencias y a la generación de emisiones.
El coste de los data centre
Una de las cuestiones que se habla poco son los costes ambientales de la economía digital. Los data centre de todo el mundo gestionan millones de datos al año, crean toneladas de basura en forma de hardware, consumen cantidades de electricidad del tamaño de un país y generan tantas emisiones de carbono como la industria aérea mundial. Existen modelos matemáticos que predicen que el uso de energía en los centros de datos podría absorber más del 10% del suministro eléctrico mundial en el año 2030 si no se controla. Investigadores de los centros de datos, incluido el experto británico Ian Bitterlin de la universidad de Leeds, señalan que la cantidad de energía utilizada por los centros de datos sigue duplicándose cada cuatro años.
Los centros de datos contribuyen en torno al 0,3 % a las emisiones totales de carbono, mientras que el ecosistema de las tecnologías de la información y la comunicación (TIC) en su conjunto, según una definición muy amplia que abarca los dispositivos digitales personales, las redes de telefonía móvil y los televisores, representa más del 2 % de las emisiones mundiales. Esto pone la huella de carbono de las TIC a la par de las emisiones de la industria de la aviación procedentes de los combustibles. Lo que podría suceder en el futuro es difícil de predecir. Pero uno de los modelos más preocupantes predice que el uso de electricidad por parte de las TIC podría superar el 20% del total mundial.
La inteligencia artificial
La industria de la inteligencia artificial a menudo se compara con la industria petrolera: una vez que se extraen y se refinan, los datos, como el petróleo, pueden ser un producto muy lucrativo. Ahora parece que la metáfora puede extenderse aún más. Al igual que su contraparte de combustibles fósiles, el proceso de aprendizaje profundo por parte de las máquinas tiene un impacto ambiental mayor.
En un nuevo trabajo, investigadores de la Universidad de Massachusetts realizaron una evaluación del ciclo de vida para entrenar varios modelos comunes de IA de gran tamaño. Encontraron que el proceso puede emitir más de 626,000 libras de dióxido de carbono equivalente, casi cinco veces más que las emisiones de por vida del automóvil estadounidense promedio (y eso incluye la fabricación del automóvil en sí).
El documento examina específicamente el proceso de formación modelo para el procesamiento del lenguaje natural (PNL), el subcampo de la IA que se centra en la enseñanza de máquinas para manejar el lenguaje humano. En los últimos dos años, la comunidad de PNL ha alcanzado varios hitos notables en la traducción automática, la finalización de oraciones y otras tareas de benchmarking estándar. El infame modelo GPT-2 de OpenAI, por ejemplo, sobresalió en la redacción de convincentes artículos de noticias falsas. Pero tales avances han requerido la capacitación de modelos cada vez más grandes de conjuntos de datos de frases obtenidas de Internet. El enfoque es costoso desde el punto de vista computacional y muy intensivo en energía.
Los investigadores observaron cuatro modelos en el campo que han sido responsables de los mayores saltos en el rendimiento: el Transformer, el ELMo, el BERT y el GPT-2. Entrenaron a cada uno de ellos en una sola GPU durante un día para medir su consumo de energía. A continuación, utilizaron el número de horas de entrenamiento enumeradas en los documentos originales del modelo para calcular el total de energía consumida durante todo el proceso de entrenamiento. Ese número se convirtió en libras de dióxido de carbono equivalente basado en la mezcla de energía promedio en los EE.UU., que se aproxima mucho a la mezcla de energía utilizada por AWS de Amazon, el mayor proveedor de servicios de nube.
Encontraron que los costos computacionales y ambientales de la capacitación crecieron proporcionalmente al tamaño del modelo y luego explotaron cuando se utilizaron pasos adicionales de ajuste para aumentar la precisión final del modelo. En particular, encontraron que un proceso de afinación conocido como búsqueda de arquitectura neural, que trata de optimizar un modelo ajustando gradualmente el diseño de una red neural a través de un exhaustivo ensayo y error, tenía costos asociados extraordinariamente altos. Sin él, el modelo más costoso, el BERT, tenía una huella de carbono de aproximadamente 1.400 libras de dióxido de carbono equivalente, cerca de un vuelo transamericano de ida y vuelta para una persona.
La importancia de estas cifras es colosal, especialmente si se tienen en cuenta las tendencias actuales de la investigación sobre la IA. «En general, gran parte de las últimas investigaciones en IA descuidan la eficiencia, ya que se ha descubierto que las redes neuronales muy grandes son útiles para una gran variedad de tareas, y las empresas e instituciones que tienen abundante acceso a los recursos computacionales pueden aprovechar esto para obtener una ventaja competitiva», dice Gómez-Rodríguez.
La artista Joana Moll ha representado la cantidad de árboles que serían necesarios para compensar las emisiones de una sesión de internet. Entrando en su proyecto DEFOOOOOOOOOOOOOOOOOOOOOREST puedes consultar los árboles que necesitarías para compensar las emisiones de tu sesión de Google.
Massive Data Repository
En el Topo Tabernario, han recogido en un reportaje llamado “Materializar la Red” que según un estudio de IBM, todos los días se generan 2,5 billones de gigas de datos, el eufemísticamente denominado big data: cada minuto, por ejemplo, se hacen dos millones de búsquedas en Google; se crean 100 000 mensajes en Twitter; se comparten más de medio millón de contenidos en Facebook y se envían 200 000 correos electrónicos. El tráfico de datos crece de manera tan exponencial que el 90% de ellos se generó, tan solo, en los dos últimos años.
Existe un data centre en Utah cuya construcción costó 1500 millones de dólares y pertenece a la NSA, la Agencia Nacional de Seguridad estadounidense. Según Edward Snowden recibió el nombre de Massive Data Repository, el «repositorio de datos masivos». Su capacidad de almacenamiento diaria se medirá en exabytes: miles de millones de gigas. Entendámoslo con cifras de unidades más cotidianas: la estructura completa tendrá 9000 metros cuadrados destinados solo a servidores. Necesitará para su funcionamiento de una subestación eléctrica propia, para transformar los 65 megavatios de electricidad necesarios. Para su enfriamiento circularán seis millones de litros de agua diarios.
Según estudios de Jonathan Koomey, investigador de la Universidad de Stanford, la Red emplea un 10% de la electricidad global, teniendo en cuenta todos los actores necesarios para que esta funcione. Solo los datacenters consumieron en Estados Unidos en 2014 un 2% del total de consumo del país (70 000 millones de kW/h), equivalente al consumo eléctrico de 6 millones de hogares. La proporción es algo menor a nivel global. Este es un problema de una magnitud creciente: de 2005 a 2010, el consumo creció en un 56%. Aunque el empleo de soluciones tecnológicas más eficientes y el impacto de la crisis han frenado ligeramente la tendencia, el crecimiento es imparable y algunos estudios sitúan en el período 2014‒2020 otro crecimiento del 50% en la energía empleada.
Este post se ha escrito con fragmentos de:
[Podcast] Post Apocalipsis Nau #15 Datacenters, coltán y esclavitud: otra cara de la red
A través del espejo negro: materializar la red. El topo tabernario
Training a single AI model can emit as much carbon as five cars in their lifetimes. Deep learning has a terrible carbon footprint. MIT
The Data Center Dilemma: Is Our Data Destroying the Environment?. Data Centre Knowledge